1

Off-Policy Evaluation of Ranking Policies under Diverse User Behavior

Ranking interfaces are everywhere in online platforms. There is thus an ever growing interest in their Off-Policy Evaluation (OPE), …

Haruka Kiyohara, Tatsuya Matsuhiro, Yusuke Narita, Nobuyuki Shimizu, Yasuo Yamamoto, Yuta Saito

Off-Policy Evaluation for Large Action Spaces via Conjunct Effect Modeling

We study off-policy evaluation (OPE) of contextual bandit policies for large discrete action spaces where conventional …

Yuta Saito, Qingyang Ren, Thorsten Joachims

Policy-Adaptive Estimator Selection for Off-Policy Evaluation

Off-policy evaluation (OPE) aims to accurately evaluate the performance of counterfactual policies using only offline logged data. …

Takuma Udagawa, Haruka Kiyohara, Yusuke Narita, Yuta Saito, Kei Tateno

Fair Ranking as Fair Division: Impact-Based Individual Fairness in Ranking

Rankings have become the primary interface of many two-sided markets. Many have noted that the rankings not only affect the …

Yuta Saito, Thorsten Joachims

Off-Policy Evaluation for Large Action Spaces via Embeddings

Off-policy evaluation (OPE) in contextual bandits has seen rapid adoption in real-world systems, since it enables offline evaluation of …

Yuta Saito, Thorsten Joachims

Towards Resolving Propensity Contradiction in Offline Recommender Learning

We study offline recommender learning from explicit rating feedback in the presence of selection bias. A current promising solution for …

Yuta Saito, Masahiro Nomura

Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model

In real-world recommender systems and search engines, optimizing ranking decisions to present a ranked list of relevant items is …

Haruka Kiyohara, Yuta Saito, Tatsuya Matsuhiro, Yusuke Narita, Nobuyuki Shimizu, Yasuo Yamamoto

A Real-World Implementation of Unbiased Lift-based Bidding System

Daisuke Moriwaki, Yuta Hayakawa, Isshu Munemasa, Yuta Saito, Akira Matsui, Masashi Shibata

Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation

Off-policy evaluation (OPE) aims to estimate the performance of hypothetical policies using data generated by a different policy. …

Yuta Saito, Shunsuke Aihara, Megumi Matsutani, Yusuke Narita

Efficient Hyperparameter Optimization under Multi-Source Covariate Shift

A typical assumption in supervised machine learning is that the train (source) and test (target) datasets follow completely the same …

Masahiro Nomura, Yuta Saito