Theory

Optimal Off-Policy Evaluation from Multiple Logging Policies

We study off-policy evaluation (OPE) from multiple logging policies, each generating a dataset of fixed size, i.e., stratified …

Nathan Kallus, Yuta Saito, Masatoshi Uehara