279x Filetype PDF File size 2.68 MB Source: www.cse.chalmers.se
1
Decision Making Under Uncertainty and
Reinforcement Learning
Christos Dimitrakakis Ronald Ortner
April 8, 2021
2
Contents
1 Introduction 9
1.1 Uncertainty and probability . . . . . . . . . . . . . . . . . . . . . 10
1.2 The exploration-exploitation trade-off . . . . . . . . . . . . . . . 11
1.3 Decision theory and reinforcement learning . . . . . . . . . . . . 12
1.4 Acknowledgements . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Subjective probability and utility 15
2.1 Subjective probability . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1 Relative likelihood . . . . . . . . . . . . . . . . . . . . . . 16
2.1.2 Subjective probability assumptions . . . . . . . . . . . . . 17
2.1.3 Assigning unique probabilities* . . . . . . . . . . . . . . . 18
2.1.4 Conditional likelihoods . . . . . . . . . . . . . . . . . . . . 19
2.1.5 Probability elicitation . . . . . . . . . . . . . . . . . . . . 20
2.2 Updating beliefs: Bayes’ theorem . . . . . . . . . . . . . . . . . . 21
2.3 Utility theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1 Rewards and preferences . . . . . . . . . . . . . . . . . . . 22
2.3.2 Preferences among distributions . . . . . . . . . . . . . . 23
2.3.3 Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.4 Measuring utility* . . . . . . . . . . . . . . . . . . . . . . 26
2.3.5 Convex and concave utility functions . . . . . . . . . . . . 27
2.3.6 Decision diagrams . . . . . . . . . . . . . . . . . . . . . . 28
2.4 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3 Decision problems 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Rewards that depend on the outcome of an experiment . . . . . . 34
3.2.1 Formalisation of the problem setting . . . . . . . . . . . . 35
3.2.2 Decision diagrams . . . . . . . . . . . . . . . . . . . . . . 37
3.2.3 Statistical estimation* . . . . . . . . . . . . . . . . . . . . 38
3.3 Bayes decisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1 Convexity of the Bayes-optimal utility* . . . . . . . . . . 40
3.4 Statistical and strategic decision making . . . . . . . . . . . . . . 43
3.4.1 Alternative notions of optimality . . . . . . . . . . . . . . 44
3.4.2 Solving minimax problems* . . . . . . . . . . . . . . . . . 45
3.4.3 Two-player games . . . . . . . . . . . . . . . . . . . . . . 47
3.5 Decision problems with observations . . . . . . . . . . . . . . . . 49
3.5.1 Decision problems in classification . . . . . . . . . . . . . 53
3.5.2 Calculating posteriors . . . . . . . . . . . . . . . . . . . . 56
3
4 CONTENTS
3.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.7 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.7.1 Problems with no observations . . . . . . . . . . . . . . . 58
3.7.2 Problems with observations . . . . . . . . . . . . . . . . . 58
3.7.3 An insurance problem . . . . . . . . . . . . . . . . . . . . 59
3.7.4 Medical diagnosis . . . . . . . . . . . . . . . . . . . . . . . 61
4 Estimation 65
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2 Sufficient statistics . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2.1 Sufficient statistics . . . . . . . . . . . . . . . . . . . . . . 67
4.2.2 Exponential families . . . . . . . . . . . . . . . . . . . . . 68
4.3 Conjugate priors . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3.1 Bernoulli-Beta conjugate pair . . . . . . . . . . . . . . . . 69
4.3.2 Conjugates for the normal distribution . . . . . . . . . . . 73
4.3.3 Conjugates for multivariate distributions . . . . . . . . . . 78
4.4 Credible intervals . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.5 Concentration inequalities . . . . . . . . . . . . . . . . . . . . . . 84
4.5.1 Chernoff-Hoeffding bounds . . . . . . . . . . . . . . . . . 86
4.6 Approximate Bayesian approaches . . . . . . . . . . . . . . . . . 87
4.6.1 Monte-Carlo inference . . . . . . . . . . . . . . . . . . . . 87
4.6.2 Approximate Bayesian Computation . . . . . . . . . . . . 88
4.6.3 Analytic approximations of the posterior . . . . . . . . . . 89
4.6.4 Maximum Likelihood and Empirical Bayes methods . . . 90
5 Sequential sampling 91
5.1 Gains from sequential sampling . . . . . . . . . . . . . . . . . . . 92
5.1.1 An example: sampling with costs . . . . . . . . . . . . . . 93
5.2 Optimal sequential sampling procedures . . . . . . . . . . . . . . 96
5.2.1 Multi-stage problems . . . . . . . . . . . . . . . . . . . . . 99
5.2.2 Backwards induction for bounded procedures . . . . . . . 99
5.2.3 Unbounded sequential decision procedures . . . . . . . . . 100
5.2.4 The sequential probability ratio test . . . . . . . . . . . . 101
5.2.5 Wald’s theorem . . . . . . . . . . . . . . . . . . . . . . . . 104
5.3 Martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.4 Markov processes . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.5 Exercises. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6 Experiment design and Markov decision processes 109
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.2 Bandit problems . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.2.1 An example: Bernoulli bandits . . . . . . . . . . . . . . . 112
6.2.2 Decision-theoretic bandit process . . . . . . . . . . . . . . 113
6.3 Markov decision processes and reinforcement learning . . . . . . 115
6.3.1 Value functions . . . . . . . . . . . . . . . . . . . . . . . . 118
6.4 Finite horizon, undiscounted problems . . . . . . . . . . . . . . . 119
6.4.1 Policy evaluation . . . . . . . . . . . . . . . . . . . . . . . 119
6.4.2 Backwards induction policy evaluation . . . . . . . . . . . 120
6.4.3 Backwards induction policy optimisation . . . . . . . . . . 121
6.5 Infinite-horizon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
no reviews yet
Please Login to review.