Multi-Armed Bandit Lab
Trực quan hiệu suất thích nghi trong môi trường đối kháng.
1. Thiết lập máy (Arms)
2. Tham số chiến thuật
ε (Greedy):
C (UCB):
η (Exp3):
3. Môi trường
Số lượt (T):
Chế độ Đối kháng Động
CHẠY GIẢ LẬP
Cumulative Reward: ε-Greedy
Cumulative Reward: UCB
Cumulative Reward: Exp3
ε-Greedy
0
Total Regret
UCB
0
Total Regret
Exp3
0
Total Regret