Policy Gradient Demo
Bản đồ 3x3:
S-- -X- --G
S(0,0) → G(2,2) | "-" = -1 điểm | "X" = -5 điểm | Max steps = 20
R(τ) nguyên mẫu
G_t
Có baseline
Phương pháp R(τ) nguyên mẫu
Episode: 0
Train 1 episode
Phương pháp G_t
Episode: 0
Train 1 episode
Phương pháp có baseline
Episode: 0
Train 1 episode
Theta hiện tại: