Policy Gradient Demo

Bản đồ 3x3:

S--
-X-
--G

S(0,0) → G(2,2) | "-" = -1 điểm | "X" = -5 điểm | Max steps = 20

Phương pháp R(τ) nguyên mẫu

Episode: 0

Phương pháp G_t

Episode: 0

Phương pháp có baseline

Episode: 0

Theta hiện tại: