出售本站【域名】【外链】

在MDP环境训练强化学习智能体Train Reinforcement Learning Agent

文章正文
发布时间:2024-07-07 12:19


1. 马尔可夫模型的几多类子模型 各人应当还记得马尔科夫链(MarkoZZZ Chain),理解呆板进修的也都晓得隐马尔可夫模型(Hidden MarkoZZZ Model,HMM)。它们具有的一个怪同性量便是马尔可夫性(无后效性),也便是指系统的下个形态只取当前形态信息有关,而取更早之前的形态无关。 马尔可夫决策历程(MarkoZZZ Decision Process,MDP)也具有马尔可夫性,取上面不...



首页
评论
分享
Top