首页 游戏新闻 马里奥超级行动(超级马里奥攻略图解)

马里奥超级行动(超级马里奥攻略图解)

更新时间:2024-03-25 23:29:33 分类:游戏新闻 浏览:1

大家好,感谢邀请,今天来为大家分享一下马里奥超级行动的问题,以及和超级马里奥攻略图解的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!

Pytorch的一个强化的学习教程(TrainaMario-playingRLAgent)使用超级玛丽游戏来学习双Q网络(强化学习的一种类型),官网的文章只有代码,所以本文将配合官网网站的教程详细介绍它是如何工作的,以及如何将它们应用到这个例子中。

机器学习可以分为三类:监督学习、非监督学习和强化学习。

在监督学习中,模型被赋予一个训练数据集,该数据集包含输入和输出(标签)。它从这些数据中学习,了解如何从输入中获得输出。训练完成后使用测试数据集(包含模型从未见过的输入),模型必须尝试预测每个数据点应该被赋予的标签。

在无监督学习中,模型被赋予一个数据集,但数据点都没有标签。它被提供数据点和一些簇来将它们分组。随着簇数量的变化,算法的输出也随之变化。这种类型的学习用于发现给定数据中的模式。

强化学习与其他两种训练方法不同:

上图t表示被处理的步骤(或时间)。在一个步骤中,环境为代理的行为以及当前状态提供响应(奖励或惩罚)。有了这些信息,代理就可以确定要采取的行动。

它的训练是不受监督的,但它不是试图将数据点分组,而是试图通过在环境中执行有利的行为来获得奖励,同时试图避免犯惩罚它的错误(R_t)。

当涉及到强化学习时,理解以下术语很重要:

Agent:Agent是一种神经网络,它通过与环境的相互作用进行学习,并了解哪些行为会导致好的结果和坏的结果,我们将它称为代理,也有叫他为智能体的,但是我觉得代理更加合适,因为它相当于是我们玩游戏的代理人。

Environment:环境是代理在其中进行交互和学习的世界

Action:动作是指行为主体在特定的环境(状态)下决定要做的事情

State:状态是对给定时刻环境中的内容的捕获

Response:响应是当一个代理做了对其下一个状态有益或有害的事情时给予它的东西

深度Q学习是一种使用深度神经网络的强化学习。它使用Q值(状态的质量),确定其行为对环境状态是有益的还是有害的,来进行学习

深度Q网络(DQN)是一种多层神经网络,对于给定的状态,它根据网络的权重和偏差输出一个动作值向量。对于n维状态空间和包含m个动作的动作空间,神经网络是一个从R^n到R^m的函数。

Q学习(Q-learning)算法在某些条件下会高估动作值,这可能会影响它们的性能。而双深度Q学习是对DQN算法的一种特殊改变,它不仅减少了算法的过高估计,还提高了算法的性能。双Q学习的思想是通过将目标中的最大操作分解为行动的选择和行动的评估来减少过高估计。

深入理解深度Q学习和双深度Q网络(DDQNs)涉及复杂的数学。我们这里不详细介绍,如果有兴趣想详细了解请看这篇论文(https://arxiv.org/pdf/1509.06461.pdf)

下面我们进入正题“TrainAMario-PlayingRLAgent”的教程详解,非常感谢YuansonFeng,SurajSubramanian,HowardWang和StevenGuo制作了这个教程。

在我们开始训练神经网络之前,我们可以优化环境,这样训练的计算量就不会那么大。

灰度化:环境的大小是一个3x240x256的窗口,其中3表示RGB通道,240x256表示窗口的尺寸。状态中每个对象的颜色并不会真正影响代理的最终行动,例如马里奥穿红色衣服或砖块是棕色并不会改变代理的行动。所以我们可以将整个图像转换为灰度图,而不是处理一个计算量很大的3x240x256窗口,这样我们可以使用1x240x256的灰度图。

调整大小:对于计算机来说,以每秒15帧的速度处理一个240×256像素的窗口可能不是最简单的(稍后会详细介绍)。所以我们可以调整代理接收的图像的大小,比如缩小到到84像素乘84像素。

跳帧:我们的代理处理每一帧并不会增加多少价值,因为通过查看连续的帧,代理不会获得太多信息,因为连续的帧包含非常相似的状态。所以我们可以跳过给定数量的中间帧而不会丢失太多信息。

叠加帧:帧叠加用于将连续的帧合并为一个统一的学习模型输入。使用这种方法,可以通过查看给定的帧,更容易地识别之前发生的动作。

所以我们堆叠四个连续的,灰度化的,调整大小的帧,这样得到了一个4x84x84的大小的输入。

马里奥(我们的代理)需要能够行动、记忆和学习。

动作:代理的行为基于环境的当前状态和最优的行为策略。在每个状态下,马里奥要么执行一个动作(探索),要么使用他的神经网络(MarioNet)为他提供的一个最佳执行动作(利用)。马里奥根据自己的探索速度决定是否进行探索或利用。

在训练开始时,探索率被设置为1,这意味着马里奥肯定会做一个随机的动作。然后,随着每个堆叠帧的流逝,探索速率会随着一个叫做探索速率衰减的数字而减少,这将引导马里奥使用神经网络而不是随机行动进行探索。

记忆(缓存和回忆):马里奥根据当前状态、奖励和下一个状态来记住自己以前的动作。对于每个动作,马里奥都会缓存他的经验(将它们存储在内存中)。然后,他从记忆缓存中回忆(随机抽取一批体验),并使用它来学习如何更好地玩游戏。

学习:随着时间的推移,马里奥需要能够使用自己的经验去完善自己的行动(或行动策略)。为了完成这项任务,我们使用DDQN算法。在这种情况下,DDQN使用两个近似最优动作值函数的卷积神经网络。采用时间差分法(TD)计算TD_estimate和TD_target,并计算损失来优化神经网络参数。

我查看官方教程的代码,了解它是如何工作的。代码注释得非常好。它可以让我们了解双Q学习中的所有数学概念是如何转化为代码的。

运行网络并观察网络是如何工作的非常有趣。我们这里不对这个模型进行完整的训练步骤,因为这需要4万轮次。我花了大约9分钟在笔记本电脑上看完100轮。按照这个速度,需要60-70个小时才能够训练万4万的轮次。

下面列出了一些在整个训练过程中生成的输出图表和日志。通过观察这张图,我可以观察到神经网络是如何逐步学习的。注意在前几轮中,马里奥的行动是完全随机的。直到第40轮(图表中的第8轮)左右,马里奥才开始利用他的神经网络。

x轴上的值乘以5是论次数。y轴是这5轮的平均奖励。

每五轮训练的平均时常。y轴表示每一轮的时间。

上图是5轮的操作数,探索率,平均奖励,长度,损失和Q值,花在这5轮上的时间,以及完成这5轮的时间。

加载和保存模型

在对该程序进行试验时,每次运行该应用程序时都是从头开始的,并没有保存神经网络的最后一个训练状态。因此需要找到一种通过多次运行来训练网络的方法,这样我就不必让计算机的CPU超负荷60个小时。在PyTorch中有多种方法可以保存和加载模型。虽然在代码中正确地实现了保存,但我发现在程序开始时并没有真正加载之前保存的神经网络状态。

这导致我们每次训练都是从头开始的。所以我们需要修改代码:

在程序结束时,保存神经网络的状态、epsilon(探索率)值和轮次。在程序开始时,加载先前保存的神经网络状态、epsilon值和轮次,这样训练就可以从以前的点恢复训练。

使用CPU的训练很慢,但我尝试使用GPU训练时,它就会耗尽内存(因为笔记本显卡的显存不大)。GPU内存耗尽的原因是,它一直在填充缓存,直到缓存满了,但在训练过程中从未清空任何数据。这是一个需要研究的问题。

非常感谢YuansonFeng,SurajSubramanian,HowardWang和StevenGuo,他们制作了这个简单的教程,通过这个教程可以学习很多多关于强化学习的知识,包括使用PyTorch和OpenAIGym(提供了这些很棒的环境来训练我的神经网络)这是一个学习并创建自己的强化学习应用程序非常好的开始。

关于马里奥超级行动和超级马里奥攻略图解的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

版权声明: 本站内容部分来源网络,版权归作者所有,如有侵权,请联系我们删除!
相关文章
小鸡庄园今天答案最新10 31?小鸡庄园最新今日答案2021 热门资讯
大家好,今天小编来为大家解答小鸡庄园今天答案最新10 31这个问题,小鸡庄园最新今日答案2021很多人还不知道,现在让我们一起来看看吧!1、小鸡庄园是由支付宝推出的集点养成类小游戏,玩家需要给自己的小鸡投食饲料来让它成长,并且获取鸡蛋以进行捐赠。小鸡庄园每天晚上都会有一次每日一题的机会,用户答对题目即可获得饲料奖励。好玩网为各位玩家整理了小鸡庄园最新今日答案,帮助用户快速答题,领取小鸡饲料,快来看…
zz 2024-03-28 02:04:21
小鸡庄园今天答案最新1 30 小鸡庄园最新今日答案2021 热门资讯
大家好,今天小编来为大家解答以下的问题,关于小鸡庄园今天答案最新1 30,小鸡庄园最新今日答案2021这个很多人还不知道,现在让我们一起来看看吧!1、小鸡庄园是由支付宝推出的集点养成类小游戏,玩家需要给自己的小鸡投食饲料来让它成长,并且获取鸡蛋以进行捐赠。小鸡庄园每天晚上都会有一次每日一题的机会,用户答对题目即可获得饲料奖励。好玩网为各位玩家整理了小鸡庄园最新今日答案,帮助用户快速答题,领取小鸡饲…
zz 2024-03-28 02:01:28
小鸡庄园今天最新答案(小鸡庄园最新今日答案2021) 热门资讯
大家好,感谢邀请,今天来为大家分享一下小鸡庄园今天最新答案的问题,以及和小鸡庄园最新今日答案2021的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!1、小鸡庄园是由支付宝推出的集点养成类小游戏,玩家需要给自己的小鸡投食饲料来让它成长,并且获取鸡蛋以进行捐赠。小鸡庄园每天晚上都会有一次每日一题的机会,用户答对题目即可获得饲料奖…
zz 2024-03-28 01:58:26
小鸟对对碰?新老网络语言对对碰 热门资讯
大家好,关于小鸟对对碰很多朋友都还不太明白,今天小编就来为大家分享关于新老网络语言对对碰的知识,希望对各位有所帮助!1、世界这么大,我想去看看。印度有象德国骨科,晕黑人抬棺。2、说走就走,大神是驴友。非洲酋长印度阿三,兄台累成狗。3、卖国式洗白,特朗普病毒,丧心病狂尊沙雕,亲亲扶不扶。4、肉鸡拌粉丝,小鸟伏特加,空腹不宜吃早餐,菜鸟买黄瓜。5、萝莉摆地摊,鉴定合法铜,高地保安口吐芬芳,走好不送。6…
zz 2024-03-28 01:55:18
小鱼鱼大仙人?小鱼鱼大仙人采访 热门资讯
大家好,今天来为大家解答小鱼鱼大仙人这个问题的一些问题点,包括小鱼鱼大仙人采访也一样很多人还不知道,因此呢,今天就来为大家分析分析,现在让我们一起来看看吧!如果解决了您的问题,还望您关注下本站哦,谢谢~ 1、《炉石传说》有史以来规模最大的全球赛事——暴雪嘉年华世界锦标赛决赛将于11月7日在美国安纳海姆打响!代表世界各国最高“炉”技的选手即将汇聚一堂!谁将斩获最高荣誉?谁能领取总价值25万美元的现金…
zz 2024-03-28 01:53:14
小马购车?小马购车为何跌倒 热门资讯
大家好,感谢邀请,今天来为大家分享一下小马购车的问题,以及和小马购车为何跌倒的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!这个“双11”,汽车电商再度成为业内关注的焦点,从11月初开始,各大汽车电商平台就已经纷纷打出“半价购车”、“限时抢购”的促销牌,在所有的汽车电商都在为“双11”的到来而厉兵秣马时,一家曾在业界颇有一定…
zz 2024-03-28 01:50:37
小额贷款app开发?小额贷款系统设计 热门资讯
大家好,今天来为大家分享小额贷款app开发的一些知识点,和小额贷款系统设计的问题解析,大家要是都明白,那么可以忽略,如果不太清楚的话可以看看本篇文章,相信很大概率可以解决您的问题,接下来我们就一起来看看吧!我国拥有超4亿多人群尚未被银行征信系统覆盖。根据相关报告,这个人群年龄是在18-45岁之间。在日常生活中,大多数人都有融资的需求,或临时周转或用于消费旅游等。加之随着手机的普及,这部分人手机使用…
zz 2024-03-28 01:47:54
小霸王游戏模拟器(这个模拟器帮你回到童年) 热门资讯
各位老铁们,大家好,今天由我来为大家分享小霸王游戏模拟器,以及这个模拟器帮你回到童年的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!1、现在最热门的手游文化,莫过于王者荣耀和和平精英(原刺激战场),上至大叔,下至萝莉熊孩都会握着手机,然后低头。2、当你发现你的弟弟妹妹游戏水平都比你高的时候,你会不会有些感慨,我们小…
zz 2024-03-28 01:45:46
小霸王游戏机快捷指令(iPhone秒变小霸王游戏机) 热门资讯
大家好,今天给各位分享小霸王游戏机快捷指令的一些知识,其中也会对iPhone秒变小霸王游戏机进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧!1、受疫情影响今年的春节变长了,但出门的次数也大大减少,那么大把的时间待在家里能做啥?近日,不少果粉问有没有什么适合在家里玩的游戏?有当然是有的,小编给大家推荐的这款游戏简单刺激、老少皆宜、可塑性极强。看下图↓↓↓…
zz 2024-03-28 01:43:26
小霸王游戏机下载?小霸王游戏机讲解 热门资讯
大家好,感谢邀请,今天来为大家分享一下小霸王游戏机下载的问题,以及和小霸王游戏机讲解的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!我们找到并下载了我们喜欢的游戏资源,那么接下来能否存到游戏内存卡里供我们玩呢?众所周知,游戏机的内存卡是TF卡,跟手机内存卡是一样的,我开始用读卡器读取这个内存卡想看看什么结构。很遗憾,读卡器插…
zz 2024-03-28 01:40:29