数小时训练便成为围棋、国际象棋、将棋三领域

DeepMind 在arXiv 上发布最新论文,基于零基础无监督学习的棋类通用AlphaZero诞生,数小时训练便成为围棋、国际象棋、将棋三领域最强。

随着Alphago Zero无监督学习的有效实现,AI摆脱了对人工标注的过度依赖,DeepMind带来了人工智能算法领域的重大突破。算法、算力的不断突破减少了对数据数量和质量的要求,人工智能的发展速度将超出我们之前的预期。我们建议重点关注注重源头技术创新,注重重点行业布局的科大讯飞;在垂直应用行业,我们认为人工智能将在医疗、金融、安防等领域快速落地,对这些行业带来破坏式创新。

AlphaZero登上《科学》封面:一个算法通吃三大棋类

姓名:张林锴  学号:16020140083  学院:电子工程学院

一.上周行业热点

    棋、国际象棋、将棋三领域最强棋手。

    推荐标的:1)科大讯飞:注重源头技术创新,深耕教育、医疗等行业应用;2)思创医惠:携手Waston实现人工智能在医疗行业的应用;3)恒生电子:Fintech龙头,布局智能投顾、智能投资等人工智能在金融领域的落地;4)同花顺:利用人工智能开展创新业务,如智能投顾基金、AI投资机器人等;5)卫宁健康:医疗信息化市场龙头,成立人工智能团队进行医疗影像.AI研究;6)东软集团:覆盖医学影像全产业链,并致力于提供人工智能解决方案。

12月7日,谷歌旗下的人工智能实验室DeepMind研究团队在《科学》杂志上发表封面论文,公布了通用算法AlphaZero和测试数据。《科学》杂志评价称,通过单一算法就能够解决多个复杂问题,是创建通用的机器学习系统、解决实际问题的重要一步。该论文的作者包括AlphaGo的核心研发人员戴维·席尔瓦(David Silver)和DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)等。图片 1AlphaZero:一个算法通吃三大棋类AlphaGo的前几代版本,一开始都是与人类棋手的棋谱进行上千盘的训练,学习如何下围棋。到了AlphaGo Zero则跳过了这个步骤,通过自我对弈学习下棋,从零学起。系统从一个对围棋一无所知的神经网络开始,将该神经网络和一个强力搜索算法结合,自我对弈。在对弈过程中,神经网络不断调整、升级,预测每一步落子和最终的胜利者。与AlphaGo Zero一样,从随机小游戏开始,AlphaZero依靠深度神经网络、通用强化学习算法和蒙特卡洛树搜索,在除了游戏规则外没有任何知识背景的情况下,通过自我对弈进行强化学习。强化学习的方式是一种通过“试错”的机器学习方式。DeepMind在其博客中介绍,一开始AlphaZero完全是在瞎玩,但随着时间的推移,系统从胜、负和平局中学习,调整神经网络的参数,如此往复循环,每过一轮,系统的表现就提高了一点点,自我对弈的质量也提高了一点点,神经网络也就越来越准确。神经网络所需的训练量取决于游戏的风格和复杂程度。经过试验,AlphaZero花了9个小时掌握国际象棋,花了12个小时掌握日本将棋,花了13天掌握围棋。图片 2卡斯帕罗夫:聪明地工作比拼命地工作更重要国际象棋是计算机科学家很早就开始研究的领域。1997年,深蓝(Deep Blue)击败了人类国际象棋冠军卡斯帕罗夫,这一事件成为了人工智能发展的里程碑。但彼时卡斯帕罗夫对深蓝的印象并不深刻,认为深蓝的智能水平和一个闹钟差不多。如今,他对棋类AI的看法也发生了转变。他认为AlphaZero“像自己一样”,下棋风格多变而开放。在同一期《科学》杂志上,卡斯帕罗夫撰文称,“传统的机器是通过不断枚举来下棋,最终把棋局拖入无聊的平局。但在我的观察中,AlphaZero会优先考虑棋子的活动而非盘面上的点数优势,并且喜欢在相对风险更大的地方落子。”尽管与传统的冠军级程序相比,研究人员用训练好的神经网络指导蒙特卡罗树搜索,来选择最有可能获得胜利的一步,因此AlphaZero每秒计算的位置要少得多。据DeepMind介绍,在国际象棋中,AlphaZero每秒仅计算6万个位置,相比之下,Stockfish则会计算6千万个位置。但从比赛的结果来看,AlphaZero的思考显然更有效率。在国际象棋比赛中,AlphaZero击败了2016年TCEC世界冠军Stockfish,在1000场比赛中,赢得155场比赛,输了6场。为了验证AlphaZero的稳健性,研究团队还进行了一系列比赛,这些比赛都是从“人类开局方式”开始的,而AlphaZero都击败了Stockfish。在将棋比赛中,AlphaZero击败了2017年CSA世界冠军版Elmo,赢得了91.2%的比赛。在围棋比赛中,AlphaZero击败了AlphaGo Zero,赢得了61%的比赛。对于AlphaZero取得的战绩,卡斯帕罗夫认为这正是印证了一句老话——聪明地工作比拼命地工作更重要。图片 3

文转自:网易智能(有删改)

    工信部印发《促进新一代人工智能产业发展三年行动计划》,旨在通过实施四项重点任务,力争到2020年,一系列人工智能标志性产品取得重要突破,在若干重点领域形成国际竞争优势,人工智能和实体经济融合进一步深化,产业发展环境进一步优化。

    人工智能算法发展加速,通用强化学习算法诞生。DeepMind 团队在arXiv 上传最新论文,“全能棋王”AlphaZero 诞生,这距离AlphaGoZero 的突破仅不到50天。此次的AlphaZero 不仅能下围棋,同时也适用于国际象棋与将棋。名字中缺少的“Go”象征着Alpha 系列首次跨领域的应用。在算法上AlphaZero 与AlphaGo Zero 同样选择了蒙特卡洛树搜索、深度神经网络(DNN)与零基础强化学习。使AlphaZero通用于围棋、国际象棋、将棋的原因主要由于算法的五点优化:1)考虑平局等结果;2)不采用适于围棋的数据增强; 3)DNN 参数在自我对弈中不断更新;4)通过神经网络最新参数生成自我对弈;5)使用相同的超参数。

    算法的突破极大降低了训练难度与训练时间。之前战胜李世石的AlphaGo基本采用了传统增强学习技术再加上深度神经网络DNN完成搭建,而AlphaGoZero采用类似DQN的一个DNN网络实现决策过程,可以同时输出该步的走子策略(policy)和当前情形下的胜率值(value),能够节省训练时间并且能适应更多种不同情况。

【嵌牛导读】:AlphaGo曾经的“代言人/人肉臂”、谷歌DeepMind科学家黄士杰(Aja Huang)博士今天凌晨在Facebook上发帖宣布,他本人将正式从AlphaGo团队离开,转到DeepMind其他项目的研究中去。

    谷歌DeepMind团队上传最新论文《用通用强化学习算法自我对弈,掌握国际象棋和将棋》宣布全能棋王AlphaZero诞生。论文展示了最新下棋程序AlphaZero,同样使用无监督强化学习,零基础与自我对弈训练,AlphaZero通过对算法的优化不仅战胜了AlphaGo的前任版本,而名字中缺少的“Go”更象征着Alpha系列首次跨领域的应用。通用深度强化学习算法诞生。

    AlphaZero 输入内容少,训练时间大幅降低。在AlphaZero 的训练过程中,仅输入游戏规则,训练4小时AlphaZero 超越了最强国际象棋Stockfish;2小时超越最强将棋Elmo;8小时超越了李世石版的AlphaGo。完成训练的AlphaZero 以60胜,40负的成绩战胜AlphaGoZero。AlphaZero 在无监督学习的训练效率上实现了重大突破。

    网络结构的改进实现了算力的提升。AlphaGoZero特征提取层采用了20或40个残差模块,与之前AlphaGo采用的12层左右的卷积层相比,AlphaGoZero的训练效率有了明显的提升,仅通过4块TPU和72小时的训练就能够胜过之前48块TPU和训练用时几个月的的原版AlphaGo。

【嵌牛鼻子】:Alphago,黄士杰,Google。

    二.最新观点

    摩尔定律为人工智能的算力需求提供保障。AlphaZero 训练需要大量TPU,成本居高。计算能力提升仍然是人工智能产业落地一大关键。

    AlphaGoZero使摆脱对人工标注样本依赖成为可能,对人工智能发展极大推进。AlphaGo的算法建立在传统的DNN网络决策基础上,而这对于小样本应用领域(比如医疗图像处理)是不可能办到的,而AlphaGoZero通过实现“无师自通”,摆脱对人类经验和辅助的依赖,类似的深度强化学习算法能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。

【嵌牛提问】:Alphago如今技术已经完善到了什么程度?Google DeepMind所研究的方向是什么?

    【AI算法快速升级,国家政策加码AI产业落地】

    近年来GPU 计算能力升级加速,英伟达最新推出的Tesla V100单精度浮点运算可达到148.99TFlops,且其性价比明显上升,摩尔定律为人工智能需要的算力提供保障。

【嵌牛正文】:

    底层芯片是人工智能硬件产业链最基础部分,AI芯片将在人工智能各个行业领域得到广泛应用,算法+芯片深度整合成为AI时代制胜关键路径。我国AI基础端科技水平发展借力新出台的一系列国家政策将会在中长期保持良好势头,神经网络芯片实现量产并在重点领域实现规模化应用。我们推荐布局网络芯片领域的浪潮信息、中科曙光。

本文由澳门新葡8455最新网站发布于新葡-股票基金,转载请注明出处:数小时训练便成为围棋、国际象棋、将棋三领域

相关阅读