A9VG电玩部落论坛

标题: DeepMind的AI正在努力打败星际争霸II内置AI [打印本页]

作者: lucky☆star    时间: 2017-8-11 14:10
标题: DeepMind的AI正在努力打败星际争霸II内置AI
https://www.bloomberg.com/news/a ... estone-starcraft-ii
付费墙

围棋人机大战AlphaGo击败人类,让人工智能正式进入大众视野。而开发出AlphaGo的人工智能公司 DeepMind(Alphabet公司旗下的人工智能公司)早已将《星际争霸2》(StarCraftⅡ)作为人工智能实验的下一个目标。但到目前为止,对于该公司的算法来说,这被证明是一个艰难的领域。


AI眼中的《星际争霸2》

该公司在周三的一篇博客文章中说,DeepMind现有的算法,包括那些在经典的Atari游戏中使用超人类技能的算法,“无法赢得一场针对最容易内置人工智能的单一游戏”,更不用说挑战熟练的人类了。
该公司表示,其软件代理商将需要在机器学习方面取得新的突破。这篇博客文章并没有透露DeepMind可能会有多大的突破。
《星际争霸2》是由暴雪娱乐在2010年7月27日推出的一款即时战略游戏。由于游戏极其考验玩家对资源的运营策略,因此也被视为AI研究的突破点之一。
早在2016年11月份,DeepMind公司就宣布与暴雪娱乐合作,将针对《星际争霸2》展开一系列的研究实验。
然而,目前人工智能对《星际争霸》的探索还处在非常早期的阶段,不仅需要训练各种「常识」,而且在面临突发情况时的应变能力也有所不足。
作者: 海岸线zjl    时间: 2017-8-11 14:21
星际争霸2的ai连人都打不过,用它做练习对象。。
作者: wildpan    时间: 2017-8-11 14:28
游戏的内置AI会作弊吧,WAR3的AI不用探路就能直接找到你家。而且人工智能要和人PK也要用键鼠作为输入手段。
作者: lucky☆star    时间: 2017-8-11 14:33
wildpan 发表于 2017-8-11 14:28
游戏的内置AI会作弊吧,WAR3的AI不用探路就能直接找到你家。而且人工智能要和人PK也要用键鼠作为输入手段。 ...


游戏内置AI=上帝视角 不清楚开发者给AI什么权限 DeepMind的AI应该是和人类一样去操作游戏,至少是从画面来思考策略而不是直接读程序数据。
作者: 和谐异类    时间: 2017-8-11 14:44
要设计算法在星际2打败人类应该比下围棋困难很多。
作者: darkfather    时间: 2017-8-11 14:46
DEEPMIND是模拟人类行为,能看到的东西也和人类选手一样仅限于当前屏幕,和全屏上帝视角作弊的内置AI简直云泥之别,不要拿来比较
作者: wgzhouf    时间: 2017-8-11 15:02
电脑很可怕的,还会拉扯真行,像我这种萌新只会A过去
作者: 就是个笑话    时间: 2017-8-11 15:08
本帖最后由 就是个笑话 于 2017-8-11 15:12 编辑

嘛,这东西目前是个跨领域的,涉及到的技术难点不好解决

先说下alpha go围棋的要求

(1)当前输入数据为:棋盘布局(黑子+白子位置),当前局数,历史吃子数。所有数据都是100%可知
(2)对时间没有特别严格要求,遵循计时器规则

~

然后是星际
星际和围棋有着较大区别

(1)输入数据。不能是后台数据,因为这样子就涉嫌作弊了,这并不是真正意义上DeepMind追求的AI形态。当然训练的时候可以用后台数据,但是测试的时候禁止

(2)既然输入数据禁止后台。那么只能依托于CV也即computer vision的形式输入。
这又是个非常麻烦的东西。
涉及到图像的识别(image recognition),视频的识别(video classification)还有事件的识别(event recognition)还有行为的检测(action detection)还有目标的追踪(object tracking)等等多个cv的学科

为什么要这么做,主要是因为公平起见,计算机的视野和人类是相同的,它也只能“看见”游戏画面里面的东西

这样一来,他首先必须要分析画面里动了的东西都代表了什么。
一个作战单位,朝向任何一个方向做出的举动意义是什么,等等

(3)上面只是分析分类。做完了之后,接下来才是他这边要做的事情。
这还需要考虑首先它自己的apm(actions per miniute)打算是多少

如果apm设置为90,也就是一秒平均要1.5次操作。

那么它在677毫秒里,首先必须要用更短的时间完成第二步操作(识别所有目标),然后它才能做出自己的判断。

(4)当然,DeepMind目前的方案里面,硬件成本的弹性很大,所以如果采用***一些的方法的话,一台硬件可以只分析一个兵种。比如机枪兵和***,对应各自独立的硬件去进行监管。这样子每一个类别都可以是一个二分类(binary classification)的问题了,还可以做成并行运行的

~

总的来说,目前问题就是出在第二步,也就是计算机视觉这一块

如果,这个ai 能取得所有的后台数据,那么很多问题就不是事儿。因为后台数据是100%准确的,比如每个作战单位的id,血量,攻击方向(精确到浮点数),攻击按下时间(精确到浮点数)等等,全都是100%已知的。

但是现在只能用cv的形式来判断的话,误差就非常大了。
以目前国际最顶级的一些会议的情况来看,全世界也还没人可以做到把星际里面全兵种,全行为都准确识别出来的工作

斯坦福、MIT、牛津等等这些学校包括谷歌、FB、微软这些机构,也都还做不到这一点
作者: darkfather    时间: 2017-8-11 15:46
就是个笑话 发表于 2017-8-11 15:08
嘛,这东西目前是个跨领域的,涉及到的技术难点不好解决

先说下alpha go围棋的要求

想太多了,这个项目有暴雪参与的,什么数据都不是问题
作者: 就是个笑话    时间: 2017-8-11 15:55
本帖最后由 就是个笑话 于 2017-8-11 15:58 编辑
darkfather 发表于 2017-8-11 15:46
想太多了,这个项目有暴雪参与的,什么数据都不是问题


你没看懂我的意思么。。。

后台数据来源不是问题

关键是到底要不要使用~使用后台数据就等同于在作弊了

如果不能使用后台数据的话

现在整个地球上最先进的计算机识别技术也无法做到100%
作者: darkfather    时间: 2017-8-11 16:15
本帖最后由 darkfather 于 2017-8-11 16:18 编辑
就是个笑话 发表于 2017-8-11 15:55
你没看懂我的意思么。。。

后台数据来源不是问题


我就是看懂你的意思才如此回复你,暴雪提供的数据并不会让阿尔法狗获得更多优势,这个项目主要是模拟思维,并不专注于什么图像识别之类的,也就是说相关的细枝末节的东西直接用数据提供。这个项目是AI科学研究,并不执着于完全意义上的“公平”
作者: 就是个笑话    时间: 2017-8-11 16:27
本帖最后由 就是个笑话 于 2017-8-11 16:34 编辑
darkfather 发表于 2017-8-11 16:15
我就是看懂你的意思才如此回复你,暴雪提供的数据并不会让阿尔法狗获得更多优势,这个项目主要是模拟思维 ...


你还是没看懂我要说的

我说了数据来源不是问题

真正意义上的ai,获取数据的途径应该是和人一样:靠“视觉”作为输入,进而思考并且反馈操作

除此之外,利用后台数据作为输入的

并不是严格意义上的公平

我没有针对这个项目本身在评论

而是说如果要做到更近似于人的操作流水线时,计算机视觉是绕不开的一环

暴雪提供的api 里面,所有数据都是确知的

这对于ai 而言,本来就已经是对人类的不公平了

围棋的情况则不同,输入对于两边来说是一致的,人类一方,你也可以告诉他当前黑子白子状态、当前第几手、当前吃子情况。但是并不会影响最终结果

星际这个,计算机视觉这一块巨**烦都给省略掉,计算机实质上已经占据了优势了。因为他是同一时间全可见视野(非雾区)的

TIM截图20170811162918.png
作者: darkfather    时间: 2017-8-11 16:37
就是个笑话 发表于 2017-8-11 16:27
你还是没看懂我要说的

我说了数据来源不是问题

我觉得你才没看懂我说的,我都说了这个项目是模拟思维,并不注重于其它东西,要说完全公平,是不是该给AI配上机械手来拿鼠标?我打个比方,暴雪提供的数据仅止于AI视线范围内,AI视角移过去,数据直接告诉他这一陀是几个机枪兵几个***,并不需要AI去识别。这些东西没有意义,也不是这个项目的主旨
作者: alucard_2005    时间: 2017-8-11 16:38
本帖最后由 alucard_2005 于 2017-8-11 16:49 编辑
wildpan 发表于 2017-8-11 14:28
游戏的内置AI会作弊吧,WAR3的AI不用探路就能直接找到你家。而且人工智能要和人PK也要用键鼠作为输入手段。 ...


魔兽3 我记不清楚了, 对于星际2 除非你开的是 视野作弊电脑(也就是 作弊1) 才能有 black sheep wall 效果
但即便开了视野 目前暴雪的AI似乎并不会针对你的科技来作出应对, 至少目前的作弊3电脑 一个普通合格的星际玩家是可以不靠战术把他运营死的, deepMind的第一个小目标就是要先超越这点 (打赢暴雪AI 简单 -> 作弊3)
看起来好像路还很长 但程序员们肯定不会现在就放弃研究 所以前几天发布了一个收集玩家操作的API, 不知道是不是和当时 认猫脸 的操作类似
作者: alucard_2005    时间: 2017-8-11 16:43
就是个笑话 发表于 2017-8-11 16:27
你还是没看懂我要说的

我说了数据来源不是问题


deepmind的目的并不是要打赢人类玩家 而是作为智能教练帮助玩家提高
如果deepmind最终能够像围棋那样和人类打比赛, 那还是会给他按上机械臂 监视器 限制其平均apm 坐在玩家对面来比赛 (boxer不是已经拍过宣传片了吗)
作者: 就是个笑话    时间: 2017-8-11 16:43
本帖最后由 就是个笑话 于 2017-8-11 16:45 编辑
darkfather 发表于 2017-8-11 16:37
我觉得你才没看懂我说的,我都说了这个项目是模拟思维,并不注重于其它东西,要说完全公平,是不是该给AI ...


我觉得你依然没看懂我说的

我已经反复多次说了,我不是针对这个项目设计实现在讨论

而是说标准情况下,应该要纳入计算机视觉这一部分的内容进去,才算是严格意义上的AI

不然,就只是利用后台数据在作弊的前提下进行的一系列实验


当然了,一般机器学习的实验顺序都是这样的

先是in the lab 模式,只测试性能,数据几乎不用考虑获取问题

接下来才是in the wild 模式,将初始模型运用到更多样的数据上去

你翻来覆去只在说in the lab的情况

而我一开始就说的是in the wild 的问题


~

另外,机器手的抬杠没多大意义

计算机视觉和机器手什么的没有可比性。

计算机视觉是基于像素级以及帧级的高层识别工作

而机器手,只要你映射好了键位和鼠标移动之后,只是把运算结果反馈回来而已,和直接在程序里输出操作序列没有本质区别
作者: 就是个笑话    时间: 2017-8-11 16:50
alucard_2005 发表于 2017-8-11 16:43
deepmind的目的并不是要打赢人类玩家 而是作为智能教练帮助玩家提高
如果deepmind最终能够像围棋那样和人 ...

我讨论的是最后完整实现的时候需要面临的问题~
作者: darkfather    时间: 2017-8-11 16:51
就是个笑话 发表于 2017-8-11 16:43
我觉得你依然没看懂我说的

我已经反复多次说了,我不是针对这个项目设计实现在讨论

明明在说这个项目,你非要去扯“一般意义”,“通常情况”。这帖子主题在说这个项目,我回你的也在说这个项目,一而再再而三的给你说了这个项目不注重你说的那些东西。你非要扯一大堆和这个项目的关注点完全不搭边的东西在这个帖子里意义何在呢。算了,各自保留意见吧
作者: 单色的    时间: 2017-8-11 16:52
lucky☆star 发表于 2017-8-11 14:33
游戏内置AI=上帝视角 不清楚开发者给AI什么权限 DeepMind的AI应该是和人类一样去操作游戏,至少是从画面 ...

然而sc2并不是纯脑力游戏 只要手速够快可以无视策略
作者: 就是个笑话    时间: 2017-8-11 16:53
本帖最后由 就是个笑话 于 2017-8-11 16:56 编辑
darkfather 发表于 2017-8-11 16:51
明明在说这个项目,你非要去扯“一般意义”,“通常情况”。这帖子主题在说这个项目,我回你的也在说这个 ...


我没有一而再啊

我第一个回复就是这么说的。。。

后面不是一直都在反复重复你没看懂我第一个回复在说什么吗

TIM截图20170811165400.png

TIM截图20170811165409.png

TIM截图20170811165417.png


我一开始就只表达了第一个回复的观点

结果是你在后面一直跟贴,我才反复说明的
作者: alucard_2005    时间: 2017-8-11 16:56
就是个笑话 发表于 2017-8-11 16:50
我讨论的是最后完整实现的时候需要面临的问题~

只要限制其apm就行了
如何利用有限的apm来表现出更高效率的策略 这本来就是rts的魅力根源
作者: sosososovan    时间: 2017-8-11 16:57
就是个笑话 发表于 2017-8-11 16:43
我觉得你依然没看懂我说的

我已经反复多次说了,我不是针对这个项目设计实现在讨论

我还真觉得他看懂了,你想多了
作者: 就是个笑话    时间: 2017-8-11 16:59
alucard_2005 发表于 2017-8-11 16:56
只要限制其apm就行了
如何利用有限的apm来表现出更高效率的策略 这本来就是rts的魅力根源 ...

我感觉这可以最终变成一个优化问题

就是能不能找到一个可以取胜的最低apm出来

只进行绝对必要的操作,其余操作都不做
作者: 就是个笑话    时间: 2017-8-11 16:59
sosososovan 发表于 2017-8-11 16:57
我还真觉得他看懂了,你想多了

搞科研

想多点其实不是坏事

因为所有的进展不可能都和你一开始想的一样

这玩意儿表面上是打星际

其实背后就是在搞科研
作者: 乱兵刹神    时间: 2017-8-11 17:27
那就等着看吧。。
作者: Ysyzgj    时间: 2017-8-12 22:00
darkfather 发表于 2017-8-11 15:46
想太多了,这个项目有暴雪参与的,什么数据都不是问题

人家说的没错,再说深蓝挑战星际ai是为了发展人工智能,输赢只是形式,用内部接口对战和星际ai有何区别?这样根本没实际意义,这些搞ai的很实在,不做哗众取宠的事情
作者: laynkos    时间: 2017-8-14 01:40
darkfather 发表于 2017-8-11 15:46
想太多了,这个项目有暴雪参与的,什么数据都不是问题

你没理解。人工智能玩游戏,是基于人类玩家一样的信息获取途径来玩的。这里面牵扯到的难点真的很多。
作者: 理性玩家    时间: 2017-8-14 02:20
就是个笑话 发表于 2017-8-11 15:08
嘛,这东西目前是个跨领域的,涉及到的技术难点不好解决

先说下alpha go围棋的要求

你說的非常對,看來是內行人。
作者: 理性玩家    时间: 2017-8-14 02:29
Ysyzgj 发表于 2017-8-12 22:00
人家说的没错,再说深蓝挑战星际ai是为了发展人工智能,输赢只是形式,用内部接口对战和星际ai有何区别? ...

不是深藍,是谷歌的通用AI。
作者: 直江兼続    时间: 2017-8-14 02:41
我觉得这个真的是白费功夫…ai怎么打得过人
这个和围棋是两个概念
作者: anjisuan99    时间: 2017-8-14 03:24
好像星际1还有每年的人类vs各种ai的比赛。至今ai还没赢过。。
作者: msghust    时间: 2017-8-14 07:59
这路线其实有点歪了,毕竟电竞是体育运动,不仅要眼到耳到手到还要求脑子好。星际2就当不需要耳朵,但模拟所需要的信息量也比围棋大太多了。另外操作水平上AI已经完胜人类了,即便没有后台数据,即时的反应速度和多线操作也是不可比拟的,模拟难点最后还是在怎么把模拟思考跟电子输入结合这一点上。
作者: Niflheim    时间: 2017-8-14 08:09
anjisuan99 发表于 2017-8-14 03:24
好像星际1还有每年的人类vs各种ai的比赛。至今ai还没赢过。。

神经网络的ai和以前写死的ai不一样。
作者: Niflheim    时间: 2017-8-14 08:11
msghust 发表于 2017-8-14 07:59
这路线其实有点歪了,毕竟电竞是体育运动,不仅要眼到耳到手到还要求脑子好。星际2就当不需要耳朵,但模拟 ...

反了,相比alpha go,打星际的难点就是即时下决策。
作者: Niflheim    时间: 2017-8-14 08:20
AI是不需要通过cv直接能知道屏幕上每个单位是什么的,但不是上帝视角作弊。
Screen Shot 2017-08-13 at 8.16.00 PM.png
作者: Niflheim    时间: 2017-8-14 08:25
就是个笑话 发表于 2017-8-11 16:59
搞科研

想多点其实不是坏事

非要完完全全从cv到决策到操作都模拟,那这就是个非常笨重非常不聪明的项目
真正涉及deepmind的只有策略部分,cv那些东西你搞这个的也知道,并不难训,这个阶段没必要浪费时间。
作者: mathr    时间: 2017-8-14 13:01
我支持darkfather的观点,这个项目不是完全的机械手臂模拟和完全的图像识别,更多的关注点在分析和决策。而且这才是真正有价值的地方。   




欢迎光临 A9VG电玩部落论坛 (https://bbs.luryl.com/) Powered by Discuz! X3.4