随着游戏进入对抗阶段,罗晟期待满满的观看娜芙的第一视角,看看表现如何。
这场对抗是[人族VS虫族],人类对手是一名虫族玩家,而娜芙选择的则是人族。
游戏刚刚开局,观看娜芙第一视角的罗晟就感觉巨尴尬,因为“她”控制着四个农民在地图晃悠了一圈,然后才回头去采矿,持续时间大约半分钟左右。
得,开局就大劣。
这还打泥煤,真是个人工智障。
这一幕直接把罗晟看醉了。
不明白的还以为“她”对这个世界充满了好奇呢,果然是个人工智障。
随后,娜芙连续造了两个房子,罗晟本以为“她”会把兵营建筑放下去,然而“她”并没有建造兵营。
而是存了一笔钱去开二矿去了……
观看第一视角的罗晟突然觉得,娜芙现在的这些行为操作,就是个纯新人第一次接触星际争霸这款游戏一样,没有任何区别。
随着时间一分一秒的流逝,与之对抗的虫族玩家前来侦察,看到对手的开局。
虫族玩家也看傻了。
什么鬼?
这是什么打法?
于是爆了一波小狗过来,这个时候娜芙才刚刚造第一个机枪兵,还没出来。
随着对手一波侦察部队试探性进攻的小狗进入矿区,娜芙抵抗了一会无力回天,最终打出GG结束了比赛。
第一场对抗被对方一小股侦察部队给打死了。
其实对面的人类玩家实力并不高,只是一名普通玩家而已,想要遇到真正的顶级职业玩家,娜芙需要在天梯中不断的对抗,战胜一个个人类对手,每一次胜利都会匹配到更强的对手,直到登上金字塔顶端与真正的顶级职业玩家对抗。
当然了,以罗晟的技术完全可以强行修改匹配系统的算法,让娜芙直接匹配到顶尖玩家,不过他没有那么做。
目前,星际争霸这款游戏是时下爆火的电竞游戏,玩的人超级多,尤其是韩国那边。
甚至有个夸张的说法,眼下在韩国,10-40岁的男子如果说他不会打星际会被疯狂嘲讽。
……
很快,第二局对抗开始了,这一次是TVT对抗局,即[人族VS人族]。
到了第二局对抗,娜芙有了明显的进步,这一局对抗虽然同样输了,但至少把兵推到了对手的家里。
一波主力全送掉之后,被对方机械化战术反推回来。
再次打出GG。
下一把快速重开。
……
当到了第五局对抗,又是TVZ,也即是[人族VS虫族]。
接连输掉比赛的娜芙,终于展现了“她”非同凡响的一面,其强大的学习能力让“她”适应了这个水平的“TVZ”对抗,并且轻松的以操作碾压战胜了对手。
这一场对抗娜芙虽然以堪比顶级职业选手的操作水平把对手打败,但其中一个细节就是“她”从来不会在相同的地方犯第二次错误。
换个说法就是,娜芙的学习进步速度太恐怖了,每一次对抗对“她”来说都是学习。
罗晟通过这五场与人类玩家对抗的比赛中也看到了娜芙暴露出来的一个缺陷,就是除了特定的分兵战术,“她”并不能形成灵活的兵力分配。
在输掉的第四局对抗中,一名高水平的人类玩家对娜芙的基地不停的多线骚扰,而“她”一旦回防对方就立刻跑路,等“她”的兵出门展开进攻的时候又转回来继续骚扰。
这场对抗,面对人类玩家的灵活出兵策略,娜芙只能被动应战,无法形成对人类玩家的有效进攻,也导致了最后滚雪球效应起来了。
最终落败。
第五局对抗结束之后,罗晟让娜芙停止了匹配对手,然后对其重新进行了一次大幅的升级优化。
他觉得这样的学习效率仍然显得太慢。
娜芙的智能体采用的是深度学习算法,罗晟对其进行了一次精心升级之后,包括了神经网络、通过强化学习的自我对弈,多智能体学习、模仿学习等算法或技术。
其中所谓的自我对弈,简单说就是自我学习,通过不断的试错找到让自己胜率最大的游戏方式。
而通过自我对弈和强化学习,构成了开放端学习算法的基本范式,学习人的策略,并确保娜芙的智能体在整个游戏过程中不断探索这些策略,从而让“她”获得更大的升级与进步。
此外,由于星际争霸这款游戏具有巨大的动作空间,会让许多先前强化学习方法变得无效。
罗晟因此还为娜芙开发了一种全新的算法进行非策略强化学习,使得“她”能从旧有的历史决策的游戏中有效的更新决策。
而罗晟的终极目的可不是让娜芙成为一个“IMBA”的星际争霸AI玩家,而是以此为起点,让“她”能够胜任复杂多变的其它应用场景。
如果“她”只是在星际争霸的比赛中成为超级高手,换个场景,例如在围棋、语言或其它领域就不行了,那依然是个纯粹的人工智障,和真正的人工智能有着巨大的差距。
……
时间一分一秒的流逝,罗晟猫在他的办公室不知不觉就耗费了三个多小时,为娜芙完成了第二次的优化升级才下班,时间已经不早了。
罗晟在离开办公室之前,又把娜芙放进了暴雪星际战网的天梯中,让“她”与人类玩家不停的对抗。
搞定这一切就没有在管了,下午还要去蔚蓝海岸公司处理一些工作,还有一场会议什么。
而被放养的娜芙就在做一件事情,不断与人类玩家对战。
娜芙的背后支撑“她”的几乎是整个苏城数据中心,消耗的是算力资源,是电费。
事实上如果没有钱,是不可能养得起一个人工智能的,就更别说是开发阶段了。
如果是像IBM公司这样的人工智能研发机构,制约其发展的可能是开发者本身,但见证过人工智能的罗晟,对于开发而言反而是最轻松的。
但仍然有问题制约着他。
那就是硬件,娜芙的成长被现在的硬件水平限制了,如果有更好的硬件基础,会迎来一次质的飞跃。
深度网络需要高端GPU在大量数据的合理时间内进行训练,这些硬件非常昂贵,当然在罗晟这里没有贵这个说法。
可问题是现在没有符合他要求的硬件,有钱都没得买,今后只能自己起炉灶搞硬件了,
如果没有先进硬件基础来训练深层网络以实现高性能是不可行的。
不仅仅要使用高端GPU,还需要快速的CPU、存储以及快速和超大容量的RAM。
……
随着时间的推移,娜芙通过不断的对战,胜率从“她”赛事生涯第一局开始的惨不忍睹,逐渐出现了反转,胜率正在快速的提高。