疯狂刷剧的AI,在学习预测未来

  • A+
所属分类:天涯八卦

李文岐/译)如果你花上几百个小时看电视,人们会管你叫懒鬼。但要是电脑做同样的事,就是一个技术成功的故事了。

麻省理工学院(MIT)计算机科学与人工智能实验室开发的一种新算法便是如此。研究者让该程序“观看”了600个小时的Youtbe视频和《办公室》、《绝望主妇》、《实习医生风云》等电视节目,看它能否学习并预测人们的一些特定互动行为——如拥抱、接吻、击掌和握手。


机器对人类的互动行为作出的成功预测(左图是动作开始前1秒,此时机器做出预测。右图是实际结果。)图片来源:参考文献[1]

这种算法利用被称为“深度学习”的人工智能技术来建构自己对人类互动方式的理解。研究者给该程序输入原始的、未经标识的数据,要求它自己辨别其中内容哪些是重要的,哪些不重要。而人类能在人生历程中自然建立起这种机制——我们会从身边的社会互动情景中找到蛛丝马迹。

卡尔·冯德里克(Carl Vondrick)是麻省理工学院的博士候选人,也是该项目的研究者之一。他说:“人类不需要有人给我们数以千计的例子来说明‘这就是接吻’。我们只需要很少的例子便能明白。这种机制的强大之处在于,它可以自己进行学习。”为了测试该程序,研究者们向其展示人们在做四种行为(拥抱、接吻、击掌和握手)之前1秒的画面。该程序会生成一些可能的未来情形,并运用它所学到的来猜接下来会发生什么。

在这种任务上,该程序有43%的正确率,而人类有71%的正确率。冯德里克认为,该程序在吸收更多的内容后会变得更加成功——600小时仅仅是25天而已。

冯德里克希望给该程序更多的视频来进行学习,也希望它能对更复杂的互动进行预测。如果这项程序足够先进的话,它就能作为智能安全摄像头进行使用:在有人即将受伤之际自动呼叫急救中心,或在有犯罪事件即将发生之际自动呼叫警局。


这样的技术有没有让你想起《疑犯追踪》中的机器?也许有一天计算机真的能预测犯罪的发生,但显然现在科学家们还需要对这些技术做大量的优化。图片来源:《疑犯追踪》

这项技术也可能使我们离像《杰森一家》里的机器女佣罗那样与人进行互动的机器人更加接近。

“如果你想在家中有一个能够互动的机器人,那么它需要有一些预测未来的基本能力。”冯德里克说,“举个例子来说,在你正要坐在椅子上时,你不会希望机器人恰好在这时候把椅子抽走。”

冯德里克的团队并不是第一个从事视频预测算法的,但他们的算法是到目前为止最为精确的。华盛顿大学教授、机器学习专家佩德罗·多明戈斯(Pedro Domingos)表示:“他们的工作和其他人已经完成的并没有太大区别,但他们达到的结果要远远好于这一领域中的其他人所做到的。”

机器能够取得如此大成功的原因之一,是被冯德里克称为“视觉表征”(visual representations)的方法。在过去,有些视频预测算法尝试对未来可能的情景生成一份逐像素表征,多明戈斯认为这种思路很难实现。“对于一个职业画家来说,画出一个真实的东西都会很难。所以我们认为,其实没有必要真正给出完整的未来,反而,我们可以尝试预测抽象版本的未来图景。”他说。

抽象画面允许程序更一般性地对物体和动作进行表征。例如,它可以判断出一幅图画中包含一张面孔和一个椅子,而非一堆要去解释的颜色。多明戈斯说,这和Facobook用来判断你照片中哪位好友需要加标签的基本技术是一样的。

在第二个实验中,该程序在看过图画后,被要求预测5秒后会出现什么事物。举例来说,如果图画呈现一个人在靠近洗手池,那么它可能会猜测这个人将拿起一块肥皂。该程序的表现比之前其他的尝试已经高出30%,但仍然只有11%的正确率。


得分最高的物体预测示例。左侧画面是对应的物体出现前5秒时的画面。图片来源:参考文献[1]

多明戈斯说,要像人类那样理解画面可比看起来要艰难,能让计算机向这一目标接近的算法寥寥无几,MIT团队的算法已是其中之一。

“我们人类把视觉当做理所应当的,”多明戈斯说,“但其实演化花了5亿年才发展出视觉能力。你的大脑有三分之一用来处理视觉信息……而每幅画面中都有太多内容,要提取其中的物、人及行动,真的是很难的。”

不过,如果机器要通过视频来学习人类的互动方式,为什么选择不善社交的迈克尔·斯科特(Michael Scott,《办公室》中的人物)和工于心计的艾迪·布里特(Edie Britt,《绝望主妇》中的人物)作为材料?冯德里克解释说:“我们只是想用YouTube中随机的视频,而选择电视节目是因为我们容易得到这些数据。同时某程度上,电视节目在描述日常情景上也比较真实。”

冯德里克计划让该算法看好几年的电视节目,希望它能随时间变得更加精致。谁知道呢,或许它能变得比那些情景喜剧本身还要完善。


谢耳朵:要不要用我来当学习材料看看?图片来源:《生活大爆炸》

视频来源:MITCSAIL

(编辑:Calo)

参考文献:

  1. Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Anticipating Visual Representations from Unlabeled Video."

编译来源

A Computer Binge-Watched TV And Learned To Predict What Happens Next;npr.org

历史上的今天:

  • 我的微信
  • 微信扫一扫
  • weinxin
  • 红包福利社
  • 微信扫一扫
  • weinxin
微信红包网

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: