疯狂刷剧的AI，在学习预测未来

发表评论

A+

（李文岐/译）如果你花上几百个小时看电视，人们会管你叫懒鬼。但要是电脑做同样的事，就是一个技术成功的故事了。

麻省理工学院（MIT）计算机科学与人工智能实验室开发的一种新算法便是如此。研究者让该程序“观看”了600个小时的Youtbe视频和《办公室》、《绝望主妇》、《实习医生风云》等电视节目，看它能否学习并预测人们的一些特定互动行为——如拥抱、接吻、击掌和握手。

机器对人类的互动行为作出的成功预测（左图是动作开始前1秒，此时机器做出预测。右图是实际结果。）图片来源：参考文献[1]

这种算法利用被称为“深度学习”的人工智能技术来建构自己对人类互动方式的理解。研究者给该程序输入原始的、未经标识的数据，要求它自己辨别其中内容哪些是重要的，哪些不重要。而人类能在人生历程中自然建立起这种机制——我们会从身边的社会互动情景中找到蛛丝马迹。

卡尔·冯德里克（Carl Vondrick）是麻省理工学院的博士候选人，也是该项目的研究者之一。他说：“人类不需要有人给我们数以千计的例子来说明‘这就是接吻’。我们只需要很少的例子便能明白。这种机制的强大之处在于，它可以自己进行学习。”为了测试该程序，研究者们向其展示人们在做四种行为（拥抱、接吻、击掌和握手）之前1秒的画面。该程序会生成一些可能的未来情形，并运用它所学到的来猜接下来会发生什么。

在这种任务上，该程序有43%的正确率，而人类有71%的正确率。冯德里克认为，该程序在吸收更多的内容后会变得更加成功——600小时仅仅是25天而已。

冯德里克希望给该程序更多的视频来进行学习，也希望它能对更复杂的互动进行预测。如果这项程序足够先进的话，它就能作为智能安全摄像头进行使用：在有人即将受伤之际自动呼叫急救中心，或在有犯罪事件即将发生之际自动呼叫警局。

这样的技术有没有让你想起《疑犯追踪》中的机器？也许有一天计算机真的能预测犯罪的发生，但显然现在科学家们还需要对这些技术做大量的优化。图片来源：《疑犯追踪》

这项技术也可能使我们离像《杰森一家》里的机器女佣罗那样与人进行互动的机器人更加接近。

“如果你想在家中有一个能够互动的机器人，那么它需要有一些预测未来的基本能力。”冯德里克说，“举个例子来说，在你正要坐在椅子上时，你不会希望机器人恰好在这时候把椅子抽走。”

冯德里克的团队并不是第一个从事视频预测算法的，但他们的算法是到目前为止最为精确的。华盛顿大学教授、机器学习专家佩德罗·多明戈斯（Pedro Domingos）表示：“他们的工作和其他人已经完成的并没有太大区别，但他们达到的结果要远远好于这一领域中的其他人所做到的。”

机器能够取得如此大成功的原因之一，是被冯德里克称为“视觉表征”（visual representations）的方法。在过去，有些视频预测算法尝试对未来可能的情景生成一份逐像素表征，多明戈斯认为这种思路很难实现。“对于一个职业画家来说，画出一个真实的东西都会很难。所以我们认为，其实没有必要真正给出完整的未来，反而，我们可以尝试预测抽象版本的未来图景。”他说。

抽象画面允许程序更一般性地对物体和动作进行表征。例如，它可以判断出一幅图画中包含一张面孔和一个椅子，而非一堆要去解释的颜色。多明戈斯说，这和Facobook用来判断你照片中哪位好友需要加标签的基本技术是一样的。

在第二个实验中，该程序在看过图画后，被要求预测5秒后会出现什么事物。举例来说，如果图画呈现一个人在靠近洗手池，那么它可能会猜测这个人将拿起一块肥皂。该程序的表现比之前其他的尝试已经高出30%，但仍然只有11%的正确率。

得分最高的物体预测示例。左侧画面是对应的物体出现前5秒时的画面。图片来源：参考文献[1]

多明戈斯说，要像人类那样理解画面可比看起来要艰难，能让计算机向这一目标接近的算法寥寥无几，MIT团队的算法已是其中之一。

“我们人类把视觉当做理所应当的，”多明戈斯说，“但其实演化花了5亿年才发展出视觉能力。你的大脑有三分之一用来处理视觉信息……而每幅画面中都有太多内容，要提取其中的物、人及行动，真的是很难的。”

不过，如果机器要通过视频来学习人类的互动方式，为什么选择不善社交的迈克尔·斯科特（Michael Scott，《办公室》中的人物）和工于心计的艾迪·布里特（Edie Britt，《绝望主妇》中的人物）作为材料？冯德里克解释说：“我们只是想用YouTube中随机的视频，而选择电视节目是因为我们容易得到这些数据。同时某程度上，电视节目在描述日常情景上也比较真实。”

冯德里克计划让该算法看好几年的电视节目，希望它能随时间变得更加精致。谁知道呢，或许它能变得比那些情景喜剧本身还要完善。

谢耳朵：要不要用我来当学习材料看看？图片来源：《生活大爆炸》