Summly只是Summly 它取代不了编辑

  • A+
所属分类:天涯八卦

雅虎的收购让这个叫Summly的产品走进了国内科技圈的视野。这个产品主要功能是做新闻摘要,可以把新闻报道浓缩成400个字。新闻一出来就有人说它可以代替很多编辑的工作,替小编担忧“你的饭碗要被机器抢了”。可是小编一点都不慌:Summly要替代编辑,那至少是下辈子的事。

小编没有试用Summly,即便试用了也不能对简化后的英文段落评头论足——英语还没学到那个功底。不过这个产品有50万下载量,这一点也不稀奇:如果看新闻只是为了攫取“讯息”,可能人们真的不会理会理句子之间是否连贯。

拿中文说事或者更接地气,又恰好小编看到一款国内的产品也是在做类似的服务,叫驼峰摘要。试了一下,机制大概是摘取每一段的第一句加上最后一段的最后一句(也可能是随机的),对于只是想知道文章大概说了什么或者决定要不要继续阅读下去的依据的读者,这样的结果可能是有用的(其实标题就可以取代这个功能,要“400字”干什么呢)。以一篇文章《你的产品为什么只打开过一次》为例:文章大概说了四点原因,一二三四条分缕析,按照一般惯例,即便不过脑任何人都知道这篇文章的大意攫取这四点基本上就差不离了吧,小编用驼峰摘要摘了一下,简化文本如下:

“一组数据显示:2012年app下载的总量是300亿,用户每周平均使用15个应用;Localytics的一份报告甚至指出有22%的应用只被打开过一次。 产品设计角度来说说在app加载过程中常见的几个错误。 错误一:在阐明app的功能之前强迫用户注册。 对用户来说:我还不知道你的产品是干什么的,为什么要注册? 还有一种错误就是新手指引花了太多时间在解释交互上,而不是解释产品的价值。 错误四:要求用户输入一大堆注册信息。 好了,用户已经下载了你的产品,看完了新手指引,甚至可能已经以游客身份体验了一部分功能。”

“错误一”直接到“错误四”,中间随便填了两句——对于这样的字句无力吐槽。网页要想被RSS抓取尚且都要遵循一定的源样式,否则出来就是乱码,文字也一样,如果没有按照一定的结构去行文,机器靠什么识别内容?像上面这篇一二三四结构化程度这么高的文章机器都没法摘要,别的小品文或者人物专访就根本不敢指望了。

如果大家都用同一种结构去写文章——比如八股文,共分为几段,第一段怎么起,第二段怎么引出观点,第三段怎么论证,第四段怎么结论——那么按照八股文的套路去量身定做一套算法还是很可行的。

这样的算法还只能摘取整个句子,如果要对句子本身进行缩写,就更考验算法了。拿博大精深的汉语来举例,假设文章里有这样一些句子:“湖北省恩施土家族苗族自治州巴东县神农溪旅游景区国家5A级新旅游项目开发区景区管理综合治理委员会景区及周边治安综合治理工作领导小组”,它该怎么精简?有很多语义的差别连人类都理解不了,比如“差点儿摔倒了”和“差点儿没摔倒”、“中国队大胜美国队”和“中国队大败美国队”其实是一个意思。如果机器能逐词逐句理解语义,那么Google翻译的结果大概就不需要调整了。

Summly和驼峰摘要都有人用,这一点我不否认。但是,说Summly会取代编辑跟说机器会取代人类一样,至少在你我有生之年是实现不了的。

历史上的今天:

  • 我的微信
  • 微信扫一扫
  • weinxin
  • 红包福利社
  • 微信扫一扫
  • weinxin
微信红包网

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: