映月读书网 > 万万没想到:用理工科思维理解世界 > 第三十七章 从Web 2.0到推荐引擎2.0 >

第三十七章 从Web 2.0到推荐引擎2.0

(《新知客》,2010年9月)

互联网应用的新概念似乎总是层出不穷,然而相对于2005年前后中国一下子冒出来的一大批 web 2.0 网站和最近几年出现的“云计算”,此时此刻的互联网业界似乎有点沉闷。人们开始谈论,互联网下一个有趣的事情是什么?

百姓网 CEO 王建硕,最近在《中国企业家》杂志发表文章《2011年注定是中国互联网第三春》,提出一个五年周期理论,认为每隔五年左右就会有一批人出来创业,就会有一批风险投资周转完毕转而支持新的项目,这样经过这两年的沉闷,2011年必将有新东西爆发。王建硕看好的概念是“移动互联网”。紧接着,著名 IT 博客“对牛乱弹琴”,也谈到2005这个奇迹年,不过他并不怎么看好2011年的爆发,认为现有的 web 2.0 公司仍在寻求能真正赚钱的模式,而不会出现什么全新的概念。

有一个东西可能成为未来几年互联网公司的新主攻方向:推荐引擎。

豆瓣网,土豆网和各种视频分享网站,包括博客的流行,在中国都是从2005年开始的。今天的年轻人中可能任何两个人过去一天内看过的节目和新闻都完全不同,每个人都能根据自己的兴趣找到特有的一套内容,这就是 web 2.0 的力量。对2005年的创新公司来说,最重要的革命性思想可能是2004年《连线》杂志主编 Chris Anderson 提出的所谓“长尾”理论。这个理论说互联网使得过去几件流行商品通吃的局面一去不返了,现在哪怕是最不流行的东西也会有人喜欢,是小众市场的时代。

互联网的大趋势,甚至可以说是整个社会的一个大趋势,是人们面临的选择越来越多。过去是全国上下看一个电视剧,而现在中国每年生产一万五千集,其中很多甚至根本没有被播出的机会。1994年,全美国总共有50万种不同的商品出售,而现在仅仅在亚马逊网站上就有超过240万种商品。长尾和 web 2.0,正是选择越来越多带来的现象。 Anderson 提出长尾的三个法则,第一是让所有东西都可以被获得;第二是让这些东西卖的很便宜;第三是帮我找到它。前两点可以说已经做到而且做得很好了,现在的关键是第三点,怎么帮助用户作出选择。这就是推荐引擎的作用了。

据市场分析公司 Forrester 统计,那些在电子商务网站被推荐过商品的用户,有三分之一的人会根据这些推荐买件东西。任何广告都不可能做到这样的成绩。所以推荐引擎不但是 web2.0 的最核心技术,更是广告的终极形式。我们可以设想,当一个人面对购物网站上几十万种商品,有多大可能没有一件是他愿意买的呢?这个人空手而归的最重要原因,也许是那个他一定会买的商品没有被他发现。

多年以前,我曾经在亚马逊买过一本《量子力学》,是物理系研究生的教材。结果很长一段时间内亚马逊不停地向我推荐各种物理教材。这个推荐引擎想的非常周到,只可惜它不知道我早就不需要这种教材了。现在在当当网买书,每一本书的关联推荐往往都是一些流行热卖的类似的书,这些书我早就知道而没有买,难道会因为看到推荐才买么?人们需要的是个性化的,恰到好处的,最好还有一点惊喜的推荐,而传统的推荐引擎太落后了。

在线DVD租借提供商 Netflix,自己有一个算法保密的推荐引擎 Cinematch,根据用户对电影的打分来判断他还可能喜欢什么电影。这是一个相当优秀的引擎 — 如果你想知道喜欢一本书的读者还喜欢什么样的书,亚马逊可以免费告诉你答案,而 Netflix 的电影推荐服务只给付费用户,甚至可以说是一大卖点。但 Netflix 并不满足,它在2006年提出悬赏,希望有人能把推荐引擎的性能提高10%,这10%的奖金是一百万美元。

这件事充分说明一个好的推荐引擎是多么重要,同时又是多么困难。这笔奖金一直到2009年才被一个七人小组得到,其中包括两名AT&T的科学家。

传统的推荐引擎主要根据统计用户记录来发现关联,重点是“买过这本书的人一般还都买了什么书”。这个原理是简单的,它的缺点在于往往推荐的都是一些相似的东西,而且这些东西必须已经有很多人买过了。它无法制造惊喜。这可能也是很多人更愿意逛书店的原因之一,在书店里往往会偶遇一些本来绝对想不到自己会喜欢的,而且不怎么出名的好书。另一方面,传统的引擎不知道一本书或者一个电影到底好在哪里,为什么人们会喜欢,以至于无法做出更精确的推荐。

但现在有两个新的推荐技术,堪称是推荐引擎2.0。

Pandora 是一个专门致力于歌曲推荐的公司,它的办法是分析歌曲。在 Pandora 的算法中,给每一首歌都有400种不同的属性,聘请一位音乐专家,使用20分钟的时间给这首歌的所有可能的属性打分。这样一来每一首歌都被一组数标记了属性。Pandora 的目标是建立一个包含所有歌曲的数据库,称之为“音乐基因组计划”。他们每月能分析一万首歌曲,在过去十年之内已经分析了74万首。推荐算法的原理是,如果你表示喜欢一首歌,程序会自动寻找跟这首歌的“基因”相同的歌曲,并赌你也会喜欢。Pandora 现在已经是 iPhone 和 iPod 中最流行的应用之一,随着播放的进行你可以随时表示喜欢或是不喜欢一首歌,程序通过网络自动提供各种你可能喜欢的歌曲。

Pandora 的独特之处在于它完全根据一首歌的本身属性和你自己的喜好记录来判断你喜不喜欢,而不考虑别人喜不喜欢。显而易见的好处是也许这首歌并不流行,可是你就是喜欢。Pandora “了解”歌曲。统计表明,在使用过 Pandora 的人中,45%买了更多音乐,只有1%的人因为 Pandora 减少了音乐购买。

而另一个推荐引擎公司, Hunch,有更大的野心,它的做法是直接分析人。Hunch 并不去分析歌曲,电影或者书有什么属性,它分析每个用户有什么属性。你喜欢百事可乐还是可口可乐?你喜欢蓝色的笔还是黑色的笔?通过大量的统计分析,Hunch 发现,如果你相信 UFO 存在,那么你更有可能喜欢百事可乐;如果你有一个 MBA 学位,那么你更有可能喜欢蓝色的笔。

现在去 Hunch 的网站,它允许你用 Facebook 或者 Twitter 的账号登陆,然后它会问你20个看上去与电影和书籍一点关系都没有的问题。这些问题包括你住在城市,郊区还是乡下,你会不会自己安装家庭影院的音箱系统,你能不能连续做10个引体向上,喜欢吃什么样的炸薯条等等。然后根据这些信息,它将会向你5本杂志,5个电视剧和5本书。我很少看电视剧,但它推荐的5本杂志中有2本是我早就订阅了的;它推荐的5本书里有一本是我看过的。它其他的推荐我不怎么感兴趣,但这已经是相当不错的准确度。Hunch 的雄心壮志是给每一个用户建立一个个人喜好档案,然后那些电子商务公司就会向它购买完全基于个人喜好的推荐服务。

中国显然需要高性能的推荐引擎,而且考虑到国人的喜好与西方用户未必相同,这种推荐引擎还必然是具有中国特色的。我预计推荐引擎会在中国有很大的发展,但是其中也有困难。

首先,“炼成”一个好的推荐引擎需要大量的真实交易数据,而这些数据往往各公司保密,是一种稀缺资源。Netflix 是为了举办100万美元的优化大奖,才公开了部分用户电影评价数据。Pandora 是自己采用劳动密集型的做法雇人给每一首歌设定属性,而且费时多年才开始盈利。很难想象淘宝或者当当能把自己网站的交易记录交给一个第三方公司研究。

更重要的是,推荐引擎技术很难山寨,它不仅仅是一个编程的问题,而必须请统计学家,艺术家和工程师合作研究。早期的互联网公司最大的不同是它使用了互联网;中国在2005年爆发出来的 web 2.0 公司,最大的不同也许仅仅是一个好主意;而现在则到了需要核心技术的时候。也许那个大学本科退学生,甚至高中生想起来一个好主意,写几个月程序,然后就能拉到风险投资说创业就创业,说上市就上市的时代已经快要结束了。

从 web 2.0 到推荐引擎2.0,是互联网公司从低端到高端的一个进化。