联系电话:020-28187900

玩聚网创始人郑昀谈智能语义聚合

发表时间:2012-04-01 阅读: 2950

品读:

站长的种类:能够把中国的博客、论坛、新闻等分散在四处的信息,通过这么一个类似的服务给串联起来,把它们之间的讨论关系和脉络自动呈现的网站。

站长的特点:资深站长

访谈包含的知识点:本访谈描述了Techmeme与玩聚网发展的一些动态,它们的未来,两者间的不同点;还分享了玩聚网的运营,比如:它是如何处理玩聚与博客主的关系?是如何平衡意见领袖与普通博客之间的关系?玩聚网的算法规则、社会化媒体中国的盈利点、怎么判断谁是意见领袖、口碑营销等等。

来源:大家好,首先请嘉宾做个自我介绍吧。

郑昀_玩聚网:大家晚上好,我是玩聚网的创始人郑昀。我从业9年了,前6年是各种移动数据业务,主要是和北京移动合作企业级的增值业务平台。从统一消息系统,到引领垃圾短信的企信通,从WAP到JavaME,从彩铃到飞信,基本上各个数据业务都做过了。最近三年主要是带着一个以自然语言处理和数据挖掘为主的团队,做一些Social+Semantic(即社会化+语义)的探索。国外3月17日有一个SXSW Panel主题是超越聚合,Beyond Aggregation。其实我们这三年来一直都在探索这个方向,如何利用语义和Social力量,从博客、论坛帖子、图片、视频、微博客、各种评论、各种社会化行为(Social Activity)的聚合中,发现新知识和新趋势,并以一目了然的形式呈现出来。我的Twitter:http//twitter.com/zhengyun,我的FriendFeed:http://friendfeed.com/zhengyun ,欢迎大家follow我,我的主Blog:http://blog.csdn.net/zhengyun_ustc 欢迎订阅。

来源:为什么要做玩聚呢,你认为现在的玩聚网能达到理想状态中的几分?

郑昀_玩聚网:有这个念头,大约是2005年年底,那时候我还在做飞信项目。因为我那几年在CSDN.NET的博客点击排名很高,基本上是前十名,而且阅读行为也都是读博客,所以自然而然产生了从博客中找到互联网应用点的想法。最开始有人提议做博客搜索,但我认为这块必定是大搜索引擎的天下,小团队不能轻易碰的。刚巧2005年9月份,美国一个新锐力量Techmeme.com一飞冲天,引起我很大的兴趣。techmeme是利用国外科技博客互相之间引用频繁的特点,根据反向链接统计,就能迅速而准确地捕捉到当下科技界的热点事件。因为它的热点捕获速度快而且质量很高,所以一下子就成为Web2.0的新宠。我那时就想,中国是不是也可以有这么一个服务,能够把中国的博客、论坛、新闻等分散在四处的信息,通过这么一个类似的服务给串联起来,把它们之间的讨论关系和脉络自动呈现呢?其实,也就是当时的 Google News 的草根版,主要想以博客观点为主,突出观点的价值,把新闻作为讨论的背景,辅助以论坛热贴。这么一个热点自动追踪和聚合方式。于是,就开始组建队伍。开始了玩聚网的创业之路。

第二个问题,我认为玩聚网距离我们最开始的远景(Vision)还有很长的路要走。它还没有把社会化+语义给真正整合起来。如果算上苦劳,我打4分吧,总分10分。

来源:我刚看了一下Techmeme.com的alexa排名是88,207,而玩聚现在的排名是29,744。虽然alexa不能说明所有问题,但这个排名也说明这个应用并不象digg那样火爆,为什么techmeme在四年间都没能流行起来呢?具体原因是什么?

郑昀_玩聚网:正像你所看到的,Techmeme虽然拥有着高效的算法和巧妙的思路,但毕竟它并不提供热点页面,即没有一个单独的快照页或讨论页,也没有交互。所以我认为这是它的定位。techmeme一旦定位为热点捕捉者,帮助人们发现最热质量最高的内容,它就不会为了别的目的而增加功能。 包括它今年终于聘请了一位人工编辑,来矫正算法的偏差,也都是牢牢地定位在热点追踪者上。谈到热点,谈到潜在流行内容如何被最快时间发现和传播,如果应用点切入不好的话,可能在国内会面临很多困境。国内有很多服务,相当强悍,牢牢地占据了网民的心。譬如新浪新闻和QQ,所以,提供大众领域的热点聚合,路比较难走。

我们举一个例子,奇虎不做论坛聚合,为什么呢? 因为他们曾经内部分为两派,一派我们叫做机器智能派,一派我们叫做人工编辑派。前者始终在努力,在从算法,包括搜索和语义上提供精度。但实践证明,前者很难战胜后者。奇虎有一个频道是历史,单靠一位编辑的独力支撑,就把流量做到了整个奇虎网的20%。人可以这么做,机器如果想达到这个高度,不知道还要投入多少人力物力和服务器呢。后来,周鸿祎发现,这么玩,根本无法支撑他伟大的梦想,无法支撑一个期望中的市值几十亿的公司。所以,壮士断腕,彻底退出这个市场,现在说起来,只剩下大旗网的人工编辑流派了。所以,单纯机器智能,目前无以为继,并非它不适应国情,或者没有前途,我认为还只是切入点和应用技巧的问题。

来源:techmeme作为一个工具或许非常好用,但它是如何维持自己生存的呢?它的未来是什么呢?象delicious一样被收购吗?那么玩聚的未来又是什么?

郑昀_玩聚网:techmeme不清楚后面如何做,毕竟它的运营成本并不高。几年来都只是一个开发人员,最近才加入一个编辑。 我们2006年的时候,基本掌握了自然语言处理的各个核心技术,也似乎看到了一些趋势。所以,在2006年年底正式启动这个创业项目后,设计了一个相当庞大的体系,大致意思就是,首先把用户的外部网络行为都可以导入到这个网站,如博客、图片、视频、帖子,然后根据这些行为以及用户的好友,进行个性化推荐和阅读,如推荐新闻和文章,如推荐其它猜你喜欢的好友,等等,利用自然语言处理的技术,把这个网站内外的数据打通。当时,Social的趋势还不算太明显,也没有像现在这么多这么优秀的聚合内容。但,毕竟那时候我才刚刚从移动业务转向到互联网应用,缺乏“网感”,还是不到时候。但这么一个梦想一直没变。只不过随着外部互联网环境的恶化,可能做些别的事情。 但不管做的哪些事情,我们一直都在围绕着一个方向积累自己的感觉和技术,“超越聚合,从社会化产生的碎片中发现新知识和新趋势”。

来源:techmeme做为工具没有提供快照页,而玩聚提供了。或许这是玩聚的流量高于techmeme的原因。如何处理玩聚与博客主的关系?前一阵看到您和月光博客有一点冲突,冲突的关键似乎是玩聚抓取来的文章与月光博客的文章在搜索上有排名上的竞争。这个问题你是怎么想的?

郑昀_玩聚网:我认为这可能是关心SEO和不关心SEO的人对待问题的态度不同吧。关心SEO,关心搜索引擎排名的人,可能更重视这一点。我很少接触SE,对这个问题的重视程度肯定不如他。不过,既然他借这个发难,那么为了表明我们是在做事,而不愿意陷入口水战中,我在Robots.txt中禁止收录玩聚SR的快照页。毕竟,中国互联网还是需要做事,而不是骂战。

来源:玩聚做了快三年了,听说一直是天使投资支持,能否介绍下投资情况与团队情况。

郑昀_玩聚网:对。新进也增加了一个天使投资人。投资人对这个方向,包括我们的技术积累,都非常看好。所以虽然我们一直没有掀起大的浪花没有赢利,但还是在支持我们。

来源:有网友问:会不会聚合半天,最后一眼看过去总是熟悉的那几个人。我的问题是如何平衡意见领袖与普通博客之间的关系,或者说他们的权重关系是怎么处理的?

郑昀_玩聚网:我先描述一下我们探索的曲折过程,听完您就知道了。2006年我们首先是做全网的热点自动发现,并不可以去区分意见领袖和草根。覆盖面是各大主流博客服务提供商,各大主流论坛,各大主流新闻网站。希望简单地通过语义和链接区分哪些热点讨论得最多,也就是真实的互联网热点。 但它产生了一个问题:热点倒是和实际的热点切近了,但每个热点中混合了很多博文和帖子以及新闻。容易让人产生信息焦虑,从而不会认真看。即,机器智能无法区分哪些是有价值的文章。区分有价值,引导阅读,这实际上是媒体的“把关人”功能。也正如问题所问的,这主要是反映了“意见领袖”(或优秀博客)的对话。但,这并不是一个好的解决方案。它失去了“发现|Explore”的能力。
我们说,当你想看互联网资讯时,需要确认你发现信息的目的是什么。是想成为第一个知道的?或者新信息?还是找些有趣的东西阅读?据此会有不同的方法。那么,我的目标是需要找到最好的内容,未必是我第一个发现的。它就具有“发现|Explore”的乐趣。当然,它没有刻意去回避“意见领袖与普通博客的平衡”问题,仍然存在一定的部分优质作者订阅量大的作者可能被推荐得多,但相对来说,他不会“一眼看过去总是熟悉的那几个人”。随着收集的社会化媒体源头的越来越多,群体越来越广,随着社会化和个性化的引入,它应该可以解决你所说的问题。

来源:玩聚每天采集的信息量大概有多少?通过什么样的算法规则来保证推荐出来的内容是有价值的。

郑昀_玩聚网:玩聚SD和SR每天采集的Social Activity和文章,合起来可能量级在几万左右。以前的热点自动发现,每天收集的数据是数十万左右。我们举FriendFeed或SNS的例子,依赖于你选定的好友们的推荐,可以看到相对优质的内容。那么,进一步扩展一下,假定是选择可信任的社会化媒体信息源,通过汇总他们推荐和分享的链接,就可以找到一大批优质内容。玩聚SR,简单地说,相当于RssMeme和TweetMeme这两个网站的合体。TweetMeme,http://www.tweetmeme.com ,这种应用可以让你找到被twitter用户分发最多的Tweets和链接。RssMeme,http://www.rssmeme.com/ ,可以显示Google Reader Shared Items中被分享最多的内容。

有网友问:在你这个网站这么多子域名,子服务里,最重点在投入的是哪个服务?为什么是这个服务?

郑昀_玩聚网:这一系列子域名,代表着我们一步一步的探索。目前,主推的是玩聚SR。因为它最有可能整合Social世界和语义世界,也许能帮助我们达到我们曾经设定过的Vision。

有网友问:社会化媒体中国的盈利点、盈利模式在哪?

郑昀_玩聚网:在中国,我认为,唯一能产生盈利点的,只有两条路,一个是口碑营销和口碑监测;一个是个性化推荐和推送。

个人问题: 口碑营销和口碑监测, 能具体点吗?

郑昀_玩聚网:这个不太容易说的清楚。可以参考大旗网和奇酷的探索之路。

有网友问:现在看到的玩聚网只是内容和评论的拼凑,还是一种阅读的状态,似乎没有办法做互动。不知郑总是怎么想的?

郑昀_玩聚网:这可能还是出于我们的实际能力考虑吧。我们优先以探索超越聚合的、以语义为核心的创新之路为主。所以,把主要的精力放在应用切入点上。也因此,决定了第一步都是做一个工具型的应用。如果这个应用能达到我们期望的效果,我们才会稳步推进,慢慢加入哪些非核心的功能。在此之前,引入过多的互动元素,可能干扰主业的开发。语义研发,不像其他的应用,需要很多精力读国内外的业界论文,需要做很多的试验。 所以我们的技术力量一直在语义计算和爬虫上,缺少Web开发力量。在此,我也邀请优秀的Web开发工程师加盟我们这个团队。我们支付的薪水还是比较有竞争力的。随着玩聚SR的应用切入点被大家认可,我们后续会陆续加一些互动功能,但也会更像FriendFeed所能提供的互动能力。

有网友问:想知道玩聚目前的流量情况与流量分布。还有就是流量的来源情况,用户直接进入的能占到多大比例,来自搜索的占多少?

郑昀_玩聚网:我其实不是很关注流量,平日里只是看看Alexa的变化。流量嘛,上周最好排名是Alexa一万五千名。来自于搜索的比例,我许久前看到似乎是30%。最近不怎么关注。 我们还是以做好应用为主,让应用自己病毒式传播,让大家觉得好用而传播。

有网友问:郑总是怎样看待玩聚网与google热榜以及google趋势的关系?是竞争对手,还是合作伙伴?在实际市场中,你们会争夺共同的用户群吗?

郑昀_玩聚网:二者应该不是一个方向的。Google的这两个产品确实可以揭示潜在的流行趋势。但它无法充分回答潜在流行内容的Where、When、What、How这四个问题。我期望中的应用,是发现热点,无论是大众流行的热点,还是根据我的喜好推荐的热点,而且要把热点的内容,其他人的评论和观点,事件发展的脉络,新闻背景、图片、视频,统统整合好,便于阅读和查阅。然后,围绕这些热点和互动行为,再次分发出去,变成一个一个可携带的信息碎片,重新被传播到各个社会化节点。 就是把链条打通。而不是Google的这种纯粹工程师式的做法。

个人问题:郑总认为,未来即将兴起的移动互联网会给玩聚网带来什么新的机会?

郑昀_玩聚网:我前面说到的个性化推荐和推送之赢利点,特别适用于移动互联网。原因就在于移动互联网,需要更为精准的投放,更为精准的阅读。豆瓣的基于协同过滤的猜你喜欢算法,与基于Social Activity和语义相结合的推荐算法,如果加以良好的利用,应该会是特别有效的移动互联网应用点。

个人问题:关于刚才网友提的盈利模式,我展开下。比如,我现在手头有家留学中介,公司规模尚可,想利用玩聚网做口碑营销或者口碑监测,请问,这家公司该如何做?

郑昀_玩聚网:在现阶段的中国,口碑营销和口碑监测其实是一体的,是一个链条的。其实最简单的社会化媒体营销加监测做法,可以举一个例子,譬如发布一条消息,所有通过Twitter发送同样消息的用户都可以免费获得一个什么优惠,那么既需要找到意见领袖的节点让他们传播,又需要随时的监测,看如何传播的,都有哪些用户传播了,造成的影响有多大。 我更关注语义技术如何做好监测,如何评价正面或负面影响。

有网友问:玩聚在未来会不会成为一个口碑营销效果评估的机构,或许可以提供这种检测服务来实现赢利。

郑昀_玩聚网:我们有这个计划。但不一定是配合口碑营销的。毕竟,模拟人类去理解文章或句子的意思,是我们的拿手好戏。

个人问题:意见领袖的节点如何找到?也就是说怎么判断谁是意见领袖?

郑昀_玩聚网:如果是从技术出发的话,那么有很多评价指标的。比如博客,当初很多人都是这么做的,根据某博客在Google等搜索引擎里的索引量,根据在网摘网站中的收藏量,根据反向链接的数目,根据订阅数,就可以排列出一个榜单。比如twitter,同样有很多评价指标,如被follow数,他的tweet被转发次数,他的名字被其他用户提及次数等等。
通过这些指标,可以大致筛选出一大批优秀节点,然后人工标注权重即可。

有网友问:如何看待产品为广告主进行口碑营销,和用户对产品的诚信感之间的矛盾?

郑昀_玩聚网:我觉得主要是缺乏一个口碑评价体系。这个很多人也是这么看待口碑营销界的。因为没有评价体系,所以广告主委托的第三方营销者,也无从量。

来源:好的,感谢分享。

参考资料:草根网


唯众网络