06 March 2013

2013百度站长交流会,暨中国网站运营发展趋势报告发布会,今天下午在保福寺的附近的辽宁大厦举行。

辽宁大厦即原金融时代广场,2008年我租住在中科院软件所家属院的时候,经常路过。

会上见到了两位百度的工程师,还有 SEO 界的一些名人 ZacSEO每天一贴博主。《网络营销实战密码》、《SEO实战密码》作者。

不过整体的内容,并不深入,连我这 SEO 门外汉,也感觉内容乏善可陈。百度的用意,可能在接地地气,拉拢草根站长,应对来自 360 的威胁?

###会议摘要


本次会议主题:中国网站运营发展趋势报告

发起:百度站长平台

百度站长平台是百度网页搜索为网站管理员搭建的站长工具和SEO优化交流平台,提供外链工具、搜索关键词查询、sitemap、死链提交、站点索引量查询、站点抓取异常、SEO优化建议、压力反馈、robots等站长工具,同时提供百度官方资料区及站长论坛,引导优质内容运营,提升网站用户体验,帮助互联网行业健康发展。点评…

结论:

2012年,PC端网站增速较大,数量较2011年增加29%;PC无线化速度加快,2012年PC网站无线化比例达到40%。

中国互联网生态环境较差,优质站点仅占 1/4 ,低质站点越加泛滥,对中文互联网站的运营发展产生的负面影响已经越来越严重。

2012年优质资源中社交网络类商品类资源占比例最高,且增速明显。

2012年商品供求类资源、高质量的视频资源及图片资源的需求有明显的增长。

网站优质资源分布:

33% 社交网络 14% 商品供求 12% 综合社区 7% 图片 7% 新闻 7% 小说 5% 视频

15% 其它

1.6% 下载 1.3% 文档 0.9% 游戏 0.5% 音乐 3.2% 分类信息 7.9% 其它

用户主动检索分布:

12% 商品供求 12% 视频 8% 新闻 8% 图片 8% 游戏 6% 小说 5% 综合社区

41% 其它

3.7% 文档 3.2% 社交网络 3.2% 分类信息 3.2% 音乐 2.8% 下载 25.2% 其它

低质网站以采集站为主。

中文互联网安全问题较为严峻,65% 的网站存在不同程度的系统漏洞。

2013年网站运营趋势分析:

1、网站需加大原创优质内容建设的力度

2、内容是基础 SEO 仍需高度关注

3、网站安全问题突出 急需站长重视

4、用户对图片的各种需求大幅增长 图片资源也大幅增长

###嘉宾分享


1、内容细分

2、页面价值

1)浅谈互联网页面价值

这是一篇很有价值的文章,来自百度搜索研发部,里面透露着许多SEO技巧,原文已被删除。

全文见文章末尾,转自卢松松博客

2)Google搜索质量评分指南

ZAC 博客推荐,Search Quality Evaluator Guidelines.pdf

3、基础知识

  • 301
  • keyword
  • robots
  • sitemap

基础一直很重要。

延伸阅读:

301重定向怎么进行URL标准化设置

提高关键词排名的28个SEO技巧

Robot

搜索引擎使用Spider程序自动访问互联网上的网页并获取网页信息。Spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定Spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

参考 http://www.w3.org/robots.txt

Sitemap

一般情况下,Sitemap-网站地图,分为两种:

1、普通Html格式的网站地图,类似 http://www.seowhy.com/sitemap-A_zh.html ,它的目的是帮助用户对站点的整体有个把握。Html格式的网站地图根据网站结构特征制定,尽量把网站的功能结构和服务内容富有条理地列出来。一般来说,网站首页有一个链接指向该格式的网站地图。

2、XML Sitemap 通常称为Sitemap(首字母大写 S),而不叫“网站地图”。类似:http://seowhy.com/sitemap.txt,简单来讲,Sitemap 就是网站上链接的列表。制作Sitemap,并提交给搜索引擎可以使网站的内容完全被收录,包括那些隐藏比较深的页面。这是一种网站与搜索引擎对话的好方式。

###会议花絮


我们匆匆赶向会场的时候,北京正迷漫在黄沙和雾霾之中,自然感叹帝都之殇,如今空气、饮水、食品一条龙污染,让我们苦不堪言,更有奶粉遗祸子孙,有能耐的,还是想办法出去吧。

果然,我们发现 Zac 移民新加坡。

和同事一起吃饭聊天,也收获不少消息。360 对付竞业禁止的策略(跨行注册 一年扶正),令人刮目相看。360网址导航,已经超越 hao123

听说搜狗输入法急了,开始异动,可叹。

门户中,最苦逼的还是新浪,抓住打擦边球的9158努力赚钱,其实也挺危险的。Web 很火,不过客户端的威力还是相当的强悍。知乎上有人提问,9158(聚乐网)是怎样做到年收入过 10 亿的?,有段分析非常精彩:

9158对人性的理解也实在是非常的透彻。但是无论怎么包装,都不能改变9158玩的就是擦边球,是一个高富帅为了赢得扭曲的自信和满足感而调戏主播和玩弄屌丝(或者说这就是所谓的「征服」)的色情游戏。

QQ邮箱是靠什么打败163邮箱的?

1、容量大,起始2G,可以自由选择扩容

2、无广告

3、绑定QQ,一键登录,邮件送达通知推送到QQ上

4、访问速度快,QQ邮箱做过跨网速度优化,电信,网通,教育网用户都能获得最优化速度

5、支持多协议,POP3、SMTP,国内唯一支持IMAP协议的邮箱

6、开发活跃,升级速度快

7、超大附件

8、文件中转站

9、整合SOSO,支持邮件全文检索

10、群邮件,聚合邮件等功能

11、阅读空间、漂流瓶,多种让人眼前一亮的 Widget

12、手机号绑定,重要邮件短信提醒

13、域名邮箱

14、用户关怀,比如经常刷新“收件箱”会提示你去“垃圾箱”翻翻

月光博客

曾几何时网易是国内免费邮箱老大,注册用户上亿,但是网易一直觉得这个业务属于鸡肋,弃之可惜,食之无味。虽有上亿用户,但因为缺少盈利模式,而相当的抑郁。于是当你打开Web邮箱页面的时候有大幅的广告,当你通过Web邮箱发送邮件时,网易在你邮件内容后面添加了一个小尾巴广告。但是网易没法在通过SMTP发送的邮件后面发送小尾巴,为了能够获取更大的页面访问量,以增加广告收入,网易在2006年11月16日关闭了新注册用户的POP3/SMTP功能,也曾引起了广大邮箱用户的反感。而在此期间,QQmail则学习了Gmail的优点,摒弃了之前免费邮箱的缺点,相继推出了无限容量、50M附件、QQ文件中转站、开放IMAP等一系列服务,创新的QQmail和QQ庞大的用户群使得QQmail很快的成长起来,获取了越来越多的用户。再加上运营商在3G时代都推出了手机邮箱,兼有短信通知的方便,分流了部分用户。

###行业圈子


SEO 站长圈子,很强大,我要如何融入其中?

学好基础,放下包袱,勇于表达。

以下为现场交换的一部分名片:

江龙建 中国农业人才网 首席执行官

宴闯 易车网 高级SEO经理

陈佳 ZOL中关村在线 SEO主管

宗宗 杭州19楼网络传媒 SEO高级优化师

###页面价值


搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满足 了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判 断页面的价值呢?本文将逐一回答这些问题。

####一、什么页面价值

前面我们说了,某个页面满足了某一用户的特定需求,就体现了这个页面对用户的价值。那么对搜索引擎而言,价值体现在哪些方面呢?一个简单的推论,所有可能会对用户产生价值的页面都是对搜索引擎有价值的,将这些页面建入搜索引擎的索引中能够满足最终检索到它们用户的需求,我们称这种价值为检索价值。只要是能解决某个用户信息需求的,并且是可以通过某些正常检索需求到达的,那么就是有检索价值的。

小学生张三喜欢在qzone上写日记,写他前天吃了什么,今天玩了什么。这些内容,是有价值的。它们对张三的家长、同学、老师,以及其他小学生,和对小学生日记感兴趣的人来说,都是有价值的。对于这个信息体来说,“张三”这个名字是检索的“key”。

有一些信息单元,只有“浏览”价值,而没有到达该信息的检索途径,那么该资源可能是有价值的,但检索价值就很低。比如一张百度大厦附近的地图,从浏 览角度,是有价值的;但是如果没有任何周边文字说明(或者link的anchor text),只有一张光秃秃的地图,就没有检索价值。当然,如果图片的内容识别技术,有朝一日能自动识别出这个是“百度大厦附近地图”,或者能够自动分析 出地图内的各种大厦、街道、餐馆等的名称,那么这张图一样变得有检索价值了。所以一个页面是否有检索价值,应该取决于两点:

1)是否能解决某个特定的需求(价值)

2)是否可以通过某个常规的搜索方式获得该信息(检索)

那么,没有检索价值的页面,是否对搜索引擎就没有价值了呢?仔细想想,答案是否定的。索引只是搜索引擎的一个环节,对于其他环节而言,没有检索价值的页面有可能对我们更好的收录那些检索价值高的页面有帮助。比如对负责抓取互联网资源的spider而言,有一些页面,本身没有检索价值,但通过这些页面 的抓取和分析,能够更快的帮助我们掌握这一类页面没有检索价值这一重要信息,从而节省更多的流量进行更加有效的抓取。

考虑到这种价值可以算作一种“间接的”检索价值,最终还是立足于索引价值的,在本文中就不再展开论述,我们只关注“检索价值”这一根本问题。下文中提到的“页面价值”特指页面的“检索价值”。

####二、为什么要研究页面价值

首先,互联网上的页面是无穷尽的,而搜索引擎的硬件资源是有限的,想用有限的资源去覆盖无穷尽的互联网,我们就需要对页面价值做出判断,不收录那些无检索价值的页面,少收录那些检索价值低的页面。这是页面价值在收录控制方面的应用。

第二,搜索引擎spider的抓取能力是有限的,出于访问友好性的考虑,对于一个网站或一个IP抓取速率需要有一个抓取速率的上限。在这一限制下, 抓取或页面更新就需要有一个先后顺序,而这一排序的主要参考依据就是页面价值,或者说对页面价值的预测(未抓取时)。这是页面价值在spider调度方面 的应用。

第三,对于某些页面,页面内容发生变化,导致它的检索价值从有到无,典型的就是变为“死链”,或者“被黑”。对于这些页面,好的搜索引擎会在第一时 间将其排除出索引,或在检索时对其进行屏蔽,以保证返回给用户的结果是更多检索价值高的“好页面”。对于另一些页面,它不仅具有很高的检索价值,而且有很 强的“时效性”,能够第一时间让用户检索到这些页面对搜索体验有很大的提升。对搜索引擎而言,越快的收录和索引页面意味着越多的额外资源开销,以多快的速 度收录和以多短的周期更新索引,需要通过页面价值的分析来指导。这两方面是页面价值在死链率和时效性两大搜索引擎指标提升上的应用。

最后,普遍意义上的页面价值高低对搜索引擎返回给用户的结果排序上也存在着指导意义。理想情况下搜索引擎的结果是按照与查询请求的相关性进行排序的,在相关性大体相当的情况下,用户更倾向与浏览普遍意义上页面价值高的网页。这是页面价值在ranking方面的应用。

可以说,页面检索价值的研究是搜索引擎中的一项较为基础的工作,对页面价值的认识和判断的准确程度直接影响着搜索引擎的覆盖率、死链率、时效性等几大主要指标。

####三、如何判断页面价值

前文中提到过一个小学生张三qzone日记的例子。我们认为这个页面是有价值的,对张三的同学,朋友,家人都有价值。与此类似的,百度CEO李彦宏 在i贴吧上发表一条十几个字的i贴,也是有价值的,对李彦宏的上千万粉丝都有价值。虽然李彦宏的i贴长度可能远小于张三的日记,但就这两个页面的价值来 说,我们都会有一个共同的认识,即从普遍意义上讲,李彦宏的i贴价值远大于张三的日记。(当然,对于张三的妈妈来说很可能这个价值的关系是相反的)

再举个例子,搜索某个人的手机号码,搜索引擎返回了一个结果,是这个人在某个论坛上的一个回复。虽然这个手机号码关心的人不多,但因为资源是绝对稀缺的,对于关心这个手机号码的查询需求,这个页面是完全不可替代的,因此具有极高的价值。

另外,页面检索价值,还受到页面质量的影响。相似的页面,对于满足用户需求来说,往往会有很大差异,比如资源下载速度,页面的布局,广告的多寡。这类差异,姑且称之为页面质量。

最后,有些页面具有明显的公众话题性质,且这些资源往往在刚刚产生时有非常高的关注度,随着时间的推移热度显著下降,有着“新闻”的特征。典型的像各种“门”事件,地震、火灾等大型的自然灾害。我们认为这类资源具有“时效性”特征。

所以,一个页面的检索价值,大致受以下四个要素的影响:

1、感兴趣的受众群大小

2、该页面的稀缺程度(可替代性)

3、该页面的质量高低

4、该页面的时效性特征强弱

这四种要素,简称受众,稀缺,质量和时效性。

######1. 受众

受众群体的大小,即代表了用户检索需求的大小。评价受众的大小主要依据信息发布源的受众和信息内容本身受众两大方面。具体因素包括且不限于:

网站忠实用户群大小

一般来说,拥有自己忠实用户群的知名网站,他们的成功,在于他们的内容和服务,比别人更能吸引和满足用户。从这个角度来说,我们可以推论,拥有更多 忠实用户群的网站上的内容,会比忠实用户群较少的网站上的内容,有更多的既有和潜在受众群。这样的话,忠实用户群大小,就可以变成对站点内资源检索价值的 一种衡量指标。忠实用户群的好处在于,它是变动的。如果一个网站变差了,那么用户就会用脚投票。超链有过期问题,作弊问题,而虚假用户群作弊很难。一般所 谓的网站知名度,会和忠实用户群数量密切相关。

资源分布规律

我们再考虑一个网站内部的资源分布所体现的受众群大小问题。比如新浪新闻首页的那些推介内容。新浪编辑为什么要推这些内容?因为他们认为这些是用户 最感兴趣的。那么从索引价值角度而言,相当于有一个庞大的编辑团队,已经对这些内容打上了“符合大众口味”的标签。搜索引擎只需要乐享其成就行了。这样的 话,资源相对于某些结构性关键页面(首页、频道页等)的链接深度,也可以成为衡量一个资源受众群大小的指标了。

访问热门度

我们再从访问热门度角度来考虑受众群大小问题。这个是最直接的,当然,它需要第三方的工具来获取关键数据。通过这个途径,获取的不应仅仅是需要入库的页面,还有用户访问一个网站的访问模式。

超链

超链某种程度上也是受众群大小的反映。某个资源的质量越高,接触的受众群越大,那么获得正常链接的数量往往也越大。

内容特征

A:我写博客:“传言郭德纲要上春晚了。”

B:我写博客:“我今天吃早饭了。”

同样的来源,前者的受众必然高于后者。即:当在发布源相同的情况下,具有公众属性的内容分值会更高。

######2. 稀缺

稀缺主要是描述页面在互联网中的独特性。说到稀缺往往会想到重复,稀缺是否等同于无重复,我们应该怎样解读这一概念呢?可以看一个例子:

某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益。另一方面,它在转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益。因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。

同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。

综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。

######3. 质量

页面的质量是它对需求的满足程度的一种体现。判断页面质量的高低,应该是从最基础的需求依次递进的。

首先,不能是死链、网站要有一定的稳定性、访问速度要令人满意。

其次,主体内容是否完整、版式和字体是否易读、各类广告会不会太多。

最后,信息是否丰富、延伸出的次级需求是否满足。

典型的低质量页面存在以下一些特征:

1、主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)

2、死链

3、虚假信息/诈骗等

4、点不稳定

5、影响主需求的权限问题(下载/浏览需要注册会员/积分等)

6、信息不完整(转载不全等)

7、浏览体验差(广告/字体/页面布局等)

典型的高质量页面存在以下一些特征:

1、访问速度快(页面加载快/资源下载速度快)

2、页面整洁干净,主体内容在显著位置。

3、页面信息完整。

4、页面元素丰富(文字、图片、评论、相关推荐等)

#####4. 时效性

“时效性”是页面价值的一个属性,它一般体现在两个方面:一是页面所描述的事物本身有着较强的公众话题性,容易被传播。这其实是受众的一个体现。二 是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度显著下降。这是一种“新闻”性。对于具有上述两种属性的页面,如果搜索引擎spider发现 页面的时间正处于该事物的“爆发期”或“爆发期”之前,我们认为该页面具有时效性。

需要说明的是,搜索引擎的广义“时效性”是指对所有有价值新资源的及时收录提供检索,而所有的有价值新资源中,有一大部分其收录速度的提升对用户的 搜索体验改善意义是不大的,比如介绍如何瘦身的知识性文章,张三的日记。页面价值中的“时效性”指得是一种突发时效性,也就是所有有价值页面中最需要及时 收录的那些。对页面时效性的判断是为了指导我们将搜索引擎有限的资源投入到最关键的地方,产生最好的性价比。

判断页面的时效性价值,主要通过下面一些途径:

页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一个典型的例子。

描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆发出大量相关讨论、报道,和这一事件相关的所有内容都具有了时效性属性。

根据一个集合内的页面是否具有上述两种特征,推测该集合的时效性价值。比如魔兽世界吧经常爆出一些热门帖子,公众话题,我们推测出自魔兽世界吧的帖子其时效性“潜在价值”比较高。

####四、页面价值的研究重点

前文已经介绍了页面价值的含义,研究的意义与价值判断的方法。最后我们再看一下,从技术角度上,这一方向的研究中的重点方向。对页面价值的研究工作主要致力于三方面:

1、对页面价值体系的认识。我们目前对页面价值的认识是来源于前文所述的四个维度,这个认识是否全面,对于不断变化的互联网环境与用户需求,这些维度应该如何扩展与变化才能更好的服务于整体的搜索体验提升,是一个很重要问题。

2、对于反映页面价值的页面特征提取。巧妇难为无米之炊,挖掘更多的页面特征,更准确合理的特征提取是页面价值判定准确率提升的基础。

3、对各种页面特征的组合策略(机器学习)。针对不用的应用方向,需要利用相应的特征通过合理且高效的策略拟合出页面价值的最终评价结果。

全文完。



blog comments powered by Disqus