搜索引擎优化

Posted by 5pu at January 2nd, 2007

相信不少站长都听说过站长世界webmasterworld.com(也有的是翻为网管世界)这个论坛。这是世界上最著名的站长们聚集的地方,谈论各种与网站有关的话题,包括搜索引擎优化,网络营销,网站建设的技术问题,电子商务等等。

  站长世界的创始人Brett Tabke,是搜索引擎优化领域里教皇级的人物。据说他以前是经常使用和实验各种作弊手段的人物,当然他现在已经改邪归正了,至少表面上看起来如此。

  近些年,他在站长世界里的帖子并不是很多,而且都非常简短。但无论他帖什么,往往都被追捧。因为他所管理的网站涉及面之宽,他本人所亲身认识的各个搜索引擎和各大电子商务公司的高层人物之多,以及他在网络世界里的权威地位之高,使他的话不得不被重视。

  他有一篇非常著名的关于Google排名优化的文章,标题是”十二个月内,仅仅依靠Google打造成功网站“。

  这篇文章写于2002年2月3号,到目前为止,这篇文章还是被奉为Google排名优化的圣经。所有资深的搜索引擎专家无不对这篇文章推崇倍至,而且 Brett Tabke也多次骄傲的声明,就算过了四年时间,历尽了多次Google更新和Google算法的改变,他的这篇Google排名优化文章还是没什么好改动的。

  我简单的搜索了一下有没有中文译本,竟然没有找到。当然也可能有人翻译了,而我没有找到。不过,这篇文章太重要了,所有对搜索引擎排名感兴趣的人不得不读。所以我在这里把要点翻译出来供大家参考。

  下面是文章翻译:

  让我们跳过理论来看看实际对Google有效的方法。我知道下面的这个系统对Google来说,每一次都有效,而且对所有的关键词都有效。这个系统 是我给客户做网站时所应用的,而且百试不爽。成功的程度当然也取决于网站所在的行业,潜在市场和竞争水平。下面的要点可以让你仅仅依靠Google,在一 年的时间里,打造一个成功的网站。

  a)准备工作和建立内容。

  在你注册域名之前,你就应该记录下你的想法,应该准备足够100个网页的内容。请注意是至少。这100个网页应该是真正的内容,而不是链接页,关于我们页,联系我们或者版权声明等等杂七杂八的网页。

  b)域名。

  你应该选择一个很容易建立品牌的域名,你要的是Google.com,而不是关键词.com。充斥关键词的域名应该被丢弃,易于建立品牌的和容易辩识的域名才是最好的。

  域名当中所包含的关键词作用现在非常之小。为什么goto.com改名为overture.com,那次改名是我所见过的,最大胆的策略之一。这个改名的策略摧毁了几年时间所建立的品牌。

  c)网站设计越简单越好。

  一个指标是文字内容的比重应该大于HTML格式的比重。整个网页应该规范化,应该在所有的浏览器上显示正常。比如使它符合HTML3.2标准。搜索引擎蜘蛛还并不太喜欢HTML4.0标准。

  应该远离那些太重的因素:flash, dom, java script等。如果你必须要使用这些脚本的话,把他们作为外部文件来使用。在我看来,根本没有必要使用这些东西。这些东西几乎不能给一个网站增色,却会 极大的从各个方面伤害网站的表现(搜索引擎友好问题只是其中之一)。

  用逻辑的方式安排你的网站,可以在目录名当中使用关键词。你也可以采用另外一种方法,也就是把所有的网页都放在根目录当中(这种方法很少见,但是事实证明是非常好的有效的方法)。

  不要让你的网站堆砌一大堆没用的东西,比如说建议使用什么什么浏览器,或者计数器等等,使它保持最简单化,看起来专业化。向Google自己学习,看看他的主页,简单的没法再简单了。这也正是人们所需要的。

  速度不是最重要的因素之一,而是唯一的重要因素。你的网页应该非常快速,如果你的网页会延时3,4秒钟,你就完蛋了。当然如果你的主机和访客在不同 的国家, 3,4秒钟还有情可原,对当地的访客来说,3到4秒钟的下载时间已经是极限了。超过这个时间,每多一秒钟,你就会丧失10%的流量。而这10%的流量可能 正是成功与失败的分野。

  d)网页大小

  越小越好,最好保持在15K以下。越小越好,最好保持在12K以下。越小越好,你最好保持在10K以下。你明白了我的意思了吧。比5K大,小于10K,这是最好的。很难做到,但是却是最有效的。对搜索引擎也有效,对访客也有效。

  e)内容

  每天建一页两百到五百字的网页。如果你不知道该写些什么的话,做点关键词调查,然后根据你所得到的热门关键词写文章。

  f)密度,位置等等

  简单老式的SEO,在这些地方用一次你的关键词:网页标题,说明标签,正文标题,网址URL,黑体,斜体,网页的最开始。关键词密度介于5%到20%之间 (也别太在意)。写出好的文章,并且检查错字。拼写检查(对中文来说,检查错字)正在变得越来越重要。因为搜索引擎已经开始运用自动纠错功能,所以已经没有可以写错别字的借口了。

  g)导出链接

  在每一个网页连向一到两个排名高的网站,在链接文字当中加上关键词(这一点对未来来说很重要)。

  h)网站内的交叉链接

  指的是同一个网站内的链接。在你的网站之内,高质量的内容之间互相链接起来。如果一个网页是关于食物的,那么你应该确保这页连向关于苹果的和蔬菜的那些页。尤其对Google来说,基于共同内容的相互链接对在你的网站之内分享PR是非常重要的。

  你要的不是使其他网页黯然失色的一个全明星网页,你需要的是50个每天吸引一个访客的网页,而不是一个每天吸引50个访客的网页。如果你发现你的网 站里面有一页,确实是吸引大部分流量的页,那么你就应该把这一页的PR值通过交叉链接,分散到其他网页上。这有一点像老话说的分享财富。

  i)开通网站

  最好不要使用虚擬主机。最好使用你自己的单独的IP地址。确保你的网站可以被搜索引擎蜘蛛所索引。所有的网页都应该连向你网站里其他的网页。所有的网页距离主页都不应该超过两次点击。所有内容页也都应该链接回主页。一个在所有页上都存在的菜单系统,应该链接到你的网站上的主要部分。

  在你完成一个高质量的网站之前,不要把它开通。开通一个不好的网站,比不开通网站更糟糕,你要的是从一开始就是一个优秀的网站。

  申请登录开放目录,如果你有预算的话,也申请提交到雅虎和其他付费目录。如果没有预算的话,可以试试雅虎的免费提交,但是不要抱太大希望。

  j)网站提交

  把主页提交到Google等搜索引擎,然后接下来六个月就忘了这件事。没错,提交,然后忘了它。

  k)记录和跟踪

  使用一个高质量的能够记录访客来源的日志分析软件。如果你的主机提供商不提供访客来源,你就应该使用另外一家主机提供商。

  l)观察蜘蛛

  观察来自搜索引擎的蜘蛛们,确保蜘蛛在爬行你的整个网站。如果不是的话,你应该检查你的所有链接系统,确保蜘蛛能发现你整个的网站。如果搜索引擎需要两次才能检索完你的网站,你也不要害怕。对很多搜索引擎来说,可能需要六个月才能发现和爬行你的网站。

  m)主题性的分类目录

  几乎每一个行业都它自己的权威分类目录,去提交到这些分类目录当中。
n)链接

  到Google版本的开放目录查看一下你的网站所在的行业,找到那些可以免费交换链接的 网站,要求和这些网站交换链接。在主题性的网页上选择一段内容做为链出的文字。如果那些网站的站长不愿意和你交换链接,也没什么,继续下一个。每一天与一 个新的网站交换链接,一个很简短的个人化的邮件就足够了。如果某个网站不愿意链接向你,别把它当回事-实际上早晚有一天他们会的。

  o)内容

  每天一页高质量的有内容的网页。有实效性的有主题的文章永远是最好的。避免太多博客型的个人化的东西,应该写更多文章类型的普通观众愿意看的内容。

  提高你的写作技巧,学习适合网上人群的写作方式,多分段,短句子,读起来快的内容。大部分的网站访客不是读,而是浏览。这也就是为什么短的文章很重要。如果你看到一大篇不分段的文章,很多人马上就会按返回按纽了。

  人们不会浪费15秒的时间,来了解你的花里唬哨的菜单系统是怎么工作的。某一个大公司的网站放上一个flash菜单系统,并不意味着你也必须这么做。

  使用标题,使用黑体来强调重点,并且也是逻辑分割。

  p)秘密武器

  离所谓的秘密武器,或者今天有用明天就没用的东西远一点。不要用任何看起来像垃圾的东西,任何不道德的,或任何接近于作弊手段的东西。

  q)导出链接

  当你收到交换链接请求的时候,要仔细查看对方的网站,不要轻易就链接回去。通过Google查看他们的网站,并看他们的PR值。不要链接到有问题的网站和质量不高的网站。确保对方网站和你的类似,是同一个行业的。

  r)丰富你的网站

  可以用一些内容丰富你的网站。比如说推荐网页给你的朋友,论坛,邮件列表,电子杂志等等。去看一下你本行业的论坛,读的越多越好,直到你读不下去了。

  s)注意小册子类型的网站

  如果你运行的是电子商务网站,或者你有一个真正的店面,想把生意扩充到英特网上,要注意不要把你的网站做成一个宣传手册。想想人们需要什么,访客不 是来你的网站看你的内容,他们是来你的网站寻找他们自己所需要的内容。在你的文章当中,尽量少谈你自己和你的产品(我知道你在怀疑,你自己好好想想)。

  t)每天增加一个网页

  回到关键词研究,找出好的点子,写新的网页。

  u)研究日志文件

  过了30到60天之后,你应该开始从已经被登录的地方得到一些访客。仔细看一下,人们是用什么关键词搜索找到你的网站的?是不是有一些很莫名奇妙的关键词组合?为什么人们会用这些关键词找到你的网站呢?有没有什么东西是你所忽视了的呢?很有可能你应该以这些为主题,创建更多的网页。

  仔细研究你的网站和日志,给搜索引擎需要的网页。搜索引擎会准确的告诉你,他们想要什么。你要仔细的看,在你的网站日志当中有一座有待开发的金矿。

  v)实效性的话题

  在你的行业当中,永远走在别人前面。比如说如果一个大公司Z,在年底要推出产品A,那你可以在十月份之前就做好一个网页,是关于产品A的。那么在十二月份之前,搜索引擎就已经收录了这个网页。

  w)朋友和家人

  社交联系网络对一个网站的成功也非常关键,这也是你看那些论坛的时间要得到回报的时候了。仅仅是看永远是没什么用的,论坛的价值就在于和其他的同事及网友交流。通过交流,你可以得到长远的利益,而不是仅仅读论坛。这种交际网络也会通过其他方面得到回馈。比如说导入链接小窍门,电子邮件交换意见,成为这个行业的专家的可能性等等。

  x)记录

  如果你每天增加一个网页的话,你会发现有的时候,一个好主意突然就出现了,没准你正在洗澡(先擦干了),正在驾车(先把车靠在路边)或者也许就在桌子上趴着。当一个好的点子出现的时候,把它记下来。不然十分钟以后,你就会忘了你刚想起来的主意。

  要把它先记下来,然后再把细节写出来。当你没什么好点子的时候,把这些记录拿出来。这听起来很简单,但是却是一个屡试不爽的好主意。

  y)六个月的时候,检查提交的网站

  看一下你所提交过网站的地方,是不是收录了你的网站。如果还没有的话,就再提交一次,然后再一次忘记。试一下那些免费的分类目录。

  z)每天建增加一页高质量的网页

  这一点已经重复好几次了,Google喜欢内容,大量的高质量的内容。以一系列关键词为基础的广泛的内容。在经过一年以后,你应该已经有了400页左右高质量的内容。这些内容应该使你的网站在很广泛的关键词里面得到好的排名。

  做这26件事,我担保你一年以后,你会有一个成功的网站。它将能从搜索引擎中得到每天五百到两千个访客。

Technorati ,

Posted in 搜索优化|  Tags: , | No Comments | 

SEO 百度图片搜索

Posted by 5pu at December 13th, 2006

昨天我发现从百度的图片搜索来了几个ip,那时候没怎么在意,后来从图片来的ip慢慢开始多起来,于是开始重视这个原因。
我分析几组 百度图片搜索的数据。
得到的结论是(简单概括):
百度图片搜索认为是否和关键词有关联的依据是alt
百度图片搜索分析图片新闻和关键词的相似程度的依据是 title + alt
百度图片搜索认为有较高价值的图片新闻的依据是 title+alt+keywords

靠前的图片新闻的特点:
1.alt=搜索关键词 (85%)
2.title,alt,keywords 三个数据基本类似,或者title,keywords 都包含alt. (80%)
3.搜索关键词 在 百度图片 排在前20的站点(以url计算,不以图片数量计算),在百度网页搜索,关键词搜索结果里排在前10页以外。(98%)

靠后的图片新闻(20页以后)的特点:
1.alt=搜索关键次或基本相同 (75%)
2.alt<=tilte (意思是,title里可能保护了alt,即搜索关键词,也可能没有alt. (75%)
3.keywords基本与alt无关 (80%)

个人说法:
很明显的可以看出alt在图片搜索中发挥了非常重要的作用,虽然表面上看似很容易被理解,title+alt+keywords 三者越相似,越容易被收录,越靠前。事实上是这样的,但是还有一些细节问题,比如两个关键词的组合搜索的结果,又比如堆砌关键词,这些暂且不考虑,到后期我可能会进一步的分析。在网页SEO中,google搜索考虑了RP和衔接站点的RP,等等其他。根据我一直以来针对baidu所做一些努力和一些数据的观察,我觉得baidu更重视一个站点的专业性,就比如A站被收录1000页面,而60%页面包含关键词girl,而B站被收录10万页面,1万含关键词 girl,就是10%,那在搜索girl的时候A站有很大可能性的在B站之前。

所以在图片搜索时候也有这个现象。排先前面的图片新闻,基本都是图片站,或是关键词的专题。

联想
CMS在添加新闻的时候,可以添加一个条件
如果新闻中包含图片,那图片的 alt 为所设置的关键词
如果没有设置关键词,则用title替代
并且 keywords 尽量使用 alt
BBS也可以加上这个功能。

相关说明
alt — alt=”这里的信息”
title — 文章标题
keywords — 有可能是description,也可能是 keywords
每组数据有20项,只提供出一组数据的图片!!!!!!!!!!!

Technorati ,

Posted in 搜索优化|  Tags: , | No Comments | 

PageRank 民主表决式网页排名技术

Posted by 5pu at July 23rd, 2006

Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo!公司最初第一个用目录分类的方式让用户通过互联网检索信息,但由于当时计算机容量和速度的限制,当时的 Yahoo!和同时代的其它搜索引擎都存在一个共同的问题:收录的网页太少,而且只能对网页中常见内容相关的实际用词进行索引。那时,用户很难找到很相关信息。我记得 1999 年以前查找一篇论文,要换好几个搜索引擎。后来 DEC 公司开发了 AltaVista 搜索引擎,只用一台 ALPHA 服务器,却收录了比以往引擎都多的网页,而且对里面的每个词进行索引。AltaVista 虽然让用户搜索到大量结果,但大部分结果却与查询不太相关,有时找想看的网页需要翻好几页。所以最初的 AltaVista 在一定程度上解决了覆盖率的问题,但不能很好地对结果进行排序。

Google 的 “Page Rank” (网页排名)是怎么回事呢?其实简单说就是民主表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-) 如果大家都说在 Google 公司的那个是真的,那么他就是真的。

在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是 Page Rank 的核心思想。当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗?

Google 的两个创始人拉里•佩奇 (Larry Page )和谢尔盖•布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事,这种算法是完全没有任何人工干预的。

理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。

我来 Google 后,拉里 (Larry) 在和我们几个新员工座谈时,讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说:”当时我们觉得整个互联网就像一张大的图(Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做个博士论文。” 他和谢尔盖就这样发明了 Page Rank 的算法。

网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。

今天,Google 搜索引擎比最初复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。

[来源:http://googlechinablog.com/2006/02/page-rank-google.html]

Technorati ,

Posted in 搜索优化|  Tags: , | No Comments |