blogblog
首页 > 博客|BLOG > 行业动态 >
海南网页制作与SEO
发布时间:2010-09-24 11:16:17   分类::建站知识
第一部分:总述
 
       海南网页制作达到良好的网站优化效果,除了要保证足够的高质量原创内容及广泛建立连接提高Link Popularity外,对网页进行充分的优化更是必需的,很多时候,其重要性远远超出其他。
 
  以下部分按其对优化效果影响度自大至小排列。
 
Title 标签
  在HTML语句中包含在 之间的内容,用来概括页面的基本内容。在用户浏览网页时Title显示在浏览器窗口的上方,而在SERP页面中,Title更是决定用户是否点击该页面的主要因素。
 
内容中的关键词
  网页文本中包含的用户搜索时输入的关键词,这方面的优化包括文本中关键词出现的频次、位置以及组合方式等。
 
页面中使用的Headings、粗体、斜体等
  Headings,通常意义上指段落标题,在HTML中以H1、H2、H3之类表示。
 
  通过使用Headings、粗体等字体方面的变化给出概括页面或段落的概要或强调部分,这在可以在给访问者以较好的阅读体验外,还能够有效地帮助搜索引擎判断页面的重点内容。交替使用则效果更佳。
 
站内其他页面指来的连接
  一般意义上,如果某个网页的内容很重要,那么,同一网站内肯定会有相当多的页面指向该网页,呵呵,很好理解吧?事实上,搜索引擎也是这么想的,一个内部连接充分的网页同样会被引擎认为重要。这方面的优化包括连接来源页面自身的内容、位置、链接使用的Anchor text等。
 
页面的外出链接
  这方面的影响可能是正面的也可能是负面的,取决于链接的质量、与本页内容的相关度甚至网站之间的相关度等。
 
网页存在时间
  每个网页对搜索引擎来说都有一个“出生时间”,即其被搜索引擎的Spider第一次爬行收录的时间。存在时间越长的网页,搜索引擎便认为其更权威,可信度更高。当然,这是在保证该网页不是“死”页面,没有被埋藏起来的前提下。
 
Keyword Use in URL
  在URL中使用的关键词,对其的更详细讨论可参见初步优化: 子域名、URL、Keyword与description、Keyword in URL : 中文网站的两难等。
 
网页大小
  网页大小可以用文件大小KB来表示,也可以用字数来表示。一般说来,一个过大的网页(KB)会影响浏览速度,一个过长(字数)的网页则难以在关键词密度方面找到平衡,但具体很难有定论。
 
Alt与Title标签
  这包括图片的alt、Tltle标签,也包括链接中使用的Title标签。虽然这常被SEO Spam用做关键词填充,不过,各大主要搜索引擎仍然使用其做参照。
 
HTML代码
  W3C认证被许多网站用以证明其页面文件符合HTML规范,简单说来,一个HTML代码错误百出的页面对搜索引擎Spider的总计也会带来困难。但是否经过W3C认证就会有助于搜索引擎排名目前仍存在不少争议,甚至有的测试表明一个故意留上几个小错误(注意,是小错误)的网页甚至能更受到搜索引擎的青睐。因此,我们要做的倒不一定非得通过W3C认证,但至少要保证其在各种浏览器下显示正常,保证搜索引擎的Spider能够正常分析。
 
第二部分:细述
 
一、页面描述
对不同页面给予不同的描述
不要对每一页都采用相同或相似的描述,这样对单个页面出现在网页搜索结果的效果没有帮助。如果这样做,不太可能显示这样的样板文字。我们应为每个具体的一页写一个准确地描述。在首页或其他总结性页面上给一个网站级别的描述,而对其他单个页面使用页面级别的描述。如果没有时间为每一个单页去创造一个描述,显然应该对我们的不同网页考虑优先级。至少,为我们站的关键URL(譬如首页和热点页面)创建一个描述。
 
在描述中明确包含标记性事实
元描述不一定是一个句子格式。它是一个放置关于当前页面结构化数据的好地方。举例来说,新闻或博客帖子可以列出作者,出版日期,或署名信息。这给潜在的访客以非常相关的信息。如果不放在元描述里,它们就可能不会显示在页面摘要里。同样,在产品介绍的页面可能有关键的信息(价格,生产日期,制造商等),他们可能分布在当前页的各处,所以不可能通过一个页面摘要来显示所有这方面的资料。如果你把它们放在元描述里,页面摘要就能显示它们了。比如,看一看下面的取自一个主要产品聚集商为“哈利波特7”一书的元描述。
 
不是很理想的描述:
 
有很多原因将导致这段元描述对我们的搜索结果来说不是一个好的页面摘要:
 
* 描述中的书名信息和该页面的标题有完全重复的信息。
* 信息描述本身就有重复(J. K. Rowling, Mary GrandPré 被罗列了两次)。 .
* 描述提供的信息不清楚,谁是 Mary GrandPré?
* 名字间少了个空格,用了太多的冒号使得描述很难读。
 
一般用户看谷歌的搜寻结果页可能只花一秒钟来扫描某一页面摘要,上述的所有因素都意味着用户很可能跳过这一结果。考虑以下的元描述:
 
好多了的描述:
 
什么改变了呢?没有重复,更多的信息,所有信息都清楚地标记和分开。并不需要真正的额外工作来产生这样的一种质量:价格和长度是仅有的新数据,他们已经在当前页显示了。
 
用程序来产生描述
对诸如新闻媒体源之类的网站来说,为每一页产生一个精确而独特的描述很简单:因为每一篇文章都是手写的,它需要极少的努力来添加了一个句子描述。对诸如产品聚合器之类的较大型数据库驱动的网站来说,人工写描述就比较困难了。在这种情况下,使用程序来产生描述是适宜的并受到鼓励的。只是你要确保你的描述看上去不是在产生网络垃圾。就像我们在上面第一点谈到的,好描述的可读性强并且是多样的。在我们上面谈到的第二点中的网页特有的数据也是一个使用程序产生描述的很好的候选方案。
 
使用高质量的描述
后,请确保你的描述确实是在描述你的页面。人们很容易对元描述的质量控制产生松懈情绪,因为他们在为访客的用户界面上不是直接可见的。但是元描述有可能显示在谷歌搜索结果中,如果描述的质量足够高。在元描述上的一点点额外工作可以大大地提高搜索结果中的页面摘要的相关性。这不但可能改善你的网站的质量,也有可能增加你的用户流量。
 
页面摘要是我们为每个搜索结果显示的简短的文字预览。页面摘要的质量直接影响到网站被点击(即谷歌带给你的流量)的可能性。我们使用了多种策略选择页面摘要。对你来说,如果你能为每个 URL 写一段信息丰富的元描述,你就可以控制谷歌对你的 URL 的页面摘要的显示。
 
 
为什么谷歌关注元描述?
我们希望页面摘要能准确地代表搜索结果。我们总是愿意尽可能地显示页面的元描述,因为它为用户提供该网址内容的清晰概念。这会指引用户更快地找到好的结果,减少点击后走回头路而使他们感到厌烦并无端增加网络流量的可能性。请记住,由关键词堆砌而组成的元描述不能达到这个目标,且不太可能被显示在正常的,非元描述的页面摘要。另一个值得注意的是,准确的元描述可以增加点入机会,他们不会影响你的页面在搜索结果中的排名。
网站多是动态URL ,不利于搜索引擎抓取。
 
二、图片ALT
图片ALT属性的优化原则总结如下:
  1,对于非链接图片的ALT文字,应主要从描述图片的角度考虑。虽然Google会读这些文字,但其重要性比正文内容文字要低的多。
  鉴于Google认为使用ALT属性的网页比不使用ALT属性的网页对读者更友好,所有的图片都应加上ALT属性。对于那些只是有排版作用的图片,可使用空ALT属性 (alt=)。
  非链接图片的ALT文字也可适当考虑本页的关键词,因为可能对Yahoo等其它搜索引擎有利。
 
2,对于链接图片的ALT文字,则应完全从优化角度考虑,视同为链接文字,加入关键词。注意这里的关键词应为被链接网页的关键词,而非本页的关键词。
 
搜索引擎识别不了图片 但是能识别图片的ALT属性
 
三、Page Title优化
TITLE 元素仅可在 HEAD 元素内使用。位于 TITLE 开闭标签之内的文本都会在浏览器的标题栏和 Microsoft Windows 的任务栏上显示。对于 Web 页,“Internet Explorer”会被自动追加到标题后。
 
Page Title列为影响页面优化效果的第一位,这并不是夸张,各项测试与研究均表明Page Title在SEO方面的决定性作用。但是,网页Title的作用远远不仅于此:网页优化及各种SEO技术的采用只是保证网页能够出现在搜索引擎SERP页面的前列,但是,仅仅出现在SERP页面的前列并不是我们进行网站优化的真正目标,我们要的是用户的点击、访问,而用户是否点击,我们对网站所做的优化工作能否转换为实际的访问量也在相当程度上取决于Page Title设置是否合理,是否切中用户的搜索需求。
 
网页Title优化的原则
Page Title的长度:虽然随着搜索引擎技术的不断进步,对Page Title文字长度的限制渐渐不那么苛刻了,相关的测试表明,即便一个非常长的网页Title,其对SEO方面带来的负面影响也越来越小了。但是,即使如此,我们也要注意控制一下Page Title的字数,因为,在SERP页面中用来展示Page Title的字数是有限定的,过长的标题则会被搜索引擎截去,这样的话,一个不能完整展现的标题则使得我们对Title就算再优秀的架构再意味深长的规划都失去意义。
 
目前各主要搜索引擎对Page Title的字数限制分别为:(注:单位为汉字,非英文字母。因未找到相应的官方数据,只是本人观察,可能具体数字有误,不过,总的原则应该没问题)
 
baidu:20字
google:30字
Yahoo:20字
MSN Search:25字
 
Page Title的内容
除了对网页内容的概括与提炼外,Page Title中还应该包括什么内容?一般说来,为永续经营考虑,大多数网站都希望将自己的网站名称,或企业名称、商标名称打造成一个知名品牌,这就需要在Page Title中出现或强调相应部分,即将网站名称或商标或企业名称出现在Page Title中;对于内容丰富结构复杂的网站,一种较好的处理是将导航信息也嵌入到Page Title中,这样,用户在浏览某个网页时,可以通过Page Title直观地了解目前在该网站中的位置,等等。当然,这么做的时候要兼顾到上面一条中所探讨的Page Title字数考虑。
 
Page Title中的关键词
为优化考虑,Page Title要注意有机地嵌入内容相关的关键词,而这些关键词的重要性则与位置有关:即出现在Page Title中左边的关键词重要,第二个次之,等等。必要的时候,也可以考虑重复关键词以强调。当然,前提是“有机地嵌入”,而非单纯的关键词罗列。以提高Page Title网页的关键词密度,8个关键词以下一般不会有问题。太多就会引起搜索引擎的注意,甚至搜索引擎会把网站K掉。
 
网页Title优化的实施
根据我们在对网页Title优化原则的讨论,我们认为,一般在网页Title中应包含的内容有:
 
1、突出关键词的网页内容概括,也即一般意义上的标题,让访问者了解本网页涉及的主要内容;
2、网站名称、企业名称或商标名称,为网站打造一个“品牌”;
3、网页在网站中的位置,这是网站结构的概括,让访问者了解网页在整个网站架构中的位置,提高网站的可用性。
 
那么,如何有机地实现网页Title的佳化?怎么样的网页Title才能达到即对访问者友好又能实现搜索引擎佳化?
 
下面我们以本页为例分析一下,一般来说,不外乎如下几种方式:
 
SEO探索 | 中文网站推广技术研究 | OnPage优化 | 网页Title优化的实施
网页Title优化的实施 | OnPage优化 | SEO探索 | 中文网站推广技术研究
SEO探索 | OnPage优化 | 网页Title优化的实施
网页Title优化的实施 | SEO探索 | OnPage优化
SEO探索 | 网页Title优化的实施
网页Title优化的实施 | SEO探索
网页Title优化的实施
网页Title优化的实施 | 中文网站推广技术研究
注:分隔符在英文网站中多采用“ ”,不过,因发现Baidu将“ ”识别为“??”,似乎对UTF-8字符的支持不好,故本站改用“|”。至于“|”与中文网站常见的另一分隔符“-”在SEO效果方面是否不同,或者孰优孰劣,存在一定争议,但均没有确切证据支持,在此故且认为二者没有区别。
 
对于1,虽然其完全包含了我们针对网页Title讨论中的3项内容,同时,也强调了本站“中文网站优化”的关键词,但是其长度,显然不太符合要求,在多数搜索引擎的SERP页面中的显示会将本页面真正内容的概括即“网页Title优化的实施”省略或不完整显示(参看SERP页面中显示Title的长度),这将大大降低用户点击该项搜索结果的可能性。如果出于某种考虑需要采取这种“完全”方式的话,那么采取2中的策略可能是一个选择:在保留全部内容的基础上将“网页Title优化的实施”提到前面,保证其在SERP页面中的完整显示。不过,总的来说,这样长的Title将导致本页真正突出的关键词如“网页Title优化”的重要性被“稀释”,很多情况下未必是好的选择,相比较而言,采取3或4的方式可能效果会更好一些,至于3与4的区别,主要体现在将“网页Title优化的实施”放到前面或后面,以我们的观点,以放在前面即4的方式为佳。而5与6则干脆省略掉架构导航部分,这么做的好处在于更进一步的突出本页内容的关键词,本站目前采用的即是6的方式,至于架构导航,则采取别的方式实现,而描述部分“中文网站推广技术研究”则只在内容针对性不强的页面出现。如果需要更强一些的针对本页内容优化,可采取7的方式,即只出现本页内容相关的部分而其他均省略,这样的做法在Msn Search与Yahoo中效果还是有一些的,对Baidu似乎也能起一定作用,不过,缺点在于容易丧失对网站整体的推动。而8则是另一种极端的方式,除本页内容外,重点强调“中文网站优化”的关键词,这在某种情况下也不失为一种考虑。
 
在对IT技术点评的优化中,我们曾尝试了多种方式,后对比发现,至少从我们的角度看,还是6的方式能够在各搜索引擎中找到平衡,也在我们的多个优化需求中找到平衡,实现优化的佳化。当然,见仁见智,也可能不正确。
 
四、关键词密度优化
要达到理想的网站优化效果,不仅仅要为我们的网站或网页选定恰当的、有效的关键词(见如何选定关键词?),更重要的是如何在网页中恰当地将这些关键词嵌入到内容当中。对SEO来说,这主要包括两方面的考虑:1、关键词的位置,关键词出现在页面文件的哪个部分及先后顺序,这对网页出现在SERP页面中排名影响近来逐步降低;2、关键词密度或关键词频率,在网页中关键词出现的频率越高,搜索引擎便会认为该网页内容与相应关键词的相关性更高,从而更易出现在SERP页面的前端。今天我们先来探讨一下关键词密度,至于关键词位置留待日后再予讨论。
 
关键词密度与关键词频率
实质上,关键词密度(Keyword Density)与关键词频率(Keyword Frequency)所阐述的是同一个概念,用来量度关键词在网页上出现的总次数与其他文字的比例,一般用百分比表示。相对于页面总字数而言,关键词出现的频率越高,那么关键词密度也就越大。简单地举个例子,如果某个网页共有100个词,而关键词在其中出现5次,则可以说关键词密度为5%。
 
正确理解关键词密度
但是,上文我们给出的例子只是一种理想的简化方式,事实上,在我们的网页中,还有很多的HTML部件,如meta 标签中的Title、Keywords、Description,如图像元素的Alt文本、如HTML文件中的注释文本等,这些在计算关键词密度时也都要考虑在内的。继续使用上文的例子,即网页内容为100个词,但同时,页面的Title有10个词,Description 有20个词,图像的alt则用了70个词,HTML注释用了10个词,这样,页面中的文本字数即为 100 + 10 + 20 + 70 + 10 = 210。
 
同样地,在计算关键词频率时,也不仅仅指网页可见部分中关键词出现的次数,也包括在上文中提到的非可见部分中的出现次数。同样以上文的例子来说,如果关键词在页面Title中出现3次,在Description中出现5次,在Alt文本中出现30次,在注释中出现2次,那么总的关键词出现次数即为 5 + 3 + 5 + 30 + 2 = 45。那么,这样关键词密度即为45/210 x 100 = 21%。当然,搜索引擎在算法上要比这复杂得多,但基本策略与此近似。
 
同时,也要考虑Stop Words(停用词) ,这些词往往会在很大程度上稀释关键词密度。
 
适当的关键词密度
不同的搜索引擎,包括Google、Yahoo和MSN Search,在对关键词密度的算法上其数学公式有所差别,其接受的佳关键词密度不尽相同。而就过度优化如关键词Spam而言,不同的搜索引擎在采取惩罚前的容忍级别也不尽相同。
 
一般说来,在大多数的搜索引擎中,关键词密度在2%~8%是一个较为适当的范围,有利于网站在搜索引擎中排名,同时也不虞被搜索引擎视为关键词填充。
 
五、如何选定关键词
 
在搜索引擎中任何检索信息都是通过输入关键词来实现的。正确地选择关键词,是网站建设过程中基本、重要也是应该考虑的步骤,是之后进行其他优化的基础。因此怎么强调其重要性都不过分。
 
当然,关键词的选择是相当复杂的,要考虑许多因素,比如关键词与网站内容的相关性,关键词间如何组合排列,是否符合搜索工具的要求,选择采用竞争性强的关键词时还是避免竞争性过强关键词的策略,等等,需要耐下心来费一番工夫。
 
关键词的选定,要根据网站提供的内容出手,通过仔细揣摩目标访问者的心理,设想他们在查询与你有关的信息时可能使用的关键词。有时候,分析一下竞争对手的网站,看看他们使用的是哪些关键词,分析一下,可以起到事半功倍的作用。
 
借助关键词自动分析软件如Wordtracker,可以迅速地从你的或你竞争对手的网页中提取适合的关键词,使结果更有效。例如大多数软件都可以提供有效关键词指数(Keyword Effectiveness Index:KEI),KEI将分析关键词在它的数据库中出现的次数和同类竞争性网页的数量,KEI值越高,意味着该词越流行,且更少竞争对手。
 
其他工具包括Yahoo/Overture suggestion tool和Google Adwords keyword research tool,这些都是免费的。
 
在关键词的选定中,两个基本因素是必须要考虑的:
 
KeyWord Popularity: 目标用户使用这个关键词搜索么?
选定的关键词必须要有人搜索。一个没人搜索的关键词是没有意义的。举个例子来说,在Google搜索“HighDiy”,IT技术点评网站排在SERP的第一位,不错,对吧?不过,这不是一种称得上可行的关键词优化,因为搜索“HighDiy”的用户应该是到过IT技术点评甚至是知道我们的域名,而我们进行SEO优化的目的是使搜索引擎指引那些我们认为应该访问我们网站但不知道我们网站地址的用户找到访问的路径,从这个角度,“HighDiy”不是一个有效的关键词。换一个角度,“技术点评”则相对来说有效得多,我们网站排在第一位则可以帮助我们带来很多的访问用户。
 
KeyWord Competitiveness: 关键词的竞争性是否过强?
从某种意义上来说,不是所有的关键词都适合做SEO优化的,如果某个关键词竞争性过强,比如说“Web”,那么,也许我们无论如何努力都很难得到理想的SERP排名。这时候,就需要考虑将关键词的限定范围缩小,以降低竞争度,比如说“Web技术”。——当然,“Web技术”仍然是一个竞争性很强的关键词。
 
至于目前国内流行的以“图片下载”、“情色电影”之类的关键词,虽然能带来一定的流量,不过如果网站内容与其无关,那样做即不道德,也无意义。挑选的关键词必须与自己的产品或服务有关,无效的关键词对访问者来说却是一种误导,也不会带来有效的访问者,如电子商务网站达成线上生意订单等。在某种程度上,更重要的是将SEO优化与企业的业务、网站的产品结合在一起。
 
关键词工具
 
Google Adwords关键词工具
查询指定关键词的扩展匹配,搜索量,趋势和受欢迎度.
https://adwords.google.com/select/KeywordToolExternal
 
百度相关搜索
 
按热门程序排序,列出指定关键词相关的扩展匹配及热门程度
http://d.baidu.com/rs.php
 
关键词密度分析工具
分析指定关键词在指定页面中出现的次数,及相应的百分比密度
中文:http://tool.cndw.com/Seo/Key_Density.asp
英文:http://www.keyworddensity.com/ 关键词热门排行及指数
百度排行榜:http://top.baidu.com/
百度指数:http://index.baidu.com/
 
百度搜索引擎竞价排名系统 需要注册:
http://www2.baidu.com/inquire/dsquery.php
 
关键词热门排行及指数 百度排行榜: 百度指数:
 
Yahoo排行榜:http://misc.yahoo.com.cn/top_index.html
搜狗指数:http://www.sogou.com/top/?IPLOC=CN1102
搜搜龙虎榜:http://www.soso.com/lhb/s_i_sosolhb.shtml
 
六、url友好设计
 
众所周知,搜索引擎对动态网站的收录一直不如静态网页。但是对于现在的大多数的网站而言,用静态网页接近不可能。那么怎么样让自己的动态网站也能够像静态网页一样,有着很好的收录呢?
重写你的URL,让URL变得友好。
现在大多流行的程序,如:wordpress,discuz,phpwind,都提供了URL重写功能。
如我的小站:http://www.dotudo.com
 
url中不带参数,也不带文件类型扩展名(PHP,ASP,HTML),如下:
 
http:// hlj.snzo.cn/about/
http:// hlj.snzo.cn/category/seo/
 
URL可以重写成伪静态,如下:
 
http:// hlj.snzo.cn/about/index.html
 
URL目录一般要比较有层次,并且层次不宜太深,一般层次不要多于四级,如下:
 
http:// hlj.snzo.cn/category/seo/
http:// hlj.snzo.cn/category/seo/seo-tool/
http:// hlj.snzo.cn/category/seo/google-seo/
 
http:// hlj.snzo.cn/2007/09/
http:// hlj.snzo.cn/2007/09/09/seo-web-optimize-step/
 
七、网站正常收录之网站提交篇
 
如果想让搜索引擎更快得来收录站点,提交网站,显得相当重要。
以下是相关搜索引擎的提交地址
 
Google网站提交的网址
http://www.google.com/addurl/?continue=/addurl
 
百度网站提交的网址
http://www.baidu.com/search/url_submit.html
提交网站的XML文件
http://news.baidu.com/newsop.html#ks5
 
YaHoo网站提交的网址
http://help.cn.yahoo.com/answerpage.html?id=1308
 
MSN网站提交的网址
http://search.msn.com.cn/docs/submit.aspx
 
搜狗网站提交的网址
http://db.sohu.com/regurl/regform.asp?step=regform&class=
 
Tom网站提交的网址
http://search.tom.com/tools/weblog/log.php
 
八、Yahoo站长工具
 
Yahoo也开始学习Google了,推出了Yahoo站长工具,这对于我们广大的站长而言,是一个极好的消息.
 
这是Yahoo站长工具是地址:
http://diy.cn.yahoo.com/
 
这是Google网站管理员的地址:
https://www.google.com/webmasters/tools/
 
九、Xenu’s Link Sleuth 1.2e - SEO工具
 
Xenu’s Link Sleuth 1.2e - SEO工具
 
不错的SEO工具,是很好的网站死链接检查工具,同时可以生成网站地图,以便于向搜索引擎提交.
 
十、Robots.txt和Robots META标签
 
我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。
 
对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。
 
一、    robots.txt
 
1、 什么是robots.txt?
 
robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
 
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
 
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
 
网站 URL
 相应的 robots.txt的 URL
 
http://www.w3.org/
 http://www.w3.org/robots.txt
 
http://www.w3.org/
 http://www.w3.org/robots.txt
 
http://www.w3.org:1234/
 http://www.w3.org:1234/robots.txt
 
http://w3.org/
 http://w3.org/robots.txt
 
2、 robots.txt的语法
 
“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
 
    ”:”。
 
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
 
User-agent:
 
该项的值用于描述搜索引擎robot的名字,在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在”robots.txt”文件中, “User-agent:*”这样的记录只能有一条。
 
Disallow :
 
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如”Disallow: /help”对/help.html 和/help/index.html都不允许搜索引擎访问,而”Disallow: /help/”则允许robot访问/help.html,而不能访问/help/index.html。
 
任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在”/robots.txt”文件中,至少要有一条Disallow记录。如果 “/robots.txt”是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。
 
下面是一些robots.txt基本的用法:
 
l         禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /
 
l         允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 “/robots.txt” file
 
l         禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
 
l         禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
 
l         只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
 
User-agent: *
Disallow: /
 
3、 常见搜索引擎机器人Robots名字
 
名称                     搜索引擎
 
Baiduspider            http://www.baidu.com/
 
Scooter              http://www.altavista.com/
 
ia_archiver             http://www.alexa.com/
 
Googlebot           http://www.google.com/
 
FAST-WebCrawler http://www.alltheweb.com/
 
Slurp                  http://www.inktomi.com/
 
MSNBOT            http://search.msn.com/
 
4、 robots.txt举例
 
下面是一些站点的robots.txt:
 
http://www.dotudo.com/robots.txt
 
http://www.google.com/robots.txt
 
http://www.ibm.com/robots.txt
 
http://www.sun.com/robots.txt
 
http://www.eachnet.com/robots.txt
5、 常见robots.txt错误
l         颠倒了顺序:
错误写成
User-agent: *
Disallow: GoogleBot
 
正确的应该是:
User-agent: GoogleBot
Disallow: *
 
l         把多个禁止命令放在一行中:
例如,错误地写成
Disallow: /css/ /cgi-bin/ /images/
 
正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
 
l         行前有大量空格
例如写成
        Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
 
       404重定向到另外一个页面:
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是好能放一个空白的robots.txt文件在站点根目录下。
 
l         采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:
 
l         语法中只有Disallow,没有Allow!
错误的写法是:
User-agent: Baiduspider     
Disallow: /john/
allow: /jane/
 
l         忘记了斜杠/
错误的写做:
User-agent: Baiduspider     
Disallow: css
 
正确的应该是
User-agent: Baiduspider     
Disallow: /css/
 
下面一个小工具专门检查robots.txt文件的有效性:
 
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
 
二、Robots META标签
 
1、什么是Robots META标签
 
Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似:
 
2、Robots META标签的写法:
 
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
 
INDEX 指令告诉搜索机器人抓取该页面;
 
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
 
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
 
这样,一共有四种组合:
 
 
 
 
 
其中
 
可以写成
 
 
可以写成
 
需要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。
 
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
 
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。
 
十一、网站统计系统
 
网站统计系统,对于许多站长来说,应该是很熟悉的。Google的网站统计系统,Yahoo的网站统计系统,中国站长,武林版等等。做为SEO网站优化技术,我们应该时刻关注网站的各种情况,而网站统计系统,就可以为我们提供许多有用的数据。
 
网站的流量。网站的流量对网站的排名有着一定的比重。网站的流量来源。一方面是来自老客户,一方面是来自新客户。老客户,多数是因为网站的信息,功能,服务等各方面而再次访问网站;新客户,来源相对比较复杂,网站的知名度,网站的宣传,网站的排名,网站的外部链接等各方面。
 
时时关注网站的流量,有助于确定我们的网站优化方案的正确性。
 
第一 从网站的点击来源,分析从搜索引擎过来的流量。网站优化中的一个目的,就是要让客户通过搜索引擎找到我们的网站。
 
第二 从搜索引擎的流量中,分析各个搜索引擎数据过来的情况及比例。
 
第三 从搜索引擎的流量中,分析关键字来源,即用户通过哪些关键字到达我们的网站。分析关键字的点击率,即这些关键字中,用户使用多是哪几个。
 
第四 从网站的点击来源,分析从友情链接过来的流量。可以让我们知道,我们建立的友情链接的质量。真正高质量的友情链接能为网站带来可观的流量。而并不是好像链接工厂一样。
 
通过以上这些数据,我们就可以对我们的网站优化的效果得到一些确切的答案。

关键词:海南网站建设 海南网络公司 海南网站制作 海南网页设计

分享到:

←上一篇        下一篇→