This is 赵峰 | 赵峰之城 | 赵峰的博客 !

Google 网站管理员指南


今天让我们研究一下Google对网站管理员的建议,逐一分析,也来看看其内涵的特别意思。


网站准备就绪后:

+将其他相关网站链接到您的网站上。
+将其提交给 Google,网址为:http://www.google.com/addurl.html。
+将 Sitemap 作为我们 Google Sitemaps(测试版)项目的一部分进行提交。Google Sitemaps 使用您的 Sitemap 了解您网站的结构并提高我们对您网页的利用率。
+确保应了解您网页的所有网站都知道您的网站已处于在线状态。
+将您的网站提交给相关的目录,例如,Open Directory Project 和 Yahoo!,以及其他特定行业的专业网站。



 


这里的先后顺序相信是Google有意安排的,并非排名不分先后。
当网站基本建立完成后,首先要有外部链接,就是需要有其他的网站,相关的网站,链接到你的网站,这是最重要的,也是首先要做的事情。接下来才谈得上其他的网站提交工作。
一个孤岛似的网站,很难要求Google去收录。
好了,现在有了几个外部链接,用你网站的名字,或者关键词链接到你的网站。
下面开始提交你的网站到Google。这一步重要性不再如以前那么重要了。
Sitemap是一个帮助Google蜘蛛来更好的遍历你的网站的工具,不要小看她,还是好好的做一个Sitemap文件,提交到Google Sitemaps.
第四条有点奇怪,我的理解就是重复第一点,加强外部相关网站到你的网站的链接。
最后一条,才是提交到目录,各种行业目录。


显然,Google更看重从相关网站所来的链接,从他重复了两遍,就可以看出其重要性。而从目录来的链接权重要小于前者,当然也很重要。



设计与内容指南

1. 网站应具有清晰的层次结构和文本链接。每个网页应至少可以通过一个静态文本链接打开。
2. 为用户提供一个网站地图,列出指向网站重要位置的链接。如果网站地图上的链接超过或大约为 100 个,则需要将网站地图拆分为多个网页。
3. 网站应具有实用性且信息丰富,网页文字应清晰、准确地表述要传达的内容。
4. 要考虑到用户会使用哪些字词来查找您的网页,确保网站上确实包含了这些文字。
5. 尽量使用文字而不是图像来显示重要的名称、内容或链接,因为 Google 抓取工具无法识别图像中所含的文字。
6. 确保 TITLE 和 ALT 标记具有说明性且表达精准无误。
7. 检查链接是否损坏,并确保 HTML 格式正确。
8. 如果采用动态网页(即网址中包含"?"字符),请注意并非每一个搜索引擎 Spider 都能像抓取静态网页一样抓取动态网页。动态网页有助于缩短参数长度并减少参数数目。
9. 将给定网页上的链接限制在合理的数量内(少于 100)。



 


1. Google对静态文本链接更为友好,所以不要为了花哨,而采用Flash链接。
2. 这个网站地图不同于上面的Google的sitemap,而是给用户看得,不是给Google蜘蛛,要注意区分。
3. 这里提到要文字内容丰富,所以能更好的让Google了解到其主题。
4. 这就是关键词,Google也希望关键词包含在内容里。
5. Google喜欢文字,这样才能识别,才能分析出其关键词。
6. Google特别把TITLE和ALT两个标签拿出来,告诉大家要设定特别的能够说明内容的文字,所以呢,每个页面都要指定一个独特的标题,不要100个页面全是用公司名字,那就浪费了这么好的位置了,对于ALT,特别是对于图片来得,指定这个值,可以让Google了解到这个图片是什么内容,帮助收录。
7. 这个是网站的可用性,如果Google发现你的页面有过多的死链接,他可能会认为你的网站已经很久没有人照料了,没有收录的价值。
8. 这句话就有点匪夷所思了,显然是Google做中文本地化的人员翻译有误。英文原文的意思是要缩短动态网页的参数长度,以及减少参数可以帮助Google收录。
希望大家在看Google的中文内容的时候,要小心,常常会出现中文翻译不知所云的现象。
9. 保持每个网页的链接数目不要超过100。


这里还是给出大家英文原文的链接 Webmaster Guidelines 如果有条件的话,还是要看原文。



现在我们来讲讲技术层面的东西。在这一部分,Google中文的内容简直是惨不忍睹,我还是链接英文原文,加上我的解释好了,至少看得懂。


Technical guidelines技术指南
大部分的搜索引擎蜘蛛拜访你的网站时候,如同一个文本浏览器,比如Lynx,你可以下载一个Lynx浏览器,看看你的网页在Google蜘蛛的眼中是什么样子。如果由于你使用了Javascript、Cookie、会话ID、框架等复杂的技术,造成在文本浏览器中看不到你希望的样子,那么,显然Google的蜘蛛也看不到。所以要避免这种状况出现。

在Google蜘蛛抓取你的网页的时候,要避免使用会话ID,session ID,这个东西会造成Google抓取网页不完全。


Update:10月25日,Google修改了这条,可以接受参数,尽量简短,不要超过两个,如果可以得话,还是用静态网址的好。

 


如果你的网站所在的WEB服务器支持if-Modified-Sice HTTP头,那么就打开它,可以告诉Google蜘蛛哪些网页是新的要抓取,那些是旧的不用抓取,这样可以节省你的带宽和服务器开销。


要设置好网站的robots.txt,这个文件是用来告诉搜索引擎的蜘蛛,那些目录可以抓取,那些不可以。要注意的是,确保该文件正确反映你的网站的现状,不要阻止蜘蛛抓取你想给它抓取得目录。你也可以在使用Google Sitemaps的工具来分析。


如果使用了内容管理系统CMS,那么也要确保其能正确导出内容,以便搜索引擎的蜘蛛可以抓取你的网站。


切勿使用"&id="作为网址的参数,因为Google不会在索引中包含这些网页。


从上面的六条内容来看,文本内容很重要,确保您的网站在文本浏览器的样子是你所期望的。
不要使用太多花哨的技术,这样不利于Google的收录。
而且会话ID是Google很不喜欢的。




质量指南
这个质量指南很重要,可是,Google简体中文的译本,再次让我失望,下面简短的两段话,有好几处误译,我都一一给与纠正了,同样,如果你需要看Google的所谓简体中文的内容,发现有不明白的地方,希望对照着他们的英文原文来看,或者对照繁体中文,繁体中文的译本还是比较准确的。


这些质量指南涵盖了最常见的作弊形式或操纵行为,对于未列出的其他误导行为(例如,通过注册知名网站的错拼形式来欺骗用户),Google 同样会予以拒绝。不要抱有侥幸心理,认为某种欺骗手段未在本页中列出,Google 就会认可该手段。作为网站管理员,与其花费大量时间寻找漏洞加以利用,不如尽其所能维护基本原则,以便为用户带来更好的体验,从而使网站获得更高的排名。如果您认为其他网站违反了Google 质量指南,请通过 http://www.google.com/contact/spamreport.html 举报该网站。Google 希望能开发出灵活的自动解决方案来解决上述问题,从而尽量避免来人工一一处理违禁行为。我们收到的举报,将用于创建灵活的算法以识别并阻止以后的其他类似欺诈企图。

质量指南 - 基本原则
1)面向用户来创建网页,而不是为了搜索引擎。如果同一个页面,显示给用户的和搜索引擎的内容不相同,这种欺诈手法称之为“伪装”。
2)要避免为了提高排名而采用一些诡计。一个简单的来判断是否诡计的方法是,您是否可以坦然地对竞争对手说出你的作为。或者您自问如果没有搜索引擎,您是否还会这样做。
当然我看来,这种问法有点问题,必要的针对搜索引擎的手段还是需要的,这种手段只是为了帮助搜索引擎能够更好的找到有用的内容,比如上面提到的Google Sitemaps。
3)很多时侯,需要外部的链接,如果这种链接,纯粹是为了提高排名或者PageRank,那么不会有好处,特别当你链接到一个受到Google处罚的网站时,后果会不好。
4) Google不鼓励大家使用自动提交的程序,当然手工做就没有问题。


质量指南 - 具体指南
这里Google明确列出了几项禁止的做法:
不要使用隐藏文本,隐藏链接,伪装,欺骗性的重定向。
不要向Google发送自动查询。
不要用不相干的词来载入网页。
不创建包含大量重复内容的多个网页,二级域名,或多个域名。
不要含有病毒,木马或者恶意程序。
不要采用针对搜索引擎的桥页。也不要采用哪些所谓联盟计划,因为其中没有多少原创内容,几乎都是复制内容。



Tags: 资料收集, 学习

« 上一篇 | 下一篇 »

只显示10条记录相关文章