网站Robots.txt和Sitemap.xml优化技巧小Q网络营销

相信每位站长对robots.txt和sitemap.xml都不陌生，因为这是每个网站都必不可少的两个部分，主要辅助搜索引擎蜘蛛爬取收录我们想要让搜索引擎收录的内容（好像有点饶，多读几遍就不饶了，哈哈）以及屏蔽掉我们不想让它收录的内容，我们通常比较关注网站内容、外链、TDK正确抒写等主要部分，这些确实很重要，但也不能忽略sitemap.xml和Robots.txt这些细节的重要性。

很多新手站长在搭建好网站的时候（特别提醒：网站上线前做好站内优化至关重要，站内优化详解请访问：http://www.v5site.com/archives/22）都是直接在线搭建的，也没做任何防护措施，前前后后反复修改调整，等网站搭建好了，你会发现网站被收录了很多不想让它收录的页面，或者是什么都还没来得及做网站就被惩罚了，亦或者网站内容迟迟不收录等一些在新手站长看来非常难以理解的问题。网站刚出生，就各种先天畸形和先天性遗传病，为后期的推广优化带来诸多麻烦。

这些先天性的问题，其实非常容易避免的，只要掌握了robots.txt和sitmap.xml的优化小技巧，这些都不是事儿。

下面小Q就为大家详细讲解下sitemap.xml和robots.txt的优化技巧，以尽量减少新站的先天性遗传病。

网站robots.txt优化的技巧：
在开始说robots.txt的优化技巧之前，我们还是简单的扫个盲，说下它是干什么用的：
robots.txt文件是专门给搜索引擎看的，告诉搜索引擎蜘蛛哪些页面可以爬行收录，哪些不能爬行收录。任何搜索引擎蜘蛛来到一个网站，首先去看的就是该站点的robots.txt文件，robots.txt就是搜索引擎爬行网站的准许证，在拿到了准许证后，搜索引擎蜘蛛才根据网站的结构和sitemap.xml文件来爬行你的网站。

在搞清楚了robots.txt的作用之后，我们再来简单说说网站Robots.txt的优化小技巧：

1 . 非实质内容页面及目录在robot.txt标注禁止搜索引擎抓取：
非实质性内容为什么要禁止搜素引擎抓取呢？原因在于每次搜索引擎来到一个站点，在该网站上停留及爬行的时间都有限，我们需要确保搜索引擎爬行及收录我们网站上最有价值的页面。通过这些有价值的内容页面给我们带来更多流量，如果有些目录和页面就算被搜索引擎爬行收录了也带不来流量，反而占用了搜索引擎搜索你其他有价值页面的机会，那就得不偿失。
这些目录和页面常见的有：
（1）管理后台、被加密的目录：这些若被搜索引擎爬行并收录了对你无疑是个灾难。
（2）功能目录，注册，登录，收藏，打印等无价值的页面。
（3）其他各种乱七八糟的页面：价格筛选、颜色筛选、类别页面每页展示个数变换等等形形色色的页面，这些乱七八糟的页面有很多其他办法去解决，如canonical、JS等，也可以根据实际情况需要使用robots.txt去禁止这些页面收录。

2. 在robots.txt中亮出你的sitemap.xml文件:
如上文所说，搜索引擎蜘蛛来到一个网站会首先去看robots.txt文件，在robots.txt文件中亮出sitemap.xml，推荐搜索引起蜘蛛去爬行你的sitemap.xml，确保搜索引擎蜘蛛能充分及时的收录你sitemap.xml中重要页面。

具体做法是在robots.txt文件中加入如下的一行文字：
Sitemap: http://www.domain.com/sitemap.xml

在此小Q也忍不住想提醒一下新手站长们：新搭建的网站，在站内优化和内容建设没做好之前，一定要记得使用robots.txt禁止搜索引擎蜘蛛抓取网站数据，等一切完善好，再开放给搜索引擎收录。很多新手朋友在搭建网站的时候由于没有很好的规划，也不知道在本地先做好测试，直接绑定了域名后就在服务器上开干，网站搭建了推倒，推倒了再重新建，如此反复，最后等网站建好了想要推广的时候，发现网站被收录的乱七八糟，更有甚者刚建好就被谷歌惩罚了，经常会有这样的站长朋友找到小Q，说他刚上线的新站就怎么怎么了，最后简单沟通后发现，很多都是这些原因造成的。

网站sitemap.xml优化的技巧：
sitemap.xml文件也主要是提供给搜索引擎看的，告诉搜索引擎哪些页面需要被抓取索引，哪些页面需要优先抓取索引，以及每个页面需要以怎样的频率被抓取。

1 不管你的网站是不是已经被收录，sitemap.xml都是必须设立的文件，以便于让搜索引擎能更有效率的抓取你网站上的内容。

2. sitemap.xml文件最好放在网站根目录下面。
许多网站系统可以自动生成sitemap文件，但是存储的名称和位置可是多种多样：比如ecshop默认生成的sitemap文件命名为sitemaps.xml；dedecms系统生成的sitemap文件就位于data/rss/目录之下，名称也是以数字命名的。这些都不是规范的，搜索引擎默认的格式是你根目录下的sitemap.xml文件。也就是说，搜索引擎来到你网站的时候会自动寻找你的sitemap.xml文件，而不是其他目录或其他名称的文件。

3. 在robots.txt文件中亮出你的sitemap.xml文件：
这一点我们在上面已经说过了，如果你的sitemap不是以sitemap.xml命名或者说有些搜索引擎不会去网站根目录下寻找sitemap.xml，那么我们在网站根目录下的robots.txt文件直接亮出sitemap.xml文件，那么谷歌爬行和抓取你sitemap.xml里面的内容就变得非常方便了。

Ok，上面说完了理论，我们来看一个实操例子，在sitemap.xml中同时也添加了对应的移动端：
<url>
<loc>http://www.domain.com/product-name.html</loc>
<xhtml:link rel=”alternate” media=”only screen and (max-width: 640px)” href=”http://m.domain.com/product-name.html” />
<lastmod>2017-03-02</lastmod>
<changefreq>hourly</changefreq>
<priority>0.8</priority>
</url>
接下来，我们再来看看平时工作中比较常遇到的一些问题：
1 sitemap.xml的提交与更新：大部分开源程序是有自动更新功能的，一开始设置好规则即可，后续网站每次更新调整，sitemap.xm也会同时更新。但也有很多是没有自动更新功能的，这个时候就需要我们手动更新和提交了，那么一般来说多久更新提交一次好呢？
（1）新站上线、或站内有重大修改调整、或短期新增大量页面的时候更新提交一次。
（2）若一直保持一定的频率增加页面，则根据情况每周或者每两周更新一次。
（3）重点、重点、重点：若删减了页面，或产品下架的时候，记得及时更新sitemap.xml，把删减或者下架的页面URL从sitemap.xml中去掉。因为我们在前面说了，放在sitemap.xml中的URL都是我们希望谷歌去爬取收录的，若你sitemap.xml中存在大量的不存在的页面，那就相当于你告诉谷歌来抓取你这些不存在的页面，这不就相当于调戏谷歌么？调戏它可没什么好结果的。

2 sitemap.xml中禁忌哪些链接？
（1）长期存在已经删减掉的URL：即上一条中提到的。
（2）错误的URL：人为失误或者系统造成的大量错误URL
（3）无价值的页面URL：如注册页面、登录页面…..
我们在之前说了，谷歌每次抓取的时间和数量有限，如果你在sitemap.xml中放入了大量的错误或者无价值的页面，不断降低站点在谷歌眼中的信任值，也造成重要页面无法被及时抓取收录等后果。

在这篇文章中小Q没有给大家列举各种情况下的robots.txt文件具体怎么写，因为在之前的一篇博文中已经列举过了，对这一块不了解的可以翻看小Q以前的博文，或者百度一下就会有大把的例子，这里主要是针对过往被问到比较多的问题给大家一些思路和建议。

另外关于sitemap.xml也只是丢了一个小例子，若不会操作的，直接丢给程序员即可，你只要能清晰的知道该放哪些链接，不该放哪些链接，以及怎么样放最好即可，等程序员做好你去验证是否做对了就OK。

关于“网站Robots.txt和Sitemap.xml优化技巧” 还有不清楚的？那就扫描我们下方二维码关注我们后给我们留言吧。

您必须 登录 才能发表评论！

您必须登录才能发表评论！