极品分享

开启GZIP对百度快照和收录的影响

  GZIP是很多站长为提高访问速度都开启的一个功能。能极大的压缩HTML源码,压缩比率经常高达80%。大大提高了网站的访问速度。但是很多站长可能还没有发现开启GZIP可能会对百度快照和收录造成影响。
  本人一个站点,于8月份全站改版,一星期后快照、收录恢复正常。后因发现首页内容过多,HTML文件将近400K,准备开启GZIP之前先上网查了下相关的信息,各方面都说百度蜘蛛能正常支持GZIP。于是放心大胆的开GZIP压缩。速度确实提升不少。但是过两天后发现快照停止,每天收录为0。可能是过于信任百度官方声称的支持GZIP。一直在找其它方面原因,毫无头续。这一个月时间里,每天收录为0,快照停止不动,偶尔会回档到之前一个月的,而且百度收录数每天以N*100数量很规律的下降。
  一愁莫展之际,在QQ群听一位朋友说他的站一开GZIP就不收录,关闭GZIP就开始收录。突然想到我的会不会也是因为GZIP的原因。交流过后发现,这位朋友的站点也是开GZIP之后发现快照停止,收录停止,而且收录总数也是不断下降。大胆猜测是不是百度对GZIP的支持并不是很好,或许抓取的页面并没有完全解压缩或是解压缩的过程中造成解压缩后的结果与压缩之前的结果不一致,进而认为抓取的页面与之前收录的变化过大所以停止快照更新。
  既然有了这个猜想,而这一个月时间除了开启GZIP外,网站并无其它改动。于是关闭GZIP压缩后观察,两天后快照更新,并且网站恢复收录,到现在一个多月,快照持续更新,每天收录正常。这更证实了百度对GZIP的支持确实不是很好,也正是因为这个才靠成百度快照和收录停止。
  个人建议:如果你准备开启GZIP压缩,那么最好在建站期就开启这个功能。如果你的网站快照和收录都正常,除非必要,对开启GZIP功能还是谨慎为好。如果发现开启之后快照和收录有停止的迹像,建议将该功能关闭后再观察。

===============================================================================

gzip

iis6开启gzip之后,百度蜘蛛会返回200 0 64,例如

2011-11-18 12:52:03 W3SVC1 GET /note/notesendzy.asp touserid=38279 - 220.181.108.151 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) sbyw.cnzhixue.com 200 0 64 548 257 62

2011-11-18 12:51:58 W3SVC1 GET /info/exerciseinfozy.asp puserid=21196 - 220.181.108.168 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) www.cnzhixue.com 200 0 64 498 260 234

而长期200 0 64的话会导致网站被K,然而自己那台服务器流量基本上满了,必须要优化了。此时,C:\WINDOWS\system32\inetsrv\MetaBase.xml关于gzip的压缩是这样设置的:

HcCompressionDll="%windir%\system32\inetsrv\gzip.dll"
HcCreateFlags="0"
HcDoDynamicCompression="FALSE"
HcDoOnDemandCompression="FALSE"
HcDoStaticCompression="FALSE"
HcDynamicCompressionLevel="9"
HcFileExtensions="htm
js
css
txt
xml"
HcOnDemandCompLevel="9"
HcPriority="1"
HcScriptFileExtensions="asp
html" --注:本站采用伪静态,因此把html写到动态压缩里了
>

HcCompressionDll="%windir%\system32\inetsrv\gzip.dll"
HcCreateFlags="1"
HcDoDynamicCompression="TRUE"
HcDoOnDemandCompression="TRUE"
HcDoStaticCompression="TRUE"
HcDynamicCompressionLevel="9"
HcFileExtensions="htm
js
css
xml
txt"
HcOnDemandCompLevel="9"
HcPriority="1"
HcScriptFileExtensions="asp
html" --注:本站采用伪静态,因此把html写到动态压缩里了
>

HcCacheControlHeader="max-age=86400"
HcCompressionBufferSize="8192"
HcCompressionDirectory="%windir%\IIS Temporary Compressed Files"
HcDoDiskSpaceLimiting="FALSE"
HcDoDynamicCompression="TRUE"
HcDoOnDemandCompression="TRUE"
HcDoStaticCompression="TRUE"
HcExpiresHeader="Wed, 01 Jan 1997 12:00:00 GMT"
HcFilesDeletedPerDiskFree="256"
HcIoBufferSize="8192"
HcMaxDiskSpaceUsage="100000000"
HcMaxQueueLength="1000"
HcMinFileSizeForComp="1"
HcNoCompressionForHttp10="TRUE"
HcNoCompressionForProxies="TRUE"
HcNoCompressionForRange="FALSE"
HcSendCacheHeaders="FALSE"
>
 

对youku.com和sina.com分析过之后,参考 http://seo.chinaz.com/?host=www.youku.com,细心的人会发现Content-Encoding: deflate,即优酷是采用deflate压缩方式。

经过仔细研究之后,终于找到解决方法

HcCompressionDll="%windir%\system32\inetsrv\gzip.dll"
HcCreateFlags="0"
HcDoDynamicCompression="TRUE"
HcDoOnDemandCompression="TRUE"
HcDoStaticCompression="TRUE" --把压缩方式换成了deflate方式
HcDynamicCompressionLevel="9"
HcFileExtensions="htm
js
css
txt
xml"
HcOnDemandCompLevel="9"
HcPriority="1"
HcScriptFileExtensions="asp
html"
>

HcCompressionDll="%windir%\system32\inetsrv\gzip.dll"
HcCreateFlags="1"
HcDoDynamicCompression="FALSE"
HcDoOnDemandCompression="FALSE"
HcDoStaticCompression="FALSE" --把压缩方式换成了deflate方式
HcDynamicCompressionLevel="9"
HcFileExtensions="htm
js
css
xml
txt"
HcOnDemandCompLevel="9"
HcPriority="1"
HcScriptFileExtensions="asp
html"
>

HcCacheControlHeader="max-age=86400"
HcCompressionBufferSize="8192"
HcCompressionDirectory="%windir%\IIS Temporary Compressed Files"
HcDoDiskSpaceLimiting="FALSE"
HcDoDynamicCompression="TRUE"
HcDoOnDemandCompression="TRUE"
HcDoStaticCompression="TRUE"
HcExpiresHeader="Wed, 01 Jan 1997 12:00:00 GMT"
HcFilesDeletedPerDiskFree="256"
HcIoBufferSize="8192"
HcMaxDiskSpaceUsage="100000000"
HcMaxQueueLength="1000"
HcMinFileSizeForComp="1"
HcNoCompressionForHttp10="FALSE" --这里将默认的TRUE改为FALSE
HcNoCompressionForProxies="TRUE"
HcNoCompressionForRange="FALSE"
HcSendCacheHeaders="FALSE"
>
 

iisreset之后,日志里一切正常了。

2011-11-18 13:00:17 W3SVC1 HEAD /material/materialzy.asp materialid=164860 - 220.181.51.94 Baiduspider+(+http://www.baidu.com/search/spider.htm) czjy.cnzhixue.com 200 0 0 481 205 375

2011-11-18 13:00:17 W3SVC1 GET /material/materialzy.asp materialid=164860 - 220.181.51.90 Baiduspider+(+http://www.baidu.com/search/spider.htm) czjy.cnzhixue.com 200 0 0 35418 204 359

2012-06-27 0 /
SEO相关
/
标签: 

评论回复

回到顶部