造成百度蜘蛛抓取异常的常见原因有哪些?


  有些网站内容用户可以正常访问,但百度搜索Baiduspider却不能正常访问抓取,导致网站关键词搜索结果大量缺失,这种结果无论是对网站还是搜索引擎都是一种损失,百度搜索对于网站页面不能正常抓取的情况称之为“抓取异常”,百度搜索会认为你网站存在用户体验上的缺陷,降低你网站的评分,在网站页面抓取、索引、排序方面都会存在有负面影响,最终影响网站的流量。

造成百度蜘蛛抓取异常的常见原因有哪些?

  下面介绍一些百度蜘蛛抓取异常的常见原因:


  1、服务器连接异常


  服务器连接异常一般有两种情况,一般是网站不稳定,百度搜索蜘蛛抓取你网站页面的时候出现无法抓取的情况,另一种是百度搜索蜘蛛不能正常连接你的网站服务器。


  网站服务器不能正常连接的问题一般是网站服务器负载过大,也有可能是你的网站程序问题,首先检查网站web服务器(IIS或apache)是不是运行正常,并检查网站主页是不是可以正常打开,还要需要检查网站和主机是不是阻止了百度搜索蜘蛛的访问。


  2、网络运营商异常


  网站服务器网络运营商分为电信和联通两种,如果百度搜索蜘蛛无法通过电信或网通网络访问你的网站,出现这种情况,就需要与网站服务器运营商沟通,或者重新购买双线网站服务器空间,也可以购买网站CND服务。


  3、DNS异常


  当出现百度搜索无法解析网站IP地址的时候,就会同现网门dns异常的情况,这种问题可能是你的域名IP解析错误了,也有可能是域名服务商把百度蜘蛛给屏蔽了,这时候我们可以使用whois或者host查询自己的网站域名IP是不是解析正确了,如果是域名IP解析错了,重新解析域名就行了,如果无法解析,就需要联系域名注册商了。


  4、IP封禁


  IP封禁,限制了网站服务器出口的IP地址,禁止了某IP段的用户访问网站内容,这里主要指的是封禁了百度搜索蜘蛛的IP段,这种情况是你不希望百度搜索蜘蛛访问你的网站才需要封禁百度搜索蜘蛛的,如果你希望百度搜索蜘蛛访问你的网站,请需要添加百度搜索蜘蛛IP段,如果你没有封禁百度搜索蜘蛛IP段,也有可能是网站空间服务商把百度搜索蜘蛛IP段给封禁了,这种问题就需要找网站空间服务商解决了。


  5、UA封禁


  UA即为用户代理(User-Agent),网站WEB服务器通过UA识别用户身份,网站针对指定UA访问,返回异常状态码,例如403、500状态码,或者跳转到其它页面,这种情况就称之为UA封禁,这种情况是当你不希望百度搜索蜘蛛访问你网站的时候,才需要设置这个,如果你希望百度搜索蜘蛛访问你的网站,就需要检查网站服务器是否被UA封禁了,如果有就需要及时进行处理。


  6、死链


  页面已经无法打开,该页面已经无法对用户提供任何有价值的信息,这种页面就称之为死链接,死链接包括协议死链和内容死链两种形式:


  1、协议死链,网站页面的TCP协议和HTTP协议状态明确表示的死链,常见状态码有404、403、503;


  2、内容死链,指的是web服务器状态码返回正常,但内容却已经不在了,已经被删除或者需要权限才可以访问内容。


  对于死链,我们建议站长使用协议死链,并通过站长平台向搜索引擎提交死链接地址,可以帮助搜索引擎更快的发现死链,减少死链对用户及搜索引擎造成的负面影响。


  7、异常跳转


  将用户网络访问请求重新指向其它位置,即表示为跳转,异常跳转一般指的是以下几种情况:


  1)当前页面为无效页面,内容已删除或已经成为了死链,直接跳转到了前一级目录或者首页,百度搜索建议将死链接入口页面删除;


  2)跳转到出错或无效页面。


  注意:对于需要长时间跳转到其它域名的情况,例如新域名替换成新域名,百度搜索建议使用301永久重定向进行跳转。


  8、其他异常


  1)针对百度搜索refer的异常,网页针对来自百度的refer返回不同于正常内容的行业;


  2)针对百度UA的异常,网页对百度UA返回不同于页面原内容的行为;


  3)JS跳转异常:网页代码中加载了百度无法识别的js跳转代码,导致用户通过搜索进行网站页面后就发生了跳转行为;


  4)网站抓取压力过大引起的偶然封禁,百度搜索会根据网站的规划、流量等情况,给网站设置一个合理的抓取压力。


  如果网站抓取压力有异常情况,例如网站抓取压力出现失控的情况,这时web服务器会根据自身负荷能力启动临时性的封禁,例如向用户返回“Service Unavailable”,这里百度搜索会过段时间再来重新抓取网站链接,如果此时网站web服务器已恢复正常,则网站页面就会被成功抓取。

Copyright © 2020 - 2021.【一起链】 版权所有