当前位置:380元网站建设 虎网站 > seo 优化 > 正文

怎么建设一个符合优化的网站

发布日期:2018-08-21

如何正确识别 Baiduspider 移动 ua

  • 新版移动 ua: Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  • PC ua: Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 之前通过 “+http://www.baidu.com/search/spider.html” 进行识别的网站请注意!您需要修改识别方式,新的正确的识别 Baiduspider 移动 ua 的方法如下:

  • 通过关键词 “Android” 或者 “Mobile” 来进行识别,判断为移动访问或者抓取。

  • 通过关键词 “Baiduspider/2.0”, 判断为百度爬虫。

另外需要强调的是,对于 robots 封禁,如果封禁的 agent 是 Baiduspider,会对 PC 和移动同时生效。即,无论是 PC 还是移动 Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个 url,PC ua 打开的时候是 PC 页,移动 ua 打开的时候是移动页),想通过设置 robots 的 agent 封禁达到只让移动 Baiduspider 抓取的目的,但由于 PC 和移动 Baiduspider 的 agent 都是 Baiduspider, 这种方法是非常不可取的。

如何识别百度蜘蛛

百度蜘蛛对于站长来说可谓上宾,可是我们曾经遇到站长这样提问:我们如何判断疯狂抓我们网站内容的蜘蛛是不是百度的?其实站长可以通过 DNS 反查 IP 的方式判断某只 spider 是否来自百度搜索引擎。根据平台不同验证方法不同,如 linux/windows/os 三种平台下的验证方法分别如下:

  1. 在 linux 平台下,您可以使用 host ip 命令反解 ip 来判断是否来自 Baiduspider 的抓取。Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。 

  2. 在 windows 平台或者 IBM OS/2 平台下,您可以使用 nslookup ip 命令反解 ip 来 判断是否来自 Baiduspider 的抓取。打开命令处理器 输入 nslookup xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 来判断是否来自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。

  3. 在 mac os 平台下,您可以使用 dig 命令反解 ip 来 判断是否来自 Baiduspider 的抓取。打开命令处理器 输入 dig xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 来判断是否来自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。

Baiduspider IP 是多少

即便很多站长知道了如何判断百度蜘蛛,仍然会不断地问 “百度蜘蛛 IP 是多少”。我们理解站长的意思,是想将百度蜘蛛所在 IP 加入白名单,只准白名单下 IP 对网站进行抓取,避免被采集等行为。

但我们不建议站长这样做。虽然百度蜘蛛的确有一个 IP 池,真实 IP 在这个 IP 池内切换,但是我们无法保证这个 IP 池整体不会发生变化。所以,我们建议站长勤看日志,发现恶意蜘蛛后放入黑名单,以保证百度的正常抓取。

同时,我们再次强调,通过 IP 来分辨百度蜘蛛的属性是非常可笑的事情,所谓的 “沙盒蜘蛛”“降权蜘蛛” 等等是从来都不存在的。

robots 写法

robots 是站点与 spider 沟通的重要渠道,站点通过 robots 文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎收录网站上所有内容,请勿建立 robots.txt 文件。

robots 文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以 CR,CR/NL, or NL 作为结束符),每一条记录的格式如下所示: <field>:<optional space><value><optionalspace>

在该文件中可以使用#进行注解,具体使用方法和 UNIX 中的惯例一样。该文件中的记录通常以一行或多行 User-agent 开始,后面加上若干 Disallow 和 Allow 行 , 详细情况如下:

  • User-agent:该项的值用于描述搜索引擎 robot 的名字。在 "robots.txt" 文件中,如果有多条- User-agent 记录说明有多个 robot 会受到 "robots.txt" 的限制,对该文件来说,至少要有一条 User-agent 记录。如果该项的值设为 ,则对任何 robot 均有效,在 "robots.txt" 文件中,"User-agent:" 这样的记录只能有一条。如果在 "robots.txt" 文件中,加入 "User-agent:SomeBot" 和若干 Disallow、Allow 行,那么名为 "SomeBot" 只受到 "User-agent:SomeBot" 后面的 Disallow 和 Allow 行的限制。

  • Disallow:该项的值用于描述不希望被访问的一组 URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以 Disallow 项的值开头的 URL 不会被 robot 访问。例如 "Disallow:/help" 禁止 robot 访问 /help.html、/helpabc.html、/help/index.html,而 "Disallow:/help/" 则允许 robot 访问 /help.html、/helpabc.html,不能访问 /help/index.html。"Disallow:" 说明允许 robot 访问该网站的所有 url,在 "/robots.txt" 文件中,至少要有一条 Disallow 记录。如果 "/robots.txt" 不存在或者为空文件,则对于所有的搜索引擎 robot,该网站都是开放的。

  • Allow:该项的值用于描述希望被访问的一组 URL,与 Disallow 项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以 Allow 项的值开头的 URL 是允许 robot 访问的。例如 "Allow:/hibaidu" 允许 robot 访问 /hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有 URL 默认是 Allow 的,所以 Allow 通常与 Disallow 搭配使用,实现允许访问一部分网页同时禁止访问其它所有 URL 的功能。

  • 使用 "*"and"$":Baiduspider 支持使用通配符 "" 和 "$" 来模糊匹配 url。 "" 匹配 0 或多个任意字符 "$" 匹配行结束符。

最后需要说明的是:百度会严格遵守 robots 的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对 robots 中所写的文件和您不想被抓取和收录的目录做精确匹配,否则 robots 协议无法生效。

robots 需求用法对应表

上面说了那么多理论,有没有简单对照表格告诉我,怎样的需求场景下应该怎样撰写 robots 文件?有的:

除 robots 外其它禁止百度收录的方法

Meta robots 标签是页面 head 部分标签的一种,也是一种用于禁止搜索引擎索引页面内容的指令。目前百度仅支持 nofollow 和 noarchive

  • nofollow:禁止搜索引擎跟踪本页面上的链接
    如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的

    部分:<meta name="robots" content="nofollow">
    如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:<a href="signin.php" rel="nofollow">signin</a>
    要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的

    部分:<meta name="Baiduspider" content="nofollow">

    怎么做好一个好的标题

        如武林高手一样行云流水。有机构专门统计大多数网民的浏览习惯,发现一个用户来到某个站点,只有3~5秒的时间可以用于被说服。如果在这3~5秒内,来访者被网站说服,就继续停留下来深入浏览,如果不能被说服,那就离开正是这种看起来很匆忙的测览方式,决定网站内容建设者必须依靠标题来打动测览者,让他们产生下一步继续浏览的冲动。 注意:这里的标题,并不是单指文章页的标题,也可以是广告标题、电子邮件标题等 一...

           天津喜临门家政保洁与虎网站签约网站建设合作协定 喜临门选用虎网站响应式自适应网站案例,此类案例是当今新潮流的网站程序,他除了具备商务型所有功能外,他的特点在于能自动识别互联网和移动网终端设备,既能适用在电脑上浏览同时又适用在平板电脑和各款手机上浏览都能自适应屏幕大小,是企业官网的选择佳品。喜临门处于天津市和平区天津自贸试验区(中心商务区)滨海华贸中心-1118。喜临门是经天津市和平区工商局审核的正规企业,统一社会信用代码:91120118MA0...

           如何提高公司网站制作的质量? 现在处于网络飞速发展的时代,在现在这个拼网络的时代我们每个人都不能置身事外,现在我们不只单单的要做网络,而且我们同时希望自己网站的质量提高,那么如何提高公司网站制作的质量? 第一、建设网站前的市场分析 AB模板王告诉大家,在建设网站之前,要好好分析一下相关行业的市场是怎样的,然后结合自身的条件分析,给网站制定一个合理的规划。 第二、选择一个独立稳定的服务器 有的站长为了节约成本,使用了一个低廉的服...

           中外企业网站设计差异 在如今的网站建设中,人们越来越关注网站的风格,网站的风格不同,带给浏览者的体验就不同。在一个完整的网页中,无论是网页中的图片、文字还是动画,都属于网页风格的部分,是网站开发者需注意的重要问题。 页面结构的特点 1.国外企业网站页面结构。欧美网站的风格别具特色通常情况下,阿站结构简单,没有复杂的设计思路,用户在浏览过程中能方便地找出重点信息。近几年来,欧美网站的导航总是与 hanner在同一区域内,...

           怎么看链接的广泛性(一) 怎么看链接的广泛性(一)   链接广泛度或称链接普遍度,是对其他网站链接到你的网站的数量好质量的衡量。它的建立,是搜索引擎从根据网页自身的因素(no-page-factors)来评定一个网站的好坏转移到网页之外因素(off-page-factors)的一个标志。

           路漫漫其修远兮,网站建设仍需努力 网络席卷整个互联网,广州网站建设迎来新一轮的改革大潮。网络的意气风发也使得各种电子商务争相都来借用网络这个交互平台开展自己的业务。广大商家和各大企业也纷纷在网上建立了自己的企业网站,这已经成为了他们宣传自己、推广自己的产品和服务的有效方式之一。   网站建设作为一种新的宣传推介手段,存在于网络之上已经不稀奇了。网站建设作为企业与广大用户的交流窗口,使得用户得到更好的体验,良好的服务功能也有利于提升...

最新模板
少儿英语培训机构网站建设 培训公司网站建设
成人自考网站建设 成人培训网站制作设计版面
智能家居摆设设计网站建设 智能家居装修企业网站建设
铜螺母,铜螺丝,螺栓,螺钉工厂网站建设
废气处理设备,如活性炭吸附箱、RTO蓄热式氧化处理设备、光氧等离子复合设备 低温等离子设备 光氧催化设备等网企业网站建设
图文阅读