欧美在线日韩_波波电影院一区二区三区_av一级久久_91久久国产_精品久久久久久久久久久久_久久中文字幕一区

好120健康網(wǎng)-中國(guó)醫(yī)療健康行業(yè)服務(wù)平臺(tái)! VIP快審
首頁 新聞資訊 科技網(wǎng)絡(luò)

帶你玩轉(zhuǎn)robots協(xié)議 robots協(xié)議怎么寫 新手必備

時(shí)間:2017-05-21 15:28 來源:未知 作者:好120健康網(wǎng) 人氣:
【導(dǎo)讀】:2013年2月8日北京市第一中級(jí)人民法院正式受理了百度訴奇虎360違反Robots協(xié)議抓...

    2013年2月8日北京市第一中級(jí)人民法院正式受理了百度訴奇虎360違反“Robots協(xié)議”抓取、復(fù)制其網(wǎng)站內(nèi)容的不正當(dāng)競(jìng)爭(zhēng)行為一案,索賠金額高達(dá)一億元,這可以看做2012年下半年“3B大戰(zhàn)”的繼續(xù)。在此次索賠案件中,百度稱自己的Robots文本中已設(shè)定不允許360爬蟲進(jìn)入,而360的爬蟲依然對(duì)“百度知道”、“百度百科”等百度網(wǎng)站內(nèi)容進(jìn)行抓取。

    其 實(shí)早在2012年11月初,針對(duì)雙方摩擦加劇的情況,在中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)的牽頭下,包括百度、新浪、奇虎360在內(nèi)的12家互聯(lián)網(wǎng)公司已共同簽署了《互聯(lián)網(wǎng) 搜索引擎服務(wù)自律公約》,在公約第七條承諾“遵循國(guó)際通行的行業(yè)慣例與商業(yè)規(guī)則,遵守機(jī)器人協(xié)議(robots協(xié)議)。

    今天就找個(gè)機(jī)會(huì)聊聊一夜成名的robots協(xié)議。

    初識(shí)robots協(xié)議

    什么是robots

    要 了解robots協(xié)議首先要了解robots,本文說的robots不是《I,robot》里的威爾·史密斯,不是《機(jī)器人總動(dòng)員》里的瓦力和伊娃,不是 《終結(jié)者》系列中的施瓦辛格。什么?這些經(jīng)典電影你都不知道?好吧,算我想多了。本文的robots特指搜索引擎領(lǐng)域的web robots,這個(gè)名字可能很多人不熟悉,但是提到Web Wanderers,Crawlers和Spiders很多人可能就恍然大悟了,在中文里我們統(tǒng)稱為爬蟲或者網(wǎng)絡(luò)爬蟲,也就是搜索引擎抓取互聯(lián)網(wǎng)網(wǎng)頁的程序。

    同學(xué)們都知道網(wǎng)頁是通過超級(jí)鏈接互相關(guān)聯(lián)起來的,從而形成了網(wǎng)頁的網(wǎng)狀結(jié)構(gòu)。爬蟲的工作方式就像蜘蛛在網(wǎng)上沿著鏈接爬來爬去,最基本的流程可以簡(jiǎn)化如下:

    1.喂給爬蟲一堆url,我們稱之為種子(seeds)2.爬蟲抓取seeds,解析html網(wǎng)頁,抽取其中的超級(jí)鏈接3.爬蟲接著抓取這些新發(fā)現(xiàn)的鏈接指向的網(wǎng)頁

    2,3循環(huán)往復(fù)

    什么是robots協(xié)議

    了解了上面的流程就能看到對(duì)爬蟲來說網(wǎng)站非常被動(dòng),只有老老實(shí)實(shí)被抓取的份。存在這樣的需求:

    1.某些路徑下是個(gè)人隱私或者網(wǎng)站管理使用,不想被搜索引擎抓取,比如說日本愛情動(dòng)作片2.不喜歡某個(gè)搜索引擎,不愿意被他抓取,最有名的就是之前淘寶不希望被百度抓取3.小網(wǎng)站使用的是公用的虛擬主機(jī),流量有限或者需要付費(fèi),希望搜索引擎抓的溫柔點(diǎn)4.某些網(wǎng)頁是動(dòng)態(tài)生成的,沒有直接的鏈接指向,但是希望內(nèi)容被搜索引擎抓取和索引網(wǎng) 站內(nèi)容的所有者是網(wǎng)站管理員,搜索引擎應(yīng)該尊重所有者的意愿,為了滿足以上等等,就需要提供一種網(wǎng)站和爬蟲進(jìn)行溝通的途徑,給網(wǎng)站管理員表達(dá)自己意愿的機(jī) 會(huì)。有需求就有供應(yīng),robots協(xié)議就此誕生。Robots協(xié)議,學(xué)名叫:The Robots Exclusion Protocol,就搜索引擎抓取網(wǎng)站內(nèi)容的范圍作了約定,包括網(wǎng)站是否希望被搜索引擎抓取,哪些內(nèi)容不允許被抓取,把這些內(nèi)容放到一個(gè)純文本文件 robots.txt里,然后放到站點(diǎn)的根目錄下。爬蟲抓取網(wǎng)站內(nèi)容前會(huì)先抓取robots.txt,據(jù)此“自覺地”抓取或者不抓取該網(wǎng)頁內(nèi)容,其目的是 保護(hù)網(wǎng)站數(shù)據(jù)和敏感信息、確保用戶個(gè)人信息和隱私不被侵犯。

    需要注意的是robots協(xié)議并非是規(guī)范,只是行業(yè)內(nèi)一個(gè)約定俗成的協(xié)議。什么意思呢?Robots協(xié)議不是什么技術(shù)壁壘,而只是一種互相尊重的協(xié)議,好比私家花園的門口掛著“閑人免進(jìn)”,尊重者繞道而行,不尊重者依然可以推門而入,比如說360。

    說了這么多,看幾個(gè)有名的例子感覺一下先:

    例子1:淘寶

    User-agent: Baiduspider

    Disallow: /

    User-agent: baiduspider

    Disallow: /

    程序猿,你懂的。這不就是淘寶不想讓百度抓取嘛例子2:京東

    User-agent: *

    Disallow: /?*

    Disallow: /pop/*.html

    User-agent: EtaoSpider

    Disallow: /

    這個(gè)也不復(fù)雜,京東有2個(gè)目錄不希望所有搜索引擎來抓。同時(shí),對(duì)etao完全屏蔽。

    基本玩法

    robots.txt的位置

    說簡(jiǎn)單也簡(jiǎn)單,robots.txt放到一個(gè)站點(diǎn)的根目錄下即可。說復(fù)雜也有點(diǎn)小復(fù)雜,一個(gè)robots.txt只能控制相同協(xié)議,相同端口,相同站點(diǎn)的網(wǎng)頁抓取策略。什么意思呢?看個(gè)例子最清楚:

    百度網(wǎng)頁搜索

    百度知道

    這兩個(gè)robots.txt的內(nèi)容是不同的,也就是說百度網(wǎng)頁搜索和百度知道的抓取策略可以由自己獨(dú)立的robots.txt來控制,井水不犯河水。

    robots.txt的內(nèi)容

文章標(biāo)簽:
    robots協(xié)議怎么寫,百度robots協(xié)議,360 robots協(xié)議,robots.txt協(xié)
相關(guān)推薦

版權(quán)聲明:

1、本文系會(huì)員投稿或轉(zhuǎn)載自網(wǎng)絡(luò),版權(quán)歸原作者所有,旨在傳遞信息,不代表看本站的觀點(diǎn)和立場(chǎng);

2、本站僅提供信息發(fā)布平臺(tái),不承擔(dān)相關(guān)法律責(zé)任;

3、若侵犯您的版權(quán)或隱私,請(qǐng)聯(lián)系本站管理員刪除。

好120健康網(wǎng) www.quanshucu.cn 皖I(lǐng)CP備19001157號(hào)-13
主站蜘蛛池模板: 亚洲精品一区二区三区在线观看 | 日本一区二区三区免费观看 | 人人澡人人射 | 色猫猫国产区一区二在线视频 | 日韩福利在线 | 国产精品久久久久久久久免费桃花 | 看a网站 | 激情综合网五月婷婷 | 久久亚洲一区二区 | 国产精品a久久久久 | 欧美日韩视频在线 | 蜜桃视频一区二区 | 中文在线播放 | 午夜精品福利一区二区三区蜜桃 | 国产精品久久久久久久久久久久久 | 国产成人午夜 | 久久天堂| 秋霞特色aa大片 | 国产成人99久久亚洲综合精品 | 免费的成人毛片 | 免费黄色小视频 | 99免费视频| 国产精品久久亚洲 | 成人在线免费观看视频 | 国产精品综合久久 | 伊人网视频在线 | 中文字幕日韩在线视频 | 6080yy午夜一二三区久久 | 99精品欧美一区二区三区 | 亚洲欧美在线观看视频 | 国产亚洲精品美女久久久久久久久久 | 午夜视频 | 久久久成人精品 | 欧美午夜一区二区三区免费大片 | 中文字幕 视频一区 | 精品视频一区二区三区在线观看 | 视频一区中文字幕 | 伊人久久精品久久亚洲一区 | 91视频在线播放视频 | av在线电影观看 | 久久情侣视频 |