操逼无码高清一区二区,91久久久,亚洲国产尤物高清在线观看

當前位置：首頁 > 范文|應(yīng)用文 > IT技術(shù)專欄 > CMS教程

關(guān)于wordpress的robots.txt文件的那些事

來源：易賢網(wǎng) 閱讀：680 次日期：2016-06-21 09:03:59

溫馨提示：易賢網(wǎng)小編為您整理了“關(guān)于wordpress的robots.txt文件的那些事”,方便廣大網(wǎng)友查閱！

安裝完 wordpress站點后關(guān)于robots.txt文件的書寫一直煩惱著很多站長，robots.txt文件協(xié)議又叫搜索引擎機器人協(xié)議，搜索引擎爬蟲在爬取網(wǎng)站的時候，首先會看網(wǎng)站根目錄下是否有robots.txt文件，然后遵循robots.txt協(xié)議爬取網(wǎng)站主希望搜索引擎爬取的內(nèi)容。 robots.txt文件意在告訴搜索引擎爬蟲哪些頁面可以爬取，哪些頁面不能爬取，可以有效的保護用戶的隱私，同時也有利于節(jié)省蜘蛛的帶寬，從而讓蜘蛛爬取更加容易，促進收錄。

先來簡單的說下robots.txt文件的規(guī)則:

1、允許所有的搜索引起爬取任何內(nèi)容

user-agent:*

disallow:

這個意思就是允許所有的搜索引擎爬取所有的頁面，雖然disallow是不允許的意思，但是后面是放空狀態(tài)，這意思是沒有不允許爬取的頁面。

2、屏蔽其中一種或者幾種搜索引擎的爬取，以最近比較火的360綜合搜索為例

user-agent:360spider

disallow:/

user-agent:*

disallow:

前兩行的意思是不允許360綜合搜索蜘蛛爬取任何頁面，后面的解釋見第一點。同理，如果除了屏蔽360綜合搜索也想屏蔽百度蜘蛛，那就在開頭繼續(xù)添加。

3、不允許搜索引擎抓取其中的某些頁面，這邊以不允許所有搜索引擎爬取wordpress的管理后臺頁面為例

user-agent:*

disallow:/wp-admin/

我們都知道，wordpress的管理后臺在根目錄下的wp-admin文件夾里面，在disallow后面加上/wp-admin的意思就是不允許搜索引擎蜘蛛爬取。

至于不允許百度爬取后臺，允許其他搜索引擎爬取后臺，或者不允許360綜合搜索爬取后臺，允許其他搜索引擎爬取后臺等等組合，請參考以上三點內(nèi)容進行組合。

再來說下wordpress的robots.txt文件書寫，其實wordpress的robots文件很簡單，主要看3個要點：

1、網(wǎng)站后臺不要蜘蛛爬取

首先設(shè)置不讓搜索引擎抓取wordpress后臺頁面，這幾乎是每個站長設(shè)置robots.txt文件首要的目的，不僅局限于wordpress，當然，不同的類型網(wǎng)站后臺頁面所在頁面的文件夾名稱不一樣。

2、靜態(tài)化后，動態(tài)url不要蜘蛛爬取

wordpress的url最好還是靜態(tài)化下，因為過多的動態(tài)參數(shù)不利于蜘蛛的爬取。但很多站長在靜態(tài)化url之后，每次發(fā)布文章時，搜索引擎收錄總會同時收錄靜態(tài)的url和動態(tài)的url，這樣明顯會導(dǎo)致文章頁面權(quán)重的分散，而且會導(dǎo)致重復(fù)頁面過多最終受到搜索引擎的懲罰，其實避免這種情況的方法很簡單，那就是在robots.txt文件里面設(shè)置，讓蜘蛛不爬取動態(tài)url，這樣動態(tài)的url就不會被百度收錄。

3、結(jié)尾加上xml格式的網(wǎng)站地圖

在robots.txt的結(jié)尾加上網(wǎng)站地圖，可以讓網(wǎng)站地圖在蜘蛛爬取網(wǎng)站的時候第一時間被抓取，更利于頁面的收錄。

于是，最簡單的wordpress的robots.txt的書寫如下

user-agent:*

disallow:/wp-admin/

disallow:/*?*

#這意思是不抓取中包含?的url，動態(tài)url特征是有?#

sitemap：http://www.yourdomain.com/sitemap.xml

去掉含有#的那行，以及將sitemap中的yourdomain改成你的域名即可，這樣一個wordpress的robots.txt文件就完成了，最后將這文件上傳到根目錄下即可。

robots.txt文件書寫還有幾點需要注意的：

1、斜杠問題

首先開頭的斜杠是一定要的，結(jié)尾有斜杠的話意思是這個目錄下的所有頁面，如果沒有斜杠那屏蔽的既有包括斜杠的，也有不包括斜杠的，比如/wp-admin.html，/wp-admin.php等等頁面(舉例)。這是兩個不同的概念，必須根據(jù)需要考慮后面是否加上斜杠。