robots.txt文件可以有效的屏蔽搜索引擎抓取我們不需要被抓取的頁面和網站源文件,其中的好處是限制搜索引擎過多的抓取不必要的內容,減少搜索引擎蜘蛛進行不必要的網站爬尋分散,也是為了讓我們的網站不必要的內容不在搜索引擎被收錄,不讓別人搜索到。 其中什么樣的文件會被限制抓取呢?
一、是否通過robots.txt來屏蔽動態頁面,減少頁面的重復抓取?
其實個人建議普通網站不必要進行動態頁面的屏蔽,搜索引擎一般會自動判斷是否重復,普通網站內容并不是非常多,一般出現重復頁面的可能性也比較低,如果是信息站和論壇站等建議屏蔽動態頁面。
二、robots.txt屏蔽特殊頁面,隱私內容的屏蔽。
robots.txt屏蔽特殊頁面,網站隱私內容的屏蔽,其實對于一個網站來說,隱私內容比較難實現,在無程序支持的前提下,這里說的隱私是指一些不想被流傳到互聯網的內容,屏蔽搜索引擎蜘蛛避免在互聯網被泛濫,如:網絡培訓班培訓資料。
三、網站特殊文件夾屏蔽
特殊文件夾一般是指,網站程序安裝文件,動態功能頁面,多于的文件夾,后臺功能等。
robots.txt文件的好處剛才也說了,就是提供搜索引擎蜘蛛看的,告訴它哪些文件你不要看,不給你的,這是它的優點,但是robots.txt在告訴搜索引擎蜘蛛的同時,也在告訴其他人,這個網站的隱私,比如:網站后臺文件夾地址,相信很多站長都會在robots.txt上面填寫,如:Disallow:/dede/ 從這里我們可以看錯應該是織夢程序,當然我們可以更改。
網站屏蔽的安裝文件地址,如:Disallow: /install/ 這一般是程序安裝文件的地址,就算我們后臺地址更改后一樣能分析出是什么程序做出來的。
屏蔽網站后臺登錄地址,如:Disallow: /login.asp 這樣就明顯告訴有心人你的后臺登錄地址了。
屏蔽網站隱私內容,如:Disallow: /123.html 也只是針對搜索引擎,對人為我們還是有風險。
上面說的幾點都是出于安全性的考慮,那我們還寫不寫robots.txt呢?
根據我個人的操作來說,robots.txt還是要些的,畢竟優化很多時候離不開他,但是對于網站安全我們也要采取一些必要的措施與手段,那我們只能在程序的安全性上做手腳了,但要怎么做這手腳是程序員發揮作用的時候了,比如會員功能等。
其次,為了不告知他人我們的隱私,那么我們可以在robots里用“*”來隱藏我們的文件名。
從上圖可以見,我們可以完全不暴露自己的文件名了,同時也能夠對搜索引擎蜘蛛進行屏蔽!
*