?搜索引擎通過一種程序robot(又稱spider),自動訪問互聯網上的網頁并獲取網頁信息
您可以在您的網站中創建一個純文本文件robots.txt,在這個文件中聲明該網站中不想被robot訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內容
robots.txt(統一小寫)是一種存放于網站根目錄下的ASCII編碼的文本文件,它通常告訴網絡搜索引擎的漫游器(又稱網絡蜘蛛),此網站中的哪些內容是不能被搜索引擎的漫游器獲取的,哪些是可以被(漫游器)獲取的
因為一些系統中的URL是大小寫敏感的,所以robots.txt的文件名應統一為小寫
robots.txt應放置于網站的根目錄下
如果想單獨定義搜索引擎的漫游器訪問子目錄時的行為,那么可以將自定的設置合并到根目錄下的robots.txt,或者使用robots元數據
Robots.txt協議并不是一個規范,而只是約定俗成的,所以并不能保證網站的隱私
注意Robots.txt是用字符串比較來確定是否獲取URL,所以目錄末尾有和沒有斜杠"/"這兩種表示是不同的URL,也不能用"Disallow
*.gif"這樣的通配符
其他的影響搜索引擎的行為的方法包括使用robots元數據
這個協議也不是一個規范,而只是約定俗成的,通常搜索引擎會識別這個元數據,不索引這個頁面,以及這個頁面的鏈出頁面robots.txt文件放在哪里?robots.txt文件應該放在網站根目錄下
舉例來說,當robots訪問一個網站時,首先會檢查該網站中是否存在這個文件,如果機器人找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍
來源
360站長平臺
請立即點擊咨詢我們或撥打咨詢熱線: 18942620423,我們會詳細為你一一解答你心中的疑難。項目經理在線