2008/08/23

這就叫做... 一知半解?

不想被搜到 根目錄下建置robots.txt檔


設定 robots.txt 的方式,只對「君子」搜尋引擎有效,像是Google和Yahoo,不過Google做得更徹底,只要是設定不給搜尋的網址內容,還會把頁庫存檔和搜尋結果都清乾淨,就像新竹科學工業園區勞工育樂中心一樣,只能從別的網頁查到這神秘的育樂中心躲在哪裡。不過還是有「小人」搜尋引擎完全不理 robots.txt 的限制,照樣把整個網站挖得乾乾淨淨,尤其是 mp3/mpg/avi/wmv 這些影音類型的檔案,還特別天天甚至時時來點名確保檔案是否還存在,更差勁的是不用標準的 HEAD 指令,反倒是直接用 GET 把整個檔案再抓回去一次,嚴重浪費網站的對外頻寬。哪一家搜尋引擎這麼流氓?絕對不是「百X」或「X度」這一家,蒸的喔~

另外,一般人是沒辦法把自訂的 robots.txt 傳到網頁底部。以無名小站的部落格為例,網址是 http://www.wretch.cc/blog/userid/這樣,一般使用者頂多可以在 userid/ 這一層做出 robots.txt 這個檔案,然而這是沒有用的,因為搜尋引擎看的是 http://www.wretch.cc/ 這一層的 robots.txt,除非網站是自己架的,或是網站服務業者有讓使用者有個人的自訂網址,要不然是沒辦法在網站 / 這一層放置 robots.txt 的。

沒有留言: