網(wǎng)站日志是做SEO時(shí)網(wǎng)站管理員和搜索引擎對(duì)話(huà)溝通的途徑。通過(guò)日志,了解搜索引擎蜘蛛的訪(fǎng)問(wèn)情況。在很多時(shí)間,我們需要查看網(wǎng)站日志。以獲得了解搜索引擎如何爬取咱們的網(wǎng)站。
如何下載日志
通過(guò)FTP訪(fǎng)問(wèn)網(wǎng)站的根目錄??梢钥吹揭粋€(gè)包含log的文件夾,這是存放日志的地方。
如何查看日志
下載、解壓、打開(kāi)日志文件,日志文件內(nèi)容如:
61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)" (注:百度,這部分為本文添加)
203.208.60.43 - - [11/Jan/2009:04:02:43 +0800] "GET /sns/space-13563-do-friend-view-me.html HTTP/1.1" 200 5162 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" (注:Google)
202.160.178.21 - - [11/Jan/2009:04:02:44 +0800] "GET /sns/space.php?uid=323 HTTP/1.0" 200 7535 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)" (注:雅虎)
65.55.220.217 - - [11/Jan/2009:04:02:57 +0800] "GET /ucenter/avatar.php?uid=12373&size=small&type=virtual HTTP/1.1" 301 - "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)" (注:MSN)
日志文件樣板全文下載:
http://edu.seowhy.com/ziliao/wwwlog20090112.log
如何分析日志
蜘蛛名稱(chēng):百度->baiduspider、Google ->Googlebot、Msn ->msnbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider。在日志文件里,搜索以上蜘蛛名稱(chēng)。就可以看到蜘蛛抓取的痕跡。
我們分析的主要點(diǎn)是,HTTP狀態(tài)碼,如以上的200和301。
" 200 5162 " 代表正常抓取,這次抓取了5162個(gè)字節(jié)。
不同的服務(wù)器或虛擬主機(jī)設(shè)置的日志記錄內(nèi)容不同。
有的如:200 0 33834 237 953 我們通過(guò)多看幾條記錄,觀(guān)察規(guī)律,可以判斷第三個(gè)數(shù)字代表字節(jié)數(shù)。
有的如:200 0 0或200 0 64 這是沒(méi)有記錄抓取字節(jié)數(shù)。注意:200 0 0和200 0 64 沒(méi)代表什么問(wèn)題。所謂200 0 64代表要被K的言論沒(méi)有根據(jù),一般的網(wǎng)站都有64代碼。
在日志里,發(fā)現(xiàn)比較多的HTTP狀態(tài)碼是,200(正常)、304(沒(méi)變化)、404(錯(cuò)誤鏈接)。
304代表,自從上次抓取后,該內(nèi)容沒(méi)有更新。一般情況下,網(wǎng)站的圖片經(jīng)常會(huì)返回該值。
404代表,訪(fǎng)問(wèn)的這個(gè)鏈接是錯(cuò)誤鏈接。這個(gè)錯(cuò)誤鏈接,一方面來(lái)自原本存在后來(lái)刪除了網(wǎng)頁(yè),另一方面可能來(lái)自本來(lái)就不存在,但其他人外鏈了這么個(gè)死鏈接。
閱讀本文的人還閱讀了: