HTTPS中文譯為安全超文本傳輸協(xié)議,是以安全為目標(biāo)的HTTP通道,簡單講是HTTP的安全版。百度升級了對HTTPS數(shù)據(jù)的抓取力度,以后HTTPS數(shù)據(jù)將更快被蜘蛛抓取到。
有站長問,百度已經(jīng)抓了我的HTTPS頁面了,搜索結(jié)果還替換成了HTTP鏈接,我該怎么辦?
1、一般24小時內(nèi),線上可以實(shí)現(xiàn)HTTPS到HTTP的退回效果。
2、設(shè)置HTTPS的抓取返回失敗碼,或者做HTTPS到HTTP的301&302。
3、短期內(nèi)不打算開放HTTPS的站點(diǎn),可以直接關(guān)閉443端口。
4、使用鏈接提交工具,把HTTP頁面提交,便于百度更快識別頁面。
如何讓百度蜘蛛不斷抓取你的網(wǎng)站
1、網(wǎng)站沒有死鏈接
如果你的網(wǎng)站有很多死鏈接,那么你的網(wǎng)站是很難優(yōu)化上去的。
網(wǎng)站過多的死鏈接非常影響蜘蛛的抓取和搜索引擎對網(wǎng)站權(quán)重排名的評估,也增大了網(wǎng)站服務(wù)器的負(fù)擔(dān),所以要經(jīng)常檢查網(wǎng)站日志是否出現(xiàn)404頁面等,讓蜘蛛在自己網(wǎng)站上暢行無阻。
2、高質(zhì)量的內(nèi)容
高質(zhì)量的內(nèi)容可以吸引蜘蛛經(jīng)常來你的網(wǎng)站,如果你的網(wǎng)站是純采集的,會增加蜘蛛抓取的工作量,從而降低蜘蛛對你網(wǎng)站的敏感性,寧愿更新少的高質(zhì)量內(nèi)容,不要采集或者更新垃圾內(nèi)容。
3、網(wǎng)站代碼簡化
代碼應(yīng)盡可能簡化,最好選擇只屬于你的開源程序。
這是因?yàn)橛械木W(wǎng)站代碼相似度極高,導(dǎo)致蜘蛛不愛爬取,獨(dú)特的程序代碼在同類型的網(wǎng)站更占據(jù)有優(yōu)勢。
4、外鏈資源
外鏈和友情鏈接是吸引蜘蛛來抓取我們的網(wǎng)站的非常大的流量入口。
站長可以到各大博客、論壇等平臺發(fā)布自己的高質(zhì)量外鏈,留下鏈接引導(dǎo)蜘蛛進(jìn)入你的網(wǎng)站。
5、按照時間段更新內(nèi)容
時間段意思是更新網(wǎng)站內(nèi)容時間要一致,例如你每天11.30分更新網(wǎng)站內(nèi)容,那么蜘蛛每天會在11.30分會來爬行抓取你的網(wǎng)站。
如網(wǎng)站還在做HTTPS的改造,且網(wǎng)站數(shù)據(jù)未搭建好,建議網(wǎng)站采取以下措施,避免蜘蛛抓取,以免造成網(wǎng)站流量損失。
1、針對一個服務(wù)器下有多個域名的情況,建議未做HTTPS的網(wǎng)站,設(shè)置HTTPS抓取返回失敗碼,或?qū)TTPS站點(diǎn)301/302到HTTP,避免抓取出現(xiàn)問題。
2、做HTTPS到HTTP的301、302。
3、把HTTPS的協(xié)議封掉,可把443端口關(guān)掉。
4、建議站點(diǎn)在改HTTPS沒改造好之前,不要提供超鏈接指向。
閱讀本文的人還可以閱讀: