第一點(diǎn):蜘蛛的爬行和抓取
就是搜索引擎派出一個(gè)“人”以用戶的身份去訪問你的網(wǎng)站,這個(gè)“人”我們通常叫它為蜘蛛,或者叫它機(jī)器人。在搜索引擎出現(xiàn)的前期,蜘蛛最開始是從人為選取的網(wǎng)站做為出發(fā)點(diǎn)開始爬去的,這些人為選取的網(wǎng)站都是值得信賴的,然后在從這人為選取的網(wǎng)站里面提取新出現(xiàn)的域名地址開是爬取,這個(gè)過程叫做爬行,從此蜘蛛對(duì)新網(wǎng)站的抓取就開始呈幾何式增長,可以這么說,反向鏈接已經(jīng)成為搜索引擎優(yōu)化的基本因素之一,要是沒有方向鏈接的話,搜索引擎很難發(fā)現(xiàn)新出現(xiàn)的頁面,那時(shí)候就不用談優(yōu)化了,連頁面都沒有怎么去優(yōu)化,還怎么去排名?既然是以用戶的身份訪問,那么蜘蛛就會(huì)對(duì)頁面內(nèi)容產(chǎn)生印象,它就會(huì)把頁面內(nèi)容帶走也就是抓取保存到自己的數(shù)據(jù)庫中。
第二點(diǎn):頁面索引
無論是谷歌還是百度只要是搜索引擎它們都有自己的一套索引模式,它們會(huì)把儲(chǔ)存在自己數(shù)據(jù)庫中的網(wǎng)頁文件分解開來,按照自己的索引模式進(jìn)行分析,拋開無法識(shí)別或者認(rèn)為不重要的內(nèi)容后,用海量的表格形式出入數(shù)據(jù)庫,在索引數(shù)據(jù)庫中被記錄下來的基本有頁面內(nèi)容、關(guān)鍵詞出現(xiàn)的位置和頻率、字體大小、字體顏色等。
第三點(diǎn):關(guān)鍵詞處理
當(dāng)你輸入一個(gè)關(guān)鍵詞搜索后,搜索引擎就會(huì)對(duì)你說輸入的詞語進(jìn)行處理和分析,比如百度特有的中文分詞技術(shù)(百度可是申請(qǐng)專利了的),不知道谷歌有沒有,我想應(yīng)該會(huì)有的,估計(jì)叫中文詞干技術(shù),上面純屬YY,繼續(xù)說,扯到什么地方了?我看看先,哦,從分詞技術(shù)開始,好像涉及到分詞技術(shù)去了?打住,只淺談,哈哈。最后在YY一句,搜索引擎對(duì)關(guān)鍵詞的處理要非常的迅速,無論處理步驟有多復(fù)雜都要以最快的速度處理完。
第四點(diǎn):搜索排名
把第三點(diǎn)拿下來再說,當(dāng)搜索引擎對(duì)關(guān)鍵詞進(jìn)行自家技術(shù)處理后,就開始正式排序了,它會(huì)沖索引列表中找出所有包含用戶搜索的關(guān)鍵詞的網(wǎng)頁,并再根據(jù)自己家的算法進(jìn)行排序,就是把誰排在前面誰排在后面,這個(gè)復(fù)雜程度我是一般人無法想象的,世界上做搜索的也就那么幾家要是很簡單估計(jì)也沒什么人去研究了。