1,去除超鏈接,這種最常用。 {dede:trim replace=''}<a([^>]*)>{/dede:trim}
{dede:trim replace=''}</a>{/dede:trim}
如果填成這樣,那就把鏈接的文本也一起去掉了 {dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim}
2,過濾JS調(diào)用廣告,比如GG的廣告,就加個(gè)這樣的: {dede:trim replace=''}<script([^>]*)>(.*)</script>{/dede:trim}
3,過濾div標(biāo)簽。這個(gè)很重要,如果沒過濾干凈則可能使發(fā)布出來的文章版面錯(cuò)位,目前大多數(shù)遇到采集后錯(cuò)位的原因在此。 {dede:trim replace=''}<div([^.]*)>{/dede:trim}
{dede:trim replace=''}</div>{/dede:trim}
有的時(shí)候也需要這樣子過濾: {dede:trim replace=''}<div 選擇器>(.*)</div>{/dede:trim}
4,其它的過濾規(guī)則可以照以上規(guī)律進(jìn)行推出。
5,過濾摘要和關(guān)鍵字使用,經(jīng)常要用到。 {dede:trim replace=''}{/dede:trim}
6,簡(jiǎn)單替換。
{dede:trim replace='替換后的詞語'}要替換的詞語{/dede:trim}
采集的內(nèi)容當(dāng)然也要求搜索引擎收錄,過濾和替換目的是減少重復(fù),進(jìn)行偽原創(chuàng),如何具體的操作,就看個(gè)人的要求與喜好了。
更多信息請(qǐng)查看IT技術(shù)專欄