查看其它闆塊

火車頭采集器如何過濾掉多(duō)餘的(de)标簽（純正則替換）

來(lái)源：常見問題解疑 - 遠(yuǎn)策科技 | 2022-01-24

火車采集器幾乎所有網頁都能采集，用(yòng)途很廣。比如網站采集内容、采集數據挖掘客戶、輿情監測、文件批量下(xià)載等。我日常主要用(yòng)于網站日常采集文章(zhāng)，今天分(fēn)享下(xià)如何通(tōng)過火車采集器得(de)到一個(gè)”标準“的(de)内容。

這(zhè)裏所謂的(de)标準，是所采集的(de)文章(zhāng)每一個(gè)段落都是，沒有多(duō)餘的(de)HTML标簽和(hé)與主題無關的(de)字符。這(zhè)裏我們可(kě)以通(tōng)過純正則替換達到我們的(de)目的(de)。

以下(xià)爲一些常用(yòng)的(de) 純正則替換規則示例：

清除與正文無關的(de)内容

正則<header>[\s\S]*?</header>|| |規則4|規則5

替換空

如文中的(de)廣告，注釋等。如果發布到一些免費平台，有的(de)HTML特殊字符并不會被轉化(huà)，隻需在末尾加入'|&.*?;'過濾掉最後特殊HTML字符即可(kě)。

隻保留圖片以及常用(yòng)的(de)塊級元素

正則 (?i)<(?!/?h|/?p|/?div|br|img).*?>

替換空

隻保留标題标簽 h 分(fēn)段标簽 p、div、br 以及圖像标簽 img ;前面的(de)(?i)表示不區(qū)分(fēn)大(dà)小寫

把标簽修改爲p

正則<(?!img)(/?)\w+.*?>

替換<$1p>

去掉除了(le)img标簽外的(de)所有标簽的(de)選擇器或樣式，并把标簽修改爲p，如果需要保留其他(tā)标簽可(kě)以參考這(zhè)樣寫 <(?!img)(?!h)(?!/h)(/?)\w+.*?> 這(zhè)裏是保留img和(hé)h标題标簽

改成标準圖像代碼

正則<img.*?src="(.+?)".*?>

替換<img src="$1">

把亂七八糟的(de)圖像樣式，改成标準圖像代碼

規範段落标簽

正則</?p>

替換

規範段落标簽開始結束，某些站個(gè)别文章(zhāng),結束後沒有開始就直接是下(xià)個(gè)段落的(de)内容

段落去除前後空格

正則 \s*(<\/?p>)\s*

替換$1

把或前後的(de)空格替換爲空

去除多(duō)餘P标簽

正則(){2,}|(){2,}

替換$1$2

把連續2個(gè)以上的(de)或替換爲1個(gè)

去除空段落

内容

替換空

把所有的(de)空段落替換爲空，普通(tōng)替換即可(kě)

清理(lǐ)多(duō)餘标簽

正則 ^|$

替換空

由于第五步的(de)關系，文章(zhāng)開頭可(kě)能是結尾可(kě)能是需要清理(lǐ)他(tā)們

其他(tā)可(kě)能用(yòng)到的(de)

過濾英文正則[a-zA-Z]

過濾兩位以上的(de)數字(\d{2,100})

返回首頁了(le)解更多(duō)常見問題解疑

遠(yuǎn)策科技

河北網高科技有限公司以工匠(jiàng)精神打造精緻服務，不循規蹈矩，不驚世駭俗，爲企業互聯網營銷整合方案，服務涵蓋：網站建設、網站推廣、品牌優化(huà)、微信開發、VI設計、視頻(pín)制作等。解決企業互聯網營銷難題，讓企業不再爲推廣而煩惱。

遠(yuǎn)見卓識

10年網站建設推廣經驗

18家優秀合作設計機構

117家品牌長(cháng)期合作共赢

1000+網站建設案例作品

專注營銷型網站建設定制

深厚經驗網站建設團隊

完備的(de)項目流程管理(lǐ)體系

企業一站式網絡推廣服務

策無遺算(suàn)

一路走來(lái)，崇尚創意是我們的(de)活力和(hé)根源，讓客戶滿意是我們工作的(de)目标，不斷超越客戶的(de)期望值源自我們對(duì)這(zhè)個(gè)行業的(de)熱(rè)愛(ài)！遠(yuǎn)策科技結合十年互聯網品牌設計經驗和(hé)整合營銷的(de)理(lǐ)念，将策略和(hé)執行緊密結合，有效提升企業推廣整體表現！

建站公司地址：石家莊市長(cháng)安嘉和(hé)廣場(chǎng)1911、裕華區(qū)ICC環球智慧中心24F | 業務咨詢：131-1155-0088 , 159-3167-7513

河(hé)北(běi)遠(yuǎn)策網絡公司爲您提供石家莊網站建設制作,網站優化(huà)推廣,網站改版托管等 | | |

首頁

網站建設

營銷推廣

微信開發

資訊

案例

聯系

探知 • 創造美(měi)好

查看其它闆塊

火車頭采集器如何過濾掉多(duō)餘的(de)标簽（純正則替換）

快(kuài)捷标簽

多(duō)一份參考，總有益處

遠(yuǎn)策科技

遠(yuǎn)見卓識

策無遺算(suàn)

相關鏈接展開

遠(yuǎn)策 - 建站推廣一站式服務

131-1155-0088

首頁

網站建設

營銷推廣

微信開發

資訊

案例

聯系

關于

Yuan Ce

探知 • 創造美(měi)好

查看其它闆塊

火車頭采集器如何過濾掉多(duō)餘的(de)标簽（純正則替換）

快(kuài)捷标簽

多(duō)一份參考，總有益處

遠(yuǎn)策科技

遠(yuǎn)見卓識

策無遺算(suàn)

相關鏈接 展開

遠(yuǎn)策 - 建站推廣一站式服務

131-1155-0088

微信掃碼 立即咨詢

相關鏈接展開

微信掃碼立即咨詢