因为要到一家互联网公司参加自然语言处理实习生面试,对于岗位要求中提到的工作内容--"网页正文内容提取"的相关知识进行了一下突击。重点看了一下网页正文提取所涉及到的各种算法,网上的内容很多,我只是看了其中一小部分,对各类算法做了一个简单的了解,不敢说对其做一个综述,只是以一个学习者的学习习惯来记录我对网页正文提取算法的浅认识,本文并不会对算法进行详细的步骤讲解,只提思路和思想。

  为什么要进行正文提取?

  对于一个单独的网页,往往最有价值的部分是网页的正文。然而就现在的大多数的网站...

阅读全文...

基于机器学习的算法

这类算法使用机器学习模型来识别网页中的文章内容。它们通常会训练模型来识别文章内容的语义特征,例如文本的主题、关键词和句子的结构。这类算法的优点是可以适应各种类型的网页,并且可以随着时间的推移提高准确性。

一些常用的基于机器学习的网页内容提取算法包括:

  • 基于支持向量机的算法:这类算法将网页内容表示为特征向量,然后使用支持向量机来区分文章内...

    阅读全文...