行健网络

?找回密码
?立即注册
查看: 3296|回复: 1
打印 上一主题 下一主题

向量空间模型中文档的表示方法

[复制链接]
跳转到指定楼层
楼主
发表于 2014-12-29 12:58:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

搜索引擎是怎样提取关键词与摘要,又是怎样判断文档之间的相似性并进行文档的分类与聚类,又是怎样进行信息检索的,列出这么一大堆与搜索相关的技术,并不是今天的这一个主题能够实现的,但是不得不承认今天所讲的主题是上述相关技术的基础——向量空间模型。

向量空间模型(VSM: Vector Space Model)听说是德国人Gerard Salton教授提出来的,这真是一个伟大的发明!表示致敬。作为文档表示工具,它把每篇文档看成是由t维特征组成的一个向量,当然,特征best365官方的定义可以采取不同的方式,可以是词、词组与N-gram片段等多种形式,但最常用的还是用单词作为文档的特征。其中每个特征会根据一定依据计算其权重,而这t维带有权重的特征就构成该文档,并表示该文档的主题内容。当文档被表示为空间向量,就可以通过计算文档之间的空间相似性来衡量文档语义之间的相似性。为了让大家明白向量空间模型,我进行了一番如下的假设(这只是一个很简单的假设,事实上文档集合与特征维度远不止这么大):

假设有4篇文档的集合,然后对每一篇文档进行分词,将所有文章分词后所得到的词去掉重复的,就得到一个词的集合,假设词的集合为3个。这样每篇文章就可以表示为3维的向量,如下图:


从上图可以看出,要将文档表示为空间向量,还有一个很重要步骤的的是怎样计算文档各个特征(这里的特征是词)的权值。这个就是我们下次要讲的文档频率与逆文档频率(TF-IDF)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
沙发
发表于 2018-7-23 13:29:38 | 只看该作者
单身等你撩





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|网站地图|行健网络

GMT+8, 2019-10-16 11:14 , Processed in 0.068411 second(s), 18 queries .

Powered by Discuz! X3.2

? 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表