PHP相似度算法

360 发表于 2017-6-1 09:46:11 | 只看该作者 |倒序浏览 |阅读模式 [复制链接] 打印
0 917

写了很久忘保存了,囧没了,先放这里


catalogue


1. TF-IDF

2. 基于空间向量的余弦算法

3. 最长公共子序列

4. 最小编辑距离算法

5. similar_text

1. TF-IDF


2. 基于空间向量的余弦算法


将分词后的词频作为向量分量,将每个文件转化为一个向量,通过计算向量之间的余弦值,本质上是在计算不同文本的词频的相似度

3. 最长公共子序列


该算法的最大缺陷是计算CPU消耗较大


1. 将两个字符串分别以行和列组成矩阵

2. 计算每个节点行列字符是否相同,如相同则为1。

3. 通过找出值为1的最长对角线即可得到最长公共子串

为进一步提升该算法,我们可以将字符相同节点的值加上左上角(d[i-1,j-1])的值,这样即可获得最大公共子串的长度。如此一来只需以行号和最大值为条件即可截取最大子串



4. 最小编辑距离算法


设A、B为两个字符串,狭义的编辑距离定义为把A转换成B需要的最少删除(删除A中一个字符)、插入(在A中插入一个字符)和替换(把A中的某个字符替换成另一个字符)的次数,用ED(A,B)来表示。直观来说,两个串互相转换需要经过的步骤越多,差异越大


1. 对两部分文本进行处理,将所有的非文本字符替换为分段标记"#"

2. 较长文本作为基准文本,遍历分段之后的短文本,发现长文本包含短文本子句后在长本文中移除,未发现匹配的字句累加长度

3. 比较剩余文本长度与两段文本长度和,其比值为不匹配比率

PHP中的levenshtein()函数已经实现了该功能


Relevant Link:


http://php.net/manual/zh/function.levenshtein.php

5. similar_text


Relevant Link:


http://php.net/manual/zh/function.metaphone.php

http://php.net/manual/zh/function.soundex.php

http://php.net/manual/zh/function.similar-text.php

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

加入我们,

发现科技可以让生活更美好...

立即注册

如果您已拥有本站账户,则可

推荐阅读

Archiver|小黑屋|

Just easy to share

Powered by je2s.com

返回顶部 返回列表