Skip to content

use python to achieve a text similarity comparison tool

Notifications You must be signed in to change notification settings

dengzhaoexp/TextSimilarity

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TextSimilarity—文本相似度对比【附带图形化界面】

1、实现的主要功能

  • 计算一个指定的文件和一个指定的文件夹下面每一个文件的相似度

  • 计算一个文件下任意两个文件的相似度

    图片名称

2、实现原理

本文的实现原来比较简单,总体上,就是先通过python的工具将文本从文件中提取出来,然后对其进行分词,这一步之后每一个文件都有一个词语列表与之对应,接下来就是词的向量化,向量化的技术非常多,本文基于原生的tf-idf算法。

3、项目地址

3、项目部署

本项目推荐的部署方式是通过github,如果你没有这方面的经验,可以先去网上学习一下,或者直接通过百度网盘下载完整的源代码。

  • 将项目拉取到本地

    • 创建工作目录

      mkdir TextSimilarityProject
      cd TextSimilarityProject
    • 克隆

      git clone git@github.com:HumbleSwage/TextSimilarity.git
  • 配置环境

    • 使用conda创建环境

      conda create -n TextSimilarity python=3.8
    • 激活环境

      conda activate TextSimilarity
    • 下载依赖

      pip install -r requirements.txt
  • 运行程序

    go run main.go

如果你尝试了所有的方法都不能成功运行,但是你又想尝试一哈本本项目的一个具体效果,那么可以直接下载一个exe文件在本地运行,另外可以联系d_zhao_work@163.com帮你解决。

4、未来拓展

  • 针对向量化技术

    本文的向量化技术使用的是原生的tf-idf,其实sklearn已经提供了这样直接计算tf-idf的接口,非常的方便。另外词的向量化技术也可以选择一些其他的技术,比如说word2vec等等,下面是一些推荐的链接,你可以作为拓展方向:

  • 针对功能

    其实本项目的扩展方向比较宽,如果你的时间足够可以尝试以下的方向

    • 提取文本中的图片进行对比;
    • 提取文本中的表格与标准表格进行对比,判断正确个数;
    • 将本项目演变为一个自动打分系统;
  • 使用pyinstaller将本项目打包为exe或者.app可执行文件

    我们已经将项目进行打包,你可以直接进行体验

    • exe下载地址:本文mac电脑,无法测试,如果你能成功运行欢迎pull request
    • dmg下载提取码: 7ux7

    打包的命令可以参考以下的命令

    pyinstaller -F -w -i Pic/logo.ico main.py 
    -p ./Core --hidden-import CalculateSimilarity.py 
    -p ./Core --hidden-import Quantification.py 
    -p ./Panel --hidden-import MyMainForm.py
    -p ./Panel --hidden-import Ui.py
    -p ./Processor --hidden-import CutSelectContent.py
    -p ./Reader --hidden-import ReadContentAndPath.py
    -p ./Reader --hidden-import ReadFileContent.py
    -p ./Utils --hidden-import BeautifulOut.py

About

use python to achieve a text similarity comparison tool

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages