Document Similarity with NER, TF-IDF, and Cosine Similarity

Step by step guide to calculate multiple documents similarity in Python.

We tokenize our texts along with Named Entity Recognition, in which we extract multi-word named entities such as "Los Angeles" as one token instead of two for better comparison accuracy.

Calculation of TF-IDF is used to create a vector model of each document based on the frequencies of its terms.

Cosine similarity measures the cosine of the angle between two vectors to calculate the degree of similarity between two vectors. In the context of calculating document similarity, our vectors are each and every one of our documents.

Further documentation can be found on the code here.

Albert Edwillian Pratomo
Martina Marcelline

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
README.md		README.md
docSimilarity.ipynb		docSimilarity.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

docSimilarity.ipynb

docSimilarity.ipynb

Repository files navigation

Document Similarity with NER, TF-IDF, and Cosine Similarity

About

Releases

Packages

Languages

albertpratomo/DocumentSimilarity

Folders and files

Latest commit

History

README.md

README.md

docSimilarity.ipynb

docSimilarity.ipynb

Repository files navigation

Document Similarity with NER, TF-IDF, and Cosine Similarity

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages