Comparazione di misure di similarità tra stringhe nell'ambito del record linkage

Lo scopo di questo progetto è quello di confrontare l’efficienza di diversi metodi per il confronto approssimativo di stringhe applicate nell’ambito del record linkage. Il progetto è basato sull’articolo "A Comparison of Personal Name Matching: Techniques and Practical Issues" di P.Christen, nel quale le diverse tecniche sono utilizzate con l’obiettivo specifico di confrontare i nomi di persona. In questo progetto le misure verranno utilizzate per confrontare nomi commerciali di società. Più precisamente, le misure verranno utilizzate per identificare quali tra le 2000 aziende più grandi e influenti al mondo secondo Forbes sono anche presenti nell’indice di borsa statunitense Standard & Poor 500. I vari records sono stati uniti attraverso un record linkage basato su soglia, mentre le prestazioni dei singoli metodi sono state valutate grazie a un terzo dataset, il quale è stato costruito per essere etichettato come ground truth.

Requirements

Per installare i requisiti:

pip install -r requirements.txt

Usage

Per eseguire il confronto:

python3 script.py

Data

The datasets used are:

forbes.csv - classifica delle 2000 aziende più influenti al mondo stilata da Forbes.
sp500.csv - aziende pubbliche americane quotate in borsa e appartenenti all’indice S&P 500.
trueindex.csv - ground truth dataset.

References

P. Christen. A comparison of personal name matching: Techniques and practical issues. In Sixth IEEE International Conference on Data Mining-Workshops (ICDMW’06). IEEE, 2006.

Authors

Lorenzo Pirola

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.idea		.idea
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
forbes.csv		forbes.csv
presentazione.pdf		presentazione.pdf
report.pdf		report.pdf
requirements.txt		requirements.txt
script.py		script.py
sp500.csv		sp500.csv
trueindex.csv		trueindex.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Comparazione di misure di similarità tra stringhe nell'ambito del record linkage

Requirements

Usage

Data

References

Authors

About

Languages

lpirola13/similarity-measures-compare

Folders and files

Latest commit

History

Repository files navigation

Comparazione di misure di similarità tra stringhe nell'ambito del record linkage

Requirements

Usage

Data

References

Authors

About

Topics

Resources

Stars

Watchers

Forks

Languages