Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Libellés très différents de FANTOIR #3

Open
cquest opened this issue May 11, 2018 · 4 comments
Open

Libellés très différents de FANTOIR #3

cquest opened this issue May 11, 2018 · 4 comments
Labels
bug Something isn't working

Comments

@cquest
Copy link

cquest commented May 11, 2018

Quelques exemples sur commune n°89304

  fantoir  |                 nom                  |            nom_fantoir            | ?column?  
-----------+--------------------------------------+-----------------------------------+-----------
 893040140 | Chemin de Vauru                      | CHEMIN DE LADUZ                   |  0.545455
 893040139 | Chemin du Haut des Chailloux         | CHEMIN DU HAUT DE BLEURY          |  0.529412
 893040041 | Chemin du à Crot Bréchot             | CHEMIN DU CROT BRECHET            |  0.428571
 893040356 | Chemin des Grands Champs             | CHEMIN DES GRANDS SABLONS         |  0.419355
 893040030 | Chemin des Consises l'Horigny        | CHEMIN DES CONCISES THORIGNY      |  0.382353
 893040380 | Chemin des Vignes                    | CHEMIN DES VIGNOTS                |  0.285714
 893040360 | Route de Saint-aubin Route de Poilly | ROUTE DE SAINT AUBIN              |      0.25
 893040090 | Chemin des Forts Noyers              | CHEMINEMENT DES FORTS NOYERS      |  0.233333
 893040050 | Chemin de l'Egeoir Chaude            | CHEMIN DE L EGEOIRE CHAUDE        |      0.12
 893040040 | Chemin du Crot Bignon                | CHEMIN DU CROT DE BIGNON          | 0.0869565
@jdesboeufs
Copy link
Member

Quel est l'algorithme utilisé pour la distance ?

@jdesboeufs jdesboeufs added the bug Something isn't working label Oct 30, 2018
@cquest
Copy link
Author

cquest commented Oct 30, 2018

De mémoire, des trigrammes... pg_trgm

@jdesboeufs
Copy link
Member

Il y a des cas d'erreurs flagrants en effet, par contre je ne comprends pas trop les derniers.
Dans le script on utilise Jaro-Winkler, je pense qu'on devrait coupler plusieurs algorithmes.

@cquest
Copy link
Author

cquest commented Oct 30, 2018

Les très différents sont en premier, j'ai mis tout ce qui ne matchait pas et effectivement sur les derniers il n'y a qu'une lettre ou deux lettres de différentes.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants