feat(import_common): matchowanie autorów PL↔EN (Ewa Marańda ↔ Eva Maranda)#239
Merged
Conversation
… Maranda)
Importy z anglojezycznych zrodel (CrossRef, DSpace EN) nie lapaly
polskich autorow gdy zrodlo dawalo zangielszczona pisownie imienia
(Eva zamiast Ewa) lub nazwisko bez diakrytykow (Maranda zamiast
Maranda). matchuj_autora() uzywal __iexact, ktore w Postgresie jest
diacritic-sensitive i nie zna transliteracji v<->w.
Fallback w matchuj_autora() jako ostatni krok przed
_try_match_autor_with_orcid_or_tytul:
- nazwisko: SQL Lower(Unaccent(...)) na obu stronach (Maranda <-> Maranda)
- pierwsze imie: reguly v<->w generuja kandydatow (Eva -> {Eva, Ewa})
Regula v<->w stosowana TYLKO do imion - polskie nazwiska maja "w"
jako autentyczna litere (Wojciechowski != Vojciechowski). Przy
ambiguity (wielu kandydatow) zwracamy None - decyzja w UI.
Extension `unaccent` byla juz zainstalowana przez 0001_fulltext, wiec
zadna migracja nie jest potrzebna.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
Reguła v<->w pokrywa fonetyczne pary (Ewa/Eva, Wiktor/Viktor), ale nie złapie imion bez wspólnego korzenia: Krzysztof<->Christopher, Paweł<->Paul, Maria<->Mary itp. Dodaje POLISH_ENGLISH_NAME_CLUSTERS z 25 najczęstszymi parami/trójkami w akademii. Klastry są bidirectional - imię może należyć do co najwyżej jednego klastra, lookup robiony po unidecode-fold + lowercase. Dodaje 16 parametrycznych przypadków testowych i negatywny test "Marcin != Mark", żeby zapobiec false-positive na imionach spoza klastra. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
Summary
EvazamiastEwa) lub nazwisko bez diakrytyków (MarandazamiastMarańda).matchuj_autora()używał__iexact, które w Postgresie jest diacritic-sensitive i nie zna transliteracjiv↔w.matchuj_autorajako ostatni krok przed_try_match_autor_with_orcid_or_tytul. Dwa źródła wariantów:v↔wpo unidecode-fold (Eva↔Ewa,Viktor↔Wiktor,Wioletta↔Violetta) — fonetyczna, generyczna.Krzysztof↔Christopher,Paweł↔Paul,Maria↔Mary,Łukasz↔{Luke, Lucas},Anna↔{Ann, Anne},Katarzyna↔{Catherine, Katherine},Stefan↔{Stephen, Steven}itd.).Lower(Unaccent(...))po stronie SQL —Marańdamatchuje się zMaranda.Decyzje projektowe
v↔wstosowana TYLKO do imion — polskie nazwiska mająwjako autentyczną literę (Wojciechowski≠Vojciechowski). Testtest_v_to_w_not_applied_to_surnameto potwierdza.None— gdy fallback trafia w wielu kandydatów, decyzja należy do użytkownika w UI (Komparator dostanieBRAK_DOPASOWANIAi pokaże listę).__iexactzawiódł.unaccentjest już zainstalowane przezbpp/migrations/0001_fulltext.sql.matchuj_autora(importer_publikacjiviaKomparator,import_dyscyplin,pbn_integrator) automatycznie korzystają z nowego zachowania.Test plan
pytest src/import_common/tests/test_autor_pl_en_matching.py— 26 nowych testów, w tym literalny przypadek"Ewa Marańda" ↔ "Eva Maranda", parametryczne (Krzysztof↔Christopher,Paweł↔Paul, ...), negatywne (Marcin ≠ Mark,Wojciechowski ≠ Vojciechowski), ambiguity →None, brak regresjiiexact.pytest src/import_common/ src/crossref_bpp/tests/test_core.py src/importer_publikacji/tests/test_views_authors.py— 216 passed, zero regresji.ruff format+ruff check— clean.ImportedAuthor.match_status = AUTO_LOOSEimatched_autorwskazuje na polskiego autora.🤖 Generated with Claude Code