## загрузка данных 

In [5]:
# Загрузка и превью данных aim-2025-orcs
from pathlib import Path
import json, os, subprocess, zipfile, shutil
import pandas as pd

comp = "aim-2025-orcs"
data_dir = Path("data") / comp
data_dir.mkdir(parents=True, exist_ok=True)

workspace_cfg = Path("kaggle.json")
home_cfg_dir = Path.home() / ".kaggle"
home_cfg = home_cfg_dir / "kaggle.json"
if workspace_cfg.exists():
    home_cfg_dir.mkdir(exist_ok=True)
    data = json.loads(workspace_cfg.read_text())
    home_cfg.write_text(json.dumps(data))
    try:
        os.chmod(home_cfg, 0o600)
    except Exception:
        pass
    os.environ["KAGGLE_USERNAME"] = data.get("username", "")
    os.environ["KAGGLE_KEY"] = data.get("key", "")
else:
    print("kaggle.json не найден рядом с ноутбуком — пропускаю установку cred")

zip_files = list(data_dir.glob("*.zip"))
extracted_exists = any(
    p.is_file() and p.suffix.lower() in {".csv", ".tsv", ".parquet", ".json", ".parq", ".pq"}
    for p in data_dir.iterdir()
)

def try_cli_download() -> bool:
    if shutil.which("kaggle") is None:
        print("kaggle CLI not found in PATH")
        return False
    res = subprocess.run(
        ["kaggle", "competitions", "download", "-c", comp, "-p", str(data_dir)],
        capture_output=True,
        text=True,
    )
    if res.returncode != 0:
        print("kaggle CLI failed:")
        if res.stdout:
            print(res.stdout)
        if res.stderr:
            print(res.stderr)
        return False
    return True

def api_download():
    try:
        from kaggle import api
    except ImportError:
        raise RuntimeError("Install kaggle: pip install kaggle")
    api.authenticate()
    api.competition_download_files(comp, path=str(data_dir), quiet=False)

def ensure_data():
    if extracted_exists:
        print(f"Found extracted files in {data_dir.resolve()}, skip download.")
        return
    if zip_files:
        for zip_path in zip_files:
            with zipfile.ZipFile(zip_path) as zf:
                zf.extractall(data_dir)
        print(f"Used existing zip files in {data_dir.resolve()} and extracted.")
        return
    used_cli = try_cli_download()
    if not used_cli:
        api_download()
    for zip_path in data_dir.glob("*.zip"):
        with zipfile.ZipFile(zip_path) as zf:
            zf.extractall(data_dir)
    print(f"Downloaded and extracted to {data_dir.resolve()}")

ensure_data()

files = sorted([*data_dir.glob("*.parquet"), *data_dir.glob("*.csv")])
if not files:
    available = sorted(p.name for p in data_dir.glob("*"))
    print(f"Файлы не найдены в {data_dir.resolve()}. Доступно: {available}")
else:
    def preview(path):
        print(f"--- {path.name} ---")
        if path.suffix.lower() == ".parquet":
            display(pd.read_parquet(path).head(3))
        else:
            display(pd.read_csv(path, nrows=3))

    targets = {"orcs": None, "empl": None}
    for p in files:
        name = p.name.lower()
        if "orc" in name and targets["orcs"] is None:
            targets["orcs"] = p
        if "empl" in name and targets["empl"] is None:
            targets["empl"] = p

    for key, path in targets.items():
        if path is None:
            print(f"Файл с '{key}' в имени не найден. Доступно: {[p.name for p in files]}")
            continue
        preview(path)



Found extracted files in C:\Users\vipde\Desktop\AIMasters25\data\aim-2025-orcs, skip download.
--- orcs.parquet ---


Unnamed: 0,name,surname,fathername,gender,birthdate,inn,passport
0,габ`узхун,геля,шщэиевич,м,1961-10-13,209526320016,9427048895
1,сигурд,клабунов,васиолвич,м,1971-04-08,462095945786,9940565631
2,влоидмир,субботин,иванович,м,1974-07-22,611477616027,3851497038


--- employees.parquet ---


Unnamed: 0,name,surname,fathername,gender,birthdate,inn,passport
0,жумавой,волоколамц*в,садагет оглы,м,1973-12-24,804926960301,7880355409
1,мубн,невмятуллин,"али,вич",м,1984-07-06,111068355926,1411814346
2,"ан,рей",карпоэ,вяч.славовеч,м,1962-03-28,617713534516,3428889207


### Алгоритм нормализации имён
- все строки в нижний регистр, `ё→е`, `й→и`
- явный мусор (`none`, `нет`, `нету`, `отсутствует`, `ноне`, пустые) очищается в `null`
- дефис заменяется пробелом, части двойного имени обрабатываются отдельно
- визуальные латинские омоглифы транслитерируются в кириллицу (`a→а`, `p→р`, `y→у`, `o→о`, `c→с`, `x→х`, `e→е` и т.д.)
- всё остальное вне русского алфавита (кроме пробела) превращается в джокер `*`
- если в строке нет букв или букв меньше, чем спецсимволов (`*`), значение очищается
- итог: только кириллические буквы + пробелы + `*`, лишние пробелы схлопываются


In [6]:
import json
import pandas as pd
from pathlib import Path

classes = ["corrected", "untouched", "ambiguous", "empty", "no_match"]

report_dirs = {
    "employees": Path("reports/name/employees"),
    "orcs": Path("reports/name/orcs"),
}

# Частоты по каждому датасету
for label, report_dir in report_dirs.items():
    dist_path = report_dir / "class_distribution.json"
    if dist_path.exists():
        counts = json.loads(dist_path.read_text(encoding="utf-8"))
        print(f"\n=== class counts: {label} ===")
        display(pd.Series(counts, name="count"))
    else:
        print(f"Нет файла {dist_path}")

# Примеры: две таблицы рядом (employees vs orcs) для каждого класса
for cls in classes:
    emp_samples_path = report_dirs["employees"] / "class_samples.json"
    orc_samples_path = report_dirs["orcs"] / "class_samples.json"
    if not emp_samples_path.exists() or not orc_samples_path.exists():
        print(f"Пропущен класс {cls}: нет файлов samples")
        continue
    emp_samples = json.loads(emp_samples_path.read_text(encoding="utf-8")).get(cls, [])
    orc_samples = json.loads(orc_samples_path.read_text(encoding="utf-8")).get(cls, [])

    emp_df = pd.DataFrame(emp_samples).head(20).add_suffix("_employees")
    orc_df = pd.DataFrame(orc_samples).head(20).add_suffix("_orcs")
    side = pd.concat([
        emp_df.reset_index(drop=True),
        orc_df.reset_index(drop=True)
    ], axis=1)
    print(f"\nКласс: {cls} (employees vs orcs)")
    display(side)



=== class counts: employees ===


ambiguous    143349
corrected    294718
empty            84
no_match     821101
untouched    752507
Name: count, dtype: int64


=== class counts: orcs ===


ambiguous     1463
corrected     4692
empty            4
no_match     36576
untouched     4898
Name: count, dtype: int64


Класс: corrected (employees vs orcs)


Unnamed: 0,normalized_name_employees,name_corrected_employees,is_name_employees,normalized_name_orcs,name_corrected_orcs,is_name_orcs
0,льга,ольга,True,никола*,николаи,True
1,ни*олаи,николаи,True,консантин,константин,True
2,андри,андреи,True,брон*слав,бронислав,True
3,еелна,елена,True,лютослав,любослав,True
4,гор,егор,True,ркслан,руслан,True
5,се*геи,сергеи,True,явчеслав,вячеслав,True
6,екатери*а,екатерина,True,валереи,валерии,True
7,геориги,георгии,True,вадем,вадим,True
8,ви*тор,виктор,True,антаолии,анатолии,True
9,мория,мария,True,юстине,юстин,True



Класс: untouched (employees vs orcs)


Unnamed: 0,normalized_name_employees,name_corrected_employees,is_name_employees,normalized_name_orcs,name_corrected_orcs,is_name_orcs
0,владимир,владимир,True,павел,павел,True
1,анатолии,анатолии,True,анна,анна,True
2,светлана,светлана,True,юрии,юрии,True
3,светлана,светлана,True,ярослав,ярослав,True
4,сергеи,сергеи,True,мария,мария,True
5,михаил,михаил,True,руслан,руслан,True
6,геннадии,геннадии,True,елена,елена,True
7,роман,роман,True,владимир,владимир,True
8,александр,александр,True,михаил,михаил,True
9,борис,борис,True,сергеи,сергеи,True



Класс: ambiguous (employees vs orcs)


Unnamed: 0,normalized_name_employees,name_corrected_employees,is_name_employees,normalized_name_orcs,name_corrected_orcs,is_name_orcs
0,евдокия,евдокия,False,иян,иян,False
1,александра,александра,False,раиса,раиса,False
2,клавдия,клавдия,False,асмат,асмат,False
3,александра,александра,False,валентина,валентина,False
4,олеся,олеся,False,марина,марина,False
5,маря,маря,False,раиса,раиса,False
6,валентина,валентина,False,ома,ома,False
7,ивна,ивна,False,демир,демир,False
8,антонина,антонина,False,валентина,валентина,False
9,раиса,раиса,False,фаиса,фаиса,False



Класс: empty (employees vs orcs)


Unnamed: 0,normalized_name_employees,name_corrected_employees,is_name_employees,normalized_name_orcs,name_corrected_orcs,is_name_orcs
0,,,False,,,False
1,,,False,,,False
2,,,False,,,False
3,,,False,,,False
4,,,False,,,
5,,,False,,,
6,,,False,,,
7,,,False,,,
8,,,False,,,
9,,,False,,,



Класс: no_match (employees vs orcs)


Unnamed: 0,normalized_name_employees,name_corrected_employees,is_name_employees,normalized_name_orcs,name_corrected_orcs,is_name_orcs
0,ирина,ирина,False,кувцри,кувцри,False
1,еснеия,еснеия,False,нурбеи,нурбеи,False
2,оскана,оскана,False,курбоншо,курбоншо,False
3,тамара,тамара,False,ди*бази,ди*бази,False
4,ол*ся,ол*ся,False,бриуто,бриуто,False
5,ия*ла,ия*ла,False,людмила,людмила,False
6,лидия,лидия,False,ханис,ханис,False
7,любовь,любовь,False,цезарии,цезарии,False
8,люмила,люмила,False,кубоныч,кубоныч,False
9,дильмурот,дильмурот,False,пот*,пот*,False


In [7]:
# Отчёт по фамилиям: классы и 20 примеров по каждому классу (employees vs orcs)
import json
import pandas as pd
from pathlib import Path

classes = ["corrected", "untouched", "ambiguous", "empty", "no_match"]
report_dirs = {
    "employees": Path("reports/surname/employees"),
    "orcs": Path("reports/surname/orcs"),
}

for label, report_dir in report_dirs.items():
    dist_path = report_dir / "class_distribution.json"
    if dist_path.exists():
        counts = json.loads(dist_path.read_text(encoding="utf-8"))
        print(f"\n=== surname class counts: {label} ===")
        display(pd.Series(counts, name="count"))
    else:
        print(f"Нет файла {dist_path}")

for cls in classes:
    emp_path = report_dirs["employees"] / "class_samples.json"
    orc_path = report_dirs["orcs"] / "class_samples.json"
    if not emp_path.exists() or not orc_path.exists():
        print(f"Пропущен класс {cls}: нет файлов samples")
        continue
    emp_samples = json.loads(emp_path.read_text(encoding="utf-8")).get(cls, [])
    orc_samples = json.loads(orc_path.read_text(encoding="utf-8")).get(cls, [])

    emp_df = pd.DataFrame(emp_samples).head(20).add_suffix("_employees")
    orc_df = pd.DataFrame(orc_samples).head(20).add_suffix("_orcs")
    side = pd.concat([
        emp_df.reset_index(drop=True),
        orc_df.reset_index(drop=True)
    ], axis=1)
    print(f"\nКласс фамилии: {cls} (employees vs orcs)")
    display(side)




=== surname class counts: employees ===


ambiguous    418095
corrected    429428
empty            37
no_match     418458
untouched    745741
Name: count, dtype: int64


=== surname class counts: orcs ===


ambiguous     9825
corrected     9992
no_match     19428
untouched     8388
Name: count, dtype: int64


Класс фамилии: corrected (employees vs orcs)


Unnamed: 0,normalized_surname_employees,surname_corrected_employees,is_surname_employees,normalized_surname_orcs,surname_corrected_orcs,is_surname_orcs
0,плоунина,полунина,True,шопортов,шапортов,True
1,гобуния,габуния,True,лязер,лявер,True
2,матаскин,матыскин,True,сукорцева,суконцева,True
3,бочакрев,бочкарев,True,мнушк*н,мнушкин,True
4,улезкина,слезкина,True,лупенцов,лубенцов,True
5,вер*инин,вершинин,True,красовецкии,красовицкии,True
6,кор*лина,корелина,True,мякушкен,мякушкин,True
7,володен,володин,True,лозовецкая,лозовицкая,True
8,ха*ьзов,хальзов,True,дауде,дауд,True
9,куоеш,кулеш,True,паяница,паляница,True



Класс фамилии: untouched (employees vs orcs)


Unnamed: 0,normalized_surname_employees,surname_corrected_employees,is_surname_employees,normalized_surname_orcs,surname_corrected_orcs,is_surname_orcs
0,корнева,корнева,True,цыба,цыба,True
1,логачева,логачева,True,френкель,френкель,True
2,клева,клева,True,юренкова,юренкова,True
3,никонов,никонов,True,леонова,леонова,True
4,кремнева,кремнева,True,полянскии,полянскии,True
5,шунтова,шунтова,True,безноскова,безноскова,True
6,иванова,иванова,True,зудин,зудин,True
7,белова,белова,True,сытых,сытых,True
8,полькин,полькин,True,коргун,коргун,True
9,кисель,кисель,True,тревогина,тревогина,True



Класс фамилии: ambiguous (employees vs orcs)


Unnamed: 0,normalized_surname_employees,surname_corrected_employees,is_surname_employees,normalized_surname_orcs,surname_corrected_orcs,is_surname_orcs
0,огров,огров,False,гулаидин,гулаидин,False
1,броин,броин,False,суая,суая,False
2,бурово,бурово,False,зрадовскии,зрадовскии,False
3,ерченков,ерченков,False,естаев,естаев,False
4,бухтино,бухтино,False,холунов,холунов,False
5,улюк,улюк,False,белва,белва,False
6,маст*ков,маст*ков,False,мерзаев,мерзаев,False
7,хлопенова,хлопенова,False,коцыло,коцыло,False
8,журино,журино,False,рузив,рузив,False
9,смирново,смирново,False,шеффлер,шеффлер,False



Класс фамилии: empty (employees vs orcs)


Unnamed: 0,normalized_surname_employees,surname_corrected_employees,is_surname_employees
0,,,False
1,,,False
2,,,False
3,,,False
4,,,False
5,,,False
6,,,False
7,,,False
8,,,False
9,,,False



Класс фамилии: no_match (employees vs orcs)


Unnamed: 0,normalized_surname_employees,surname_corrected_employees,is_surname_employees,normalized_surname_orcs,surname_corrected_orcs,is_surname_orcs
0,чашкне,чашкне,False,венженовскии,венженовскии,False
1,корпало,корпало,False,борбуцк*я,борбуцк*я,False
2,скердо,скердо,False,чернпяшуев,чернпяшуев,False
3,каибх*нов,каибх*нов,False,левурддк,левурддк,False
4,торыхчиев,торыхчиев,False,филашихни,филашихни,False
5,тиллекв,тиллекв,False,боатырив,боатырив,False
6,авакиви,авакиви,False,жекал,жекал,False
7,па*дуков,па*дуков,False,чоговадзе,чоговадзе,False
8,могаево,могаево,False,цаиек,цаиек,False
9,якиш*в*,якиш*в*,False,приблудово,приблудово,False


In [8]:
# Отчёт по отчествам: классы и 20 примеров (employees vs orcs)
import json
import pandas as pd
from pathlib import Path

classes = ["corrected", "untouched", "ambiguous", "empty", "no_match"]
report_dirs = {
    "employees": Path("reports/patronymic/employees"),
    "orcs": Path("reports/patronymic/orcs"),
}

for label, report_dir in report_dirs.items():
    dist_path = report_dir / "class_distribution.json"
    if dist_path.exists():
        counts = json.loads(dist_path.read_text(encoding="utf-8"))
        print(f"\n=== patronymic class counts: {label} ===")
        display(pd.Series(counts, name="count"))
    else:
        print(f"Нет файла {dist_path}")

for cls in classes:
    emp_path = report_dirs["employees"] / "class_samples.json"
    orc_path = report_dirs["orcs"] / "class_samples.json"
    if not emp_path.exists() or not orc_path.exists():
        print(f"Пропущен класс {cls}: нет файлов samples")
        continue
    emp_samples = json.loads(emp_path.read_text(encoding="utf-8")).get(cls, [])
    orc_samples = json.loads(orc_path.read_text(encoding="utf-8")).get(cls, [])

    emp_df = pd.DataFrame(emp_samples).head(20).add_suffix("_employees")
    orc_df = pd.DataFrame(orc_samples).head(20).add_suffix("_orcs")
    side = pd.concat([
        emp_df.reset_index(drop=True),
        orc_df.reset_index(drop=True)
    ], axis=1)
    print(f"\nКласс отчества: {cls} (employees vs orcs)")
    display(side)




=== patronymic class counts: employees ===


ambiguous     64985
corrected    737450
empty          5179
no_match     602557
untouched    601588
Name: count, dtype: int64


=== patronymic class counts: orcs ===


ambiguous      827
corrected     9579
empty           59
no_match     33778
untouched     3390
Name: count, dtype: int64


Класс отчества: corrected (employees vs orcs)


Unnamed: 0,normalized_patronymic_employees,patronymic_corrected_employees,is_patronymic_employees,normalized_patronymic_orcs,patronymic_corrected_orcs,is_patronymic_orcs
0,ьметриевнэ,ьметриевна,True,ромаович,романович,True
1,васильевла,васильевна,True,иваовна,ивановна,True
2,джониевно,джониевна,True,сргеевна,сергеевна,True
3,ромонович,романович,True,тсегие,тсегич,True
4,влади*ировна,владимировна,True,сергеев*а,сергеевна,True
5,миахиловна,михаиловна,True,михрилович,михаилович,True
6,нкиифорович,никифорович,True,михаиловеа,михаиловна,True
7,евановна,ивановна,True,леонидовно,леонидовна,True
8,филим*нович,филимонович,True,ивновн,ивновна,True
9,алекасндрович,александрович,True,авлексанщъивия,авлексанщъивич,True



Класс отчества: untouched (employees vs orcs)


Unnamed: 0,normalized_patronymic_employees,patronymic_corrected_employees,is_patronymic_employees,normalized_patronymic_orcs,patronymic_corrected_orcs,is_patronymic_orcs
0,олександрович,олександрович,True,валентиновна,валентиновна,True
1,дмитриевна,дмитриевна,True,петровна,петровна,True
2,петровна,петровна,True,александровна,александровна,True
3,владимировна,владимировна,True,александровна,александровна,True
4,алексеевна,алексеевна,True,леонидович,леонидович,True
5,сергеевич,сергеевич,True,алексеевич,алексеевич,True
6,ильинична,ильинична,True,ладимировна,ладимировна,True
7,ивановна,ивановна,True,иванович,иванович,True
8,юриевич,юриевич,True,андреевич,андреевич,True
9,дмитриевич,дмитриевич,True,николаевич,николаевич,True



Класс отчества: ambiguous (employees vs orcs)


Unnamed: 0,normalized_patronymic_employees,patronymic_corrected_employees,is_patronymic_employees,normalized_patronymic_orcs,patronymic_corrected_orcs,is_patronymic_orcs
0,анатольеви,анатоль*еви,False,влодимировна,влодимировна,False
1,васильевич,васильевич,False,егоревич,егоревич,False
2,васильевна,васильевна,False,осифович,осифович,False
3,васильевич,васильевич,False,лександровна,лександровна,False
4,васильевна,васильевна,False,зелемови,зелем*ови,False
5,якобови,якоб*ови,False,темболатови,темболат*ови,False
6,виколаевна,виколаевна,False,васильевна,васильевна,False
7,васильевна,васильевна,False,васильеви,василь*еви,False
8,ванович,ванович,False,роиановна,роиановна,False
9,влодимирович,влодимирович,False,а*аевич,а*аевич,False



Класс отчества: empty (employees vs orcs)


Unnamed: 0,normalized_patronymic_employees,patronymic_corrected_employees,is_patronymic_employees,normalized_patronymic_orcs,patronymic_corrected_orcs,is_patronymic_orcs
0,,,False,,,False
1,,,False,,,False
2,,,False,,,False
3,,,False,,,False
4,,,False,,,False
5,,,False,,,False
6,,,False,,,False
7,,,False,,,False
8,,,False,,,False
9,,,False,,,False



Класс отчества: no_match (employees vs orcs)


Unnamed: 0,normalized_patronymic_employees,patronymic_corrected_employees,is_patronymic_employees,normalized_patronymic_orcs,patronymic_corrected_orcs,is_patronymic_orcs
0,омриовна,омриовна,False,мохаммда як*б,мохаммда як*б,False
1,садмпровис,садмпровис,False,саханович,саханович,False
2,изанощнэ,изанощнэ,False,затеовна,затеовна,False
3,арамашовна,арамашовна,False,ондревна,ондревна,False
4,иъатоврл,иъатоврл,False,аломудинович,аломудинович,False
5,гасан агаевеч,гасан агаевеч,False,словоммр,словоммр,False
6,влаимиаовна,влаимиаовна,False,чумобеко*ич,чумобеко*ич,False
7,бобомуродовеч,бобомуродовеч,False,гендрикоич,гендрикоич,False
8,восил*евич,восил*евич,False,м*каилович,м*каилович,False
9,мутагаровна,мутагаровна,False,к*чичиевич,к*чичиевич,False


# Анализ числовых значений

## Дата рождения
интересные особености:
Employees (2 011 759 строк)
≥1 пропуск компонента: 6.99%; ≥2 пропуска: 6.99%; пустые ячейки: 6.99%.
годов ~98.70% начинаются с 19


Orcs (47 633 строк)
≥1 пропуск компонента: 9.03%; ≥2 пропуска: 9.03%; пустые ячейки: 9.03%.
Чистые ISO: 90.48%.

остальные аномалии датасета несущественны или не были обнаружены 

## ИНН
Employees (2 011 759 строк)
Чистые 12 цифр: 76.75%.
Пустые: 22.98%

Orcs (47 633 строк)
Чистые 12 цифр: 42.84%.
Пустые: 57.01%.

остальные аномалии датасета несущественны или не были обнаружены 

## Паспортные данные
Employees (2 011 759 строк)
Чистые 10 цифр: 82.80%.
Пустые: 17.03%.

Orcs (47 633 строк)
Чистые 10 цифр: 86.62%.
Пустые: 13.07%.

остальные аномалии датасета несущественны или не были обнаружены 

## гендер
пустых строк нет, заполнено все 

## Вариант A — гибридный поиск ближайших соседей
- Объединяем скорректированные/нормализованные ФИО в поле `full_name_text` для текстового поиска.
- Жёстко матчим по валидным `inn` и `passport` (score=1.0), но не исключаем их из последующей проверки.
- Для остальных строим TF-IDF по триграммам (`char`, 3-grams, `max_features=50000`, `min_df=2`) на `employees`, индексируем через `NearestNeighbors` (`cosine`, CSR).
- Ищем для каждого `orc` топ-10 кандидатов батчами; пары пересчитываем с Levenshtein, датой рождения (бонус/штраф) и штрафом за несовпадение пола.
- Итоговый `total_score`: взвешенная сумма text/name + корректировки даты/пола; оставляем кандидатов выше порога и сохраняем `submission.parquet`.
- В конце выводим 10 случайных орков и по 3 наиболее релевантных кандидата для ручной проверки.


In [None]:
# Вариант A: гибридный поиск ближайших соседей (орки vs сотрудники)
from pathlib import Path
from datetime import datetime
import re
import numpy as np
import pandas as pd
from tqdm import tqdm
from IPython.display import display
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import NearestNeighbors

# Настройки путей
EMP_PATH = Path("finaldata/employees_final.parquet")
ORC_PATH = Path("finaldata/orcs_final.parquet")
RESULTS_DIR = Path("results")
RESULTS_DIR.mkdir(parents=True, exist_ok=True)
RUN_ID = datetime.now().strftime("variantA_%Y%m%d_%H%M%S")
OUTPUT_DIR = RESULTS_DIR / RUN_ID
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
SUBMISSION_PATH = OUTPUT_DIR / "submission.parquet"
SUBMISSION_DETAILED_PATH = OUTPUT_DIR / "submission_detailed.parquet"

# -----------------------
# Утилиты
# -----------------------
try:
    from rapidfuzz.distance import Levenshtein as LevDist

    def name_similarity(a: str, b: str) -> float:
        return float(LevDist.normalized_similarity(a or "", b or "") / 100.0)
except Exception:
    import difflib

    def name_similarity(a: str, b: str) -> float:
        return difflib.SequenceMatcher(None, a or "", b or "").ratio()


def date_score(d1, d2) -> float:
    if pd.isna(d1) or pd.isna(d2):
        return 0.0
    return 0.2 if d1 == d2 else -0.5


def gender_penalty(g1: str, g2: str) -> float:
    if not g1 or not g2:
        return 0.0
    return -0.3 if g1 != g2 else 0.0


def safe_read_parquet(path: Path) -> pd.DataFrame:
    try:
        df = pd.read_parquet(path)
    except Exception as exc:
        raise RuntimeError(f"Не удалось прочитать {path}: {exc}") from exc
    df = df.reset_index(drop=True)
    df["orig_index"] = df.index
    return df


def first_nonnull(df: pd.DataFrame, cols: list[str]) -> pd.Series:
    available = [c for c in cols if c in df.columns]
    if not available:
        return pd.Series("", index=df.index)
    stacked = df[available].fillna("").astype(str)
    return stacked.bfill(axis=1).iloc[:, 0].fillna("")


def build_full_name(df: pd.DataFrame) -> pd.Series:
    surname_best = first_nonnull(df, ["surname_corrected", "surname_normalized", "surname"])
    name_best = first_nonnull(df, ["name_corrected", "name_normalized", "name"])
    patronymic_best = first_nonnull(df, ["patronymic_corrected", "patronymic_normalized", "fathername"])
    full = (surname_best + " " + name_best + " " + patronymic_best).str.replace(r"\s+", " ", regex=True).str.strip()
    return full


def clean_numeric(series: pd.Series, pattern: str) -> pd.Series:
    s = series.fillna("").astype(str).str.strip()
    return s.where(s.str.fullmatch(pattern))


def exact_matches(orcs_df: pd.DataFrame, emp_df: pd.DataFrame, key: str, label: str) -> pd.DataFrame:
    left = orcs_df[["orig_index", key, "full_name_text", "birthdate_dt", "gender_norm"]].rename(columns={"orig_index": "orc_idx"})
    right = emp_df[["orig_index", key, "full_name_text", "birthdate_dt", "gender_norm"]].rename(columns={"orig_index": "emp_idx"})
    left = left[left[key].notna() & (left[key] != "")]
    right = right[right[key].notna() & (right[key] != "")]
    merged = left.merge(right, on=key, how="inner", suffixes=("_orc", "_emp"))
    if merged.empty:
        return pd.DataFrame(columns=["orc_idx", "emp_idx", "match_type", "vector_sim", "name_sim", "date_score", "gender_penalty", "total_score"])
    merged["vector_sim"] = 1.0
    merged["name_sim"] = merged.apply(lambda r: name_similarity(r["full_name_text_orc"], r["full_name_text_emp"]), axis=1)
    merged["date_score"] = merged.apply(lambda r: date_score(r["birthdate_dt_orc"], r["birthdate_dt_emp"]), axis=1)
    merged["gender_penalty"] = merged.apply(lambda r: gender_penalty(r["gender_norm_orc"], r["gender_norm_emp"]), axis=1)
    merged["total_score"] = merged.apply(
        lambda r: max(1.0, 0.75 * r["name_sim"] + 0.25 * r["vector_sim"] + r["date_score"] + r["gender_penalty"]),
        axis=1,
    )
    merged["match_type"] = label
    return merged[["orc_idx", "emp_idx", "match_type", "vector_sim", "name_sim", "date_score", "gender_penalty", "total_score"]]


# -----------------------
# 1. Загрузка и подготовка
# -----------------------
print("Чтение данных...")
print(f"Результаты будут сохранены в: {OUTPUT_DIR.resolve()}")
employees = safe_read_parquet(EMP_PATH)
orcs = safe_read_parquet(ORC_PATH)

# Основное текстовое поле
employees["full_name_text"] = build_full_name(employees)
orcs["full_name_text"] = build_full_name(orcs)

# Даты/гендер/документы
employees["birthdate_dt"] = pd.to_datetime(employees["birthdate"], errors="coerce")
orcs["birthdate_dt"] = pd.to_datetime(orcs["birthdate"], errors="coerce")
employees["gender_norm"] = employees["gender"].fillna("").str.lower()
orcs["gender_norm"] = orcs["gender"].fillna("").str.lower()

employees["inn_clean"] = clean_numeric(employees["inn"], r"\d{12}")
orcs["inn_clean"] = clean_numeric(orcs["inn"], r"\d{12}")
employees["passport_clean"] = clean_numeric(employees["passport"], r"\d{10}")
orcs["passport_clean"] = clean_numeric(orcs["passport"], r"\d{10}")

print(f"employees: {len(employees):,} rows | orcs: {len(orcs):,} rows")

# -----------------------
# 2. Hard match по ИНН/паспортам
# -----------------------
print("Поиск строгих совпадений по ИНН и паспорту...")
inn_matches = exact_matches(orcs.assign(inn=orcs["inn_clean"]), employees.assign(inn=employees["inn_clean"]), "inn", "hard_inn")
pass_matches = exact_matches(orcs.assign(passport=orcs["passport_clean"]), employees.assign(passport=employees["passport_clean"]), "passport", "hard_passport")
print(f"Найдено hard-match по ИНН: {len(inn_matches):,}; по паспорту: {len(pass_matches):,}")

# -----------------------
# 3. Vector search (TF-IDF + kNN)
# -----------------------
print("Обучаем TF-IDF (char 3-gram)...")
# Ограничиваем число фич ради памяти
vectorizer = TfidfVectorizer(analyzer="char", ngram_range=(3, 3), min_df=2, max_features=30000, dtype=np.float32)
emp_matrix = vectorizer.fit_transform(employees["full_name_text"].fillna(""))
orc_matrix = vectorizer.transform(orcs["full_name_text"].fillna(""))

print("Строим индекс ближайших соседей...")
knn = NearestNeighbors(metric="cosine", algorithm="brute", n_neighbors=10, n_jobs=1)
knn.fit(emp_matrix)

batch_size = 1000  # уменьшили батч для экономии RAM
rows = []
print("Ищем кандидатов батчами...")
for start in tqdm(range(0, orc_matrix.shape[0], batch_size), desc="kNN batches"):
    end = min(start + batch_size, orc_matrix.shape[0])
    dist, idx = knn.kneighbors(orc_matrix[start:end], return_distance=True)
    for i in range(dist.shape[0]):
        orc_idx = start + i
        for d, emp_idx in zip(dist[i], idx[i]):
            rows.append((orc_idx, int(emp_idx), float(1.0 - d)))  # 1 - cosine distance = similarity

cand_df = pd.DataFrame(rows, columns=["orc_idx", "emp_idx", "vector_sim"])
print(f"Всего кандидатных пар из векторайзера: {len(cand_df):,}")

# -----------------------
# 4. Re-ranking: Levenshtein + дата + гендер
# -----------------------
orc_names = orcs["full_name_text"].fillna("").tolist()
emp_names = employees["full_name_text"].fillna("").tolist()
orc_dates = orcs["birthdate_dt"].tolist()
emp_dates = employees["birthdate_dt"].tolist()
orc_gender = orcs["gender_norm"].tolist()
emp_gender = employees["gender_norm"].tolist()

name_sims, date_scores, gender_penalties = [], [], []
for o_idx, e_idx in tqdm(zip(cand_df["orc_idx"].to_numpy(), cand_df["emp_idx"].to_numpy()), total=len(cand_df), desc="Re-ranking"):
    name_sims.append(name_similarity(orc_names[o_idx], emp_names[e_idx]))
    date_scores.append(date_score(orc_dates[o_idx], emp_dates[e_idx]))
    gender_penalties.append(gender_penalty(orc_gender[o_idx], emp_gender[e_idx]))

cand_df["name_sim"] = name_sims
cand_df["date_score"] = date_scores
cand_df["gender_penalty"] = gender_penalties
cand_df["match_type"] = "vector_topk"
cand_df["total_score"] = 0.75 * cand_df["name_sim"] + 0.25 * cand_df["vector_sim"] + cand_df["date_score"] + cand_df["gender_penalty"]

# -----------------------
# 5. Финальный отбор и сохранение
# -----------------------
all_pairs = pd.concat([cand_df, inn_matches, pass_matches], ignore_index=True)
all_pairs = all_pairs.sort_values("total_score", ascending=False).drop_duplicates(subset=["orc_idx", "emp_idx"], keep="first")
threshold = 0.8
final_pairs = all_pairs[all_pairs["total_score"] >= threshold].copy()

# Kaggle submission формат: [id, orig_index]; orig_index = emp_idx
submission_df = final_pairs.sort_values("total_score", ascending=False).drop_duplicates(subset=["emp_idx"]).copy()
submission_df = submission_df.rename(columns={"emp_idx": "orig_index"})
submission_df = submission_df[["orig_index"]]
submission_df.insert(0, "id", range(len(submission_df)))
submission_df.to_parquet(SUBMISSION_PATH, index=False)
print(f"Финальных кандидатов: {len(final_pairs):,}; submission rows: {len(submission_df):,}; сохранено в {SUBMISSION_PATH.resolve()}")
print("Формат submission (head):")
print(submission_df.head())

# -----------------------
# 6. Превью: 10 случайных орков и по 3 лучших кандидата
# -----------------------

rng = np.random.default_rng(42)
sample_orcs = rng.choice(orcs.index, size=min(10, len(orcs)), replace=False)
preview_rows = []
for o_idx in sample_orcs:
    top = final_pairs[final_pairs["orc_idx"] == o_idx].head(3)
    if top.empty:
        preview_rows.append(
            {
                "orc_idx": int(o_idx),
                "orc_name": orcs.loc[o_idx, "full_name_text"],
                "candidate_emp_idx": None,
                "candidate_emp_name": None,
                "total_score": None,
                "match_type": "no_candidates",
            }
        )
        continue
    for _, row in top.iterrows():
        preview_rows.append(
            {
                "orc_idx": int(o_idx),
                "orc_name": orcs.loc[o_idx, "full_name_text"],
                "candidate_emp_idx": int(row["emp_idx"]),
                "candidate_emp_name": employees.loc[int(row["emp_idx"]), "full_name_text"],
                "total_score": round(float(row["total_score"]), 4),
                "match_type": row["match_type"],
            }
        )

preview_df = pd.DataFrame(preview_rows)
print("\nПревью 10 случайных орков (по 3 кандидата):")
display(preview_df)

# Дополнительно сохраним расширенную таблицу (с именами и датами) при желании
final_with_names = final_pairs.copy()
final_with_names["orc_name"] = final_with_names["orc_idx"].map(lambda i: orcs.loc[i, "full_name_text"])
final_with_names["emp_name"] = final_with_names["emp_idx"].map(lambda i: employees.loc[i, "full_name_text"])
final_with_names.to_parquet(SUBMISSION_DETAILED_PATH, index=False)
print(f"Сохранён подробный вариант: {SUBMISSION_DETAILED_PATH}")


Чтение данных...


KeyboardInterrupt: 

## Отчёт: 10 случайных примеров (3 кандидата на орка)
Ниже для быстрой валидации выводится 10 случайных орков и до трёх лучших кандидатов из сотрудников (по `total_score`). Использует результаты последнего запуска (берёт из памяти, иначе из `submission_detailed.parquet`).


In [None]:
# Если pipeline уже выполнен — используем final_pairs/orcs/employees из памяти.
# Иначе пробуем загрузить submission_detailed.parquet.
from pathlib import Path
import numpy as np
import pandas as pd

rng = np.random.default_rng(123)

if "final_pairs" in globals() and "orcs" in globals() and "employees" in globals():
    source_df = final_pairs.copy()
    source_df["orc_name"] = source_df["orc_idx"].map(lambda i: orcs.loc[i, "full_name_text"])
    source_df["emp_name"] = source_df["emp_idx"].map(lambda i: employees.loc[i, "full_name_text"])
    print("Используем результаты из памяти (после последнего запуска pipeline)")
elif Path("submission_detailed.parquet").exists():
    source_df = pd.read_parquet("submission_detailed.parquet")
    print("Используем сохранённый submission_detailed.parquet")
else:
    raise RuntimeError("Нет данных для отчёта: выполните pipeline или положите submission_detailed.parquet")

unique_orcs = source_df["orc_idx"].drop_duplicates().to_numpy()
sample_orcs = rng.choice(unique_orcs, size=min(10, len(unique_orcs)), replace=False)

rows = []
for o_idx in sample_orcs:
    top = source_df[source_df["orc_idx"] == o_idx].sort_values("total_score", ascending=False).head(3)
    if top.empty:
        rows.append({"orc_idx": int(o_idx), "orc_name": None, "candidate_emp_idx": None, "candidate_emp_name": None, "total_score": None, "match_type": "no_candidates"})
        continue
    for _, r in top.iterrows():
        rows.append(
            {
                "orc_idx": int(o_idx),
                "orc_name": r.get("orc_name"),
                "candidate_emp_idx": int(r["emp_idx"]),
                "candidate_emp_name": r.get("emp_name"),
                "total_score": round(float(r["total_score"]), 4),
                "match_type": r.get("match_type", "vector_topk"),
            }
        )

report_df = pd.DataFrame(rows)
print("10 случайных орков и топ-3 кандидатов:")
display(report_df)



Используем результаты из памяти (после последнего запуска pipeline)
10 случайных орков и топ-3 кандидатов:


Unnamed: 0,orc_idx,orc_name,candidate_emp_idx,candidate_emp_name,total_score,match_type
0,46921,егорова лилия онатольевна,1860716,егорова лилия аатолевна,1.0,hard_passport
1,39936,панькина шалентина ивановна,1635547,панькина валентина вановна,1.0,hard_inn
2,39011,цыганкова елена николаевна,569520,цыганкова елена николаевна,1.0,hard_passport
3,34303,стебо ваентинн хуидодов*ч,1432641,стегно валентин хуидодови*,1.0,hard_passport
4,19879,ершова татьяна алдкяандровна,304313,ершова татьяна олександровна,1.0,hard_passport
5,24436,золотько константин сергеевич,732379,золотько константин сергеевич,1.0,hard_passport
6,37506,севрюокво нина василиевна,30623,севрюкова нина васильевна,1.0,hard_passport
7,7089,кацгина галина виталиевна,1430857,кла*гина голина виталиевна,1.0,hard_inn
8,40461,регер наиля измои*овна,516633,регвг ноиля измаиловна,1.0,hard_passport
9,45480,морщагио альберт германович,252181,морщакин эльберь германович,1.0,hard_passport


Отчёт сохранён: results\preview_orcs_candidates.parquet


In [13]:
# Превью: 10 случайных орков и топ-3 кандидата из последнего прогноза
from pathlib import Path
import pandas as pd

results_dirs = sorted(Path("results").glob("splink_results_*"))
if not results_dirs:
    raise FileNotFoundError("Нет результатов в каталоге results/")

latest_dir = results_dirs[-1]
pred_path = latest_dir / "suspected_orcs.csv"
print(f"Используем предсказания: {pred_path}")

pred = pd.read_csv(pred_path)
if pred.empty:
    display(pd.DataFrame({"info": ["Файл предсказаний пуст"]}))
else:
    orcs = (
        pd.read_parquet(
            "finaldata/orcs_final.parquet",
            columns=["name", "surname", "fathername", "birthdate"],
        )
        .reset_index()
        .rename(columns={"index": "orc_id"})
    )
    employees = (
        pd.read_parquet(
            "finaldata/employees_final.parquet",
            columns=["name", "surname", "fathername"],
        )
        .reset_index()
        .rename(columns={"index": "employee_id"})
    )

    orcs["orc_full_name"] = (
        orcs[["surname", "name", "fathername"]]
        .fillna("")
        .agg(" ".join, axis=1)
        .str.replace(r"\s+", " ", regex=True)
        .str.strip()
    )
    employees["employee_full_name"] = (
        employees[["surname", "name", "fathername"]]
        .fillna("")
        .agg(" ".join, axis=1)
        .str.replace(r"\s+", " ", regex=True)
        .str.strip()
    )

    top3 = (
        pred.sort_values("match_probability", ascending=False)
        .groupby("orc_id")
        .head(3)
    )

    if top3.empty:
        display(pd.DataFrame({"info": ["Нет кандидатов после порога"]}))
    else:
        sample_orcs = top3["orc_id"].drop_duplicates().sample(
            n=min(10, top3["orc_id"].nunique()), random_state=42
        )
        preview = (
            top3[top3["orc_id"].isin(sample_orcs)]
            .merge(orcs[["orc_id", "orc_full_name", "birthdate"]], on="orc_id", how="left")
            .merge(
                employees[["employee_id", "employee_full_name"]],
                on="employee_id",
                how="left",
            )
            .sort_values(["orc_id", "match_probability"], ascending=[True, False])
        )

        display(
            preview[
                [
                    "orc_id",
                    "orc_full_name",
                    "birthdate",
                    "employee_id",
                    "employee_full_name",
                    "match_probability",
                ]
            ]
        )



Используем предсказания: results\splink_results_20251207_031124\suspected_orcs.csv


Unnamed: 0,info
0,Файл предсказаний пуст
