# Create `Students` table

In [1]:
import numpy as np
import pandas as pd

from src.dictionaries_translation import *

In [2]:
# load datasets
datasets = {}
years = range(2016, 2024)
for year in years:
    print(f"EIE {year} Loading...")
    if int(year) >= 2019:
        file_name = f'Odata{year}File.csv'
    else:
        file_name = f'OpenData{year}.csv'
    try:           
        dataset = pd.read_csv(f"../../data_loader/{year}/{file_name}", sep=";", encoding='utf-8', dtype = str)
    except:
        dataset = pd.read_csv(f"../../data_loader/{year}/{file_name}", sep=";", encoding='Windows 1251', dtype = str)
    datasets.update({year:dataset})
    print("success")

EIE 2016 Loading...
success
EIE 2017 Loading...
success
EIE 2018 Loading...
success
EIE 2019 Loading...
success
EIE 2020 Loading...
success
EIE 2021 Loading...
success
EIE 2022 Loading...
success
EIE 2023 Loading...
success


In [3]:
datasets[2022].columns

Index(['OUTID', 'Birth', 'SexTypeName', 'RegName', 'AREANAME', 'TERNAME',
       'RegTypeName', 'TerTypeName', 'EONAME', 'EOTypeName', 'EORegName',
       'EOAreaName', 'EOTerName', 'EOParent', 'Test', 'TestDate', 'TestStatus',
       'Block1', 'Block1Ball100', 'Block1Ball', 'Block2', 'Block2Ball100',
       'Block2Ball', 'Block3', 'Block3Ball100', 'Block3Ball', 'PTRegName',
       'PTAreaName', 'PTTerName'],
      dtype='object')

In [4]:
datasets[2022].TestStatus.unique()

array(['Зараховано', 'Не з’явився', 'Анульовано'], dtype=object)

In [5]:
for year, dataset in datasets.items():
    #lowercase all columns and add year as attribute
    dataset.columns = [col.lower() for col in dataset.columns]
    dataset['year'] = year

In [6]:
for year, dataset in datasets.items():
    print(year,":",[col for col in dataset.columns])

2016 : ['outid', 'birth', 'sextypename', 'regname', 'areaname', 'tername', 'regtypename', 'eoname', 'eotypename', 'eoregname', 'eoareaname', 'eotername', 'eoparent', 'ukrtest', 'ukrteststatus', 'ukrball100', 'ukrball12', 'ukrptname', 'ukrptregname', 'ukrptareaname', 'ukrpttername', 'histtest', 'histlang', 'histteststatus', 'histball100', 'histball12', 'histptname', 'histptregname', 'histptareaname', 'histpttername', 'mathtest', 'mathlang', 'mathteststatus', 'mathball100', 'mathball12', 'mathptname', 'mathptregname', 'mathptareaname', 'mathpttername', 'phystest', 'physlang', 'physteststatus', 'physball100', 'physptname', 'physptregname', 'physptareaname', 'physpttername', 'chemtest', 'chemlang', 'chemteststatus', 'chemball100', 'chemptname', 'chemptregname', 'chemptareaname', 'chempttername', 'biotest', 'biolang', 'bioteststatus', 'bioball100', 'bioptname', 'bioptregname', 'bioptareaname', 'biopttername', 'geotest', 'geolang', 'geoteststatus', 'geoball100', 'geoptname', 'geoptregname', 

In [7]:
for year, dataset in datasets.items():
    print(year)
    print('Dataset Length: ', len(dataset),'  Outid unique values: ', len(dataset['outid'].unique()))

2016
Dataset Length:  268003   Outid unique values:  268003
2017
Dataset Length:  240889   Outid unique values:  240889
2018
Dataset Length:  335687   Outid unique values:  335687
2019
Dataset Length:  353813   Outid unique values:  353813
2020
Dataset Length:  379299   Outid unique values:  379299
2021
Dataset Length:  389323   Outid unique values:  389323
2022
Dataset Length:  234104   Outid unique values:  234104
2023
Dataset Length:  288935   Outid unique values:  288935


In [8]:
# check if outid is unique for all years
outid = []
for year, dataset in datasets.items():
    outid.append(dataset['outid'].unique())
outid = np.concatenate(outid)
print('Outid unique values: ', len(np.unique(outid)))
# all datasets length
print('All datasets length: ', sum([len(dataset) for dataset in datasets.values()]))

Outid unique values:  2490053
All datasets length:  2490053


In [9]:
# student related columns
student_columns = ['outid', 'birth', 'sextypename', 'regname', 'areaname', 'tername', 'regtypename',
                   'classprofilename', 'classlangname', 'eoname','eoregname', 'eoareaname', 'eotername', 'year']

In [10]:
students_df = pd.DataFrame(columns=student_columns)

In [11]:
for year, dataset in datasets.items():
    for col in student_columns:
        if col not in dataset.columns:
            print(f"{col} not in {year} dataset")
            dataset[col] = None
    students_df = pd.concat([students_df, pd.DataFrame(dataset.loc[:, student_columns])], ignore_index=True)

students_df

classprofilename not in 2016 dataset
classlangname not in 2016 dataset
classprofilename not in 2022 dataset
classlangname not in 2022 dataset
classprofilename not in 2023 dataset
classlangname not in 2023 dataset


Unnamed: 0,outid,birth,sextypename,regname,areaname,tername,regtypename,classprofilename,classlangname,eoname,eoregname,eoareaname,eotername,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,Запорізька область,Мелітопольський район,с.Терпіння,Випускник загальноосвітнього навчального закла...,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",Запорізька область,Мелітопольський район,с.Терпіння,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,Хмельницька область,Красилівський район,м.Красилів,Випускник загальноосвітнього навчального закла...,,,Красилівська загальноосвітня школа I-III ступе...,Хмельницька область,Красилівський район,м.Красилів,2016
2,fbd0e280-4b77-4f34-942d-00bc850c2992,1995,жіноча,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,Випускник минулих років,,,,,,,2016
3,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,Чернівецька область,м.Чернівці,Шевченківський район міста,Випускник загальноосвітнього навчального закла...,,,Чернівецька спеціалізована школа І-ІІІ ступені...,Чернівецька область,м.Чернівці,Шевченківський район міста,2016
4,52a40c74-374e-4744-bd6f-938ab7a4a641,1997,чоловіча,Миколаївська область,Врадіївський район,с.Кумарі,"Учень (слухач, студент) професійно-технічного,...",,,,,,,2016
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2490048,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,Донецька область,Волноваський район,смт Велика Новосілка,Випускник закладу загальної середньої освіти 2...,,,Великоновосілківський заклад загальної середнь...,Донецька область,Волноваський район,смт Велика Новосілка,2023
2490049,98de6ea2-28f3-4951-990a-9a3ff45449de,2004,чоловіча,Волинська область,Ковельський район,м.Ковель,Випускник минулих років,,,,,,,2023
2490050,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,Львівська область,м.Львів,Сихівський район міста,Випускник закладу загальної середньої освіти 2...,,,Середня загальноосвітня школа №13,Львівська область,м.Львів,Сихівський район міста,2023
2490051,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,Харківська область,Лозівський район,м.Лозова,Випускник закладу загальної середньої освіти 2...,,,Лозівський центр професійної освіти Харківсько...,Харківська область,Лозівський район,м.Лозова,2023


In EIE 2016 and both NMT tests(2022, 2023) - we do not have 'classprofilename', 'classlangname' columns. So we fill them with 'None' values.

In [12]:
students_df.drop_duplicates(inplace=True)

students_df.dropna(subset=students_df.columns.difference(['year']), 
                      how = 'all', inplace=True)
students_df.reset_index(drop=True, inplace=True)
students_df

Unnamed: 0,outid,birth,sextypename,regname,areaname,tername,regtypename,classprofilename,classlangname,eoname,eoregname,eoareaname,eotername,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,Запорізька область,Мелітопольський район,с.Терпіння,Випускник загальноосвітнього навчального закла...,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",Запорізька область,Мелітопольський район,с.Терпіння,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,Хмельницька область,Красилівський район,м.Красилів,Випускник загальноосвітнього навчального закла...,,,Красилівська загальноосвітня школа I-III ступе...,Хмельницька область,Красилівський район,м.Красилів,2016
2,fbd0e280-4b77-4f34-942d-00bc850c2992,1995,жіноча,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,Випускник минулих років,,,,,,,2016
3,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,Чернівецька область,м.Чернівці,Шевченківський район міста,Випускник загальноосвітнього навчального закла...,,,Чернівецька спеціалізована школа І-ІІІ ступені...,Чернівецька область,м.Чернівці,Шевченківський район міста,2016
4,52a40c74-374e-4744-bd6f-938ab7a4a641,1997,чоловіча,Миколаївська область,Врадіївський район,с.Кумарі,"Учень (слухач, студент) професійно-технічного,...",,,,,,,2016
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2490048,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,Донецька область,Волноваський район,смт Велика Новосілка,Випускник закладу загальної середньої освіти 2...,,,Великоновосілківський заклад загальної середнь...,Донецька область,Волноваський район,смт Велика Новосілка,2023
2490049,98de6ea2-28f3-4951-990a-9a3ff45449de,2004,чоловіча,Волинська область,Ковельський район,м.Ковель,Випускник минулих років,,,,,,,2023
2490050,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,Львівська область,м.Львів,Сихівський район міста,Випускник закладу загальної середньої освіти 2...,,,Середня загальноосвітня школа №13,Львівська область,м.Львів,Сихівський район міста,2023
2490051,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,Харківська область,Лозівський район,м.Лозова,Випускник закладу загальної середньої освіти 2...,,,Лозівський центр професійної освіти Харківсько...,Харківська область,Лозівський район,м.Лозова,2023


In [13]:
# check whether there are duplicates by outid
students_df[students_df.duplicated(subset=['outid'], keep=False)]

Unnamed: 0,outid,birth,sextypename,regname,areaname,tername,regtypename,classprofilename,classlangname,eoname,eoregname,eoareaname,eotername,year


## Added location column id

In [14]:
# load location dictionary
locations = pd.read_csv('./matching_data/locations.csv', encoding='utf-8', dtype=str)
locations

Unnamed: 0,regname,areaname,tername,KOATUU_2020,KATOTTG_2023,category,region_name
0,Запорізька область,Мелітопольський район,с.Терпіння,2323085101,UA23080270010078454,village,Zaporizka
1,Хмельницька область,Красилівський район,м.Красилів,6822710100,UA68040210010032567,town,Khmelnytska
2,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,1223881501,UA12140170040016918,village,Dnipropetrovska
3,Чернівецька область,м.Чернівці,Шевченківський район міста,7310100000,UA73060610010033137,town,Chernivetska
4,Миколаївська область,Врадіївський район,с.Кумарі,4822383001,UA48080050190079797,village,Mykolaivska
...,...,...,...,...,...,...,...
29108,США,м.Детройт,м.Детройт,0026010000,OC26010000000000000,abroad,United States of America
29109,Велика Британія,м.Абериствіт,м.Абериствіт,0008030000,OC08030000000000000,abroad,United Kingdom
29110,США,м.Нью-Йорк,м.Нью-Йорк,0026020000,OC26020000000000000,abroad,United States of America
29111,США,м.Х'юстон,м.Х'юстон,0026040000,OC26040000000000000,abroad,United States of America


In [15]:
# check whether there are duplicates
locations[locations.duplicated(subset=['regname', 'areaname', 'tername'], keep=False)]

Unnamed: 0,regname,areaname,tername,KOATUU_2020,KATOTTG_2023,category,region_name


In [16]:
# add location codifier
students_loc_df = students_df.merge(locations[['regname', 'areaname', 'tername', 'KOATUU_2020', 'KATOTTG_2023']], on=['regname', 'areaname', 'tername'], how='left')

students_loc_df

Unnamed: 0,outid,birth,sextypename,regname,areaname,tername,regtypename,classprofilename,classlangname,eoname,eoregname,eoareaname,eotername,year,KOATUU_2020,KATOTTG_2023
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,Запорізька область,Мелітопольський район,с.Терпіння,Випускник загальноосвітнього навчального закла...,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",Запорізька область,Мелітопольський район,с.Терпіння,2016,2323085101,UA23080270010078454
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,Хмельницька область,Красилівський район,м.Красилів,Випускник загальноосвітнього навчального закла...,,,Красилівська загальноосвітня школа I-III ступе...,Хмельницька область,Красилівський район,м.Красилів,2016,6822710100,UA68040210010032567
2,fbd0e280-4b77-4f34-942d-00bc850c2992,1995,жіноча,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,Випускник минулих років,,,,,,,2016,1223881501,UA12140170040016918
3,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,Чернівецька область,м.Чернівці,Шевченківський район міста,Випускник загальноосвітнього навчального закла...,,,Чернівецька спеціалізована школа І-ІІІ ступені...,Чернівецька область,м.Чернівці,Шевченківський район міста,2016,7310100000,UA73060610010033137
4,52a40c74-374e-4744-bd6f-938ab7a4a641,1997,чоловіча,Миколаївська область,Врадіївський район,с.Кумарі,"Учень (слухач, студент) професійно-технічного,...",,,,,,,2016,4822383001,UA48080050190079797
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2490048,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,Донецька область,Волноваський район,смт Велика Новосілка,Випускник закладу загальної середньої освіти 2...,,,Великоновосілківський заклад загальної середнь...,Донецька область,Волноваський район,смт Велика Новосілка,2023,1421255100,UA14040010010027148
2490049,98de6ea2-28f3-4951-990a-9a3ff45449de,2004,чоловіча,Волинська область,Ковельський район,м.Ковель,Випускник минулих років,,,,,,,2023,0710400000,UA07060190010068509
2490050,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,Львівська область,м.Львів,Сихівський район міста,Випускник закладу загальної середньої освіти 2...,,,Середня загальноосвітня школа №13,Львівська область,м.Львів,Сихівський район міста,2023,4610136800,UA46060250010457177
2490051,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,Харківська область,Лозівський район,м.Лозова,Випускник закладу загальної середньої освіти 2...,,,Лозівський центр професійної освіти Харківсько...,Харківська область,Лозівський район,м.Лозова,2023,6311000000,UA63100050010081626


In [17]:
students_loc_df[students_loc_df.KOATUU_2020.isna()]

Unnamed: 0,outid,birth,sextypename,regname,areaname,tername,regtypename,classprofilename,classlangname,eoname,eoregname,eoareaname,eotername,year,KOATUU_2020,KATOTTG_2023
144704,3b07c9d4-067c-47fa-8cf4-8e2097ade009,1999,чоловіча,Дніпропетровська область,Дніпропетровська область,Петропавлівський район,"Учень (слухач, студент) професійно-технічного,...",,,,,,,2016,,


In [18]:
# it is problem row, so we will drop it
students_loc_df.dropna(subset=['KOATUU_2020'], inplace=True)

In [19]:
# drop names
students_loc_df = students_loc_df[['outid',  'birth', 'sextypename', 'regtypename', 'classprofilename', 'classlangname', 'eoname', 
                                   'KOATUU_2020', 'KATOTTG_2023', 'eoregname', 'eoareaname', 'eotername', 'year']].copy()
students_loc_df 

Unnamed: 0,outid,birth,sextypename,regtypename,classprofilename,classlangname,eoname,KOATUU_2020,KATOTTG_2023,eoregname,eoareaname,eotername,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,Випускник загальноосвітнього навчального закла...,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",2323085101,UA23080270010078454,Запорізька область,Мелітопольський район,с.Терпіння,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,Випускник загальноосвітнього навчального закла...,,,Красилівська загальноосвітня школа I-III ступе...,6822710100,UA68040210010032567,Хмельницька область,Красилівський район,м.Красилів,2016
2,fbd0e280-4b77-4f34-942d-00bc850c2992,1995,жіноча,Випускник минулих років,,,,1223881501,UA12140170040016918,,,,2016
3,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,Випускник загальноосвітнього навчального закла...,,,Чернівецька спеціалізована школа І-ІІІ ступені...,7310100000,UA73060610010033137,Чернівецька область,м.Чернівці,Шевченківський район міста,2016
4,52a40c74-374e-4744-bd6f-938ab7a4a641,1997,чоловіча,"Учень (слухач, студент) професійно-технічного,...",,,,4822383001,UA48080050190079797,,,,2016
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2490048,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,Випускник закладу загальної середньої освіти 2...,,,Великоновосілківський заклад загальної середнь...,1421255100,UA14040010010027148,Донецька область,Волноваський район,смт Велика Новосілка,2023
2490049,98de6ea2-28f3-4951-990a-9a3ff45449de,2004,чоловіча,Випускник минулих років,,,,0710400000,UA07060190010068509,,,,2023
2490050,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,Випускник закладу загальної середньої освіти 2...,,,Середня загальноосвітня школа №13,4610136800,UA46060250010457177,Львівська область,м.Львів,Сихівський район міста,2023
2490051,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,Випускник закладу загальної середньої освіти 2...,,,Лозівський центр професійної освіти Харківсько...,6311000000,UA63100050010081626,Харківська область,Лозівський район,м.Лозова,2023


In [20]:
students_loc_df[students_loc_df.eoname.notna()]

Unnamed: 0,outid,birth,sextypename,regtypename,classprofilename,classlangname,eoname,KOATUU_2020,KATOTTG_2023,eoregname,eoareaname,eotername,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,Випускник загальноосвітнього навчального закла...,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",2323085101,UA23080270010078454,Запорізька область,Мелітопольський район,с.Терпіння,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,Випускник загальноосвітнього навчального закла...,,,Красилівська загальноосвітня школа I-III ступе...,6822710100,UA68040210010032567,Хмельницька область,Красилівський район,м.Красилів,2016
3,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,Випускник загальноосвітнього навчального закла...,,,Чернівецька спеціалізована школа І-ІІІ ступені...,7310100000,UA73060610010033137,Чернівецька область,м.Чернівці,Шевченківський район міста,2016
5,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,жіноча,Випускник загальноосвітнього навчального закла...,,,Загальноосвітня школа I-III ступенів № 6 Дружк...,1411700000,UA14120030010055241,Донецька область,Донецька область,м.Дружківка,2016
6,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,чоловіча,Випускник загальноосвітнього навчального закла...,,,Тернопільська спеціалізована школа І-ІІІ ступе...,6110100000,UA61040490010069060,Тернопільська область,Тернопільська область,м.Тернопіль,2016
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2490047,98ee46c3-abe4-4bab-880e-0e7ceef29348,2005,чоловіча,Випускник закладу загальної середньої освіти 2...,,,Навчально-виховний комплекс №167 з поглибленим...,8036600000,UA80000000000479391,м.Київ,м.Київ,Дніпровський район міста,2023
2490048,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,Випускник закладу загальної середньої освіти 2...,,,Великоновосілківський заклад загальної середнь...,1421255100,UA14040010010027148,Донецька область,Волноваський район,смт Велика Новосілка,2023
2490050,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,Випускник закладу загальної середньої освіти 2...,,,Середня загальноосвітня школа №13,4610136800,UA46060250010457177,Львівська область,м.Львів,Сихівський район міста,2023
2490051,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,Випускник закладу загальної середньої освіти 2...,,,Лозівський центр професійної освіти Харківсько...,6311000000,UA63100050010081626,Харківська область,Лозівський район,м.Лозова,2023


## Added school column id

**Note:** not all participants have school id, because if they graduated from schools before we will not have this information.

In [21]:
# separate dataset to with schools and without
students_loc_df_with_schools = students_loc_df[students_loc_df.eoname.notna()].copy()
students_loc_df_without_schools = students_loc_df[students_loc_df.eoname.isna()].copy()

print('With schools: ', len(students_loc_df_with_schools), '\nWithout schools: ', len(students_loc_df_without_schools))

With schools:  2122303 
Without schools:  367749


#### School KOATUU codes


In [22]:
location_school = locations.rename(columns={'KOATUU_2020':'KOATUU_2020_school', 'KATOTTG_2023':'KATOTTG_2023_school', 'regname':'eoregname', 'areaname':'eoareaname', 'tername':'eotername'})
location_school.head()

Unnamed: 0,eoregname,eoareaname,eotername,KOATUU_2020_school,KATOTTG_2023_school,category,region_name
0,Запорізька область,Мелітопольський район,с.Терпіння,2323085101,UA23080270010078454,village,Zaporizka
1,Хмельницька область,Красилівський район,м.Красилів,6822710100,UA68040210010032567,town,Khmelnytska
2,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,1223881501,UA12140170040016918,village,Dnipropetrovska
3,Чернівецька область,м.Чернівці,Шевченківський район міста,7310100000,UA73060610010033137,town,Chernivetska
4,Миколаївська область,Врадіївський район,с.Кумарі,4822383001,UA48080050190079797,village,Mykolaivska


In [23]:
# check whether there are duplicates
location_school[location_school.duplicated(subset=['eoregname', 'eoareaname', 'eotername'], keep=False)]

Unnamed: 0,eoregname,eoareaname,eotername,KOATUU_2020_school,KATOTTG_2023_school,category,region_name


In [24]:
students_loc_df_with_schools_loc = students_loc_df_with_schools.merge(
    location_school[['eoregname', 'eoareaname', 'eotername', 'KOATUU_2020_school', 'KATOTTG_2023_school']], 
    on=['eoregname', 'eoareaname', 'eotername'], 
    how='left'
)
students_loc_df_with_schools_loc

Unnamed: 0,outid,birth,sextypename,regtypename,classprofilename,classlangname,eoname,KOATUU_2020,KATOTTG_2023,eoregname,eoareaname,eotername,year,KOATUU_2020_school,KATOTTG_2023_school
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,Випускник загальноосвітнього навчального закла...,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",2323085101,UA23080270010078454,Запорізька область,Мелітопольський район,с.Терпіння,2016,2323085101,UA23080270010078454
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,Випускник загальноосвітнього навчального закла...,,,Красилівська загальноосвітня школа I-III ступе...,6822710100,UA68040210010032567,Хмельницька область,Красилівський район,м.Красилів,2016,6822710100,UA68040210010032567
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,Випускник загальноосвітнього навчального закла...,,,Чернівецька спеціалізована школа І-ІІІ ступені...,7310100000,UA73060610010033137,Чернівецька область,м.Чернівці,Шевченківський район міста,2016,7310100000,UA73060610010033137
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,жіноча,Випускник загальноосвітнього навчального закла...,,,Загальноосвітня школа I-III ступенів № 6 Дружк...,1411700000,UA14120030010055241,Донецька область,Донецька область,м.Дружківка,2016,1411700000,UA14120030010055241
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,чоловіча,Випускник загальноосвітнього навчального закла...,,,Тернопільська спеціалізована школа І-ІІІ ступе...,6110100000,UA61040490010069060,Тернопільська область,Тернопільська область,м.Тернопіль,2016,6110100000,UA61040490010069060
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2122298,98ee46c3-abe4-4bab-880e-0e7ceef29348,2005,чоловіча,Випускник закладу загальної середньої освіти 2...,,,Навчально-виховний комплекс №167 з поглибленим...,8036600000,UA80000000000479391,м.Київ,м.Київ,Дніпровський район міста,2023,8036600000,UA80000000000479391
2122299,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,Випускник закладу загальної середньої освіти 2...,,,Великоновосілківський заклад загальної середнь...,1421255100,UA14040010010027148,Донецька область,Волноваський район,смт Велика Новосілка,2023,1421255100,UA14040010010027148
2122300,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,Випускник закладу загальної середньої освіти 2...,,,Середня загальноосвітня школа №13,4610136800,UA46060250010457177,Львівська область,м.Львів,Сихівський район міста,2023,4610136800,UA46060250010457177
2122301,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,Випускник закладу загальної середньої освіти 2...,,,Лозівський центр професійної освіти Харківсько...,6311000000,UA63100050010081626,Харківська область,Лозівський район,м.Лозова,2023,6311000000,UA63100050010081626


In [25]:
students_loc_df_with_schools_loc[students_loc_df_with_schools_loc.KATOTTG_2023_school.isna()]

Unnamed: 0,outid,birth,sextypename,regtypename,classprofilename,classlangname,eoname,KOATUU_2020,KATOTTG_2023,eoregname,eoareaname,eotername,year,KOATUU_2020_school,KATOTTG_2023_school
28999,39e01292-ae14-4ee5-a27f-a55fd2c72952,1999,жіноча,Випускник загальноосвітнього навчального закла...,,,"Лучицький навчально-виховний комплекс ""Загальн...",4624883201,UA46120110270041867,Львівська область,Львівська область,Сокальський район,2016,,
99255,106e21b4-285d-4e9d-bc09-844c89ba1fd7,1999,чоловіча,Випускник загальноосвітнього навчального закла...,,,"Лучицький навчально-виховний комплекс ""Загальн...",4624883201,UA46120110270041867,Львівська область,Львівська область,Сокальський район,2016,,
100232,e84a0dca-f2c0-44c9-8dcc-99302b687da2,1998,чоловіча,Випускник загальноосвітнього навчального закла...,,,"Лучицький навчально-виховний комплекс ""Загальн...",4624883203,UA46120110580099609,Львівська область,Львівська область,Сокальський район,2016,,
123586,b2248dcf-06d2-4686-a4f3-f1e26c2cc855,1998,жіноча,Випускник загальноосвітнього навчального закла...,,,"Лучицький навчально-виховний комплекс ""Загальн...",4624880201,UA46120110030014377,Львівська область,Львівська область,Сокальський район,2016,,
161138,f57b22c9-cbef-42fd-8729-bda122857e71,1998,чоловіча,Випускник загальноосвітнього навчального закла...,,,"Лучицький навчально-виховний комплекс ""Загальн...",4624883203,UA46120110580099609,Львівська область,Львівська область,Сокальський район,2016,,
183789,9508aabb-33a9-4e18-8666-16def1c5e8de,1999,жіноча,Випускник загальноосвітнього навчального закла...,,,"Лучицький навчально-виховний комплекс ""Загальн...",4624883203,UA46120110580099609,Львівська область,Львівська область,Сокальський район,2016,,
188801,80be0e6b-2ae1-4cf3-89cb-e5cc903f1cc5,1999,жіноча,Випускник загальноосвітнього навчального закла...,,,"Лучицький навчально-виховний комплекс ""Загальн...",4624880202,UA46120110250037736,Львівська область,Львівська область,Сокальський район,2016,,
198778,5b5e05a3-76cd-4160-8a2f-7513bdbfe5dc,1999,чоловіча,Випускник загальноосвітнього навчального закла...,,,"Лучицький навчально-виховний комплекс ""Загальн...",4624883203,UA46120110580099609,Львівська область,Львівська область,Сокальський район,2016,,


In [26]:
# set the corresponding KOATUU
to_set = students_loc_df_with_schools_loc[students_loc_df_with_schools_loc.KATOTTG_2023_school.isna()].outid.unique()
for id in to_set:
    students_loc_df_with_schools_loc.loc[students_loc_df_with_schools_loc.outid == id, 'KOATUU_2020_school'] = '4624883201'
    students_loc_df_with_schools_loc.loc[students_loc_df_with_schools_loc.outid == id, 'KATOTTG_2023_school'] = 'UA46120110270041867'

In [27]:
schools_df = pd.read_csv('./matching_data/schools_edrpou.csv', encoding='utf-8', dtype=str)
schools_df

Unnamed: 0,eoname,eotypename,KOATUU_2020,KATOTTG_2023,year,EDRPOU
0,"Вiдокремлений структурний пiдроздiл ""Краматорс...",заклад фахової передвищої освіти,0510100000,UA05020030010063857,2023,04601943
1,"ВСП ""Технологічно-промисловий фаховий коледж В...",заклад фахової передвищої освіти,0510100000,UA05020030010063857,2022,00419667
2,Вище професійне училище №11 м. Вінниці,вище професійне училище,0510100000,UA05020030010063857,2018,03065891
3,Вище професійне училище №11 м. Вінниці,вище професійне училище,0510100000,UA05020030010063857,2019,03065891
4,Вище професійне училище №11 м. Вінниці,вище професійне училище,0510100000,UA05020030010063857,2020,03065891
...,...,...,...,...,...,...
82608,Школа №95 І-ІІІ ступенів Шевченківського район...,середня загальноосвітня школа,8039100000,UA80000000001078669,2017,26125905
82609,школа І-ІІІ ступенів №175 ім.В Марченка Шевчен...,середня загальноосвітня школа,8039100000,UA80000000001078669,2020,26125940
82610,школа І-ІІІ ступенів №175 ім.В Марченка Шевчен...,середня загальноосвітня школа,8039100000,UA80000000001078669,2021,26125940
82611,школа І-ІІІ ступенів №175 ім.В Марченка Шевчен...,середня загальноосвітня школа,8039100000,UA80000000001078669,2022,26125940


In [28]:
schools_df[schools_df.duplicated(subset=['eoname', 'year', 'KATOTTG_2023'], keep=False)]

Unnamed: 0,eoname,eotypename,KOATUU_2020,KATOTTG_2023,year,EDRPOU


In [29]:
schools_df = schools_df[['eoname', 'EDRPOU', 'year', 'KATOTTG_2023']]
# schools_df = schools_df.drop_duplicates(subset=['eoname', 'KOATUU_2020', 'KATOTTG_2023','EDRPOU', 'year'], keep='first')
schools_df

Unnamed: 0,eoname,EDRPOU,year,KATOTTG_2023
0,"Вiдокремлений структурний пiдроздiл ""Краматорс...",04601943,2023,UA05020030010063857
1,"ВСП ""Технологічно-промисловий фаховий коледж В...",00419667,2022,UA05020030010063857
2,Вище професійне училище №11 м. Вінниці,03065891,2018,UA05020030010063857
3,Вище професійне училище №11 м. Вінниці,03065891,2019,UA05020030010063857
4,Вище професійне училище №11 м. Вінниці,03065891,2020,UA05020030010063857
...,...,...,...,...
82608,Школа №95 І-ІІІ ступенів Шевченківського район...,26125905,2017,UA80000000001078669
82609,школа І-ІІІ ступенів №175 ім.В Марченка Шевчен...,26125940,2020,UA80000000001078669
82610,школа І-ІІІ ступенів №175 ім.В Марченка Шевчен...,26125940,2021,UA80000000001078669
82611,школа І-ІІІ ступенів №175 ім.В Марченка Шевчен...,26125940,2022,UA80000000001078669


In [30]:
schools_df = schools_df.rename(columns={'KATOTTG_2023':'KATOTTG_2023_school'})

In [31]:
students_loc_df_with_schools_loc['year'] = students_loc_df_with_schools_loc.year.astype(int)
schools_df['year'] = schools_df.year.astype(int)

In [32]:
# add edrpou to students
students_loc_df_with_schools_loc = students_loc_df_with_schools_loc.merge(
    schools_df, 
    on=['eoname','KATOTTG_2023_school', 'year'], 
    how='left'
)

students_loc_df_with_schools_loc

Unnamed: 0,outid,birth,sextypename,regtypename,classprofilename,classlangname,eoname,KOATUU_2020,KATOTTG_2023,eoregname,eoareaname,eotername,year,KOATUU_2020_school,KATOTTG_2023_school,EDRPOU
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,Випускник загальноосвітнього навчального закла...,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",2323085101,UA23080270010078454,Запорізька область,Мелітопольський район,с.Терпіння,2016,2323085101,UA23080270010078454,26373098
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,Випускник загальноосвітнього навчального закла...,,,Красилівська загальноосвітня школа I-III ступе...,6822710100,UA68040210010032567,Хмельницька область,Красилівський район,м.Красилів,2016,6822710100,UA68040210010032567,25880114
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,Випускник загальноосвітнього навчального закла...,,,Чернівецька спеціалізована школа І-ІІІ ступені...,7310100000,UA73060610010033137,Чернівецька область,м.Чернівці,Шевченківський район міста,2016,7310100000,UA73060610010033137,21431046
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,жіноча,Випускник загальноосвітнього навчального закла...,,,Загальноосвітня школа I-III ступенів № 6 Дружк...,1411700000,UA14120030010055241,Донецька область,Донецька область,м.Дружківка,2016,1411700000,UA14120030010055241,25705061
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,чоловіча,Випускник загальноосвітнього навчального закла...,,,Тернопільська спеціалізована школа І-ІІІ ступе...,6110100000,UA61040490010069060,Тернопільська область,Тернопільська область,м.Тернопіль,2016,6110100000,UA61040490010069060,14040173
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2122298,98ee46c3-abe4-4bab-880e-0e7ceef29348,2005,чоловіча,Випускник закладу загальної середньої освіти 2...,,,Навчально-виховний комплекс №167 з поглибленим...,8036600000,UA80000000000479391,м.Київ,м.Київ,Дніпровський район міста,2023,8036600000,UA80000000000479391,22875911
2122299,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,Випускник закладу загальної середньої освіти 2...,,,Великоновосілківський заклад загальної середнь...,1421255100,UA14040010010027148,Донецька область,Волноваський район,смт Велика Новосілка,2023,1421255100,UA14040010010027148,21978069
2122300,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,Випускник закладу загальної середньої освіти 2...,,,Середня загальноосвітня школа №13,4610136800,UA46060250010457177,Львівська область,м.Львів,Сихівський район міста,2023,4610136800,UA46060250010457177,22336508
2122301,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,Випускник закладу загальної середньої освіти 2...,,,Лозівський центр професійної освіти Харківсько...,6311000000,UA63100050010081626,Харківська область,Лозівський район,м.Лозова,2023,6311000000,UA63100050010081626,02547949


In [33]:
students_loc_df_with_schools_loc[students_loc_df_with_schools_loc.EDRPOU.isna()]

Unnamed: 0,outid,birth,sextypename,regtypename,classprofilename,classlangname,eoname,KOATUU_2020,KATOTTG_2023,eoregname,eoareaname,eotername,year,KOATUU_2020_school,KATOTTG_2023_school,EDRPOU


In [34]:
students_loc_df_with_schools_loc[students_loc_df_with_schools_loc.duplicated(subset=['outid','EDRPOU'], keep=False)]

Unnamed: 0,outid,birth,sextypename,regtypename,classprofilename,classlangname,eoname,KOATUU_2020,KATOTTG_2023,eoregname,eoareaname,eotername,year,KOATUU_2020_school,KATOTTG_2023_school,EDRPOU


In [35]:
students_loc_df_with_schools_loc = students_loc_df_with_schools_loc[['outid', 'birth', 'sextypename', 'classprofilename', 'regtypename',
                                                             'classlangname', 'KOATUU_2020', 'KATOTTG_2023', 'EDRPOU', 'year']].reset_index(drop=True)
print('With schools: ', len(students_loc_df_with_schools_loc))
students_loc_df_with_schools_loc.head()

With schools:  2122303


Unnamed: 0,outid,birth,sextypename,classprofilename,regtypename,classlangname,KOATUU_2020,KATOTTG_2023,EDRPOU,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,,Випускник загальноосвітнього навчального закла...,,2323085101,UA23080270010078454,26373098,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,,Випускник загальноосвітнього навчального закла...,,6822710100,UA68040210010032567,25880114,2016
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,,Випускник загальноосвітнього навчального закла...,,7310100000,UA73060610010033137,21431046,2016
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,жіноча,,Випускник загальноосвітнього навчального закла...,,1411700000,UA14120030010055241,25705061,2016
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,чоловіча,,Випускник загальноосвітнього навчального закла...,,6110100000,UA61040490010069060,14040173,2016


In [36]:
students_loc_df_with_schools_loc[students_loc_df_with_schools_loc.EDRPOU.isna()]

Unnamed: 0,outid,birth,sextypename,classprofilename,regtypename,classlangname,KOATUU_2020,KATOTTG_2023,EDRPOU,year


In [37]:
students_loc_df_without_schools = students_loc_df_without_schools[['outid', 'birth', 'sextypename', 'classprofilename', 'regtypename',
                                                             'classlangname', 'KOATUU_2020', 'KATOTTG_2023', 'year']].reset_index(drop=True)
students_loc_df_without_schools['EDRPOU'] = None
print('Without schools: ', len(students_loc_df_without_schools))
students_loc_df_without_schools.head()

Without schools:  367749


Unnamed: 0,outid,birth,sextypename,classprofilename,regtypename,classlangname,KOATUU_2020,KATOTTG_2023,year,EDRPOU
0,fbd0e280-4b77-4f34-942d-00bc850c2992,1995,жіноча,,Випускник минулих років,,1223881501,UA12140170040016918,2016,
1,52a40c74-374e-4744-bd6f-938ab7a4a641,1997,чоловіча,,"Учень (слухач, студент) професійно-технічного,...",,4822383001,UA48080050190079797,2016,
2,debd6e87-f3a1-483c-bb02-10b56d78ea0d,1995,чоловіча,,Випускник минулих років,,1211600000,UA12080050010010114,2016,
3,6934408b-ff44-495c-9151-8c8c6313a0fa,1995,жіноча,,Випускник минулих років,,1210136900,UA12020010010512802,2016,
4,2b2a1159-caed-48b4-9828-ce2307ff90fa,1997,чоловіча,,Випускник минулих років,,1210137800,UA12020010010757287,2016,


In [140]:
# merge datasets
students_loc_df = pd.concat([students_loc_df_with_schools_loc, students_loc_df_without_schools], ignore_index=True)
print('All students: ', len(students_loc_df))
students_loc_df.head()

All students:  2490052


Unnamed: 0,outid,birth,sextypename,classprofilename,regtypename,classlangname,KOATUU_2020,KATOTTG_2023,EDRPOU,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,,Випускник загальноосвітнього навчального закла...,,2323085101,UA23080270010078454,26373098,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,,Випускник загальноосвітнього навчального закла...,,6822710100,UA68040210010032567,25880114,2016
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,,Випускник загальноосвітнього навчального закла...,,7310100000,UA73060610010033137,21431046,2016
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,жіноча,,Випускник загальноосвітнього навчального закла...,,1411700000,UA14120030010055241,25705061,2016
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,чоловіча,,Випускник загальноосвітнього навчального закла...,,6110100000,UA61040490010069060,14040173,2016


# Translation

In [141]:
students_loc_df["sextypename"].replace(sex_type_dict,  inplace=True)
students_loc_df["classprofilename"].replace(class_profile_dict,  inplace=True)
students_loc_df["classlangname"].replace(lang_dict,  inplace=True)

In [142]:
students_loc_df.rename(columns={"EDRPOU": "EDRPOU_school"}, inplace=True)

In [143]:
students_loc_df[students_loc_df.year == 2023].regtypename.unique()

array(['Випускник закладу загальної середньої освіти 2023 року',
       'Установа виконання покарань', 'Випускник минулих років'],
      dtype=object)

In [144]:
translation_map = {
  'Випускник загальноосвітнього навчального закладу 2016 року': 'A graduate of an Ukrainian school of the current year',
  'Випускник загальноосвітнього навчального закладу 2017 року': 'A graduate of an Ukrainian school of the current year',
  'Випускник закладу загальної середньої освіти 2018 року': 'A graduate of an Ukrainian school of the current year',
  'Випускник закладу загальної середньої освіти 2019 року': 'A graduate of an Ukrainian school of the current year',
  'випускник закладу загальної середньої освіти 2020 року': 'A graduate of an Ukrainian school of the current year',
  'Випускник загальноосвітнього навчального закладу 2021 року': 'A graduate of an Ukrainian school of the current year',
  'Випускник закладу загальної середньої освіти 2022 року': 'A graduate of an Ukrainian school of the current year',
  'Випускник закладу загальної середньої освіти 2023 року': 'A graduate of an Ukrainian school of the current year',
  'Учень (слухач, студент) професійно-технічного, вищого навчального закладу':'A student of a higher/vocational pre-higher education institution',
  'Учень (слухач) закладу професійної (професійно-технічної) освіти':'A graduate of a vocational pre-higher education institution',
  'Установа виконання покарань': "The institution of punishment",
  'Випускник минулих років': "A graduate of previous years",
  'Випускник, який здобуде в 2016 році повну загальну середню освіту в навчальному закладі іншої держави':'A graduate of a foreign school',
  'Випускник, який здобуде в 2017 році повну загальну середню освіту в навчальному закладі іншої держави':'A graduate of a foreign school',
  'Випускник, який здобуде в 2018 році повну загальну середню освіту в навчальному закладі іншої держави':'A graduate of a foreign school',
  'Випускник, який здобуде в 2019 році повну загальну середню освіту в закордонному закладі освіти':'A graduate of a foreign school',
  'Випускник, який здобуде в 2020 році повну загальну середню освіту в закордонному закладі освіти':'A graduate of a foreign school',
  'Випускник, який здобуде в 2021 році повну загальну середню освіту в навчальному закладі іншої держави':'A graduate of a foreign school',
  'Випускник, який здобуде в 2022 році повну загальну середню освіту в закордонному закладі освіти':'A graduate of a foreign school',
  'Студент закладу вищої освіти':'A student of a higher education institution',
  'Студент закладу вищої/фахової передвищої освіти':'A student of a higher/vocational pre-higher education institution'
}

students_loc_df.loc[:, 'regtypename'] = students_loc_df['regtypename'].map(translation_map)
students_loc_df.head()

Unnamed: 0,outid,birth,sextypename,classprofilename,regtypename,classlangname,KOATUU_2020,KATOTTG_2023,EDRPOU_school,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,Male,,A graduate of an Ukrainian school of the curre...,,2323085101,UA23080270010078454,26373098,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,Female,,A graduate of an Ukrainian school of the curre...,,6822710100,UA68040210010032567,25880114,2016
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,Male,,A graduate of an Ukrainian school of the curre...,,7310100000,UA73060610010033137,21431046,2016
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,Female,,A graduate of an Ukrainian school of the curre...,,1411700000,UA14120030010055241,25705061,2016
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,Male,,A graduate of an Ukrainian school of the curre...,,6110100000,UA61040490010069060,14040173,2016


In [145]:
students_loc_df.regtypename.unique()

array(['A graduate of an Ukrainian school of the current year',
       'The institution of punishment', 'A graduate of previous years',
       'A graduate of a foreign school',
       'A graduate of a vocational pre-higher education institution',
       'A student of a higher education institution',
       'A student of a higher/vocational pre-higher education institution'],
      dtype=object)

In [146]:
# update all nan values to None
students_loc_df = students_loc_df.where(pd.notnull(students_loc_df), '')

In [147]:
set(schools_df.EDRPOU) - set(students_loc_df.EDRPOU_school)

set()

In [148]:
set(students_loc_df.EDRPOU_school) - set(schools_df.EDRPOU)

{''}

## Save table to csv file

In [149]:
students_loc_df= students_loc_df.drop(columns=['KOATUU_2020'])
students_loc_df

Unnamed: 0,outid,birth,sextypename,classprofilename,regtypename,classlangname,KATOTTG_2023,EDRPOU_school,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,Male,,A graduate of an Ukrainian school of the curre...,,UA23080270010078454,26373098,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,Female,,A graduate of an Ukrainian school of the curre...,,UA68040210010032567,25880114,2016
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,Male,,A graduate of an Ukrainian school of the curre...,,UA73060610010033137,21431046,2016
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,Female,,A graduate of an Ukrainian school of the curre...,,UA14120030010055241,25705061,2016
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,Male,,A graduate of an Ukrainian school of the curre...,,UA61040490010069060,14040173,2016
...,...,...,...,...,...,...,...,...,...
2490047,98f773cf-4b79-425b-a415-2eb5dd097199,2003,Male,,A graduate of previous years,,UA59020070010054283,,2023
2490048,98dc27ec-1801-4741-b8f7-3a2ca8b6e772,1996,Female,,A graduate of previous years,,UA32100010010059200,,2023
2490049,995cc588-5c44-45bd-8f0c-3f70ff1e746e,2004,Female,,A graduate of previous years,,UA56080170010061049,,2023
2490050,98fc3ab5-1d6c-44ec-8e5e-3fd5e1dd3d24,2005,Female,,A graduate of previous years,,UA51100270010320268,,2023


In [150]:
students_loc_df[students_loc_df.KATOTTG_2023.isna()]

Unnamed: 0,outid,birth,sextypename,classprofilename,regtypename,classlangname,KATOTTG_2023,EDRPOU_school,year


In [151]:
# save dataframe
students_loc_df.to_csv("./final_tables/students.csv", index=False)

# Fix the issue with status of the paricipant

In [152]:
students_loc_df = pd.read_csv("./final_tables/students.csv", encoding='utf-8', dtype=str)

In [153]:
schools = pd.read_csv('./final_tables/schools_edrpou.csv', encoding='utf-8', dtype=str)
schools.rename(columns = {'EDRPOU':'EDRPOU_school'}, inplace=True)
schools

Unnamed: 0,KATOTTG_2023,EDRPOU_school,year,eotypename
0,UA05020030010063857,04601943,2023,заклад фахової передвищої освіти
1,UA05020030010063857,00419667,2022,заклад фахової передвищої освіти
2,UA05020030010063857,03065891,2018,вище професійне училище
3,UA05020030010063857,03065891,2019,вище професійне училище
4,UA05020030010063857,03065891,2020,вище професійне училище
...,...,...,...,...
82508,UA80000000001078669,26125905,2017,середня загальноосвітня школа
82509,UA80000000001078669,26125940,2020,середня загальноосвітня школа
82510,UA80000000001078669,26125940,2021,середня загальноосвітня школа
82511,UA80000000001078669,26125940,2022,середня загальноосвітня школа


In [154]:
students_status = students_loc_df.merge(schools[['EDRPOU_school', 'year', 'eotypename']], on = ['EDRPOU_school', 'year'], how = 'left')
students_status

Unnamed: 0,outid,birth,sextypename,classprofilename,regtypename,classlangname,KATOTTG_2023,EDRPOU_school,year,eotypename
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,Male,,A graduate of an Ukrainian school of the curre...,,UA23080270010078454,26373098,2016,колегіум
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,Female,,A graduate of an Ukrainian school of the curre...,,UA68040210010032567,25880114,2016,середня загальноосвітня школа
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,Male,,A graduate of an Ukrainian school of the curre...,,UA73060610010033137,21431046,2016,спеціалізована школа
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,Female,,A graduate of an Ukrainian school of the curre...,,UA14120030010055241,25705061,2016,середня загальноосвітня школа
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,Male,,A graduate of an Ukrainian school of the curre...,,UA61040490010069060,14040173,2016,спеціалізована школа
...,...,...,...,...,...,...,...,...,...,...
2490047,98f773cf-4b79-425b-a415-2eb5dd097199,2003,Male,,A graduate of previous years,,UA59020070010054283,,2023,
2490048,98dc27ec-1801-4741-b8f7-3a2ca8b6e772,1996,Female,,A graduate of previous years,,UA32100010010059200,,2023,
2490049,995cc588-5c44-45bd-8f0c-3f70ff1e746e,2004,Female,,A graduate of previous years,,UA56080170010061049,,2023,
2490050,98fc3ab5-1d6c-44ec-8e5e-3fd5e1dd3d24,2005,Female,,A graduate of previous years,,UA51100270010320268,,2023,


In [155]:
students_status.regtypename.unique()

array(['A graduate of an Ukrainian school of the current year',
       'The institution of punishment', 'A graduate of previous years',
       'A graduate of a foreign school',
       'A graduate of a vocational pre-higher education institution',
       'A student of a higher education institution',
       'A student of a higher/vocational pre-higher education institution'],
      dtype=object)

In [156]:
students_status.eotypename.unique()

array(['колегіум', 'середня загальноосвітня школа',
       'спеціалізована школа', 'навчально-виховний комплекс',
       'вечірня (змінна) школа', 'ліцей',
       'середня загальноосвітня школа-інтернат', 'гімназія',
       'спеціалізована школа-інтернат', 'загальноосвітня санаторна школа',
       'Пенітенціарна установа',
       'спеціальна загальноосвітня школа-інтернат',
       'спеціальна загальноосвітня школа',
       'школа соціальної реабілітації',
       'вищий навчальний заклад I-II рівнів акредитації',
       "навчально-виховне об'єднання",
       'професійний ліцей відповідного профілю',
       'вище професійне училище',
       'професійно-технічне училище відповідного профілю',
       'центр професійно-технічної освіти',
       'заклад фахової передвищої освіти/ліцей',
       'вище художнє професійно-технічне училище',
       'центр професійної освіти', 'заклад вищої освіти',
       'заклад фахової передвищої освіти', 'коледж',
       'центр підготовки і перепідготовки робі

In [157]:
right_status = {'колегіум':'A graduate of an Ukrainian school of the current year',
                'середня загальноосвітня школа':'A graduate of an Ukrainian school of the current year',
                'спеціалізована школа':'A graduate of an Ukrainian school of the current year',
                'навчально-виховний комплекс':'A graduate of an Ukrainian school of the current year',
                'вечірня (змінна) школа':'A graduate of an Ukrainian school of the current year', 
                'ліцей':'A graduate of an Ukrainian school of the current year',
                'середня загальноосвітня школа-інтернат':'A graduate of an Ukrainian school of the current year', 
                'гімназія':'A graduate of an Ukrainian school of the current year',
                'спеціалізована школа-інтернат':'A graduate of an Ukrainian school of the current year',
                'загальноосвітня санаторна школа':'A graduate of an Ukrainian school of the current year',
                'Пенітенціарна установа':'The institution of punishment',
                'спеціальна загальноосвітня школа-інтернат':'A graduate of an Ukrainian school of the current year',
                'спеціальна загальноосвітня школа':'A graduate of an Ukrainian school of the current year',
                'школа соціальної реабілітації':'A graduate of an Ukrainian school of the current year',
                'вищий навчальний заклад I-II рівнів акредитації':'A graduate of a vocational pre-higher education institution',
                "навчально-виховне об'єднання":'A graduate of an Ukrainian school of the current year',
                'професійний ліцей відповідного профілю':'A graduate of a vocational pre-higher education institution',
                'вище професійне училище':'A graduate of a vocational pre-higher education institution',
                'професійно-технічне училище відповідного профілю':'A graduate of a vocational pre-higher education institution',
                'центр професійно-технічної освіти':'A graduate of a vocational pre-higher education institution',
                'заклад фахової передвищої освіти/ліцей':'A graduate of a vocational pre-higher education institution',
                'вище художнє професійно-технічне училище':'A graduate of a vocational pre-higher education institution',
                'центр професійної освіти':'A graduate of a vocational pre-higher education institution',
                'заклад вищої освіти':'A graduate of a vocational pre-higher education institution',
                'заклад фахової передвищої освіти':'A graduate of a vocational pre-higher education institution',
                'коледж':'A graduate of a vocational pre-higher education institution',
                'центр підготовки і перепідготовки робітничих кадрів':'A graduate of a vocational pre-higher education institution',
                'навчально-реабілітаційний центр':'A graduate of a vocational pre-higher education institution',
                'заклад професійної (професійно-технічної) освіти':'A graduate of a vocational pre-higher education institution',
                'колегіум/колеж':'A graduate of an Ukrainian school of the current year',
                'мистецький ліцей':'A graduate of an Ukrainian school of the current year',
                'науковий ліцей':'A graduate of an Ukrainian school of the current year',
                'ліцей із посиленою військово-фізичною підготовкою':'A graduate of an Ukrainian school of the current year',
                'спортивний ліцей':'A graduate of an Ukrainian school of the current year',
                'спеціальна школа':'A graduate of an Ukrainian school of the current year',
                'військовий (військово-морський, військово-спортивний) ліцей':'A graduate of an Ukrainian school of the current year',
                'початкова школа':'A graduate of an Ukrainian school of the current year'}

students_status['status'] = students_status['eotypename']
for type, status in right_status.items():
    students_status.loc[students_status.eotypename==type, 'status'] = status

In [160]:
students_status[(students_status.regtypename == 'A student of a higher/vocational pre-higher education institution')&(students_status.eotypename.isin(['заклад фахової передвищої освіти', 'заклад фахової передвищої освіти/ліцей']))].status.unique()

array(['A graduate of a vocational pre-higher education institution'],
      dtype=object)

In [159]:
students_status.loc[(students_status.regtypename == 'A student of a higher/vocational pre-higher education institution')&(students_status.eotypename.isin(['заклад фахової передвищої освіти', 'заклад фахової передвищої освіти/ліцей'])), 'status']='A graduate of a vocational pre-higher education institution'

In [207]:
students_status.loc[(students_status.regtypename == 'A graduate of previous years')&(students_status.status.isna()), 'status']='A graduate of previous years'
students_status.loc[(students_status.regtypename == 'A graduate of a foreign school')&(students_status.status.isna()), 'status']='A graduate of a foreign school'
students_status.loc[(students_status.regtypename == 'A graduate of a vocational pre-higher education institution')&(students_status.status.isna()), 'status']='A graduate of a vocational pre-higher education institution'
students_status.loc[(students_status.regtypename == 'A student of a higher/vocational pre-higher education institution')&(students_status.status.isna()&(students_status.year=='2022')), 'status']='A student of a higher education institution'
students_status.loc[(students_status.regtypename == 'A student of a higher education institution')&(students_status.status.isna()), 'status']='A student of a higher education institution'
students_status.loc[(students_status.year=='2023')&(students_status.status=='A graduate of an Ukrainian school of the current year')&(students_status.EDRPOU_school.isna())&(students_status.KATOTTG_2023.str.startswith('OC')), 'status'] = 'A graduate of a foreign school'
# there were no division in 2016 and 2017 for higher and prehigher
students_status.loc[(students_status.regtypename == 'A student of a higher/vocational pre-higher education institution')&(students_status.status.isna())&(students_status.year.isin(['2016', '2017'])), 'status']='A student of a higher/vocational pre-higher education institution'
students_status.loc[(students_status.regtypename == 'A graduate of an Ukrainian school of the current year')&(students_status.status.isna()), 'status']='A graduate of an Ukrainian school of the current year'

students_status.loc[(students_status.status == 'A graduate of a vocational pre-higher education institution')&(students_status.year.isin(['2016', '2017'])), 'status']='A student of a higher/vocational pre-higher education institution'

In [175]:
students_status[(students_status.year =='2022')&(students_status.regtypename=='A student of a higher/vocational pre-higher education institution')].eotypename.unique()

array(['заклад фахової передвищої освіти', 'заклад вищої освіти',
       'заклад фахової передвищої освіти/ліцей', nan], dtype=object)

In [181]:
students_status[students_status.status.isna()][['regtypename', 'year']].value_counts()

Series([], Name: count, dtype: int64)

In [208]:
students_status[(students_status.year=='2023')&(students_status.status=='A graduate of an Ukrainian school of the current year')&(students_status.EDRPOU_school.isna())]

Unnamed: 0,outid,birth,sextypename,classprofilename,regtypename,classlangname,KATOTTG_2023,EDRPOU_school,year,eotypename,status
2436013,98edc1aa-0764-427f-98b7-4ddb16888c30,2006,Male,,A graduate of an Ukrainian school of the curre...,,UA05120170010081140,,2023,,A graduate of an Ukrainian school of the curre...
2437952,98ffa4b3-9ad3-4eb6-9209-33836de39a62,2006,Female,,A graduate of an Ukrainian school of the curre...,,UA51100270010320268,,2023,,A graduate of an Ukrainian school of the curre...
2438177,98f45cba-5942-4705-b5e1-376518eeef9a,2004,Male,,A graduate of an Ukrainian school of the curre...,,UA80000000001078669,,2023,,A graduate of an Ukrainian school of the curre...
2438817,98da4916-419b-4583-88a9-15e0fcda2263,2006,Female,,A graduate of an Ukrainian school of the curre...,,UA12020010010512802,,2023,,A graduate of an Ukrainian school of the curre...
2439009,9962c1ce-fe9d-4419-b335-530d73e963ad,2005,Female,,A graduate of an Ukrainian school of the curre...,,UA46060250010457177,,2023,,A graduate of an Ukrainian school of the curre...
2439352,990a4ff7-d5b8-4176-9b9a-0966af609cce,2006,Female,,A graduate of an Ukrainian school of the curre...,,UA80000000000336424,,2023,,A graduate of an Ukrainian school of the curre...
2439717,98d820ce-e277-466b-b7e0-e4da6ad478d5,2006,Male,,A graduate of an Ukrainian school of the curre...,,UA63120270010216514,,2023,,A graduate of an Ukrainian school of the curre...
2440600,98ebe2b5-2a2b-4c92-bfbf-b7c442f02969,2005,Female,,A graduate of an Ukrainian school of the curre...,,UA63140030550055665,,2023,,A graduate of an Ukrainian school of the curre...
2444211,991431c3-2343-4add-a1ec-1675204e2ed7,2005,Female,,A graduate of an Ukrainian school of the curre...,,UA46060250010457177,,2023,,A graduate of an Ukrainian school of the curre...
2444312,98da4c73-4ce9-43e3-b65d-f298e6828ebf,2003,Female,,A graduate of an Ukrainian school of the curre...,,UA26060130010099427,,2023,,A graduate of an Ukrainian school of the curre...


In [212]:
students_status[students_status['regtypename'] != students_status['status']]

Unnamed: 0,outid,birth,sextypename,classprofilename,regtypename,classlangname,KATOTTG_2023,EDRPOU_school,year,status
34139,11d80970-bc9c-490a-bf21-20774a68bb06,1993,Male,,The institution of punishment,,UA35040210010286392,34548369,2016,A graduate of an Ukrainian school of the curre...
37541,2419c6cb-0f7a-48fc-b8b1-0152ec48638b,1989,Male,,A graduate of previous years,,UA56060470010041018,08564400,2016,The institution of punishment
48058,6a7f9f62-fc39-4aeb-95fe-885abb97e49e,1982,Male,,The institution of punishment,,UA35040210010286392,34548369,2016,A graduate of an Ukrainian school of the curre...
73983,3977dd25-51f7-4d49-a98c-f4633796a932,1999,Male,,A graduate of a foreign school,,UA51100270010076757,35265180,2016,A graduate of an Ukrainian school of the curre...
75654,3ef90708-344a-4399-9512-b178d98b35be,1998,Male,,A graduate of a foreign school,,UA51100270010076757,35265180,2016,A graduate of an Ukrainian school of the curre...
...,...,...,...,...,...,...,...,...,...,...
2482576,98f2ad4a-9f93-4471-8083-790582828dbf,2006,Female,,A graduate of an Ukrainian school of the curre...,,OC03030000000000000,,2023,A graduate of a foreign school
2484821,98ea6c9a-ca7c-4f8e-973d-66a5c8f87fc1,2004,Female,,A graduate of an Ukrainian school of the curre...,,OC03020000000000000,,2023,A graduate of a foreign school
2485724,98e185b2-a555-46a2-92ea-574a28ff1a35,2004,Male,,A graduate of an Ukrainian school of the curre...,,OC24010000000000000,,2023,A graduate of a foreign school
2487889,9910c2c3-424e-4021-9e19-570f223829f4,2005,Female,,A graduate of an Ukrainian school of the curre...,,OC13030000000000000,,2023,A graduate of a foreign school


In [209]:
students_status.groupby(by=['year','status']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,outid,birth,sextypename,classprofilename,regtypename,classlangname,KATOTTG_2023,EDRPOU_school,eotypename
year,status,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2016,A graduate of a foreign school,59,59,59,0,59,0,59,0,0
2016,A graduate of an Ukrainian school of the current year,200736,200736,200736,0,200736,0,200736,200736,200736
2016,A graduate of previous years,48505,48505,48505,0,48505,0,48505,0,0
2016,A student of a higher/vocational pre-higher education institution,18325,18325,18325,0,18325,0,18325,1,1
2016,The institution of punishment,377,377,377,0,377,0,377,377,377
2017,A graduate of a foreign school,62,62,62,0,62,0,62,0,0
2017,A graduate of an Ukrainian school of the current year,192772,192772,192772,192772,192772,192772,192772,192772,192772
2017,A graduate of previous years,34424,34424,34424,0,34424,0,34424,0,0
2017,A student of a higher/vocational pre-higher education institution,13631,13631,13631,13,13631,13,13631,13,13
2018,A graduate of a foreign school,32,32,32,0,32,0,32,0,0


In [211]:
students_status.drop(columns=['eotypename'], inplace=True)

In [213]:
# save dataframe
students_status.to_csv("./final_tables/students.csv", index=False)