# Create `Students` table

In [1]:
import numpy as np
import pandas as pd

from src.dictionaries_translation import *

In [2]:
# load datasets
datasets = {}
years = range(2016, 2024)
for year in years:
    print(f"EIE {year} Loading...")
    if int(year) >= 2019:
        file_name = f'Odata{year}File.csv'
    else:
        file_name = f'OpenData{year}.csv'
    try:           
        dataset = pd.read_csv(f"../../data_loader/{year}/{file_name}", sep=";", encoding='utf-8', dtype = str)
    except:
        dataset = pd.read_csv(f"../../data_loader/{year}/{file_name}", sep=";", encoding='Windows 1251', dtype = str)
    datasets.update({year:dataset})
    print("success")

EIE 2016 Loading...
success
EIE 2017 Loading...
success
EIE 2018 Loading...
success
EIE 2019 Loading...
success
EIE 2020 Loading...
success
EIE 2021 Loading...
success
EIE 2022 Loading...
success
EIE 2023 Loading...
success


In [3]:
for year, dataset in datasets.items():
    #lowercase all columns and add year as attribute
    dataset.columns = [col.lower() for col in dataset.columns]
    dataset['year'] = year

In [4]:
for year, dataset in datasets.items():
    print(year,":",[col for col in dataset.columns])

2016 : ['outid', 'birth', 'sextypename', 'regname', 'areaname', 'tername', 'regtypename', 'eoname', 'eotypename', 'eoregname', 'eoareaname', 'eotername', 'eoparent', 'ukrtest', 'ukrteststatus', 'ukrball100', 'ukrball12', 'ukrptname', 'ukrptregname', 'ukrptareaname', 'ukrpttername', 'histtest', 'histlang', 'histteststatus', 'histball100', 'histball12', 'histptname', 'histptregname', 'histptareaname', 'histpttername', 'mathtest', 'mathlang', 'mathteststatus', 'mathball100', 'mathball12', 'mathptname', 'mathptregname', 'mathptareaname', 'mathpttername', 'phystest', 'physlang', 'physteststatus', 'physball100', 'physptname', 'physptregname', 'physptareaname', 'physpttername', 'chemtest', 'chemlang', 'chemteststatus', 'chemball100', 'chemptname', 'chemptregname', 'chemptareaname', 'chempttername', 'biotest', 'biolang', 'bioteststatus', 'bioball100', 'bioptname', 'bioptregname', 'bioptareaname', 'biopttername', 'geotest', 'geolang', 'geoteststatus', 'geoball100', 'geoptname', 'geoptregname', 

In [5]:
for year, dataset in datasets.items():
    print(year)
    print('Dataset Length: ', len(dataset),'  Outid unique values: ', len(dataset['outid'].unique()))

2016
Dataset Length:  268003   Outid unique values:  268003
2017
Dataset Length:  240889   Outid unique values:  240889
2018
Dataset Length:  335687   Outid unique values:  335687
2019
Dataset Length:  353813   Outid unique values:  353813
2020
Dataset Length:  379299   Outid unique values:  379299
2021
Dataset Length:  389323   Outid unique values:  389323
2022
Dataset Length:  234104   Outid unique values:  234104
2023
Dataset Length:  288935   Outid unique values:  288935


In [6]:
# check if outid is unique for all years
outid = []
for year, dataset in datasets.items():
    outid.append(dataset['outid'].unique())
outid = np.concatenate(outid)
print('Outid unique values: ', len(np.unique(outid)))
# all datasets length
print('All datasets length: ', sum([len(dataset) for dataset in datasets.values()]))

Outid unique values:  2490053
All datasets length:  2490053


In [7]:
# student related columns
student_columns = ['outid', 'birth', 'sextypename', 'regname', 'areaname', 'tername',
                   'classprofilename', 'classlangname', 'eoname','eoregname', 'eoareaname', 'eotername', 'year']

In [8]:
students_df = pd.DataFrame(columns=student_columns)

In [9]:
for year, dataset in datasets.items():
    for col in student_columns:
        if col not in dataset.columns:
            print(f"{col} not in {year} dataset")
            dataset[col] = None
    students_df = pd.concat([students_df, pd.DataFrame(dataset.loc[:, student_columns])], ignore_index=True)

students_df

classprofilename not in 2016 dataset
classlangname not in 2016 dataset
classprofilename not in 2022 dataset
classlangname not in 2022 dataset
classprofilename not in 2023 dataset
classlangname not in 2023 dataset


Unnamed: 0,outid,birth,sextypename,regname,areaname,tername,classprofilename,classlangname,eoname,eoregname,eoareaname,eotername,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,Запорізька область,Мелітопольський район,с.Терпіння,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",Запорізька область,Мелітопольський район,с.Терпіння,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,Хмельницька область,Красилівський район,м.Красилів,,,Красилівська загальноосвітня школа I-III ступе...,Хмельницька область,Красилівський район,м.Красилів,2016
2,fbd0e280-4b77-4f34-942d-00bc850c2992,1995,жіноча,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,,,,,,,2016
3,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,Чернівецька область,м.Чернівці,Шевченківський район міста,,,Чернівецька спеціалізована школа І-ІІІ ступені...,Чернівецька область,м.Чернівці,Шевченківський район міста,2016
4,52a40c74-374e-4744-bd6f-938ab7a4a641,1997,чоловіча,Миколаївська область,Врадіївський район,с.Кумарі,,,,,,,2016
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2490048,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,Донецька область,Волноваський район,смт Велика Новосілка,,,Великоновосілківський заклад загальної середнь...,Донецька область,Волноваський район,смт Велика Новосілка,2023
2490049,98de6ea2-28f3-4951-990a-9a3ff45449de,2004,чоловіча,Волинська область,Ковельський район,м.Ковель,,,,,,,2023
2490050,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,Львівська область,м.Львів,Сихівський район міста,,,Середня загальноосвітня школа №13,Львівська область,м.Львів,Сихівський район міста,2023
2490051,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,Харківська область,Лозівський район,м.Лозова,,,Лозівський центр професійної освіти Харківсько...,Харківська область,Лозівський район,м.Лозова,2023


In EIE 2016 and both NMT tests(2022, 2023) - we do not have 'classprofilename', 'classlangname' columns. So we fill them with 'None' values.

In [10]:
students_df.drop_duplicates(inplace=True)

students_df.dropna(subset=students_df.columns.difference(['year']), 
                      how = 'all', inplace=True)
students_df.reset_index(drop=True, inplace=True)
students_df

Unnamed: 0,outid,birth,sextypename,regname,areaname,tername,classprofilename,classlangname,eoname,eoregname,eoareaname,eotername,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,Запорізька область,Мелітопольський район,с.Терпіння,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",Запорізька область,Мелітопольський район,с.Терпіння,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,Хмельницька область,Красилівський район,м.Красилів,,,Красилівська загальноосвітня школа I-III ступе...,Хмельницька область,Красилівський район,м.Красилів,2016
2,fbd0e280-4b77-4f34-942d-00bc850c2992,1995,жіноча,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,,,,,,,2016
3,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,Чернівецька область,м.Чернівці,Шевченківський район міста,,,Чернівецька спеціалізована школа І-ІІІ ступені...,Чернівецька область,м.Чернівці,Шевченківський район міста,2016
4,52a40c74-374e-4744-bd6f-938ab7a4a641,1997,чоловіча,Миколаївська область,Врадіївський район,с.Кумарі,,,,,,,2016
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2490048,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,Донецька область,Волноваський район,смт Велика Новосілка,,,Великоновосілківський заклад загальної середнь...,Донецька область,Волноваський район,смт Велика Новосілка,2023
2490049,98de6ea2-28f3-4951-990a-9a3ff45449de,2004,чоловіча,Волинська область,Ковельський район,м.Ковель,,,,,,,2023
2490050,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,Львівська область,м.Львів,Сихівський район міста,,,Середня загальноосвітня школа №13,Львівська область,м.Львів,Сихівський район міста,2023
2490051,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,Харківська область,Лозівський район,м.Лозова,,,Лозівський центр професійної освіти Харківсько...,Харківська область,Лозівський район,м.Лозова,2023


In [11]:
# check whether there are duplicates by outid
students_df[students_df.duplicated(subset=['outid'], keep=False)]

Unnamed: 0,outid,birth,sextypename,regname,areaname,tername,classprofilename,classlangname,eoname,eoregname,eoareaname,eotername,year


## Added location column id

In [12]:
# load location dictionary
locations = pd.read_csv('./final_tables/locations.csv', encoding='utf-8', dtype=str)
locations

Unnamed: 0,regname,areaname,tername,KOATUU_2020,KATOTTG_2023
0,Запорізька область,Мелітопольський район,с.Терпіння,2323085101,UA23080270010078454
1,Хмельницька область,Красилівський район,м.Красилів,6822710100,UA68040210010032567
2,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,1223881501,UA12140170040016918
3,Чернівецька область,м.Чернівці,Шевченківський район міста,7310100000,UA73060610010033137
4,Миколаївська область,Врадіївський район,с.Кумарі,4822383001,UA48080050190079797
...,...,...,...,...,...
29214,США,м.Детройт,м.Детройт,0026010000,OC26010000000000000
29215,Велика Британія,м.Абериствіт,м.Абериствіт,0008030000,OC08030000000000000
29216,США,м.Нью-Йорк,м.Нью-Йорк,0026020000,OC26020000000000000
29217,США,м.Х'юстон,м.Х'юстон,0026040000,OC26040000000000000


In [13]:
locations = locations.drop_duplicates(subset=['regname', 'areaname', 'tername'], keep='first')

In [14]:
# add location codifier
students_loc_df = students_df.merge(locations[['regname', 'areaname', 'tername', 'KOATUU_2020']], on=['regname', 'areaname', 'tername'], how='left')

students_loc_df

Unnamed: 0,outid,birth,sextypename,regname,areaname,tername,classprofilename,classlangname,eoname,eoregname,eoareaname,eotername,year,KOATUU_2020
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,Запорізька область,Мелітопольський район,с.Терпіння,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",Запорізька область,Мелітопольський район,с.Терпіння,2016,2323085101
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,Хмельницька область,Красилівський район,м.Красилів,,,Красилівська загальноосвітня школа I-III ступе...,Хмельницька область,Красилівський район,м.Красилів,2016,6822710100
2,fbd0e280-4b77-4f34-942d-00bc850c2992,1995,жіноча,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,,,,,,,2016,1223881501
3,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,Чернівецька область,м.Чернівці,Шевченківський район міста,,,Чернівецька спеціалізована школа І-ІІІ ступені...,Чернівецька область,м.Чернівці,Шевченківський район міста,2016,7310100000
4,52a40c74-374e-4744-bd6f-938ab7a4a641,1997,чоловіча,Миколаївська область,Врадіївський район,с.Кумарі,,,,,,,2016,4822383001
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2490048,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,Донецька область,Волноваський район,смт Велика Новосілка,,,Великоновосілківський заклад загальної середнь...,Донецька область,Волноваський район,смт Велика Новосілка,2023,1421255100
2490049,98de6ea2-28f3-4951-990a-9a3ff45449de,2004,чоловіча,Волинська область,Ковельський район,м.Ковель,,,,,,,2023,0710400000
2490050,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,Львівська область,м.Львів,Сихівський район міста,,,Середня загальноосвітня школа №13,Львівська область,м.Львів,Сихівський район міста,2023,4610136800
2490051,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,Харківська область,Лозівський район,м.Лозова,,,Лозівський центр професійної освіти Харківсько...,Харківська область,Лозівський район,м.Лозова,2023,6311000000


In [15]:
students_loc_df[students_loc_df.KOATUU_2020.isna()]

Unnamed: 0,outid,birth,sextypename,regname,areaname,tername,classprofilename,classlangname,eoname,eoregname,eoareaname,eotername,year,KOATUU_2020
144704,3b07c9d4-067c-47fa-8cf4-8e2097ade009,1999,чоловіча,Дніпропетровська область,Дніпропетровська область,Петропавлівський район,,,,,,,2016,


In [16]:
# it is problem row, so we will drop it
students_loc_df.dropna(subset=['KOATUU_2020'], inplace=True)

In [17]:
# drop names
students_loc_df = students_loc_df[['outid',  'birth', 'sextypename', 'classprofilename', 'classlangname', 'eoname', 
                                   'KOATUU_2020', 'eoregname', 'eoareaname', 'eotername', 'year']].copy()
students_loc_df 

Unnamed: 0,outid,birth,sextypename,classprofilename,classlangname,eoname,KOATUU_2020,eoregname,eoareaname,eotername,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",2323085101,Запорізька область,Мелітопольський район,с.Терпіння,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,,,Красилівська загальноосвітня школа I-III ступе...,6822710100,Хмельницька область,Красилівський район,м.Красилів,2016
2,fbd0e280-4b77-4f34-942d-00bc850c2992,1995,жіноча,,,,1223881501,,,,2016
3,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,,,Чернівецька спеціалізована школа І-ІІІ ступені...,7310100000,Чернівецька область,м.Чернівці,Шевченківський район міста,2016
4,52a40c74-374e-4744-bd6f-938ab7a4a641,1997,чоловіча,,,,4822383001,,,,2016
...,...,...,...,...,...,...,...,...,...,...,...
2490048,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,,,Великоновосілківський заклад загальної середнь...,1421255100,Донецька область,Волноваський район,смт Велика Новосілка,2023
2490049,98de6ea2-28f3-4951-990a-9a3ff45449de,2004,чоловіча,,,,0710400000,,,,2023
2490050,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,,,Середня загальноосвітня школа №13,4610136800,Львівська область,м.Львів,Сихівський район міста,2023
2490051,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,,,Лозівський центр професійної освіти Харківсько...,6311000000,Харківська область,Лозівський район,м.Лозова,2023


## Added school column id

**Note:** not all participants have school id, because if they graduated from schools before we will not have this information.

In [18]:
# separate dataset to with schools and without
students_loc_df_with_schools = students_loc_df[students_loc_df.eoname.notna()].copy()
students_loc_df_without_schools = students_loc_df[students_loc_df.eoname.isna()].copy()

print('With schools: ', len(students_loc_df_with_schools), '\nWithout schools: ', len(students_loc_df_without_schools))

With schools:  2122303 
Without schools:  367749


#### School KOATUU codes


In [19]:
location_school = locations.rename(columns={'KOATUU_2020':'KOATUU_2020_school', 'regname':'eoregname', 'areaname':'eoareaname', 'tername':'eotername'})
location_school.head()

Unnamed: 0,eoregname,eoareaname,eotername,KOATUU_2020_school,KATOTTG_2023
0,Запорізька область,Мелітопольський район,с.Терпіння,2323085101,UA23080270010078454
1,Хмельницька область,Красилівський район,м.Красилів,6822710100,UA68040210010032567
2,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,1223881501,UA12140170040016918
3,Чернівецька область,м.Чернівці,Шевченківський район міста,7310100000,UA73060610010033137
4,Миколаївська область,Врадіївський район,с.Кумарі,4822383001,UA48080050190079797


In [20]:
location_school = location_school.drop_duplicates(subset=['eoregname', 'eoareaname', 'eotername'], keep='first')

In [21]:
students_loc_df_with_schools = students_loc_df_with_schools.merge(
    location_school[['eoregname', 'eoareaname', 'eotername', 'KOATUU_2020_school']], 
    on=['eoregname', 'eoareaname', 'eotername'], 
    how='left'
)
students_loc_df_with_schools

Unnamed: 0,outid,birth,sextypename,classprofilename,classlangname,eoname,KOATUU_2020,eoregname,eoareaname,eotername,year,KOATUU_2020_school
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",2323085101,Запорізька область,Мелітопольський район,с.Терпіння,2016,2323085101
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,,,Красилівська загальноосвітня школа I-III ступе...,6822710100,Хмельницька область,Красилівський район,м.Красилів,2016,6822710100
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,,,Чернівецька спеціалізована школа І-ІІІ ступені...,7310100000,Чернівецька область,м.Чернівці,Шевченківський район міста,2016,7310100000
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,жіноча,,,Загальноосвітня школа I-III ступенів № 6 Дружк...,1411700000,Донецька область,Донецька область,м.Дружківка,2016,1411700000
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,чоловіча,,,Тернопільська спеціалізована школа І-ІІІ ступе...,6110100000,Тернопільська область,Тернопільська область,м.Тернопіль,2016,6110100000
...,...,...,...,...,...,...,...,...,...,...,...,...
2122298,98ee46c3-abe4-4bab-880e-0e7ceef29348,2005,чоловіча,,,Навчально-виховний комплекс №167 з поглибленим...,8036600000,м.Київ,м.Київ,Дніпровський район міста,2023,8036600000
2122299,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,,,Великоновосілківський заклад загальної середнь...,1421255100,Донецька область,Волноваський район,смт Велика Новосілка,2023,1421255100
2122300,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,,,Середня загальноосвітня школа №13,4610136800,Львівська область,м.Львів,Сихівський район міста,2023,4610136800
2122301,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,,,Лозівський центр професійної освіти Харківсько...,6311000000,Харківська область,Лозівський район,м.Лозова,2023,6311000000


In [22]:
schools_df = pd.read_csv('./final_tables/schools_edrpou.csv', encoding='utf-8', dtype=str)
schools_df

Unnamed: 0,eoname,KOATUU_2020,year,EDRPOU
0,"Вiдокремлений структурний пiдроздiл ""Краматорс...",0510100000,[2023],04601943
1,"ВСП ""Технологічно-промисловий фаховий коледж В...",0510100000,[2022],00419667
2,Вище професійне училище №11 м. Вінниці,0510100000,"[2018, 2019, 2020, 2021, 2022, 2023]",03065891
3,Вище художнє професійно-технічне училище № 5 м...,0510100000,[2023],02539890
4,Вище художнє професійно-технічне училище №5 м....,0510100000,"[2018, 2019, 2020, 2021, 2022]",02539890
...,...,...,...,...
32055,Школа №25 І-ІІІ ступенів Шевченківського район...,8039100000,"[2016, 2017, 2018, 2019, 2020, 2021]",22880786
32056,Школа №27 І-ІІІ ступенів Шевченківського район...,8039100000,[2016],26125710
32057,Школа №70 І-ІІІ ступенів Шевченківського район...,8039100000,[2016],22881828
32058,Школа №95 І-ІІІ ступенів Шевченківського район...,8039100000,[2017],26125905


In [23]:
schools_df[schools_df.duplicated(subset=['eoname', 'KOATUU_2020'], keep=False)]

Unnamed: 0,eoname,KOATUU_2020,year,EDRPOU
7458,Березівська загальноосвітня школа I-III ступенів,1823180401,"[2016, 2017, 2018, 2020]",22055912
7459,Березівська загальноосвітня школа I-III ступенів,1823180401,"[2016, 2017, 2018, 2020]",22055912
7460,Березівська загальноосвітня школа I-III ступенів,1823180401,"[2019, 2021]",22055912
7461,Березівська загальноосвітня школа I-III ступенів,1823180401,"[2019, 2021]",22055912


In [24]:
schools_df = schools_df[['eoname', 'KOATUU_2020', 'EDRPOU']]
schools_df = schools_df.drop_duplicates(subset=['eoname', 'KOATUU_2020', 'EDRPOU'], keep='first')
schools_df

Unnamed: 0,eoname,KOATUU_2020,EDRPOU
0,"Вiдокремлений структурний пiдроздiл ""Краматорс...",0510100000,04601943
1,"ВСП ""Технологічно-промисловий фаховий коледж В...",0510100000,00419667
2,Вище професійне училище №11 м. Вінниці,0510100000,03065891
3,Вище художнє професійно-технічне училище № 5 м...,0510100000,02539890
4,Вище художнє професійно-технічне училище №5 м....,0510100000,02539890
...,...,...,...
32055,Школа №25 І-ІІІ ступенів Шевченківського район...,8039100000,22880786
32056,Школа №27 І-ІІІ ступенів Шевченківського район...,8039100000,26125710
32057,Школа №70 І-ІІІ ступенів Шевченківського район...,8039100000,22881828
32058,Школа №95 І-ІІІ ступенів Шевченківського район...,8039100000,26125905


In [25]:
schools_df[schools_df.duplicated(subset=['eoname', 'KOATUU_2020'], keep=False)]

Unnamed: 0,eoname,KOATUU_2020,EDRPOU


In [26]:
schools_df = schools_df.rename(columns={'KOATUU_2020':'KOATUU_2020_school'})

In [27]:
# add edrpou to students
students_loc_df_with_schools = students_loc_df_with_schools.merge(
    schools_df, 
    on=['eoname','KOATUU_2020_school'], 
    how='left'
)

students_loc_df_with_schools

Unnamed: 0,outid,birth,sextypename,classprofilename,classlangname,eoname,KOATUU_2020,eoregname,eoareaname,eotername,year,KOATUU_2020_school,EDRPOU
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",2323085101,Запорізька область,Мелітопольський район,с.Терпіння,2016,2323085101,26373098
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,,,Красилівська загальноосвітня школа I-III ступе...,6822710100,Хмельницька область,Красилівський район,м.Красилів,2016,6822710100,25880114
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,,,Чернівецька спеціалізована школа І-ІІІ ступені...,7310100000,Чернівецька область,м.Чернівці,Шевченківський район міста,2016,7310100000,21431046
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,жіноча,,,Загальноосвітня школа I-III ступенів № 6 Дружк...,1411700000,Донецька область,Донецька область,м.Дружківка,2016,1411700000,25705061
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,чоловіча,,,Тернопільська спеціалізована школа І-ІІІ ступе...,6110100000,Тернопільська область,Тернопільська область,м.Тернопіль,2016,6110100000,14040173
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2122298,98ee46c3-abe4-4bab-880e-0e7ceef29348,2005,чоловіча,,,Навчально-виховний комплекс №167 з поглибленим...,8036600000,м.Київ,м.Київ,Дніпровський район міста,2023,8036600000,22875911
2122299,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,,,Великоновосілківський заклад загальної середнь...,1421255100,Донецька область,Волноваський район,смт Велика Новосілка,2023,1421255100,21978069
2122300,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,,,Середня загальноосвітня школа №13,4610136800,Львівська область,м.Львів,Сихівський район міста,2023,4610136800,22336508
2122301,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,,,Лозівський центр професійної освіти Харківсько...,6311000000,Харківська область,Лозівський район,м.Лозова,2023,6311000000,02547949


In [28]:
students_loc_df_with_schools[students_loc_df_with_schools.duplicated(subset=['outid','EDRPOU'], keep=False)]

Unnamed: 0,outid,birth,sextypename,classprofilename,classlangname,eoname,KOATUU_2020,eoregname,eoareaname,eotername,year,KOATUU_2020_school,EDRPOU


In [29]:
# drop duplicates
students_loc_df_with_schools = students_loc_df_with_schools.drop_duplicates(subset=['outid','EDRPOU'], keep='first')
students_loc_df_with_schools

Unnamed: 0,outid,birth,sextypename,classprofilename,classlangname,eoname,KOATUU_2020,eoregname,eoareaname,eotername,year,KOATUU_2020_school,EDRPOU
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,,,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",2323085101,Запорізька область,Мелітопольський район,с.Терпіння,2016,2323085101,26373098
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,,,Красилівська загальноосвітня школа I-III ступе...,6822710100,Хмельницька область,Красилівський район,м.Красилів,2016,6822710100,25880114
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,,,Чернівецька спеціалізована школа І-ІІІ ступені...,7310100000,Чернівецька область,м.Чернівці,Шевченківський район міста,2016,7310100000,21431046
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,жіноча,,,Загальноосвітня школа I-III ступенів № 6 Дружк...,1411700000,Донецька область,Донецька область,м.Дружківка,2016,1411700000,25705061
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,чоловіча,,,Тернопільська спеціалізована школа І-ІІІ ступе...,6110100000,Тернопільська область,Тернопільська область,м.Тернопіль,2016,6110100000,14040173
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2122298,98ee46c3-abe4-4bab-880e-0e7ceef29348,2005,чоловіча,,,Навчально-виховний комплекс №167 з поглибленим...,8036600000,м.Київ,м.Київ,Дніпровський район міста,2023,8036600000,22875911
2122299,98e83726-5473-40e0-a7c3-30f29f2bb0ec,2006,чоловіча,,,Великоновосілківський заклад загальної середнь...,1421255100,Донецька область,Волноваський район,смт Велика Новосілка,2023,1421255100,21978069
2122300,98e883cb-d2b7-4bc7-b86e-3ac16b36a0ff,2006,жіноча,,,Середня загальноосвітня школа №13,4610136800,Львівська область,м.Львів,Сихівський район міста,2023,4610136800,22336508
2122301,9909aefa-b1e9-4eef-a911-25fae0b9f70d,2004,чоловіча,,,Лозівський центр професійної освіти Харківсько...,6311000000,Харківська область,Лозівський район,м.Лозова,2023,6311000000,02547949


In [30]:
students_loc_df_with_schools[students_loc_df_with_schools.duplicated(subset=['outid','EDRPOU'], keep=False)]

Unnamed: 0,outid,birth,sextypename,classprofilename,classlangname,eoname,KOATUU_2020,eoregname,eoareaname,eotername,year,KOATUU_2020_school,EDRPOU


In [31]:
students_loc_df_with_schools = students_loc_df_with_schools[['outid', 'birth', 'sextypename', 'classprofilename', 
                                                             'classlangname', 'KOATUU_2020', 'EDRPOU', 'year']].reset_index(drop=True)
print('With schools: ', len(students_loc_df_with_schools))
students_loc_df_with_schools.head()

With schools:  2122303


Unnamed: 0,outid,birth,sextypename,classprofilename,classlangname,KOATUU_2020,EDRPOU,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,,,2323085101,26373098,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,,,6822710100,25880114,2016
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,,,7310100000,21431046,2016
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,жіноча,,,1411700000,25705061,2016
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,чоловіча,,,6110100000,14040173,2016


In [32]:
students_loc_df_without_schools = students_loc_df_without_schools[['outid', 'birth', 'sextypename', 'classprofilename', 
                                                             'classlangname', 'KOATUU_2020', 'year']].reset_index(drop=True)
students_loc_df_without_schools['EDRPOU'] = None
print('Without schools: ', len(students_loc_df_without_schools))
students_loc_df_without_schools.head()

Without schools:  367749


Unnamed: 0,outid,birth,sextypename,classprofilename,classlangname,KOATUU_2020,year,EDRPOU
0,fbd0e280-4b77-4f34-942d-00bc850c2992,1995,жіноча,,,1223881501,2016,
1,52a40c74-374e-4744-bd6f-938ab7a4a641,1997,чоловіча,,,4822383001,2016,
2,debd6e87-f3a1-483c-bb02-10b56d78ea0d,1995,чоловіча,,,1211600000,2016,
3,6934408b-ff44-495c-9151-8c8c6313a0fa,1995,жіноча,,,1210136900,2016,
4,2b2a1159-caed-48b4-9828-ce2307ff90fa,1997,чоловіча,,,1210137800,2016,


In [33]:
# merge datasets
students_loc_df = pd.concat([students_loc_df_with_schools, students_loc_df_without_schools], ignore_index=True)
print('All students: ', len(students_loc_df))
students_loc_df.head()

All students:  2490052


Unnamed: 0,outid,birth,sextypename,classprofilename,classlangname,KOATUU_2020,EDRPOU,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,чоловіча,,,2323085101,26373098,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,жіноча,,,6822710100,25880114,2016
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,чоловіча,,,7310100000,21431046,2016
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,жіноча,,,1411700000,25705061,2016
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,чоловіча,,,6110100000,14040173,2016


# Translation

In [34]:
students_loc_df["sextypename"].replace(sex_type_dict,  inplace=True)
students_loc_df["classprofilename"].replace(class_profile_dict,  inplace=True)
students_loc_df["classlangname"].replace(lang_dict,  inplace=True)

In [35]:
students_loc_df.rename(columns={"EDRPOU": "EDRPOU_school"}, inplace=True)

In [36]:
students_loc_df

Unnamed: 0,outid,birth,sextypename,classprofilename,classlangname,KOATUU_2020,EDRPOU_school,year
0,a99c6c63-aa70-4aec-ba42-370f7261e857,1998,Male,,,2323085101,26373098,2016
1,c3136421-569e-422e-ae8f-41c4c931fd70,1998,Female,,,6822710100,25880114,2016
2,30de395e-7a74-452a-8370-6856d240fbfb,1999,Male,,,7310100000,21431046,2016
3,852ca6ab-7fbd-40ad-ae51-39dc94edc9e1,1999,Female,,,1411700000,25705061,2016
4,bc9b70ca-c091-440f-b1de-f04b308f3a54,1999,Male,,,6110100000,14040173,2016
...,...,...,...,...,...,...,...,...
2490047,98f773cf-4b79-425b-a415-2eb5dd097199,2003,Male,,,5910400000,,2023
2490048,98dc27ec-1801-4741-b8f7-3a2ca8b6e772,1996,Female,,,3221810100,,2023
2490049,995cc588-5c44-45bd-8f0c-3f70ff1e746e,2004,Female,,,5625410100,,2023
2490050,98fc3ab5-1d6c-44ec-8e5e-3fd5e1dd3d24,2005,Female,,,5110137500,,2023


## Save table to csv file

In [38]:
# save dataframe
students_loc_df.to_csv("./final_tables/students.csv", index=False)