# Motivation

The motivation for creating prediction and ranking tasks for EIE datasets was to extend the dataset ecosystem available for algorithmic fairness research in two directions: the education domain and the dataset from Eastern Europe (Ukraine). We obtained the data from publicly available Open Data resource https://zno.testportal.com.ua/opendata.


The tasks were created by Dr. Julia Stoyanovich and Andrew Bell from the Center for Responsible AI, New York University, and Tetiana Zakharchenko, Nazarii Drushchak, Oleksandra Konopatska, and Olha Liuba from Ukrainian Catholic University.


The creation of the dataset was funded by the Center for Responsible AI, New York University.

# Composition of Dataset

In [18]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

We will load and work with datasets from 2016 to 2021 since they have a comparable structure. We downloadedoriginal datasets from Open Data Resource and uploaded to HuggingFace for easiness of usage.

## Loading

Load datasets from hugging face

In [28]:
# load datasets
datasets = []
years = range(2016, 2023)
for year in years:
    print(f"EIE {year} Loading...")
    if int(year) >= 2019:
        file_name = f'Odata{year}File.csv'
    else:
        file_name = f'OpenData{year}.csv'
    try:           
        dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='utf-8')
    except:
        dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='Windows 1251')
    datasets.append(dataset)
    print("success")

EIE 2016 Loading...
success
EIE 2017 Loading...
success
EIE 2018 Loading...


  dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='utf-8')


success
EIE 2019 Loading...


  dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='Windows 1251')


success
EIE 2020 Loading...


  dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='Windows 1251')


success
EIE 2021 Loading...


  dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='utf-8')


success
EIE 2022 Loading...
success


Names of all features are the same across all years, but can have some difference with capital and lower cases. That's why we lower all of them. Also, we add new columns – a corresponding year and age for the further research. We also drop birth year.

In [29]:
#lowercase all columns and add year as attribute
for year, dataset in zip(years, datasets):
    dataset.columns = [col.lower() for col in dataset.columns]
    dataset['year'] = year
    dataset['age'] = year - dataset['birth']
    dataset.drop(columns = 'birth', inplace=True)

In [30]:
datasets[1]

Unnamed: 0,outid,stid,sextypename,regname,areaname,tername,regtypename,tertypename,classprofilename,classlangname,...,rustest,rusteststatus,rusball100,rusball12,rusptname,rusptregname,rusptareaname,ruspttername,year,age
0,EDDDC0A3-C615-4101-96B3-9F1A4C654A2C,14809269-9F28-454C-8B3B-01DE067C91F3,жіноча,Житомирська область,Новоград-Волинський район,смт Городниця,Випускник минулих років,місто,,,...,,,,,,,,,2017,18
1,3528FBEB-5ABE-4956-B715-68FABAE0A566,C5B85614-D95B-4029-B3E4-920246DA7B17,чоловіча,Сумська область,Сумська область,м.Лебедин,"Учень (слухач, студент) професійно-технічного,...",місто,,,...,,,,,,,,,2017,18
2,1BA2DD60-B125-4DB0-875A-9AB8E54B4411,E1BB0166-3FFE-4BA0-BFB7-D60EC8E8CD8E,чоловіча,Миколаївська область,м.Миколаїв,Корабельний район міста,Випускник минулих років,місто,,,...,,,,,,,,,2017,26
3,29BD1575-16B2-4EAD-B2AB-DC2A3365DE1E,574350E1-DDA9-47A8-ADAA-6F8915BD2A05,чоловіча,Донецька область,Донецька область,м.Покровськ,Випускник загальноосвітнього навчального закла...,місто,Фізико-математичний,українська,...,,,,,,,,,2017,17
4,FF8BFD9C-837B-4F38-A321-C9AC264F83E6,4E01CF4C-3596-4178-A44D-556197D73E7B,чоловіча,Івано-Франківська область,Івано-Франківська область,м.Івано-Франківськ,"Учень (слухач, студент) професійно-технічного,...",місто,,,...,,,,,,,,,2017,17
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
240884,D7D5DDD6-473F-4047-B673-88AC5922BCFB,EA2E4E4D-9672-48BA-A4BF-E77DD3A83EC4,жіноча,м.Київ,м.Київ,Шевченківський район міста,Випускник загальноосвітнього навчального закла...,місто,Інформаційно-технологічний,українська,...,,,,,,,,,2017,18
240885,678C3946-388B-4921-8679-C0788F21AAD4,97B6798B-B6BB-42B9-B971-91CD92053041,жіноча,Харківська область,м.Харків,Московський район міста,Випускник загальноосвітнього навчального закла...,місто,Інший,російська,...,,,,,,,,,2017,18
240886,9C4F308A-1A47-46A4-A192-CAFC3DF0A726,A84568A5-DFA5-45D2-ADD3-5196E1A7A72E,чоловіча,Херсонська область,Великоолександрівський район,с.Чарівне,Випускник загальноосвітнього навчального закла...,село,Універсальний,українська,...,,,,,,,,,2017,17
240887,DECAE4A3-0782-4565-9A00-95393AA7FCD9,A1113632-D542-43B8-BB44-E56FE6446951,жіноча,Рівненська область,Гощанський район,с.Бабин,Випускник минулих років,село,,,...,,,,,,,,,2017,19


In [37]:
year = 2016
for dataset in datasets:
    print(year, dataset.shape)
    year +=1

2016 (268003, 107)
2017 (240889, 120)
2018 (335687, 126)
2019 (353813, 127)
2020 (379299, 127)
2021 (389323, 148)
2022 (234104, 30)


## Unifiying column names

Find datasets that have the maximum common list of columns.

In [40]:
import itertools

def find_dataframes_with_most_common_columns(dataframes):
    max_common_columns = 0
    dataframes_with_max_common_columns = []

    # Find all combinations of dataframes
    combinations = list(itertools.combinations(dataframes, 3))

    for df1, df2, df3 in combinations:
        common_columns = list(set(df1.columns) & set(df2.columns) & set(df3.columns))
        num_common_columns = len(common_columns)

        if num_common_columns > max_common_columns:
            max_common_columns = num_common_columns
            dataframes_with_max_common_columns = [(df1, df2, df3)]
        elif num_common_columns == max_common_columns:
            dataframes_with_max_common_columns.append((df1, df2, df3))

    print(max_common_columns)

    return dataframes_with_max_common_columns

# Example usage

result = find_dataframes_with_most_common_columns(datasets)

for df1, df2, df3 in result:
    print(f"Dataframes with the most common columns: {df1.year.unique()}, {df2.year.unique()}, {df3.year.unique()}")


127
Dataframes with the most common columns: [2019], [2020], [2021]


For 2019 and 2020 we have exactly the same list of columns, which will be our base

In [43]:
set(datasets[4].columns) ^ set(datasets[3].columns)

set()

### Check for 2021 and 2020

In [54]:
set(datasets[5].columns) - set(datasets[4].columns)

{'mathdpalevel',
 'mathstball',
 'mathstball12',
 'mathstlang',
 'mathstptareaname',
 'mathstptname',
 'mathstptregname',
 'mathstpttername',
 'mathsttest',
 'mathstteststatus',
 'ukrsubtest',
 'umladaptscale',
 'umlball',
 'umlball100',
 'umlball12',
 'umlptareaname',
 'umlptname',
 'umlptregname',
 'umlpttername',
 'umltest',
 'umlteststatus'}

It was a new experiment in 2021 with standard level of Mathematics and ukrsubtest, that failed since it was cancelled due to Covid.

In [57]:
datasets[5].drop(columns=[col for col in datasets[5].columns if col.startswith('mathst')], inplace = True)

In [66]:
datasets[5].drop(columns=['mathdpalevel'], inplace = True)

In [58]:
datasets[5].drop(columns=['ukrsubtest'], inplace = True)

In [71]:
set(datasets[5].columns) - set(datasets[4].columns)

{'ukrlangadaptscale',
 'ukrlangball',
 'ukrlangball100',
 'ukrlangball12',
 'ukrlangptareaname',
 'ukrlangptname',
 'ukrlangptregname',
 'ukrlangpttername',
 'ukrlangtest',
 'ukrlangteststatus'}

In [70]:
list(datasets[5].columns)

['outid',
 'sextypename',
 'regname',
 'areaname',
 'tername',
 'regtypename',
 'tertypename',
 'classprofilename',
 'classlangname',
 'eoname',
 'eotypename',
 'eoregname',
 'eoareaname',
 'eotername',
 'eoparent',
 'ukrtest',
 'ukrteststatus',
 'ukrball100',
 'ukrball12',
 'ukrball',
 'ukradaptscale',
 'ukrptname',
 'ukrptregname',
 'ukrptareaname',
 'ukrpttername',
 'ukrlangtest',
 'ukrlangteststatus',
 'ukrlangball100',
 'ukrlangball12',
 'ukrlangball',
 'ukrlangadaptscale',
 'ukrlangptname',
 'ukrlangptregname',
 'ukrlangptareaname',
 'ukrlangpttername',
 'histtest',
 'histlang',
 'histteststatus',
 'histball100',
 'histball12',
 'histball',
 'histptname',
 'histptregname',
 'histptareaname',
 'histpttername',
 'mathtest',
 'mathlang',
 'mathteststatus',
 'mathball100',
 'mathball12',
 'mathball',
 'mathptname',
 'mathptregname',
 'mathptareaname',
 'mathpttername',
 'phystest',
 'physlang',
 'physteststatus',
 'physball100',
 'physball12',
 'physball',
 'physptname',
 'physptregn

In 2021 Ukrtest was renamed to UMLtest (it tests Ukrainian language and Ukrainian literature), and was created the new test only with Ukrainian language that got name UKRtest, that was before. To avoid confusion with the subjects we rename 'uml' by 'ukr', and 'ukr' for 2021 rename as 'ukrlang'

In [69]:
datasets[5].rename(columns=lambda x: 'ukrlang' + x[3:] if x.startswith('ukr') else x, inplace = True)
datasets[5].rename(columns=lambda x: 'ukr' + x[3:] if x.startswith('uml') else x, inplace = True)

### 2016 and 2019

compare 2016 (dataset[0]) and 2019 (dataset[3]) structure

In [72]:
set(datasets[0].columns)-set(datasets[3].columns)

{'rusball100',
 'rusptareaname',
 'rusptname',
 'rusptregname',
 'ruspttername',
 'rustest',
 'rusteststatus'}

Fix the issue with 'fr' and 'fra' for French language test and 'sp' and 'spa' with Spanish language test

In [47]:
datasets[0].columns = [col[:2]+'a'+col[2:] if col.startswith('fr') or col.startswith('sp') else col for col in datasets[0].columns]

In [73]:
set(datasets[0].columns)-set(datasets[3].columns)

{'rusball100',
 'rusptareaname',
 'rusptname',
 'rusptregname',
 'ruspttername',
 'rustest',
 'rusteststatus'}

### Compare 2017 and 2019

In [74]:
set(datasets[1].columns)-set(datasets[3].columns)

{'rusball100',
 'rusball12',
 'rusptareaname',
 'rusptname',
 'rusptregname',
 'ruspttername',
 'rustest',
 'rusteststatus'}

Drop stid from 2017

In [51]:
datasets[1].drop(columns = 'stid', inplace=True)

### Compare 2018 and 2019

In [77]:
set(datasets[2].columns)-set(datasets[3].columns)

set()

### compare 2019 and 2022

In 2022 because of the war it was provided different test. It was computerbased, tested only 3 subjects, the level of tasks were as a half of the previous level, and it was provided in one day. Everyone should be veru careful with interpretation of thed data for 2022

In [96]:
set(datasets[6].columns)-set(datasets[2].columns)

{'testdate',
 'ukrlangball',
 'ukrlangball100',
 'ukrlangptareaname',
 'ukrlangptregname',
 'ukrlangpttername',
 'ukrlangtest',
 'ukrlangteststatus'}

In [90]:
set(datasets[5].columns)-set(datasets[6].columns)

{'bioball',
 'bioball100',
 'bioball12',
 'biolang',
 'bioptareaname',
 'bioptname',
 'bioptregname',
 'biopttername',
 'biotest',
 'bioteststatus',
 'chemball',
 'chemball100',
 'chemball12',
 'chemlang',
 'chemptareaname',
 'chemptname',
 'chemptregname',
 'chempttername',
 'chemtest',
 'chemteststatus',
 'classlangname',
 'classprofilename',
 'deuball',
 'deuball100',
 'deuball12',
 'deudpalevel',
 'deuptareaname',
 'deuptname',
 'deuptregname',
 'deupttername',
 'deutest',
 'deuteststatus',
 'engball',
 'engball100',
 'engball12',
 'engdpalevel',
 'engptareaname',
 'engptname',
 'engptregname',
 'engpttername',
 'engtest',
 'engteststatus',
 'fraball',
 'fraball100',
 'fraball12',
 'fradpalevel',
 'fraptareaname',
 'fraptname',
 'fraptregname',
 'frapttername',
 'fratest',
 'frateststatus',
 'geoball',
 'geoball100',
 'geoball12',
 'geolang',
 'geoptareaname',
 'geoptname',
 'geoptregname',
 'geopttername',
 'geotest',
 'geoteststatus',
 'histball12',
 'histlang',
 'histptareaname'

In [76]:
print(datasets[6].block1.unique())
print(datasets[6].block2.unique())
print(datasets[6].block3.unique())

['Українська мова']
['Історія України']
['Математика']


So, block1 tested Ukrainian language, block2 History of Ukraine, and block3 Mathematics.

In [81]:
datasets[5].ukrlangtest.unique()

array(['Українська мова', nan], dtype=object)

In [83]:
datasets[6].rename(columns=lambda x: 'ukrlang' + x[6:] if x.startswith('block1') else x, inplace = True)
datasets[6].rename(columns=lambda x: 'hist' + x[6:] if x.startswith('block2') else x, inplace = True)
datasets[6].rename(columns=lambda x: 'math' + x[6:] if x.startswith('block3') else x, inplace = True)

In [87]:
datasets[6].drop(columns = 'test', inplace = True)

In [92]:
subj = ['ukrlang', 'hist', 'math']

for sub in subj:
    datasets[6][sub+'ptareaname'] = datasets[6]['ptareaname']
    datasets[6][sub+'ptregname'] = datasets[6]['ptregname']
    datasets[6][sub+'pttername'] = datasets[6]['pttername']
    datasets[6][sub+'teststatus'] = datasets[6]['teststatus']


In [94]:
datasets[6].drop(columns = ['ptareaname', 'ptregname','pttername','teststatus'] , inplace = True)

In [95]:
datasets[6].columns

Index(['outid', 'sextypename', 'regname', 'areaname', 'tername', 'regtypename',
       'tertypename', 'eoname', 'eotypename', 'eoregname', 'eoareaname',
       'eotername', 'eoparent', 'testdate', 'ukrlangtest', 'ukrlangball100',
       'ukrlangball', 'histtest', 'histball100', 'histball', 'mathtest',
       'mathball100', 'mathball', 'year', 'age', 'ukrlangptareaname',
       'ukrlangptregname', 'ukrlangpttername', 'ukrlangteststatus',
       'histptareaname', 'histptregname', 'histpttername', 'histteststatus',
       'mathptareaname', 'mathptregname', 'mathpttername', 'mathteststatus'],
      dtype='object')

## Merging datasets

In [97]:
# concat datasets
df_all = pd.concat(datasets)

In [98]:
df_all.shape

(2201118, 146)

In [100]:
list(df_all.columns)

['outid',
 'sextypename',
 'regname',
 'areaname',
 'tername',
 'regtypename',
 'eoname',
 'eotypename',
 'eoregname',
 'eoareaname',
 'eotername',
 'eoparent',
 'ukrtest',
 'ukrteststatus',
 'ukrball100',
 'ukrball12',
 'ukrptname',
 'ukrptregname',
 'ukrptareaname',
 'ukrpttername',
 'histtest',
 'histlang',
 'histteststatus',
 'histball100',
 'histball12',
 'histptname',
 'histptregname',
 'histptareaname',
 'histpttername',
 'mathtest',
 'mathlang',
 'mathteststatus',
 'mathball100',
 'mathball12',
 'mathptname',
 'mathptregname',
 'mathptareaname',
 'mathpttername',
 'phystest',
 'physlang',
 'physteststatus',
 'physball100',
 'physptname',
 'physptregname',
 'physptareaname',
 'physpttername',
 'chemtest',
 'chemlang',
 'chemteststatus',
 'chemball100',
 'chemptname',
 'chemptregname',
 'chemptareaname',
 'chempttername',
 'biotest',
 'biolang',
 'bioteststatus',
 'bioball100',
 'bioptname',
 'bioptregname',
 'bioptareaname',
 'biopttername',
 'geotest',
 'geolang',
 'geoteststat

Save datasets to csv format.

In [99]:
df_all.to_csv('zno_all.csv',index=False)

Having created a dataset once, we can load it immediately in the future

In [129]:
df_all = pd.read_csv('zno_all.csv')

  df_all = pd.read_csv('zno_all.csv')


## Exploring dataset

In [130]:
df_all.head()

Unnamed: 0,outid,sextypename,regname,areaname,tername,regtypename,eoname,eotypename,eoregname,eoareaname,...,ukrlangteststatus,ukrlangball100,ukrlangball12,ukrlangball,ukrlangadaptscale,ukrlangptname,ukrlangptregname,ukrlangptareaname,ukrlangpttername,testdate
0,a99c6c63-aa70-4aec-ba42-370f7261e857,чоловіча,Запорізька область,Мелітопольський район,с.Терпіння,Випускник загальноосвітнього навчального закла...,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",колегіум,Запорізька область,Мелітопольський район,...,,,,,,,,,,
1,c3136421-569e-422e-ae8f-41c4c931fd70,жіноча,Хмельницька область,Красилівський район,м.Красилів,Випускник загальноосвітнього навчального закла...,Красилівська загальноосвітня школа I-III ступе...,середня загальноосвітня школа,Хмельницька область,Красилівський район,...,,,,,,,,,,
2,fbd0e280-4b77-4f34-942d-00bc850c2992,жіноча,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,Випускник минулих років,,,,,...,,,,,,,,,,
3,30de395e-7a74-452a-8370-6856d240fbfb,чоловіча,Чернівецька область,м.Чернівці,Шевченківський район міста,Випускник загальноосвітнього навчального закла...,Чернівецька спеціалізована школа І-ІІІ ступені...,спеціалізована школа,Чернівецька область,м.Чернівці,...,,,,,,,,,,
4,52a40c74-374e-4744-bd6f-938ab7a4a641,чоловіча,Миколаївська область,Врадіївський район,с.Кумарі,"Учень (слухач, студент) професійно-технічного,...",,,,,...,,,,,,,,,,


In [132]:
df_all[df_all.regtypename.isna()]

Unnamed: 0,outid,sextypename,regname,areaname,tername,regtypename,eoname,eotypename,eoregname,eoareaname,...,ukrlangteststatus,ukrlangball100,ukrlangball12,ukrlangball,ukrlangadaptscale,ukrlangptname,ukrlangptregname,ukrlangptareaname,ukrlangpttername,testdate


In [134]:
df_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2201118 entries, 0 to 2201117
Columns: 146 entries, outid to testdate
dtypes: float64(27), int64(2), object(117)
memory usage: 2.4+ GB


In [135]:
dict(df_all.dtypes)

{'outid': dtype('O'),
 'sextypename': dtype('O'),
 'regname': dtype('O'),
 'areaname': dtype('O'),
 'tername': dtype('O'),
 'regtypename': dtype('O'),
 'eoname': dtype('O'),
 'eotypename': dtype('O'),
 'eoregname': dtype('O'),
 'eoareaname': dtype('O'),
 'eotername': dtype('O'),
 'eoparent': dtype('O'),
 'ukrtest': dtype('O'),
 'ukrteststatus': dtype('O'),
 'ukrball100': dtype('O'),
 'ukrball12': dtype('float64'),
 'ukrptname': dtype('O'),
 'ukrptregname': dtype('O'),
 'ukrptareaname': dtype('O'),
 'ukrpttername': dtype('O'),
 'histtest': dtype('O'),
 'histlang': dtype('O'),
 'histteststatus': dtype('O'),
 'histball100': dtype('O'),
 'histball12': dtype('float64'),
 'histptname': dtype('O'),
 'histptregname': dtype('O'),
 'histptareaname': dtype('O'),
 'histpttername': dtype('O'),
 'mathtest': dtype('O'),
 'mathlang': dtype('O'),
 'mathteststatus': dtype('O'),
 'mathball100': dtype('O'),
 'mathball12': dtype('float64'),
 'mathptname': dtype('O'),
 'mathptregname': dtype('O'),
 'mathpta

In Ukraine we use ',' to write a decimals, so sometimes it lead to confusion. Let's fix it

In [136]:
for col in df_all.columns:
    if '100' in col:
        df_all[col] = pd.to_numeric(df_all[col].map(lambda x: str(x).replace(',','.') if pd.notna(x) else None))

In [137]:
df_all['ukrteststatus'].unique()

array(['Отримав результат', "Не з'явився", 'Не склав',
       'Не зареєстровано для проходження основної сесії', 'Анульовано',
       nan, 'Зараховано', 'Не з’явився', 'Не подолав поріг',
       'Не обрано 100-200'], dtype=object)

In 2016 and 2019 we have different phrases for the same status.

In [138]:
for col in df_all.columns:
    if 'teststatus' in col:
        df_all[col] = df_all[col].str.replace('’', "'")
        df_all[col] = df_all[col].replace('Не зареєстровано для проходження основної сесії', np.nan)
        df_all[col] = df_all[col].replace('Не склав', 'Не подолав поріг')
        df_all[col] = df_all[col].replace('Отримав результат', 'Зараховано')

In [110]:
dict(df_all.dtypes)

{'outid': dtype('O'),
 'sextypename': dtype('O'),
 'regname': dtype('O'),
 'areaname': dtype('O'),
 'tername': dtype('O'),
 'regtypename': dtype('O'),
 'eoname': dtype('O'),
 'eotypename': dtype('O'),
 'eoregname': dtype('O'),
 'eoareaname': dtype('O'),
 'eotername': dtype('O'),
 'eoparent': dtype('O'),
 'ukrtest': dtype('O'),
 'ukrteststatus': dtype('O'),
 'ukrball100': dtype('float64'),
 'ukrball12': dtype('float64'),
 'ukrptname': dtype('O'),
 'ukrptregname': dtype('O'),
 'ukrptareaname': dtype('O'),
 'ukrpttername': dtype('O'),
 'histtest': dtype('O'),
 'histlang': dtype('O'),
 'histteststatus': dtype('O'),
 'histball100': dtype('float64'),
 'histball12': dtype('float64'),
 'histptname': dtype('O'),
 'histptregname': dtype('O'),
 'histptareaname': dtype('O'),
 'histpttername': dtype('O'),
 'mathtest': dtype('O'),
 'mathlang': dtype('O'),
 'mathteststatus': dtype('O'),
 'mathball100': dtype('float64'),
 'mathball12': dtype('float64'),
 'mathptname': dtype('O'),
 'mathptregname': dty

## Unifying 'tertypename' feature

Since in 2021 'tertypename' has 3 territory types: city (місто), town (селище міського типу) and village (селище, село), and before we had only 2: city (місто) and village (селище, село), we reconstruct the correct type for 2018-2020 period.

In [139]:
def encode_tertypename(x):
    if x['tername'].startswith('м.'):
        return 'місто'
    elif x['tername'].startswith('смт'):
        return 'селище міського типу'
    elif x['tername'].startswith('с.'):
        return 'селище, село'
    elif x['tername'].startswith('с-ще'):
         return 'селище, село'
    elif x['areaname'].startswith('м.'):
        return 'місто'
    return None
        
df_all['tertypename'] = df_all.apply(encode_tertypename,axis=1)

In [140]:
df_all.tertypename.unique()

array(['селище, село', 'місто', 'селище міського типу', None],
      dtype=object)

In [144]:
df_all[df_all.tertypename.isna()]

Unnamed: 0,outid,sextypename,regname,areaname,tername,regtypename,eoname,eotypename,eoregname,eoareaname,...,ukrlangteststatus,ukrlangball100,ukrlangball12,ukrlangball,ukrlangadaptscale,ukrlangptname,ukrlangptregname,ukrlangptareaname,ukrlangpttername,testdate


In [143]:
df_all = df_all.drop([144704]).reset_index(drop=True)

In [145]:
df_all.shape

(2201117, 146)

## Unifying 'regtypename' feature

In [148]:
df_all.regtypename.unique()

array(['Випускник загальноосвітнього навчального закладу 2016 року',
       'Випускник минулих років',
       'Учень (слухач, студент) професійно-технічного, вищого навчального закладу',
       'Установа виконання покарань',
       'Випускник, який здобуде в 2016 році повну загальну середню освіту в навчальному закладі іншої держави',
       'Випускник загальноосвітнього навчального закладу 2017 року',
       'Випускник, який здобуде в 2017 році повну загальну середню освіту в навчальному закладі іншої держави',
       'Випускник закладу загальної середньої освіти 2018 року',
       'Учень (слухач) закладу професійної (професійно-технічної) освіти',
       'Студент закладу вищої освіти',
       'Випускник, який здобуде в 2018 році повну загальну середню освіту в навчальному закладі іншої держави',
       'Випускник закладу загальної середньої освіти 2019 року',
       'Випускник, який здобуде в 2019 році повну загальну середню освіту в закордонному закладі освіти',
       'випускник за

In [157]:
regtypename_dict = {
    'Випускник української школи поточного року': ['Випускник загальноосвітнього навчального закладу 2016 року',
                                                    'Випускник загальноосвітнього навчального закладу 2017 року',
                                                    'Випускник закладу загальної середньої освіти 2018 року',
                                                    'Випускник закладу загальної середньої освіти 2019 року',
                                                    'випускник закладу загальної середньої освіти 2020 року',
                                                    'Випускник загальноосвітнього навчального закладу 2021 року',
                                                    'Випускник закладу загальної середньої освіти 2022 року'],
    'Випускник іноземної школи': ['Випускник, який здобуде в 2016 році повну загальну середню освіту в навчальному закладі іншої держави', 
                                    'Випускник, який здобуде в 2017 році повну загальну середню освіту в навчальному закладі іншої держави',
                                    'Випускник, який здобуде в 2018 році повну загальну середню освіту в навчальному закладі іншої держави', 
                                    'Випускник, який здобуде в 2019 році повну загальну середню освіту в закордонному закладі освіти',
                                    'Випускник, який здобуде в 2020 році повну загальну середню освіту в закордонному закладі освіти', 
                                    'Випускник, який здобуде в 2021 році повну загальну середню освіту в навчальному закладі іншої держави',
                                    'Випускник, який здобуде в 2022 році повну загальну середню освіту в закордонному закладі освіти'],
    'Учень коледжу закладу професійної (професійно-технічної) або вищої освіти': ['Учень (слухач) закладу професійної (професійно-технічної) освіти', 
                                                                                    'Учень (слухач, студент) професійно-технічного, вищого навчального закладу', 
                                                                                    'Студент закладу вищої/фахової передвищої освіти',
                                                                                    'Студент закладу вищої освіти'],
    'Випускник минулих років': ['Випускник минулих років'],
    'Установа виконання покарань':['Установа виконання покарань']
}

In [158]:
def encode_regtypename(x):
    for type, possible_types in regtypename_dict.items():
        if x in possible_types:
            return type
    return None

df_all.regtypename = df_all.regtypename.map(encode_regtypename)

In [159]:
df_all.regtypename.unique()

array(['Випускник української школи поточного року',
       'Випускник минулих років',
       'Учень коледжу закладу професійної (професійно-технічної) або вищої освіти',
       'Установа виконання покарань', 'Випускник іноземної школи'],
      dtype=object)

## Drop Ball12

In [161]:
list(df_all.columns)

['outid',
 'sextypename',
 'regname',
 'areaname',
 'tername',
 'regtypename',
 'eoname',
 'eotypename',
 'eoregname',
 'eoareaname',
 'eotername',
 'eoparent',
 'ukrtest',
 'ukrteststatus',
 'ukrball100',
 'ukrball12',
 'ukrptname',
 'ukrptregname',
 'ukrptareaname',
 'ukrpttername',
 'histtest',
 'histlang',
 'histteststatus',
 'histball100',
 'histball12',
 'histptname',
 'histptregname',
 'histptareaname',
 'histpttername',
 'mathtest',
 'mathlang',
 'mathteststatus',
 'mathball100',
 'mathball12',
 'mathptname',
 'mathptregname',
 'mathptareaname',
 'mathpttername',
 'phystest',
 'physlang',
 'physteststatus',
 'physball100',
 'physptname',
 'physptregname',
 'physptareaname',
 'physpttername',
 'chemtest',
 'chemlang',
 'chemteststatus',
 'chemball100',
 'chemptname',
 'chemptregname',
 'chemptareaname',
 'chempttername',
 'biotest',
 'biolang',
 'bioteststatus',
 'bioball100',
 'bioptname',
 'bioptregname',
 'bioptareaname',
 'biopttername',
 'geotest',
 'geolang',
 'geoteststat

They are ranking scores for different scales.

In [162]:
df_all = df_all.drop(columns=[col for col in df_all.columns if '12' in col])

In [163]:
df_all = df_all.drop(columns=[col for col in df_all.columns if 'dpalevel' in col])

In [164]:
list(df_all.columns)

['outid',
 'sextypename',
 'regname',
 'areaname',
 'tername',
 'regtypename',
 'eoname',
 'eotypename',
 'eoregname',
 'eoareaname',
 'eotername',
 'eoparent',
 'ukrtest',
 'ukrteststatus',
 'ukrball100',
 'ukrptname',
 'ukrptregname',
 'ukrptareaname',
 'ukrpttername',
 'histtest',
 'histlang',
 'histteststatus',
 'histball100',
 'histptname',
 'histptregname',
 'histptareaname',
 'histpttername',
 'mathtest',
 'mathlang',
 'mathteststatus',
 'mathball100',
 'mathptname',
 'mathptregname',
 'mathptareaname',
 'mathpttername',
 'phystest',
 'physlang',
 'physteststatus',
 'physball100',
 'physptname',
 'physptregname',
 'physptareaname',
 'physpttername',
 'chemtest',
 'chemlang',
 'chemteststatus',
 'chemball100',
 'chemptname',
 'chemptregname',
 'chemptareaname',
 'chempttername',
 'biotest',
 'biolang',
 'bioteststatus',
 'bioball100',
 'bioptname',
 'bioptregname',
 'bioptareaname',
 'biopttername',
 'geotest',
 'geolang',
 'geoteststatus',
 'geoball100',
 'geoptname',
 'geoptreg

In [165]:
df_all

Unnamed: 0,outid,sextypename,regname,areaname,tername,regtypename,eoname,eotypename,eoregname,eoareaname,...,ukrlangtest,ukrlangteststatus,ukrlangball100,ukrlangball,ukrlangadaptscale,ukrlangptname,ukrlangptregname,ukrlangptareaname,ukrlangpttername,testdate
0,a99c6c63-aa70-4aec-ba42-370f7261e857,чоловіча,Запорізька область,Мелітопольський район,с.Терпіння,Випускник української школи поточного року,"Терпіннівський колегіум ""Джерело"" Мелітопольсь...",колегіум,Запорізька область,Мелітопольський район,...,,,,,,,,,,
1,c3136421-569e-422e-ae8f-41c4c931fd70,жіноча,Хмельницька область,Красилівський район,м.Красилів,Випускник української школи поточного року,Красилівська загальноосвітня школа I-III ступе...,середня загальноосвітня школа,Хмельницька область,Красилівський район,...,,,,,,,,,,
2,fbd0e280-4b77-4f34-942d-00bc850c2992,жіноча,Дніпропетровська область,Петропавлівський район,с.Дмитрівка,Випускник минулих років,,,,,...,,,,,,,,,,
3,30de395e-7a74-452a-8370-6856d240fbfb,чоловіча,Чернівецька область,м.Чернівці,Шевченківський район міста,Випускник української школи поточного року,Чернівецька спеціалізована школа І-ІІІ ступені...,спеціалізована школа,Чернівецька область,м.Чернівці,...,,,,,,,,,,
4,52a40c74-374e-4744-bd6f-938ab7a4a641,чоловіча,Миколаївська область,Врадіївський район,с.Кумарі,Учень коледжу закладу професійної (професійно-...,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2201112,6cbe3454-80f0-42b5-8d6d-c2ead687d804,чоловіча,Волинська область,Володимирський район,с.Заболотці,Випускник української школи поточного року,Заболотцівський ліцей Литовезької сільської ра...,середня загальноосвітня школа,Волинська область,Володимирський район,...,Українська мова,Зараховано,140.0,13.0,,,Волинська область,м.Нововолинськ,м.Нововолинськ,17.08.2022
2201113,b897557b-c01b-49d4-8624-b351aaafe5ff,жіноча,Волинська область,Володимирський район,с.Заболотці,Випускник української школи поточного року,Заболотцівський ліцей Литовезької сільської ра...,середня загальноосвітня школа,Волинська область,Володимирський район,...,Українська мова,Зараховано,184.0,31.0,,,Волинська область,м.Нововолинськ,м.Нововолинськ,28.07.2022
2201114,dcec644b-dcec-47ee-9971-6beebd1a929b,чоловіча,Волинська область,Володимирський район,с.Заболотці,Випускник української школи поточного року,Заболотцівський ліцей Литовезької сільської ра...,середня загальноосвітня школа,Волинська область,Володимирський район,...,Українська мова,Зараховано,157.0,21.0,,,Волинська область,м.Нововолинськ,м.Нововолинськ,02.08.2022
2201115,cb4156bb-a624-4274-9d38-28be3096f6b9,жіноча,Волинська область,Володимирський район,с.Заболотці,Випускник української школи поточного року,Заболотцівський ліцей Литовезької сільської ра...,середня загальноосвітня школа,Волинська область,Володимирський район,...,Українська мова,Зараховано,139.0,12.0,,,Волинська область,м.Нововолинськ,м.Нововолинськ,25.07.2022


In [166]:
df_all.to_csv('zno_preprocessed.csv', index=False)

In [167]:
df_all.shape

(2201117, 129)