# Motivation

The motivation for creating prediction and ranking tasks for EIE datasets was to extend the dataset ecosystem available for algorithmic fairness research in two directions: the education domain and the dataset from Eastern Europe (Ukraine). We obtained the data from publicly available Open Data resource https://zno.testportal.com.ua/opendata.


The tasks were created by Dr. Julia Stoyanovich and Andrew Bell from the Center for Responsible AI, New York University, and Tetiana Zakharchenko, Nazarii Drushchak, Oleksandra Konopatska, and Olha Liuba from Ukrainian Catholic University.


The creation of the dataset was funded by the Center for Responsible AI, New York University.

# Composition of Dataset

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

We will load and work with datasets from 2016 to 2021 since they have a comparable structure. We downloadedoriginal datasets from Open Data Resource and uploaded to HuggingFace for easiness of usage.

## Loading and merging

Load datasets from hugging face

In [12]:
# load datasets
datasets = []
years = range(2016, 2023)
for year in years:
    print(f"EIE {year} Loading...")
    if int(year) >= 2019:
        file_name = f'Odata{year}File.csv'
    else:
        file_name = f'OpenData{year}.csv'
    try:           
        dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='utf-8')
    except:
        dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='Windows 1251')
    datasets.append(dataset)

EIE 2016 Loading...
EIE 2017 Loading...
EIE 2018 Loading...


  dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='utf-8')


EIE 2019 Loading...


  dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='Windows 1251')


EIE 2020 Loading...


  dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='Windows 1251')


EIE 2021 Loading...


  dataset = pd.read_csv(f"../../zno/{year}/{file_name}", sep=";", encoding='utf-8')


EIE 2022 Loading...


Names of all features are the same across all years, but can have some difference with capital and lower cases. That's why we lower all of them. Also, we add a new column – a corresponding year. For further research we add the column with age.

In [13]:
#lowercase all columns and add year as attribute
for year, dataset in zip(years, datasets):
    dataset.columns = [col.lower() for col in dataset.columns]
    dataset['year'] = year
    dataset['age'] = year - dataset['birth']

## Unifiying column names

### 2016, 2017 and 2018

compare 2016 (dataset[0]) and 2018 (dataset[2]) structure

In [14]:
set(datasets[0].columns)-set(datasets[2].columns)

{'frball100',
 'frptareaname',
 'frptname',
 'frptregname',
 'frpttername',
 'frtest',
 'frteststatus',
 'rusball100',
 'rusptareaname',
 'rusptname',
 'rusptregname',
 'ruspttername',
 'rustest',
 'rusteststatus',
 'spball100',
 'spptareaname',
 'spptname',
 'spptregname',
 'sppttername',
 'sptest',
 'spteststatus'}

In [15]:
set(datasets[2].columns)-set(datasets[0].columns)

{'bioball',
 'bioball12',
 'chemball',
 'chemball12',
 'classlangname',
 'classprofilename',
 'deuball',
 'deuball12',
 'deudpalevel',
 'engball',
 'engball12',
 'engdpalevel',
 'fraball',
 'fraball100',
 'fraball12',
 'fradpalevel',
 'fraptareaname',
 'fraptname',
 'fraptregname',
 'frapttername',
 'fratest',
 'frateststatus',
 'geoball',
 'geoball12',
 'histball',
 'mathball',
 'physball',
 'physball12',
 'spaball',
 'spaball100',
 'spaball12',
 'spadpalevel',
 'spaptareaname',
 'spaptname',
 'spaptregname',
 'spapttername',
 'spatest',
 'spateststatus',
 'tertypename',
 'ukrball'}

In [16]:
datasets[0].columns = [col[:2]+'a'+col[2:] if col.startswith('fr') or col.startswith('sp') else col for col in datasets[0].columns]

compare 2017 and 2018

In [17]:
datasets[1]

Unnamed: 0,outid,stid,birth,sextypename,regname,areaname,tername,regtypename,tertypename,classprofilename,...,rustest,rusteststatus,rusball100,rusball12,rusptname,rusptregname,rusptareaname,ruspttername,year,age
0,EDDDC0A3-C615-4101-96B3-9F1A4C654A2C,14809269-9F28-454C-8B3B-01DE067C91F3,1999,жіноча,Житомирська область,Новоград-Волинський район,смт Городниця,Випускник минулих років,місто,,...,,,,,,,,,2017,18
1,3528FBEB-5ABE-4956-B715-68FABAE0A566,C5B85614-D95B-4029-B3E4-920246DA7B17,1999,чоловіча,Сумська область,Сумська область,м.Лебедин,"Учень (слухач, студент) професійно-технічного,...",місто,,...,,,,,,,,,2017,18
2,1BA2DD60-B125-4DB0-875A-9AB8E54B4411,E1BB0166-3FFE-4BA0-BFB7-D60EC8E8CD8E,1991,чоловіча,Миколаївська область,м.Миколаїв,Корабельний район міста,Випускник минулих років,місто,,...,,,,,,,,,2017,26
3,29BD1575-16B2-4EAD-B2AB-DC2A3365DE1E,574350E1-DDA9-47A8-ADAA-6F8915BD2A05,2000,чоловіча,Донецька область,Донецька область,м.Покровськ,Випускник загальноосвітнього навчального закла...,місто,Фізико-математичний,...,,,,,,,,,2017,17
4,FF8BFD9C-837B-4F38-A321-C9AC264F83E6,4E01CF4C-3596-4178-A44D-556197D73E7B,2000,чоловіча,Івано-Франківська область,Івано-Франківська область,м.Івано-Франківськ,"Учень (слухач, студент) професійно-технічного,...",місто,,...,,,,,,,,,2017,17
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
240884,D7D5DDD6-473F-4047-B673-88AC5922BCFB,EA2E4E4D-9672-48BA-A4BF-E77DD3A83EC4,1999,жіноча,м.Київ,м.Київ,Шевченківський район міста,Випускник загальноосвітнього навчального закла...,місто,Інформаційно-технологічний,...,,,,,,,,,2017,18
240885,678C3946-388B-4921-8679-C0788F21AAD4,97B6798B-B6BB-42B9-B971-91CD92053041,1999,жіноча,Харківська область,м.Харків,Московський район міста,Випускник загальноосвітнього навчального закла...,місто,Інший,...,,,,,,,,,2017,18
240886,9C4F308A-1A47-46A4-A192-CAFC3DF0A726,A84568A5-DFA5-45D2-ADD3-5196E1A7A72E,2000,чоловіча,Херсонська область,Великоолександрівський район,с.Чарівне,Випускник загальноосвітнього навчального закла...,село,Універсальний,...,,,,,,,,,2017,17
240887,DECAE4A3-0782-4565-9A00-95393AA7FCD9,A1113632-D542-43B8-BB44-E56FE6446951,1998,жіноча,Рівненська область,Гощанський район,с.Бабин,Випускник минулих років,село,,...,,,,,,,,,2017,19


In [18]:
set(datasets[1].columns)-set(datasets[2].columns)

{'rusball100',
 'rusball12',
 'rusptareaname',
 'rusptname',
 'rusptregname',
 'ruspttername',
 'rustest',
 'rusteststatus',
 'stid'}

In [19]:
set(datasets[2].columns)-set(datasets[1].columns)

{'bioball',
 'chemball',
 'deuball',
 'deudpalevel',
 'engball',
 'engdpalevel',
 'fraball',
 'fradpalevel',
 'geoball',
 'histball',
 'mathball',
 'physball',
 'spaball',
 'spadpalevel',
 'ukrball'}

compare 2018 and 2022

In [24]:
set(datasets[6].columns)-set(datasets[2].columns)

{'block1',
 'block1ball',
 'block1ball100',
 'block2',
 'block2ball',
 'block2ball100',
 'block3',
 'block3ball',
 'block3ball100',
 'ptareaname',
 'ptregname',
 'pttername',
 'test',
 'testdate',
 'teststatus'}

In [26]:
datasets[6].block1.unique()

array(['Українська мова'], dtype=object)

In [27]:
datasets[2].ukrtest.unique()

array(['Українська мова і література', nan], dtype=object)

In [None]:
datasets[6].rename(columns = {'block1'})

In [20]:
datasets[1] = datasets[1].drop(columns=['stid'])

Finally, we can concatenate all datasets.

In [21]:
# concat datasets
df_all = pd.concat(datasets)

Save datasets to csv format.

In [None]:
df_all.to_csv('zno_all.csv',index=False)

Having created a dataset once, we can load it immediately in the future

In [None]:
df_all = pd.read_csv('zno_all.csv')

## Exploring dataset

In [None]:
df_all.head()

In [None]:
df_all.info()

In [None]:
dict(df_all.dtypes)

In [None]:
df_all.dropna(how = 'all', inplace = True)

In [None]:
df_all

In [None]:
for col in df_all.columns:
    if '100' in col:
        df_all[col] = pd.to_numeric(df_all[col].map(lambda x: str(x).replace(',','.') if pd.notna(x) else None))

In [None]:
df_all['ukrteststatus'].unique()

In [None]:
for col in df_all.columns:
    if 'teststatus' in col:
        df_all[col] = df_all[col].str.replace('’', "'")
        df_all[col] = df_all[col].replace('Не зареєстровано для проходження основної сесії', np.nan)
        df_all[col] = df_all[col].replace('Не склав', 'Не подолав поріг')
        df_all[col] = df_all[col].replace('Отримав результат', 'Зараховано')

In [None]:
dict(df_all.dtypes)

## Unifying 'tertypename' feature

Since in 2021 'tertypename' has 3 territory types: city (місто), town (селище міського типу) and village (селище, село), and before we had only 2: city (місто) and village (селище, село), we reconstruct the correct type for 2018-2020 period.

In [None]:
def encode_tertypename(x):
    if x['tername'].startswith('м.'):
        return 'місто'
    elif x['tername'].startswith('смт'):
        return 'селище міського типу'
    elif x['tername'].startswith('с.'):
        return 'селище, село'
    elif x['tername'].startswith('с-ще'):
         return 'селище, село'
    elif x['areaname'].startswith('м.'):
        return 'місто'
    return None
        
df_all['tertypename'] = df_all.apply(encode_tertypename,axis=1)

In [None]:
df_all.tertypename.value_counts()

## Unifying 'regtypename' feature

In [None]:
regtypename_unique = df_all.regtypename.unique()
sorted(regtypename_unique)

In [None]:
regtypename_dict = {
    'Випускник української школи поточного року': ['Випускник загальноосвітнього навчального закладу 2016 року','Випускник загальноосвітнього навчального закладу 2017 року',
                         'Випускник загальноосвітнього навчального закладу 2021 року', 'Випускник закладу загальної середньої освіти 2018 року',
                         'Випускник закладу загальної середньої освіти 2019 року', 'випускник закладу загальної середньої освіти 2020 року'],
    'Випускник іноземної школи': ['Випускник, який здобуде в 2016 році повну загальну середню освіту в навчальному закладі іншої держави', 'Випускник, який здобуде в 2017 році повну загальну середню освіту в навчальному закладі іншої держави',
                                  'Випускник, який здобуде в 2018 році повну загальну середню освіту в навчальному закладі іншої держави', 'Випускник, який здобуде в 2019 році повну загальну середню освіту в закордонному закладі освіти',
                                  'Випускник, який здобуде в 2020 році повну загальну середню освіту в закордонному закладі освіти', 'Випускник, який здобуде в 2021 році повну загальну середню освіту в навчальному закладі іншої держави'],
    'Учень коледжу закладу професійної (професійно-технічної) або вищої освіти': ['Учень (слухач) закладу професійної (професійно-технічної) освіти', 'Учень (слухач, студент) професійно-технічного, вищого навчального закладу', 'Студент закладу вищої освіти'],
    'Випускник минулих років': ['Випускник минулих років'],
    'Установа виконання покарань':['Установа виконання покарань']
}

In [None]:
def encode_regtypename(x):
    for type, possible_types in regtypename_dict.items():
        if x in possible_types:
            return type
    return None

df_all.regtypename = df_all.regtypename.map(encode_regtypename)

In [None]:
df_all.regtypename.unique()

## Drop Math Standard test and UkrsubTest

It was new experiment in 2021, that failed since due to COVID, it was cancelled.

In [None]:
df_all = df_all.drop(columns=[col for col in df_all.columns if col.startswith('mathst')])

In [None]:
df_all = df_all.drop(columns=['ukrsubtest'])

## Change UML in 2021

In 2021 Ukrtest was renamed to UMLtest, and was created the new test only with Ukrainian language

In [None]:
def prep_ukr_uml(x, name):
    if x['year']<2021:
        return x[name]
    return x[name.replace('ukr','uml')]

for name in [col for col in df_all.columns if col.startswith('ukr')]:
    df_all[name] = df_all.apply(prep_ukr_uml,axis=1,args=[name])

In [None]:
df_all = df_all.drop(columns=[col for col in df_all.columns if col.startswith('uml')])

## Drop Ball12

They are ranking scores for different scales.

In [None]:
df_all = df_all.drop(columns=[col for col in df_all.columns if '12' in col])

In [None]:
df_all = df_all.drop(columns = 'birth')

In [None]:
df_all = df_all.drop(columns=[col for col in df_all.columns if 'dpalevel' in col])

In [None]:
list(df_all.columns)

In [None]:
df_all.to_csv('zno_preprocessed.csv', index=False)

In [None]:
df_all.shape