# Motivation

The motivation for creating prediction and ranking tasks for EIE datasets was to extend the dataset ecosystem available for algorithmic fairness research in two directions: the education domain and the dataset from Eastern Europe (Ukraine). We obtained the data from publicly available Open Data resource https://zno.testportal.com.ua/opendata.


The tasks were created by Dr. Julia Stoyanovich and Andrew Bell from the Center for Responsible AI, New York University, and Tetiana Zakharchenko, Nazarii Drushchak, Oleksandra Konopatska, and Olha Liuba from Ukrainian Catholic University.


The creation of the dataset was funded by the Center for Responsible AI, New York University.

# Composition of Dataset

In [59]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datasets import load_dataset

We will load and work with datasets from 2018 to 2021 since they have a comparable structure. We downloadedoriginal datasets from Open Data Resource and uploaded to HuggingFace for easiness of usage.

In [17]:
years = [2018,2019,2020,2021]
base_file_nams = "OpenData{year}.csv"
dataset_id = "DSRL/zno"

## Loading and merging

Load datasets from hugging face

In [None]:
# load datasets
datasets = []
for year in years:
    print(f"ZNO {year} Loading...")
    hf_dataset = load_dataset(dataset_id, data_files=base_file_nams.format(year=year),keep_default_na=False, use_auth_token=True)
    datasets.append(pd.DataFrame(hf_dataset['train']))

Names of all features are the same across all years, but can have some difference with capital and lower cases. That's why we lower all of them. Also, we add a new column – a corresponding year.

In [None]:
#lowercase all columns and add year as attribute
for year, dataset in zip(years, datasets):
    dataset.columns = [col.lower() for col in dataset.columns]
    dataset['year'] = year

Finally, we can concatenate all datasets.

In [None]:
# concat datasets
df_all = pd.concat(datasets)

For further research we add the column with age.

Save datasets to csv format.

In [43]:
df_all.to_csv('zno_all.csv',index=False)

Having created a dataset once, we can load it immediately in the future

In [79]:
df_all = pd.read_csv('zno_all.csv')

  df_all = pd.read_csv('zno_all.csv')


## Exploring dataset

In [80]:
df_all.head()

Unnamed: 0,outid,birth,sextypename,regname,areaname,tername,regtypename,tertypename,classprofilename,classlangname,...,mathdpalevel,mathsttest,mathstlang,mathstteststatus,mathstball12,mathstball,mathstptname,mathstptregname,mathstptareaname,mathstpttername
0,a4e039d0-07ef-4a3d-820d-106dcaf01b96,2001,чоловіча,Закарпатська область,Берегівський район,с.Косонь,Випускник закладу загальної середньої освіти 2...,село,Фізико-математичний,угорська,...,,,,,,,,,,
1,c1fa1ed0-d2af-4964-9a88-3c138008304b,2001,жіноча,Київська область,Київська область,м.Бровари,Випускник закладу загальної середньої освіти 2...,місто,Іноземної філології,українська,...,,,,,,,,,,
2,6504a7f3-7dfd-4a64-a2d9-4d49f5021303,2000,жіноча,Харківська область,м.Харків,Червонозаводський район міста,Випускник закладу загальної середньої освіти 2...,місто,Іноземної філології,українська,...,,,,,,,,,,
3,5cbcd343-2e63-48b8-b36d-48797a76be31,2000,чоловіча,Рівненська область,Млинівський район,смт Млинів,Випускник закладу загальної середньої освіти 2...,місто,Фізико-математичний,українська,...,,,,,,,,,,
4,063c6498-7345-492c-b567-174938bac671,1999,чоловіча,Рівненська область,Рівненська область,м.Острог,Учень (слухач) закладу професійної (професійно...,місто,,,...,,,,,,,,,,


In [81]:
df_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1458122 entries, 0 to 1458121
Columns: 148 entries, outid to mathstpttername
dtypes: float64(28), int64(2), object(118)
memory usage: 1.6+ GB


In [82]:
print(list(df_all.columns))

['outid', 'birth', 'sextypename', 'regname', 'areaname', 'tername', 'regtypename', 'tertypename', 'classprofilename', 'classlangname', 'eoname', 'eotypename', 'eoregname', 'eoareaname', 'eotername', 'eoparent', 'ukrtest', 'ukrteststatus', 'ukrball100', 'ukrball12', 'ukrball', 'ukrptname', 'ukrptregname', 'ukrptareaname', 'ukrpttername', 'histtest', 'histlang', 'histteststatus', 'histball100', 'histball12', 'histball', 'histptname', 'histptregname', 'histptareaname', 'histpttername', 'mathtest', 'mathlang', 'mathteststatus', 'mathball100', 'mathball12', 'mathball', 'mathptname', 'mathptregname', 'mathptareaname', 'mathpttername', 'phystest', 'physlang', 'physteststatus', 'physball100', 'physball12', 'physball', 'physptname', 'physptregname', 'physptareaname', 'physpttername', 'chemtest', 'chemlang', 'chemteststatus', 'chemball100', 'chemball12', 'chemball', 'chemptname', 'chemptregname', 'chemptareaname', 'chempttername', 'biotest', 'biolang', 'bioteststatus', 'bioball100', 'bioball12',

## Unifying 'tertypename' feature

Since in 2021 'tertypename' has 3 territory types: city (місто), town (селище міського типу) and village (селище, село), and before we had only 2: city (місто) and village (селище, село), we reconstruct the correct type for 2018-2020 period.

In [83]:
def encode_tertypename(x):
    if x['tername'].startswith('м.'):
        return 'місто'
    elif x['tername'].startswith('смт'):
        return 'селище міського типу'
    elif x['tername'].startswith('с.'):
        return 'селище, село'
    elif x['tername'].startswith('с-ще'):
         return 'селище, село'
    elif x['areaname'].startswith('м.'):
        return 'місто'
    return None
        
df_all['tertypename'] = df_all.apply(encode_tertypename,axis=1)

In [84]:
df_all.tertypename.value_counts()

tertypename
місто                   1070663
селище, село             270811
селище міського типу     116648
Name: count, dtype: int64

## Unifying 'regtypename' feature

In [85]:
regtypename_unique = df_all.regtypename.unique()
sorted(regtypename_unique)

['Випускник загальноосвітнього навчального закладу 2021 року',
 'Випускник закладу загальної середньої освіти 2018 року',
 'Випускник закладу загальної середньої освіти 2019 року',
 'Випускник минулих років',
 'Випускник, який здобуде в 2018 році повну загальну середню освіту в навчальному закладі іншої держави',
 'Випускник, який здобуде в 2019 році повну загальну середню освіту в закордонному закладі освіти',
 'Випускник, який здобуде в 2020 році повну загальну середню освіту в закордонному закладі освіти',
 'Випускник, який здобуде в 2021 році повну загальну середню освіту в навчальному закладі іншої держави',
 'Студент закладу вищої освіти',
 'Учень (слухач) закладу професійної (професійно-технічної) освіти',
 'випускник закладу загальної середньої освіти 2020 року']

In [86]:
regtypename_dict = {
    'Випускник української школи поточного року': ['Випускник загальноосвітнього навчального закладу 2016 року','Випускник загальноосвітнього навчального закладу 2017 року',
                         'Випускник загальноосвітнього навчального закладу 2021 року', 'Випускник закладу загальної середньої освіти 2018 року',
                         'Випускник закладу загальної середньої освіти 2019 року', 'випускник закладу загальної середньої освіти 2020 року'],
    'Випускник іноземної школи': ['Випускник, який здобуде в 2016 році повну загальну середню освіту в навчальному закладі іншої держави', 'Випускник, який здобуде в 2017 році повну загальну середню освіту в навчальному закладі іншої держави',
                                  'Випускник, який здобуде в 2018 році повну загальну середню освіту в навчальному закладі іншої держави', 'Випускник, який здобуде в 2019 році повну загальну середню освіту в закордонному закладі освіти',
                                  'Випускник, який здобуде в 2020 році повну загальну середню освіту в закордонному закладі освіти', 'Випускник, який здобуде в 2021 році повну загальну середню освіту в навчальному закладі іншої держави'],
    'Випускник коледжу': ['Учень (слухач) закладу професійної (професійно-технічної) освіти', 'Учень (слухач, студент) професійно-технічного, вищого навчального закладу'],
    'Студент закладу вищої освіти': ['Студент закладу вищої освіти'],
    'Випускник минулих років': ['Випускник минулих років']
}

In [87]:
def encode_regtypename(x):
    for type, possible_types in regtypename_dict.items():
        if x in possible_types:
            return type
    return None

df_all.regtypename = df_all.regtypename.map(encode_regtypename)

In [88]:
df_all.regtypename.unique()

array(['Випускник української школи поточного року', 'Випускник коледжу',
       'Студент закладу вищої освіти', 'Випускник минулих років',
       'Випускник іноземної школи'], dtype=object)

## Drop Math Standard test and UkrsubTest

It was new experiment in 2021, that failed since due to COVID, it was cancelled.

In [89]:
df_all = df_all.drop(columns=['mathsttest', 'mathstlang', 'mathstteststatus', 'mathstball12', 
                              'mathstball','mathstptname','mathstptregname', 'mathstptareaname', 'mathstpttername', 'mathdpalevel'])

In [92]:
df_all = df_all.drop(columns=['ukrsubtest'])

## Change UML in 2021

In 2021 Ukrtest was renamed to UMLtest

In [93]:
def prep_ukr_uml(x, name):
    if x['year']<2021:
        return x[name]
    return x[name.replace('ukr','uml')]

for name in [col for col in df_all.columns if col.startswith('ukr')]:
    df_all[name] = df_all.apply(prep_ukr_uml,axis=1,args=[name])

In [94]:
df_all = df_all.drop(columns=[col for col in df_all.columns if col.startswith('uml')])

## Drop Ball12 and Ball100

They are ranking scores for different scales.

In [97]:
df_all = df_all.drop(columns=[col for col in df_all.columns if '12' in col or '100' in col])

In [99]:
list(df_all.columns)

['outid',
 'birth',
 'sextypename',
 'regname',
 'areaname',
 'tername',
 'regtypename',
 'tertypename',
 'classprofilename',
 'classlangname',
 'eoname',
 'eotypename',
 'eoregname',
 'eoareaname',
 'eotername',
 'eoparent',
 'ukrtest',
 'ukrteststatus',
 'ukrball',
 'ukrptname',
 'ukrptregname',
 'ukrptareaname',
 'ukrpttername',
 'histtest',
 'histlang',
 'histteststatus',
 'histball',
 'histptname',
 'histptregname',
 'histptareaname',
 'histpttername',
 'mathtest',
 'mathlang',
 'mathteststatus',
 'mathball',
 'mathptname',
 'mathptregname',
 'mathptareaname',
 'mathpttername',
 'phystest',
 'physlang',
 'physteststatus',
 'physball',
 'physptname',
 'physptregname',
 'physptareaname',
 'physpttername',
 'chemtest',
 'chemlang',
 'chemteststatus',
 'chemball',
 'chemptname',
 'chemptregname',
 'chemptareaname',
 'chempttername',
 'biotest',
 'biolang',
 'bioteststatus',
 'bioball',
 'bioptname',
 'bioptregname',
 'bioptareaname',
 'biopttername',
 'geotest',
 'geolang',
 'geotests

In [100]:
df_all.to_csv('zno_preprocessed.csv', index=False)