In [1]:
import pandas as pd
import numpy as np
import helper

In [3]:
def roman_to_int(number):
    """
    Convert Roman numeral to integer.
    
    Parameters:
    - number (str): The Roman numeral to convert.
    
    Returns:
    - int: The converted integer.
    """
    roman_dict = {
        'I': 1,
        'V': 5,
        'X': 10,
        'L': 50,
        'C': 100,
        'D': 500,
        'M': 1000
    }
    
    total = 0
    prev_value = 0
    
    for char in number:
        value = roman_dict[char]
        if value > prev_value:
            # If the current numeral is larger than the previous one, 
            # subtract twice the value of the previous numeral (because we added it once already)
            total += value - 2 * prev_value
        else:
            total += value
        prev_value = value
        
    return total

def translate_columns(df):
    """
    Translates specified columns in a DataFrame based on a pre-defined translation mapping.
    
    Parameters:
    - df (pd.DataFrame): The DataFrame to modify.
    - column_names (dict): Dictionary mapping old column names to new column names.
    
    Returns:
    - pd.DataFrame: The modified DataFrame.
    """
    df_copy = df.copy()
    # Pre-defined translation mapping
    translation_mapping = {
        'specialization': {
            'Tehnician în automatizări': 'Automation Technician',
            'Științe Sociale': 'Social Sciences',
            'Tehnician în turism': 'Tourism Technician'
        },
        'profile': {
            'Tehnic': 'Technical',
            'Uman': 'Humanities',
            'Servicii': 'Services'
        },
        'class_type': {
            'Tehnologică': 'Technological',
            'Teoretică': 'Theoretical',
            'Vocațională': 'Vocational'
        },
        'school_type': {
            'Zi': 'Daytime',
            'Frecvență redusă': 'Reduced Frequency',
            'Seral': 'Evening'
        }
    }
    
    for col, mapping in translation_mapping.items():
        for key, value in mapping.items():
            df_copy.loc[df_copy[col] == key, col] = value
    
    return df_copy

## 2023

In [4]:
# read 2023.xlsx as a pandas dataframe
elevi = pd.read_excel('../data/2023/2023.xlsx')
scoli = pd.read_excel("../data/general/scoli.xlsx")

In [5]:
elevi.head()

Unnamed: 0,Cod unic candidat,Sex,Specializare,Profil,Fileira,Forma de învățământ,Mediu candidat,Unitate (SIIIR),Unitate (SIRUES),Clasa,...,NOTA_CONTESTATIE_EA,CONTESTATIE_EB,NOTA_CONTESTATIE_EB,CONTESTATIE_EC,NOTA_CONTESTATIE_EC,CONTESTATIE_ED,NOTA_CONTESTATIE_ED,PUNCTAJ DIGITALE,STATUS,Medie
0,10005,M,Tehnician în automatizări,Tehnic,Tehnologică,Zi,URBAN,3261101959,320960511.0,a XII-a R,...,,Nu,,Nu,,Da,4.45,41.0,Nepromovat,
1,12037,M,Științe Sociale,Uman,Teoretică,Frecvență redusă,URBAN,3661100016,718401.0,a XIII-a A,...,,Nu,,Nu,,Nu,,13.0,Promovat,6.2
2,12284,M,Tehnician în turism,Servicii,Tehnologică,Zi,URBAN,1161104376,424268.0,a XII-a B,...,,Nu,,Nu,,Nu,,34.0,Promovat,6.35
3,12865,F,Filologie,Uman,Teoretică,Zi,URBAN,961100082,404517.0,a XII-a a XII-a B,...,,Nu,,Nu,,Nu,,19.0,Nepromovat,5.48
4,12923,F,Organizator banqueting,Servicii,Tehnologică,Zi,RURAL,2461103282,1182013.0,a XIII-a R,...,,Nu,,Nu,,Nu,,,Promovat,6.26


In [6]:
elevi["Clasa"] = elevi["Clasa"].apply(lambda x: x.split()[1])
elevi['Clasa'] = elevi['Clasa'].str[:-2]
elevi['Clasa'] = elevi['Clasa'].apply(helper.roman_to_int)
elevi.head()

Unnamed: 0,Cod unic candidat,Sex,Specializare,Profil,Fileira,Forma de învățământ,Mediu candidat,Unitate (SIIIR),Unitate (SIRUES),Clasa,...,NOTA_CONTESTATIE_EA,CONTESTATIE_EB,NOTA_CONTESTATIE_EB,CONTESTATIE_EC,NOTA_CONTESTATIE_EC,CONTESTATIE_ED,NOTA_CONTESTATIE_ED,PUNCTAJ DIGITALE,STATUS,Medie
0,10005,M,Tehnician în automatizări,Tehnic,Tehnologică,Zi,URBAN,3261101959,320960511.0,12,...,,Nu,,Nu,,Da,4.45,41.0,Nepromovat,
1,12037,M,Științe Sociale,Uman,Teoretică,Frecvență redusă,URBAN,3661100016,718401.0,13,...,,Nu,,Nu,,Nu,,13.0,Promovat,6.2
2,12284,M,Tehnician în turism,Servicii,Tehnologică,Zi,URBAN,1161104376,424268.0,12,...,,Nu,,Nu,,Nu,,34.0,Promovat,6.35
3,12865,F,Filologie,Uman,Teoretică,Zi,URBAN,961100082,404517.0,12,...,,Nu,,Nu,,Nu,,19.0,Nepromovat,5.48
4,12923,F,Organizator banqueting,Servicii,Tehnologică,Zi,RURAL,2461103282,1182013.0,13,...,,Nu,,Nu,,Nu,,,Promovat,6.26


In [7]:
elevi.head()

Unnamed: 0,Cod unic candidat,Sex,Specializare,Profil,Fileira,Forma de învățământ,Mediu candidat,Unitate (SIIIR),Unitate (SIRUES),Clasa,...,NOTA_CONTESTATIE_EA,CONTESTATIE_EB,NOTA_CONTESTATIE_EB,CONTESTATIE_EC,NOTA_CONTESTATIE_EC,CONTESTATIE_ED,NOTA_CONTESTATIE_ED,PUNCTAJ DIGITALE,STATUS,Medie
0,10005,M,Tehnician în automatizări,Tehnic,Tehnologică,Zi,URBAN,3261101959,320960511.0,12,...,,Nu,,Nu,,Da,4.45,41.0,Nepromovat,
1,12037,M,Științe Sociale,Uman,Teoretică,Frecvență redusă,URBAN,3661100016,718401.0,13,...,,Nu,,Nu,,Nu,,13.0,Promovat,6.2
2,12284,M,Tehnician în turism,Servicii,Tehnologică,Zi,URBAN,1161104376,424268.0,12,...,,Nu,,Nu,,Nu,,34.0,Promovat,6.35
3,12865,F,Filologie,Uman,Teoretică,Zi,URBAN,961100082,404517.0,12,...,,Nu,,Nu,,Nu,,19.0,Nepromovat,5.48
4,12923,F,Organizator banqueting,Servicii,Tehnologică,Zi,RURAL,2461103282,1182013.0,13,...,,Nu,,Nu,,Nu,,,Promovat,6.26


In [8]:
# from the "Medie" column from the "data" dataframe, change the "NaN" values with 0
elevi["Medie"].fillna(0, inplace=True)

In [9]:
elevi.loc[elevi['NOTA_CONTESTATIE_EA'].notnull(), 'NOTA_EA'] = elevi['NOTA_CONTESTATIE_EA']
elevi.loc[elevi['NOTA_CONTESTATIE_EB'].notnull(), 'NOTA_EB'] = elevi['NOTA_CONTESTATIE_EB']
elevi.loc[elevi['NOTA_CONTESTATIE_EC'].notnull(), 'NOTA_EC'] = elevi['NOTA_CONTESTATIE_EC']
elevi.loc[elevi['NOTA_CONTESTATIE_ED'].notnull(), 'NOTA_ED'] = elevi['NOTA_CONTESTATIE_ED']

In [10]:
selected_columns = ['Cod unic candidat','Unitate (SIIIR)','Sex', 'Specializare', 'Profil', 'Fileira','Forma de învățământ', 'Mediu candidat', 'Clasa', 'NOTA_EA','NOTA_EB', 'NOTA_EC', 'NOTA_ED', 'STATUS', 'Medie']
selected_dataframe = elevi[selected_columns]

new_column_names = {
    'Cod unic candidat': 'id',
    'Unitate (SIIIR)': 'school_id',
    'Sex': 'gender',
    'Specializare': 'specialization',
    'Profil': 'profile',
    'Fileira': 'class_type',
    'Forma de învățământ': 'school_type',
    'Mediu candidat': 'location_type',
    'Clasa': 'class',
    'NOTA_EA': 'mark_a',
    'NOTA_EB': 'mark_b',
    'NOTA_EC': 'mark_c',
    'NOTA_ED': 'mark_d',
    'STATUS': 'pass',
    'Medie': 'final_mark'
}
selected_dataframe.rename(columns=new_column_names, inplace=True)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_dataframe.rename(columns=new_column_names, inplace=True)


In [16]:
selected_dataframe['pass'] = selected_dataframe['pass'].apply(lambda x: 1 if x == 'Promovat' else 0)

In [12]:
selected_dataframe_translated = translate_columns(selected_dataframe)

In [13]:
selected_dataframe_translated

Unnamed: 0,id,school_id,genre,specialization,profile,class_type,school_type,location_type,class,mark_a,mark_b,mark_c,mark_d,pass,final_mark
0,10005,3261101959,M,Automation Technician,Technical,Technological,Daytime,URBAN,12,5.35,,5.80,4.45,0,0.00
1,12037,3661100016,M,Social Sciences,Humanities,Theoretical,Reduced Frequency,URBAN,13,7.40,,6.05,5.15,1,6.20
2,12284,1161104376,M,Tourism Technician,Services,Technological,Daytime,URBAN,12,5.50,,8.50,5.05,1,6.35
3,12865,961100082,F,Filologie,Humanities,Theoretical,Daytime,URBAN,12,5.20,,5.15,6.10,0,5.48
4,12923,2461103282,F,Organizator banqueting,Services,Technological,Daytime,RURAL,13,5.00,,5.80,8.00,1,6.26
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
130517,1428699,3661100554,F,Muzica,Artistic,Vocational,Daytime,URBAN,12,6.60,,5.70,6.50,1,6.26
130518,1428838,1761101468,F,Tehnician în activități de comerț,Services,Technological,Daytime,RURAL,12,3.10,,1.45,3.80,0,0.00
130519,1428841,1761101468,M,Tehnician în activități de comerț,Services,Technological,Daytime,RURAL,12,7.65,,7.55,8.35,1,7.85
130520,1428971,1761101206,M,Liceu cu program sportiv,Educație fizică și sport,Vocational,Daytime,URBAN,12,5.00,,6.30,5.65,0,5.65


In [14]:
selected_dataframe_translated.to_excel('elevi.xlsx', index=False)
selected_dataframe_translated.to_csv("elevi.csv", index=False)

## 2022

In [15]:
# read 2023.xlsx as a pandas dataframe
elevi = pd.read_excel('../data/2022/2022.xlsx')

In [18]:
elevi.to_csv("elevi.csv", index=False)

In [17]:
elevi.loc[elevi['NOTA_CONTESTATIE_EA'].notnull(), 'NOTA_EA'] = elevi['NOTA_CONTESTATIE_EA']
elevi.loc[elevi['NOTA_CONTESTATIE_EB'].notnull(), 'NOTA_EB'] = elevi['NOTA_CONTESTATIE_EB']
elevi.loc[elevi['NOTA_CONTESTATIE_EC'].notnull(), 'NOTA_EC'] = elevi['NOTA_CONTESTATIE_EC']
elevi.loc[elevi['NOTA_CONTESTATIE_ED'].notnull(), 'NOTA_ED'] = elevi['NOTA_CONTESTATIE_ED']

In [19]:
selected_columns = ['Cod','Cod SIIIR','SEX', 'SPECIALIZARE', 'PROFIL', 'FILIERA','FORMA_DE_INV', 'MEDIU', 'CLASA', 'NOTA_EA','NOTA_EB', 'NOTA_EC', 'NOTA_ED', 'STATUS_FINAL', 'MEDIA_FINALA']
selected_dataframe = elevi[selected_columns]

new_column_names = {
    'Cod': 'id',
    'Cod SIIIR': 'school_id',
    'SEX': 'gender',
    'SPECIALIZARE': 'specialization',
    'PROFIL': 'profile',
    'FILIERA': 'class_type',
    'FORMA_DE_INV': 'school_type',
    'MEDIU': 'location_type',
    'CLASA': 'class',
    'NOTA_EA': 'mark_a',
    'NOTA_EB': 'mark_b',
    'NOTA_EC': 'mark_c',
    'NOTA_ED': 'mark_d',
    'STATUS_FINAL': 'pass',
    'MEDIA_FINALA': 'final_mark'
}
selected_dataframe.rename(columns=new_column_names, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_dataframe.rename(columns=new_column_names, inplace=True)


In [20]:
selected_dataframe_translated = translate_columns(selected_dataframe)

In [21]:
selected_dataframe_translated.to_csv("../data/2022/elevi.csv", index=False)
selected_dataframe_translated.to_excel("../data/2022/elevi.xlsx", index=False)

## 2021

In [None]:
elevi = pd.read_excel('../data/2021/2021.xlsx')

elevi.to_csv("../data/2021/elevi.csv", index=False)

## Scrapbook

In [18]:
scoli.head()

Unnamed: 0,Cod,Judet,Statut,Tip_unitate,Tip
0,261205195,"ARAD County, Romania",Cu personalitate juridică,Unitate de învățământ,Privată
1,261205453,"ARAD County, Romania",Cu personalitate juridică,Unitate de învățământ,Privată
2,361204107,"ARGEŞ County, Romania",Cu personalitate juridică,Unitate de învățământ,Privată
3,261205236,"ARAD County, Romania",Cu personalitate juridică,Unitate de învățământ,Privată
4,461208824,"BACĂU County, Romania",Cu personalitate juridică,Unitate de învățământ,Privată


In [19]:
scoli.columns

Index(['Cod', 'Judet', 'Statut', 'Tip_unitate', 'Tip'], dtype='object')

In [21]:
scoli['Statut'].unique()

array(['Cu personalitate juridică', 'Arondată'], dtype=object)