# Data exploration

In this notebook we explore the raw data consisting on 4 excel files: 
- Preinscripció.xlsl
- Matricules.xlsl
- Notes.xlsl
- Titulacions.xlsl

In [1]:
import pandas as pd
import re

## Preinscripció

In [2]:
file_path = '../data/raw/Preinscripció.xlsx'
preinscripcions_df = pd.read_excel(file_path)

In [3]:
preinscripcions_df.shape

(2280, 77)

In [4]:
preinscripcions_df.sample()

Unnamed: 0,Llista,Curs,Convocatoria,DNI,CodiCentreSecundaria,Nacionalitat,Pais,CP,Poblacio,Comarca,...,FrancesCentreExtern,AltresIdiomes,AltresComprensioEscrita,AltresComprensioOral,AltresExpresioEscrita,AltresExpresioOral,AltresBatxillerat,AltresCentreExtern,NoIdiomesCentreExtern,OrdinadorDomicili
695,J01,2017,J,9482817S,8024881.0,ESP,ESP,8211,Castellar del Vallès,40.0,...,,,,,,,,,,1.0


In [5]:
preinscripcions_df.columns

Index(['Llista', 'Curs', 'Convocatoria', 'DNI', 'CodiCentreSecundaria',
       'Nacionalitat', 'Pais', 'CP', 'Poblacio', 'Comarca', 'Provincia',
       'AutoritzacioEnvInfAccesUniv', 'Sexe', 'DataNaixement',
       'UniversitatProcedenciaPAU', 'ViaAcces', 'OpcioCOU', 'NotaAcces',
       'Pref_1', 'Pref_2', 'Pref_3', 'Pref_4', 'Pref_5', 'Pref_6', 'Pref_7',
       'Pref_8', 'CentreAsignat', 'OrdreAssignacio', 'JustificantTrasllat',
       'AnyQualificacio', 'ConvocatoriaQualificacio', 'Concordancia',
       'EstudisPare', 'EstudisMare', 'OcupacioPare', 'OcupacioMare',
       'TreballRemunerat', 'Orientacio', 'AspectesEleccio', 'Altres',
       'AnyAcabamentSecundaria', 'TipusCentreSecundaria',
       'TipusLlocSecundaria', 'CodiLlocSecundaria', 'EstudisUniversitaris',
       'AnyAccesPrimeraVegadaUniversitat', 'TitulacioNivellAssolit',
       'ModalitatAcces', 'CatalaComprensioEscrita', 'CatalaComprensioOral',
       'CatalaExpresioEscrita', 'CatalaExpresioOral',
       'CastellaComprens

In [6]:
#Dropping variables because of irrelevancy: Llista, AutoritzacioEnvInfAccesUniv, UniversitatProcedenciaPAU, 
        #Prefs (Keeping OrdreAssignacio)
#Dropping variables because of Naans: OpcioCOU, JustificantTrasllat, Altres, OrdinadorDomicili

columns_to_drop = ['Llista', 'AutoritzacioEnvInfAccesUniv', 'UniversitatProcedenciaPAU', 
                   'Pref_1','Pref_2', 'Pref_3', 'Pref_4', 'Pref_5', 'Pref_6', 'Pref_7', 'Pref_8',
                   'OpcioCOU', 'JustificantTrasllat', 'Altres', 'OrdinadorDomicili', 'Concordancia']

preinscripcions_df = preinscripcions_df.drop(columns=columns_to_drop)

In [7]:
new_columns = {col: re.sub(r'(?<!^)(?=[A-Z])', '_', col).lower() for col in preinscripcions_df.columns}
preinscripcions_df = preinscripcions_df.rename(columns=new_columns)

In [8]:
#'Centreassignat' is the degree (grau) that each student has been assigned to
# Curs is the year they appear on the preinscription list for that specific degree
# Changing the name for future joins

preinscripcions_df.rename(columns={'curs':'curs_preinscripcio',
                                   'd_n_i':'DNI',
                                   'c_p':'CP',
                                   'centre_asignat': 'codi_grau'}, inplace=True)


In [31]:
# Dividing the preinscriptions_df to make it more manageable --> Creation of a df for language variables with DNI and grau 
# So we can merge them together if needed in the future
language_columns = ['DNI','codi_grau','catala_comprensio_escrita', 'catala_comprensio_oral',
       'catala_expresio_escrita', 'catala_expresio_oral',
       'castella_comprensio_escrita', 'castella_comprensio_oral',
       'castella_expresio_escrita', 'castella_expresio_oral',
       'angles_comprensio_escrita', 'angles_comprensio_oral',
       'angles_expresio_escrita', 'angles_expresio_oral', 'angles_batxillerat',
       'angles_centre_extern', 'frances_comprensio_escrita',
       'frances_comprensio_oral', 'frances_expresio_escrita',
       'frances_expresio_oral', 'frances_batxillerat', 'frances_centre_extern',
       'altres_idiomes', 'altres_comprensio_escrita', 'altres_comprensio_oral',
       'altres_expresio_escrita', 'altres_expresio_oral', 'altres_batxillerat',
       'altres_centre_extern', 'no_idiomes_centre_extern']

languages_df = preinscripcions_df[language_columns]

In [32]:
#Dropping language columns from the preinscriptions df
language_columns_to_drop = ['catala_comprensio_escrita', 'catala_comprensio_oral',
       'catala_expresio_escrita', 'catala_expresio_oral',
       'castella_comprensio_escrita', 'castella_comprensio_oral',
       'castella_expresio_escrita', 'castella_expresio_oral',
       'angles_comprensio_escrita', 'angles_comprensio_oral',
       'angles_expresio_escrita', 'angles_expresio_oral', 'angles_batxillerat',
       'angles_centre_extern', 'frances_comprensio_escrita',
       'frances_comprensio_oral', 'frances_expresio_escrita',
       'frances_expresio_oral', 'frances_batxillerat', 'frances_centre_extern',
       'altres_idiomes', 'altres_comprensio_escrita', 'altres_comprensio_oral',
       'altres_expresio_escrita', 'altres_expresio_oral', 'altres_batxillerat',
       'altres_centre_extern', 'no_idiomes_centre_extern']
preinscripcions_df = preinscripcions_df.drop(columns=language_columns_to_drop)

In [34]:
column_order = ['DNI','curs_preinscripcio','convocatoria', 
       'nacionalitat', 'pais', 'CP', 'poblacio', 'comarca', 'provincia', 'sexe', 'data_naixement',
        'ordre_assignacio', 'codi_grau','via_acces', 'nota_acces', 'any_qualificacio', 'convocatoria_qualificacio',
       'estudis_pare', 'estudis_mare', 'ocupacio_pare', 'ocupacio_mare',
       'treball_remunerat', 'orientacio', 'aspectes_eleccio', 
       'codi_centre_secundaria','any_acabament_secundaria', 'tipus_centre_secundaria',
       'tipus_lloc_secundaria', 'codi_lloc_secundaria',
       'estudis_universitaris', 'any_acces_primera_vegada_universitat','titulacio_nivell_assolit', 'modalitat_acces']

preinscripcions_df = preinscripcions_df[column_order]

In [35]:
preinscripcions_df.isnull().sum()

DNI                                        0
curs_preinscripcio                         0
convocatoria                               0
nacionalitat                               0
pais                                       0
CP                                         0
poblacio                                   0
comarca                                  164
provincia                                 35
sexe                                       0
data_naixement                             0
ordre_assignacio                           0
codi_grau                                  0
via_acces                                  0
nota_acces                                 0
any_qualificacio                           0
convocatoria_qualificacio                 14
estudis_pare                               0
estudis_mare                               0
ocupacio_pare                              0
ocupacio_mare                              0
treball_remunerat                          0
orientacio

In [36]:
preinscripcions_df['convocatoria'].value_counts()

convocatoria
J    1817
S     392
F      40
L      29
M       2
Name: count, dtype: int64

In [38]:
#Saving the clean df into the clean data folder
preinscripcions_df.to_csv('../data/processed/preinscripcions_df.csv', index=False)

## Matricules

In [102]:
file_path = '../data/raw/Matrícules.xlsx'
matricules_df = pd.read_excel(file_path)

In [103]:
matricules_df.shape

(7679, 5)

In [104]:
matricules_df = matricules_df.drop(columns='NIP')
matricules_df.rename(columns={'Curs':'curs_matricula',
                             'Pla':'pla'}, inplace=True)

In [105]:
matricules_df['DNI'].value_counts()

DNI
1959497A    24
6041427E    22
5541571A    21
0195308N    21
8390059A    21
            ..
4420667A     1
4379223L     1
4377297A     1
4366897E     1
HCCLPJRR     1
Name: count, Length: 2252, dtype: int64

In [106]:
#Saving the clean df into the clean data folder
matricules_df.to_csv('../data/processed/matricules_df.csv', index=False)

## Notes

In [49]:
file_path = '../data/raw/Notes.xlsx'
notes_df = pd.read_excel(file_path)

In [50]:
notes_df.shape

(41327, 15)

In [51]:
notes_df.sample()

Unnamed: 0,ANO_ACADEMICO,ASSIG,CODIASS,GRUP,NIA,NIP,PLA,EXTRA,TIPUS,CURS,SEM,EXHAURIDES,SUPERADA,NOTANUMERICAACTA,NOTAALFAACTA
1247,2014,CTMat,200150,401,1340070,356269,878,N,O,2,2,2,S,3.4,SS


In [52]:
notes_df = notes_df.drop(columns='EXTRA')
notes_df = notes_df.drop(columns='NIP')

In [53]:
notes_df.columns = notes_df.columns.map(lambda x: x.lower())

In [54]:
notes_df.columns

Index(['ano_academico', 'assig', 'codiass', 'grup', 'nia', 'pla', 'tipus',
       'curs', 'sem', 'exhaurides', 'superada', 'notanumericaacta',
       'notaalfaacta'],
      dtype='object')

In [55]:
notes_df.rename(columns={'ano_academico':'any_academic',
                             'assig':'assignatura',
                             'codiass':'codi_assignatura',
                             'nia': 'NIA',
                             'sem': 'semestre',
                             'notanumericaacta': 'nota_numerica',
                             'notaalfaacta': 'nota_alfa'}, inplace=True)

In [56]:
notes_df.sample()

Unnamed: 0,any_academic,assignatura,codi_assignatura,grup,NIA,pla,tipus,curs,semestre,exhaurides,superada,nota_numerica,nota_alfa
38780,2022,Antr,104944,601,1676833,1466,O,1,1,1,S,6.1,AP


In [57]:
#Saving the clean df into the clean data folder
notes_df.to_csv('../data/processed/notes_df.csv', index=False)

## Titulacions

In [85]:
file_path = '../data/raw/Titulacions.xlsx'
titulacions_df = pd.read_excel(file_path)

In [87]:
titulacions_df = titulacions_df.drop(columns='Estudi')

In [89]:
titulacions_df.columns = titulacions_df.columns.str.replace(' ', '_').str.lower()

In [90]:
titulacions_df.rename(columns={'preinscripció':'codi_grau'}, inplace=True)

In [91]:
#We will delete those rows with Naan values on grau because we are only interested in keeping university degrees
#(not masters, exchanges...)
titulacions_df = titulacions_df.dropna(subset=['codi_grau'])

In [92]:
titulacions_df = titulacions_df.astype({'codi_grau':'int'})

In [93]:
#Saving the clean df into the clean data folder
titulacions_df.to_csv('../data/processed/titulacions_df.csv', index=False )