# Data Collection

In the following section, we are going to import all the packages needed to collect and merge different data frames coming from the Open Data project by the University of Bologna. The data collected will be useful for testing our ontology exploiting some of its functions. 

In [2]:
import pandas as pd
import numpy as np
import re
from datetime import datetime
from collections import defaultdict
from json import JSONDecodeError
from qwikidata.sparql import return_sparql_query_results # python library for working with sparql and linked data from WikiData
import time
from requests.exceptions import ChunkedEncodingError
import math
#from SPARQLWrapper import SPARQLWrapper, JSON # sparql query library
import ssl

#  Csv about the Degree Programmes
One of the available data frames describes the Degree Programmes offered by the University of Bologna. We kept the "corso_codice" column because it is the common key between this and other data frames, enabling and facilitating the union and the alignment of different data.

We selected some of the available columns based on our ontology schema, reducing the data to the Degree Programmes coming from the Humanities area.

In [7]:
# create first dataframe only using the specified columns 
dataDegree = pd.read_csv("DegreeProgrammes.csv", sep=",",
                    usecols=["annoaccademico", "corso_codice", "corso_descrizione", "url", "campus", "sededidattica", "ambiti", "tipologia", "durata", "internazionale", "internazionale_titolo", "accesso", "lingue"], encoding="utf-8")
dataDegree.head()

Unnamed: 0,corso_codice,annoaccademico,corso_descrizione,url,campus,sededidattica,ambiti,tipologia,durata,internazionale,internazionale_titolo,lingue,accesso
0,659,2018/2019,Giurisprudenza,http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Giurisprudenza,Laurea Magistrale a ciclo unico,5,False,,Italiano,libero accesso con verifica delle conoscenze
1,660,2018/2019,Giurisprudenza,http://www.unibo.it/it/didattica/corsi-di-stud...,Ravenna,Ravenna,Giurisprudenza,Laurea Magistrale a ciclo unico,5,False,,Italiano,libero accesso con verifica delle conoscenze
2,881,2018/2019,Architettura,http://www.unibo.it/it/didattica/corsi-di-stud...,Cesena,Cesena,Ingegneria e architettura,Laurea Magistrale a ciclo unico,5,False,,Italiano,numero chiuso
3,884,2018/2019,Chimica industriale,http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Scienze,Laurea Magistrale,2,True,Titolo multiplo (solo alcuni curricula),Italiano,libero accesso con verifica dell'adeguatezza d...
4,897,2018/2019,Direzione aziendale,http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Economia e management,Laurea Magistrale,2,True,,Italiano Inglese,numero chiuso


In [8]:
data_mask = dataDegree['ambiti'] == "Studi umanistici"
dataHumanitiesDegree = dataDegree[data_mask].reset_index(drop=True)
dataHumanitiesDegree.head()

Unnamed: 0,corso_codice,annoaccademico,corso_descrizione,url,campus,sededidattica,ambiti,tipologia,durata,internazionale,internazionale_titolo,lingue,accesso
0,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze
1,957,2018/2019,Filosofia,http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze
2,962,2018/2019,Storia,http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze
3,964,2018/2019,Antropologia culturale ed etnologia,http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea Magistrale,2,False,,Italiano,libero accesso con verifica dell'adeguatezza d...
4,966,2018/2019,"Cinema, televisione e produzione multimediale",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea Magistrale,2,False,,Italiano,libero accesso con verifica dell'adeguatezza d...


Thus, we read the df dedicated to the educational activities, integrating the educational activity's code and description, using "corso_codice" as a common key.  

In [9]:
dataCourse = pd.read_csv("CoursesOfStudies.csv", sep=",",
                    usecols=["corso_codice", "materia_codice", "materia_descrizione"], encoding="utf-8")
dataCourse.head()

Unnamed: 0,corso_codice,materia_codice,materia_descrizione
0,8894,81644,LABORATORY ON RENEWABLE RAW MATERIALS AND CIRC...
1,9222,85238,BAYESIAN INFERENCE
2,8420,87462,HISTORY OF ECONOMIC THOUGHT
3,9222,85199,SURVEY SAMPLING
4,8412,87608,TECNOLOGIA E LEGISLAZIONE FARMACEUTICHE


In [10]:
dataHumanitiesDegree["corso_codice"] = dataHumanitiesDegree["corso_codice"].astype(str)
dataCourse["corso_codice"] = dataCourse["corso_codice"].astype(str)
dataCourse["materia_codice"] = dataCourse["materia_codice"].astype(str)
data = pd.merge(dataHumanitiesDegree, dataCourse, on="corso_codice", how="left")

Since Italian University is a class in our ontology, we add a new column defining the university. 

In [11]:
data["Italian University"] = "University of Bologna"

In [14]:
data.to_pickle("00_data.pickle")
data.head()

Unnamed: 0,corso_codice,annoaccademico,corso_descrizione,url,campus,sededidattica,ambiti,tipologia,durata,internazionale,internazionale_titolo,lingue,accesso,materia_codice,materia_descrizione,Italian University
0,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,13769,ACUSTICA MUSICALE (1),University of Bologna
1,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,27104,ANALISI DEL FILM,University of Bologna
2,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,45,ANTROPOLOGIA CULTURALE,University of Bologna
3,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,41822,CINEMATOGRAFIA DOCUMENTARIA E SPERIMENTALE (1),University of Bologna
4,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,87329,DIDATTICA DELLA STORIA DELL'ARTE (1),University of Bologna


Now, we need to integrate another data frame describing the educational activity's ssd, teaching code and cfu. To do so, we will use "codice_materia" as a common key. 

In [15]:
data = pd.read_pickle("00_data.pickle")

In [16]:
SSDandCFU = pd.read_csv("DettagliCurriculaSSDeCFU.csv", sep=",",
                        usecols=["materia_codice", "insegnamento_ssd", "insegnamento_crediti"], encoding="utf-8")

SSDandCFU.head()

Unnamed: 0,materia_codice,insegnamento_ssd,insegnamento_crediti
0,222.0,IUS/08,12.0
1,74764.0,IUS/01,12.0
2,536.0,IUS/18,8.0
3,24331.0,IUS/19,8.0
4,230.0,IUS/13,9.0


Since the teaching code is often repeated because of the existence of different academic years, we decided to drop the duplicates, keeping the first teaching code. 

In [17]:
DDD = SSDandCFU.drop_duplicates(subset=['materia_codice'], keep='first')

In [18]:
DDD["materia_codice"] = DDD["materia_codice"].astype(str)
DDD["insegnamento_crediti"] = DDD["insegnamento_crediti"].astype(str)
DDD.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,materia_codice,insegnamento_ssd,insegnamento_crediti
0,222.0,IUS/08,12.0
1,74764.0,IUS/01,12.0
2,536.0,IUS/18,8.0
3,24331.0,IUS/19,8.0
4,230.0,IUS/13,9.0


We create a function to remove ".0" from our values. 

In [19]:
def reformat_materia_codice(name):
    name = name.replace(".0", "")
    return name

In [20]:
DDD["materia_codice"] = DDD["materia_codice"].apply(reformat_materia_codice)
DDD["insegnamento_crediti"] = DDD["insegnamento_crediti"].apply(reformat_materia_codice)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [22]:
DDD.head()

Unnamed: 0,materia_codice,insegnamento_ssd,insegnamento_crediti
0,222,IUS/08,12
1,74764,IUS/01,12
2,536,IUS/18,8
3,24331,IUS/19,8
4,230,IUS/13,9


We create a function to remove unpredictable blank spaces which can influence the match between teaching codes. 

In [24]:
def reformat_names(name):
    new = re.sub(r"\s+", "", name)
    return new

In [25]:
DDD["materia_codice"] = DDD["materia_codice"].apply(reformat_names)
data["materia_codice"] = data["materia_codice"].apply(reformat_names)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [26]:
dataPlusCurricula = pd.merge(data, DDD, on="materia_codice", how="left")

Some ssd and cfu values are not present since they are not available on the open data CSV. 

In [29]:
dataPlusCurricula.head(100)

Unnamed: 0,corso_codice,annoaccademico,corso_descrizione,url,campus,sededidattica,ambiti,tipologia,durata,internazionale,internazionale_titolo,lingue,accesso,materia_codice,materia_descrizione,Italian University,insegnamento_ssd,insegnamento_crediti
0,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,13769,ACUSTICA MUSICALE (1),University of Bologna,L-ART/07,6.0
1,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,27104,ANALISI DEL FILM,University of Bologna,L-ART/06,12.0
2,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,45,ANTROPOLOGIA CULTURALE,University of Bologna,M-DEA/01,12.0
3,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,41822,CINEMATOGRAFIA DOCUMENTARIA E SPERIMENTALE (1),University of Bologna,L-ART/06,6.0
4,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,87329,DIDATTICA DELLA STORIA DELL'ARTE (1),University of Bologna,L-ART/02,6.0
5,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,3510,DRAMMATURGIA,University of Bologna,L-ART/05,12.0
6,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,3522,DRAMMATURGIA MUSICALE,University of Bologna,L-ART/07,12.0
7,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,78048,ELEMENTI DI ARMONIA E CONTRAPPUNTO,University of Bologna,L-ART/07,12.0
8,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,345,ESTETICA,University of Bologna,M-FIL/04,12.0
9,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,3527,ETNOMUSICOLOGIA,University of Bologna,L-ART/08,12.0


# What else? 
1. Rename the columns with the same names as our ontology classes for better comprehension.  
2. Integrate the Degree Class of each Degree Programme
3. Integrate the Department that manages each Degree Programme 
4. Differentiate the type of educational activity (Exams, seminars, laboratories, internships and final tests.)
5. Fill the NaN values on the data frame. 
6. Verify and decide the values' data type. 

# 1. Rename the columns with the same names as our ontology classes for better comprehension. 

In [30]:
dataPlusCurricula.rename(columns = {'corso_codice':'id', 'annoaccademico':'academicYear', 'url':'DegreeProgramme', 'corso_descrizione':'DegreeProgrammeLabel', 'sededidattica':'PlaceOfTeaching', 'ambiti':'AcademicField', 'tipologia':'type', 'durata':'hasYearsOfDuration', 'internazionale':'International', 'internazionale_titolo':'Qualification', 'lingue':'TeachingLanguage', 'accesso':'AccessType', 'materia_codice':'TeachingCode', 'materia_descrizione':'EducationalActivity', 'insegnamento_ssd' : 'Ssd', 'insegnamento_crediti' : 'Cfu'}, inplace = True)

In [31]:
dataPlusCurricula.to_pickle("01_data.pickle")

# 2. Integrate the Degree Class of each Degree Programme

In [34]:
data = pd.read_pickle("01_data.pickle")

We integrate in a semi-automatic way the Degree Classes and their description thanks to the teaching code of the Degree Programme. 

In [35]:
def degreeClass(value):
    degreeClassValue = ''
    if value == '956':
        degreeClassValue = 'L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA MUSICA, DELLO SPETTACOLO E DELLA MODA'
    if value == '957':
        degreeClassValue = 'L-5, FILOSOFIA'
    if value == '962':
        degreeClassValue = 'L-42, STORIA'
    if value == '964':
        degreeClassValue = 'LM-1, ANTROPOLOGIA CULTURALE ED ETNOLOGIA'
    if value == '966':
        degreeClassValue = 'LM-65, SCIENZE DELLO SPETTACOLO E PRODUZIONE MULTIMEDIALE'
    if value == '970':
        degreeClassValue = 'LM-15, FILOLOGIA, LETTERATURE E STORIA DELL ANTICHITÀ'
    if value == '971':
        degreeClassValue = 'LM-80, SCIENZE GEOGRAFICHE'
    if value == '977':
        degreeClassValue = 'LM-89, STORIA DELL ARTE'
    if value == '8493':
        degreeClassValue = 'L-42, STORIA'
    if value == '8616':
        degreeClassValue = 'LMR/02, CONSERVAZIONE E RESTAURO DEI BENI CULTURALI'
    if value == '8772':
        degreeClassValue = 'L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA MUSICA, DELLO SPETTACOLO E DELLA MODA'
    if value == '8773':
        degreeClassValue = 'LM-78, SCIENZE FILOSOFICHE'
    if value == '8837':
        degreeClassValue = 'LM-45, MUSICOLOGIA E BENI MUSICALI / LM-65, SCIENZE DELLO SPETTACOLO E PRODUZIONE MULTIMEDIALE'
    if value == '8838':
        degreeClassValue = 'LM-5, ARCHIVISTICA E BIBLIOTECONOMIA'
    if value == '8845':
        degreeClassValue = 'LM-84, SCIENZE STORICHE'
    if value == '8849':
        degreeClassValue = 'L-1, BENI CULTURALI'
    if value == '8850':
        degreeClassValue = 'L-10, LETTERE'
    if value == '8855':
        degreeClassValue = 'LM-2, ARCHEOLOGIA'
    if value == '8885':
        degreeClassValue = 'L-20, SCIENZE DELLA COMUNICAZIONE'
    if value == '8886':
        degreeClassValue = 'LM-92, TEORIE DELLA COMUNICAZIONE'
    if value == '9022':
        degreeClassValue = 'LM-65, SCIENZE DELLO SPETTACOLO E PRODUZIONE MULTIMEDIALE'
    if value == '9216':
        degreeClassValue = 'L-5, FILOSOFIA'
    if value == '9218':
        degreeClassValue = 'LM-2, ARCHEOLOGIA / LM-89, STORIA DELL ARTE'
    if value == '9220':
        degreeClassValue = 'LM-14, FILOLOGIA MODERNA'
    if value == '9224':
        degreeClassValue = 'LM-43, METODOLOGIE INFORMATICHE PER LE DISCIPLINE UMANISTICHE'
    return degreeClassValue

In [36]:
data["DegreeClass"] = data["id"].apply(degreeClass)
data.head()

Unnamed: 0,id,academicYear,DegreeProgrammeLabel,DegreeProgramme,campus,PlaceOfTeaching,AcademicField,type,hasYearsOfDuration,International,Qualification,TeachingLanguage,AccessType,TeachingCode,EducationalActivity,Italian University,Ssd,Cfu,DegreeClass
0,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,13769,ACUSTICA MUSICALE (1),University of Bologna,L-ART/07,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M..."
1,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,27104,ANALISI DEL FILM,University of Bologna,L-ART/06,12,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M..."
2,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,45,ANTROPOLOGIA CULTURALE,University of Bologna,M-DEA/01,12,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M..."
3,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,41822,CINEMATOGRAFIA DOCUMENTARIA E SPERIMENTALE (1),University of Bologna,L-ART/06,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M..."
4,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,87329,DIDATTICA DELLA STORIA DELL'ARTE (1),University of Bologna,L-ART/02,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M..."


Now we can transform the cfu and years of duration into an integer to enable the Count function in future Sparql queries. 

In [37]:
data['Cfu'] = pd.to_numeric(data['Cfu'], errors='coerce')
data = data.dropna(subset=['Cfu'])

In [38]:
data["Cfu"] = data["Cfu"].astype(int)
data["hasYearsOfDuration"] = data["hasYearsOfDuration"].astype(int)

In [39]:
data.to_pickle("02_dataClassDegree.pickle")

# 3. Integrate the Department that manages each Degree Programme

In [41]:
data = pd.read_pickle("02_dataClassDegree.pickle")

In [42]:
def department(value):
    department = ''
    if value == '956':
        department = 'delle Arti - DARvipem'
    if value == '957':
        department = 'Filosofia e Comunicazione - FILCOM'
    if value == '962':
        department = 'Storia Culture Civiltà - DiSCi'
    if value == '964':
        department = 'Storia Culture Civiltà - DiSCi'
    if value == '966':
        department = 'delle Arti - DARvipem'
    if value == '970':
        department = 'Filologia Classica e Italianistica - FICLIT'
    if value == '971':
        department = 'Storia Culture Civiltà - DiSCi'
    if value == '977':
        department = 'delle Arti - DARvipem'
    if value == '8493':
        department = 'Storia Culture Civiltà - DiSCi'
    if value == '8616':
        department = 'Beni Culturali - DBC'
    if value == '8772':
        department = 'delle Arti - DARvipem'
    if value == '8773':
        department = 'Filosofia e Comunicazione - FILCOM'
    if value == '8837':
        department = 'delle Arti - DARvipem'
    if value == '8838':
        department = 'Beni Culturali - DBC'
    if value == '8845':
        department = 'Storia Culture Civiltà - DiSCi'
    if value == '8849':
        department = 'Beni Culturali - DBC'
    if value == '8850':
        department = 'Filologia Classica e Italianistica - FICLIT'
    if value == '8855':
        department = 'Storia Culture Civiltà - DiSCi'
    if value == '8885':
        department = 'delle Arti - DARvipem'
    if value == '8886':
        department = 'Filosofia e Comunicazione - FILCOM'
    if value == '9022':
        department = 'Arts - DARvipem'
    if value == '9216':
        department = 'Filosofia e Comunicazione - FILCOM'
    if value == '9218':
        department = 'Beni Culturali - DBC'
    if value == '9220':
        department = 'Filologia Classica e Italianistica - FICLIT'
    if value == '9224':
        department = 'Filologia Classica e Italianistica - FICLIT'
    return department

In [43]:
data["Department"] = data["id"].apply(department)

In [44]:
data.to_pickle("03_dataDepartments.pickle")
data.head()

Unnamed: 0,id,academicYear,DegreeProgrammeLabel,DegreeProgramme,campus,PlaceOfTeaching,AcademicField,type,hasYearsOfDuration,International,Qualification,TeachingLanguage,AccessType,TeachingCode,EducationalActivity,Italian University,Ssd,Cfu,DegreeClass,Department
0,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,13769,ACUSTICA MUSICALE (1),University of Bologna,L-ART/07,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem
1,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,27104,ANALISI DEL FILM,University of Bologna,L-ART/06,12,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem
2,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,45,ANTROPOLOGIA CULTURALE,University of Bologna,M-DEA/01,12,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem
3,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,41822,CINEMATOGRAFIA DOCUMENTARIA E SPERIMENTALE (1),University of Bologna,L-ART/06,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem
4,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,,Italiano,libero accesso con verifica delle conoscenze,87329,DIDATTICA DELLA STORIA DELL'ARTE (1),University of Bologna,L-ART/02,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem


# 4. Differentiate the type of educational activity (Exams, seminars, laboratories, internships and final tests.)

In [45]:
data = pd.read_pickle("03_dataDepartments.pickle")

In [46]:
def typeOfActivity(value):
    typeOfActivity = ''
    value = value.lower()
    if ('tirocinio' in value) or ('internship' in value):
        typeOfActivity = 'Internship'
    elif ('laboratorio' in value) or ('laboratory' in value):
        typeOfActivity = 'Laboratory'
    else:
        if ('seminario' in value) or ('seminar' in value):
            typeOfActivity = 'Seminar'
        elif ('prova finale' in value) or ('final test' in value):
            typeOfActivity = 'Final Test'
        else:
            typeOfActivity = 'Exam'
    return typeOfActivity

In [47]:
data["typeOfActivity"] = data["EducationalActivity"].apply(typeOfActivity)

In [50]:
data.head()

Unnamed: 0,id,academicYear,DegreeProgrammeLabel,DegreeProgramme,campus,PlaceOfTeaching,AcademicField,type,hasYearsOfDuration,International,...,TeachingLanguage,AccessType,TeachingCode,EducationalActivity,Italian University,Ssd,Cfu,DegreeClass,Department,typeOfActivity
0,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,13769,ACUSTICA MUSICALE (1),University of Bologna,L-ART/07,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
1,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,27104,ANALISI DEL FILM,University of Bologna,L-ART/06,12,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
2,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,45,ANTROPOLOGIA CULTURALE,University of Bologna,M-DEA/01,12,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
3,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,41822,CINEMATOGRAFIA DOCUMENTARIA E SPERIMENTALE (1),University of Bologna,L-ART/06,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
4,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,87329,DIDATTICA DELLA STORIA DELL'ARTE (1),University of Bologna,L-ART/02,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam


# 5. Fill the NaN values on the data frame.

We need to fill all the NaN values on the data frame. We decided to replace the empty values of the Qualification column with "unique qualification" to better clarify the statement also for not international Degrees. 

In [51]:
data["Qualification"] = data["Qualification"].replace(r'^\s*$', np.nan, regex=True)
data.Qualification = data.Qualification.fillna('Titolo unico')
data.head()

Unnamed: 0,id,academicYear,DegreeProgrammeLabel,DegreeProgramme,campus,PlaceOfTeaching,AcademicField,type,hasYearsOfDuration,International,...,TeachingLanguage,AccessType,TeachingCode,EducationalActivity,Italian University,Ssd,Cfu,DegreeClass,Department,typeOfActivity
0,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,13769,ACUSTICA MUSICALE (1),University of Bologna,L-ART/07,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
1,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,27104,ANALISI DEL FILM,University of Bologna,L-ART/06,12,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
2,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,45,ANTROPOLOGIA CULTURALE,University of Bologna,M-DEA/01,12,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
3,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,41822,CINEMATOGRAFIA DOCUMENTARIA E SPERIMENTALE (1),University of Bologna,L-ART/06,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
4,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,87329,DIDATTICA DELLA STORIA DELL'ARTE (1),University of Bologna,L-ART/02,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam


We did the same for the ssd column. 

In [52]:
data.Ssd = data.Ssd.fillna('Non disponibile')
data.head()

Unnamed: 0,id,academicYear,DegreeProgrammeLabel,DegreeProgramme,campus,PlaceOfTeaching,AcademicField,type,hasYearsOfDuration,International,...,TeachingLanguage,AccessType,TeachingCode,EducationalActivity,Italian University,Ssd,Cfu,DegreeClass,Department,typeOfActivity
0,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,13769,ACUSTICA MUSICALE (1),University of Bologna,L-ART/07,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
1,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,27104,ANALISI DEL FILM,University of Bologna,L-ART/06,12,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
2,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,45,ANTROPOLOGIA CULTURALE,University of Bologna,M-DEA/01,12,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
3,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,41822,CINEMATOGRAFIA DOCUMENTARIA E SPERIMENTALE (1),University of Bologna,L-ART/06,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam
4,956,2018/2019,"Dams - discipline delle arti, della musica e ...",http://www.unibo.it/it/didattica/corsi-di-stud...,Bologna,Bologna,Studi umanistici,Laurea,3,False,...,Italiano,libero accesso con verifica delle conoscenze,87329,DIDATTICA DELLA STORIA DELL'ARTE (1),University of Bologna,L-ART/02,6,"L-3, DISCIPLINE DELLE ARTI FIGURATIVE, DELLA M...",delle Arti - DARvipem,Exam


# 6. Verify and decide the values' data type. 

We decided the best data types based on our ontology data properties, objects and restrictions. 

In [53]:
data["academicYear"] = data["academicYear"].astype('string')
data["DegreeProgramme"] = data["DegreeProgramme"].astype('string')
data["TeachingLanguage"] = data["TeachingLanguage"].astype('string')
data["Ssd"] = data["Ssd"].astype('string')
data["DegreeClass"] = data["DegreeClass"].astype('string')


data["hasYearsOfDuration"] = data["hasYearsOfDuration"].astype('int64')
data["Cfu"] = data["Cfu"].astype('int64')
data["TeachingCode"] = data["TeachingCode"].astype('int64')

In [54]:
data.dtypes

id                      object
academicYear            string
DegreeProgrammeLabel    object
DegreeProgramme         string
campus                  object
PlaceOfTeaching         object
AcademicField           object
type                    object
hasYearsOfDuration       int64
International             bool
Qualification           object
TeachingLanguage        string
AccessType              object
TeachingCode             int64
EducationalActivity     object
Italian University      object
Ssd                     string
Cfu                      int64
DegreeClass             string
Department              object
typeOfActivity          object
dtype: object

In [55]:
data.to_pickle("04_Final_data.pickle")

In [56]:
data.to_csv("FinalData.csv")