# Homework 2: Data from the Web

In this homework, we are going to fetch information from the EPFL website IS-Academia

# Fetching data from IS-Academia

We import first the libraries we'll need in this notebook

In [116]:
#Usual imports
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#import seaborn as sns
#sns.set_context('notebook')

#Specific imports for data fetching
import requests #HTTP requests
from bs4 import BeautifulSoup as BSoup #HTML parsing

Let's start by indexing the web page where we are going to fetch all the data, i.e IS-Academia

In [117]:
# URL containing the empty form of IS_Academia that list students
main_url = 'http://isa.epfl.ch/imoniteur_ISAP/!GEDPUBLICREPORTS.filter?ww_x_GPS=-1&ww_i_reportModel=133685247'

# URL containing the form with the fields that we will replace depending on the information we want to extract, i.e {ACADEMIC_PERIOD_KEY}
form_url = 'http://isa.epfl.ch/imoniteur_ISAP/!GEDPUBLICREPORTS.bhtml?ww_x_GPS=-1&ww_i_reportModel=133685247&ww_i_reportModelXsl=133685270&ww_x_UNITE_ACAD={ACADEMIC_UNIT_KEY}&ww_x_PERIODE_ACAD={ACADEMIC_PERIOD_KEY}&ww_x_PERIODE_PEDAGO={PEDAGOGIC_PERIOD_KEY}&ww_x_HIVERETE={HIVERETE_KEY}'

Now, let's check which are the specific keys for each year and bachelor semester, in order to obtain the corresponding student list when we replace them in the "form_url" above. 

In [118]:
# We get the raw data of the main page
ugly_html = requests.get(main_url)
    
beautiful_html = BSoup(ugly_html.text, 'html.parser')

section_keys = {}
year_keys = {}
semester_keys = {}
season_keys = {}

# We store all the keys of the sections
unite_html = beautiful_html.find('select', {'name': 'ww_x_UNITE_ACAD'})
for unite in unite_html.find_all('option'):
    section_keys[unite.text] = unite.get('value')

# We store all the keys of the academic years
acad_period_html = beautiful_html.find('select', {'name': 'ww_x_PERIODE_ACAD'})
for period in acad_period_html.find_all('option'):
    year_keys[period.text] = period.get('value')

# We store all the keys of the academic semester (Bachelor and Master)
peda_period_html = beautiful_html.find('select', {'name': 'ww_x_PERIODE_PEDAGO'})
for peda in peda_period_html.find_all('option'):
    semester_keys[peda.text] = peda.get('value')

# We store all the keys of the seasons (Autumn / Spring)
season_html = beautiful_html.find('select', {'name': 'ww_x_HIVERETE'})
for season in season_html.find_all('option'):
    season_keys[season.text] = season.get('value')
    

We can verify that we have all the keys that we need:

(Note that the first one is empty. It represents the situation when the user has not precise what he wants for this field of research)

In [119]:
section_keys

{'': 'null',
 'Architecture': '942293',
 'Chimie et génie chimique': '246696',
 'Cours de mathématiques spéciales': '943282',
 'EME (EPFL Middle East)': '637841336',
 'Génie civil': '942623',
 'Génie mécanique': '944263',
 'Génie électrique et électronique ': '943936',
 'Humanités digitales': '2054839157',
 'Informatique': '249847',
 'Ingénierie financière': '120623110',
 'Management de la technologie': '946882',
 'Mathématiques': '944590',
 'Microtechnique': '945244',
 'Physique': '945571',
 'Science et génie des matériaux': '944917',
 "Sciences et ingénierie de l'environnement": '942953',
 'Sciences et technologies du vivant': '945901',
 'Section FCUE': '1574548993',
 'Systèmes de communication': '946228'}

In [120]:
year_keys

{'': 'null',
 '2007-2008': '978181',
 '2008-2009': '978187',
 '2009-2010': '978195',
 '2010-2011': '39486325',
 '2011-2012': '123455150',
 '2012-2013': '123456101',
 '2013-2014': '213637754',
 '2014-2015': '213637922',
 '2015-2016': '213638028',
 '2016-2017': '355925344'}

In [121]:
semester_keys

{'': 'null',
 'Bachelor semestre 1': '249108',
 'Bachelor semestre 2': '249114',
 'Bachelor semestre 3': '942155',
 'Bachelor semestre 4': '942163',
 'Bachelor semestre 5': '942120',
 'Bachelor semestre 5b': '2226768',
 'Bachelor semestre 6': '942175',
 'Bachelor semestre 6b': '2226785',
 'Master semestre 1': '2230106',
 'Master semestre 2': '942192',
 'Master semestre 3': '2230128',
 'Master semestre 4': '2230140',
 'Mineur semestre 1': '2335667',
 'Mineur semestre 2': '2335676',
 'Mise à niveau': '2063602308',
 'Projet Master automne': '249127',
 'Projet Master printemps': '3781783',
 'Semestre automne': '953159',
 'Semestre printemps': '2754553',
 'Stage automne 3ème année': '953137',
 'Stage automne 4ème année': '2226616',
 'Stage printemps 3ème année': '983606',
 'Stage printemps 4ème année': '2226626',
 'Stage printemps master': '2227132'}

In [122]:
season_keys

{'': 'null',
 "Semestre d'automne": '2936286',
 'Semestre de printemps': '2936295'}

We create a function that update the url depending on the list of student we want, for example 'Informatique / 2009-2010 / Bachelor semestre 3 / Semestre d'automne'.

In [123]:
def getSpecificURL(section, years, semester, season):
    new_url = form_url;
    new_url = new_url.replace('{ACADEMIC_UNIT_KEY}', str(section_keys[section]))
    new_url = new_url.replace('{ACADEMIC_PERIOD_KEY}', str(year_keys[years]))
    new_url = new_url.replace('{PEDAGOGIC_PERIOD_KEY}', str(ba_semester_keys[semester]))
    new_url = new_url.replace('{HIVERETE_KEY}', str(season_keys[season]))
    return new_url

In [124]:
getSpecificURL('Informatique', '2007-2008', 'Bachelor semestre 1', 'Semestre d\'automne')

'http://isa.epfl.ch/imoniteur_ISAP/!GEDPUBLICREPORTS.bhtml?ww_x_GPS=-1&ww_i_reportModel=133685247&ww_i_reportModelXsl=133685270&ww_x_UNITE_ACAD=249847&ww_x_PERIODE_ACAD=978181&ww_x_PERIODE_PEDAGO=249108&ww_x_HIVERETE=2936286'

If you tap the url in your favorite browser, you will obtain the list of student for this specific year and semester.

Now, we will fetch the exact data we want to analyze using the function above.

In [125]:
def parseTable(table):
    # Search on all the lines
    lines = table.find_all('tr')
    N = len(lines)
    output = []
    
    
    for i in range(2, N-1):
        # Search on all the columns
        line = lines[i]
        rows = line.find_all('td')
        M = len(rows)
        if M > 0:
            gender = rows[0].text
            name = rows[1].text
            sciper = rows[10].text
            presence = rows[7].text
            output.append({'gender':gender, 'name':name, 'sciper':sciper, 'presence':presence})
            
    return pd.DataFrame(output)

In [126]:
spec_section = ['Informatique']
spec_year = ['2007-2008', '2008-2009', '2009-2010', '2010-2011', '2011-2012', '2012-2013', '2013-2014', '2014-2015', '2015-2016']
spec_semester = ['Bachelor semestre 1', 'Bachelor semestre 5', 'Bachelor semestre 6']
spec_season = ['Semestre d\'automne', 'Semestre de printemps']

In [127]:
all_data = []

for section in spec_section:
    for year in spec_year:
        for semester in spec_semester:
            for season in spec_season:
                spec_url = getSpecificURL(section, year, semester, season)
                spec_html = requests.get(spec_url)
                spec_beautiful_html = BSoup(spec_html.text, 'html.parser')
                
                student_table = spec_beautiful_html.find('table')
                student_data = parseTable(student_table)
                student_data['section'] = section
                student_data['year'] = year
                student_data['semester'] = semester
                student_data['season'] = season
                
                if not(student_data.empty):
                    all_data.append(student_data)

In [128]:
all_data[0].head(10)

Unnamed: 0,gender,name,presence,sciper,section,year,semester,season
0,Monsieur,Arévalo Christian,Présent,169569,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
1,Monsieur,Aubelle Flavien,Présent,174905,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
2,Monsieur,Badoud Morgan,Présent,173922,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
3,Monsieur,Baeriswyl Jonathan,Présent,179406,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
4,Monsieur,Barroco Michael,Présent,179428,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
5,Monsieur,Belfis Nicolas,Présent,179324,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
6,Monsieur,Beliaev Stanislav,Présent,174597,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
7,Monsieur,Bindschaedler Vincent,Présent,179449,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
8,Monsieur,Bloch Marc-Olivier,Présent,178553,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
9,Monsieur,Bloch Remi,Présent,179426,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne


In [129]:
all_data_frame = pd.concat(all_data)
all_data_frame

Unnamed: 0,gender,name,presence,sciper,section,year,semester,season
0,Monsieur,Arévalo Christian,Présent,169569,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
1,Monsieur,Aubelle Flavien,Présent,174905,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
2,Monsieur,Badoud Morgan,Présent,173922,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
3,Monsieur,Baeriswyl Jonathan,Présent,179406,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
4,Monsieur,Barroco Michael,Présent,179428,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
5,Monsieur,Belfis Nicolas,Présent,179324,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
6,Monsieur,Beliaev Stanislav,Présent,174597,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
7,Monsieur,Bindschaedler Vincent,Présent,179449,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
8,Monsieur,Bloch Marc-Olivier,Présent,178553,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
9,Monsieur,Bloch Remi,Présent,179426,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne


In [131]:
all_data_frame.head(10)

Unnamed: 0,gender,name,presence,sciper,section,year,semester,season
0,Monsieur,Arévalo Christian,Présent,169569,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
1,Monsieur,Aubelle Flavien,Présent,174905,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
2,Monsieur,Badoud Morgan,Présent,173922,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
3,Monsieur,Baeriswyl Jonathan,Présent,179406,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
4,Monsieur,Barroco Michael,Présent,179428,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
5,Monsieur,Belfis Nicolas,Présent,179324,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
6,Monsieur,Beliaev Stanislav,Présent,174597,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
7,Monsieur,Bindschaedler Vincent,Présent,179449,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
8,Monsieur,Bloch Marc-Olivier,Présent,178553,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne
9,Monsieur,Bloch Remi,Présent,179426,Informatique,2007-2008,Bachelor semestre 1,Semestre d'automne


In [133]:
all_data_frame.shape

(2868, 8)