In [6]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

In [7]:
programs = ["Informatique"]
years = ["2007-2008", "2008-2009", "2009-2010", "2010-2011", "2011-2012", "2012-2013",
         "2013-2014", "2014-2015", "2015-2016", "2016-2017"]
bachelor_semesters = ["Bachelor semestre 1", "Bachelor semestre 2", "Bachelor semestre 3", "Bachelor semestre 4",
                     "Bachelor semestre 5", "Bachelor semestre 6"]
master_semesters = ["Master semestre 1", "Master semestre 2", "Master semestre 3", "Projet Master automne", 
                   "Projet Master printemps"]

In [8]:
report_model_param = "133685247"
base_url = "http://isa.epfl.ch/imoniteur_ISAP/!GEDPUBLICREPORTS"
r = requests.get(base_url+".filter", params = {"ww_i_reportModel": report_model_param})
form = BeautifulSoup(r.text, 'html.parser')
b_list_param = form.find_all("input", attrs={"name":"ww_b_list"})[0]['value']
report_model_xsl_param = form.find_all("input", attrs={"name":"ww_i_reportModelXsl"})[0]['value']

In [9]:
program_values = {}
for program in programs:
    program_values[program] = form.find_all("option", string=program)[0]['value']

In [10]:
year_values = {}
for year in years:
    year_values[year] = form.find_all("option", string=year)[0]['value']

In [11]:
bachelor_semester_values = {}
for semester in bachelor_semesters:
    bachelor_semester_values[semester] = form.find_all("option", string=semester)[0]['value']

In [12]:
master_semester_values = {}
for semester in master_semesters:
    master_semester_values[semester] = form.find_all("option", string=semester)[0]['value']

In [13]:
def get_dataset(prog_val, y_val, sem_val):
    params = {"ww_i_reportModel": report_model_param, 
              "ww_b_list": b_list_param, 
              "ww_i_reportModelXsl": report_model_xsl_param, 
              "ww_x_UNITE_ACAD": prog_val,
              "ww_x_PERIODE_ACAD": y_val,
              "ww_x_PERIODE_PEDAGO": sem_val}
    r = requests.get(base_url+".filter", params = params)
    set_page = BeautifulSoup(r.text, 'html.parser')
    gps_string = set_page.find_all("a", attrs={"class": "ww_x_GPS"})[1]["onclick"]
    gps_value = ''.join(list(filter(str.isdigit, gps_string)))
    params = {"ww_i_reportModel": report_model_param, 
              "ww_i_reportModelXsl": report_model_xsl_param,
              "ww_x_GPS": gps_value}
    r = requests.get(base_url+".html", params = params)
    res=pd.read_html(r.text, skiprows = [0], header = 0, index_col = "Nom Prénom")
    if len(res):
        return res[0].drop("Unnamed: 11", axis=1)
    else:
        return pd.DataFrame(columns = ['Civilité', 'Orientation Bachelor', 'Orientation Master', 
                                       'Spécialisation', 'Filière opt.', 'Mineur', 'Statut', 'Type Echange', 
                                       'Ecole Echange', 'No Sciper'])

In [14]:
bachelor_datasets = {}
for year in years:
    bachelor_datasets[year] = {}
for year in years:
    for semester in bachelor_semesters:
        print(year, semester)
        bachelor_datasets[year][semester] = get_dataset(program_values[programs[0]], 
                                                        year_values[year], bachelor_semester_values[semester])


2007-2008 Bachelor semestre 1
2007-2008 Bachelor semestre 2
2007-2008 Bachelor semestre 3
2007-2008 Bachelor semestre 4
2007-2008 Bachelor semestre 5
2007-2008 Bachelor semestre 6
2008-2009 Bachelor semestre 1
2008-2009 Bachelor semestre 2
2008-2009 Bachelor semestre 3
2008-2009 Bachelor semestre 4
2008-2009 Bachelor semestre 5
2008-2009 Bachelor semestre 6
2009-2010 Bachelor semestre 1
2009-2010 Bachelor semestre 2
2009-2010 Bachelor semestre 3
2009-2010 Bachelor semestre 4
2009-2010 Bachelor semestre 5
2009-2010 Bachelor semestre 6
2010-2011 Bachelor semestre 1
2010-2011 Bachelor semestre 2
2010-2011 Bachelor semestre 3
2010-2011 Bachelor semestre 4
2010-2011 Bachelor semestre 5
2010-2011 Bachelor semestre 6
2011-2012 Bachelor semestre 1
2011-2012 Bachelor semestre 2
2011-2012 Bachelor semestre 3
2011-2012 Bachelor semestre 4
2011-2012 Bachelor semestre 5
2011-2012 Bachelor semestre 6
2012-2013 Bachelor semestre 1
2012-2013 Bachelor semestre 2
2012-2013 Bachelor semestre 3
2012-2013 

In [15]:
for year in years:
    for semester in bachelor_semesters:
        print(year, semester, bachelor_datasets[year][semester].shape)

2007-2008 Bachelor semestre 1 (90, 10)
2007-2008 Bachelor semestre 2 (72, 10)
2007-2008 Bachelor semestre 3 (50, 10)
2007-2008 Bachelor semestre 4 (48, 10)
2007-2008 Bachelor semestre 5 (48, 10)
2007-2008 Bachelor semestre 6 (38, 10)
2008-2009 Bachelor semestre 1 (96, 10)
2008-2009 Bachelor semestre 2 (74, 10)
2008-2009 Bachelor semestre 3 (53, 10)
2008-2009 Bachelor semestre 4 (51, 10)
2008-2009 Bachelor semestre 5 (57, 10)
2008-2009 Bachelor semestre 6 (51, 10)
2009-2010 Bachelor semestre 1 (117, 10)
2009-2010 Bachelor semestre 2 (101, 10)
2009-2010 Bachelor semestre 3 (54, 10)
2009-2010 Bachelor semestre 4 (52, 10)
2009-2010 Bachelor semestre 5 (75, 10)
2009-2010 Bachelor semestre 6 (60, 10)
2010-2011 Bachelor semestre 1 (153, 10)
2010-2011 Bachelor semestre 2 (125, 10)
2010-2011 Bachelor semestre 3 (51, 10)
2010-2011 Bachelor semestre 4 (51, 10)
2010-2011 Bachelor semestre 5 (62, 10)
2010-2011 Bachelor semestre 6 (52, 10)
2011-2012 Bachelor semestre 1 (166, 10)
2011-2012 Bachelor s

In [16]:
master_datasets = {}
for year in years:
    master_datasets[year] = {}
for year in years:
    for semester in master_semesters:
        print(year, semester)
        master_datasets[year][semester] = get_dataset(program_values[programs[0]], 
                                                        year_values[year], master_semester_values[semester])

2007-2008 Master semestre 1
2007-2008 Master semestre 2
2007-2008 Master semestre 3
2007-2008 Projet Master automne
2007-2008 Projet Master printemps
2008-2009 Master semestre 1
2008-2009 Master semestre 2
2008-2009 Master semestre 3
2008-2009 Projet Master automne
2008-2009 Projet Master printemps
2009-2010 Master semestre 1
2009-2010 Master semestre 2
2009-2010 Master semestre 3
2009-2010 Projet Master automne
2009-2010 Projet Master printemps
2010-2011 Master semestre 1
2010-2011 Master semestre 2
2010-2011 Master semestre 3
2010-2011 Projet Master automne
2010-2011 Projet Master printemps
2011-2012 Master semestre 1
2011-2012 Master semestre 2
2011-2012 Master semestre 3
2011-2012 Projet Master automne
2011-2012 Projet Master printemps
2012-2013 Master semestre 1
2012-2013 Master semestre 2
2012-2013 Master semestre 3
2012-2013 Projet Master automne
2012-2013 Projet Master printemps
2013-2014 Master semestre 1
2013-2014 Master semestre 2
2013-2014 Master semestre 3
2013-2014 Projet

In [26]:
bachelor_datasets["2015-2016"]["Bachelor semestre 6"]

Unnamed: 0_level_0,Civilité,Orientation Bachelor,Orientation Master,Spécialisation,Filière opt.,Mineur,Statut,Type Echange,Ecole Echange,No Sciper
Nom Prénom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Aiulfi Loris Sandro,Monsieur,,,,,,Congé,,,202293
Alfonso Peterssen Alfonso,Monsieur,,,,6 - Visual computing,,Présent,,,228219
Alonso Seisdedos Florian,Monsieur,,,,,,Présent,,,215576
Angerand Grégoire Georges Jacques,Monsieur,,,,,,Présent,,,212464
Anongba Varela Dario Abougnan,Monsieur,,,,6 - Visual computing,,Présent,,,226371
Baraschi Zoé,Madame,,,,,,Présent,,,219665
Birchmeier Alain Dominique,Monsieur,,,,6 - Visual computing,,Congé,Erasmus,"Royal Institute of Technology, (KTH) Stockholm",227120
Boissaye Arnaud Didier Marie,Monsieur,,,,,,Présent,,,214939
Bonfils Nils Pascal,Monsieur,,,,6 - Visual computing,,Présent,,,236802
Bonnome Hugo,Monsieur,,,,,,Présent,,,227370


In [17]:
for year in years:
    for semester in master_semesters:
        print(year, semester, master_datasets[year][semester].shape)

2007-2008 Master semestre 1 (71, 10)
2007-2008 Master semestre 2 (87, 10)
2007-2008 Master semestre 3 (65, 10)
2007-2008 Projet Master automne (1, 10)
2007-2008 Projet Master printemps (6, 10)
2008-2009 Master semestre 1 (60, 10)
2008-2009 Master semestre 2 (64, 10)
2008-2009 Master semestre 3 (48, 10)
2008-2009 Projet Master automne (4, 10)
2008-2009 Projet Master printemps (6, 10)
2009-2010 Master semestre 1 (52, 10)
2009-2010 Master semestre 2 (62, 10)
2009-2010 Master semestre 3 (34, 10)
2009-2010 Projet Master automne (3, 10)
2009-2010 Projet Master printemps (8, 10)
2010-2011 Master semestre 1 (96, 10)
2010-2011 Master semestre 2 (109, 10)
2010-2011 Master semestre 3 (40, 10)
2010-2011 Projet Master automne (3, 10)
2010-2011 Projet Master printemps (7, 10)
2011-2012 Master semestre 1 (102, 10)
2011-2012 Master semestre 2 (123, 10)
2011-2012 Master semestre 3 (67, 10)
2011-2012 Projet Master automne (9, 10)
2011-2012 Projet Master printemps (13, 10)
2012-2013 Master semestre 1 (88

In [134]:
sem_1 = 'Bachelor semestre 1'
sem_5 = 'Bachelor semestre 5'
sem_6 = 'Bachelor semestre 6'
bachelor_sem1 = pd.DataFrame()
bachelor_sem5 = pd.DataFrame()
bachelor_sem6 = pd.DataFrame()
for y in years:
    bachelor_sem1=bachelor_sem1.append(bachelor_datasets[y][sem_1])
    bachelor_sem5=pd.concat([bachelor_sem5,bachelor_datasets[y][sem_5]],axis=0)
    bachelor_sem6=pd.concat([bachelor_sem6,bachelor_datasets[y][sem_6]],axis=0) 
graduated_students = pd.DataFrame()
for index, row in bachelor_sem1.iterrows():
    print(bachelor_sem5['No Sciper'])
    if bachelor_sem5['No Sciper'].isin([row['No Sciper']])[0]:# & bachelor_sem6['No Sciper'].isin([row['No Sciper']])[0]:
        graduated_students=graduated_students.append(row)
print (graduated_students)

Nom Prénom
Andriambololona Riana Miarantsoa                154157
Barras Florian                                  170220
Bécholey Alexandre                              160213
Beuret Thibaut                                  166701
Biollay Jean Isaac Jamal Pachacutec             161279
Blatter Jérémy                                  166344
Boksanyi Michael                                161634
Bolkensteyn Dinesh                              170451
Bornet Cyril Antoine Michel                     170219
Candaux Yanick                                  169655
Candemir Mehmet                                 161814
Conus Johann                                    153762
Delort Vincent                                  166548
Di Maïo Vincent                                 166001
Donzé Benjamin                                  166746
Dos Santos Patrick                              166748
Droz Olivier                                    166751
Eberle Julien                                   170414