In [35]:
%matplotlib inline

import numpy as np
import requests
import re
import pickle
import pandas as pd
import matplotlib.pyplot as pl

In [36]:
cols = ['Project Number', 'Institution', 'University', 'Approved Amount']
na_values = ['data not included in P3', 'Nicht zuteilbar - NA']

dtypes = {
        'Approved Amount': np.float64
}

raw = pd.read_csv('P3_GrantExport.csv', sep = ';', na_values=na_values, index_col='Project Number', dtype=dtypes, usecols=cols)
df = raw.dropna()

In [37]:
df.sample(10)

Unnamed: 0_level_0,Institution,University,Approved Amount
Project Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
133370,Département de Biochimie Faculté de Biologie e...,Université de Lausanne - LA,5000.0
120260,"MPI, Max-Planck-Institut für Kolloid- und Gren...",ETH Zürich - ETHZ,462801.94
33576,HES-SO Valais/Wallis,HES de Suisse occidentale - HES-SO,94060.0
133978,Gesellschaft für Schweizerische Kunstgeschichte,"NPO (Biblioth., Museen, Verwalt.) - NPO",58700.0
63980,Institut für Quantenelektronik ETH Zürich,ETH Zürich - ETHZ,98582.0
150051,Laboratoire des polymères EPFL - STI - IMX - LP,EPF Lausanne - EPFL,296722.0
143136,Zentrum für Entwicklung und Umwelt Geographisc...,Universität Bern - BE,300450.0
116678,Laboratorium für Physikalische Chemie ETH Zürich,ETH Zürich - ETHZ,93307.0
160072,Medizinische Universitätsklinik Kantonsspital ...,Universität Basel - BS,525000.0
113473,Institut für Chemie- und Bioingenieurwissensch...,ETH Zürich - ETHZ,182172.0


In [38]:
df.index.is_unique

True

In [287]:
with_canton = df.copy()

word_to_canton = {
    'bern': 'BE',
    'lausanne': 'VD',
    'genève': 'GE',
    'geneva': 'GE',
    'luzern': 'LU',
    'zürich': 'ZH',
    'lugano': 'TI',
    'basel': 'BS',
    'vaud': 'VD',
    'fribourg': 'FR',
    'davos': 'GR'
}

def guess_canton(text):
    lower = text.lower()
    for word in word_to_canton:
        if word in lower:
            return word_to_canton[word]
        
    return None


def ex_canton(text, axis):
    guess = guess_canton(text)
    if guess:
        return guess
    
    res = text.split('-')
    if len(res) < 2: 
        return text.strip()
    else:
        return res[1].strip()
    
def ex_uni(text, axis):
    res = text.split('-')
    if len(res) < 2:
        return text.strip()
    else:
        return res[0].strip()

with_canton['Canton'] = with_canton['University'].apply(ex_canton, axis=1)
with_canton['University'] = with_canton['University'].apply(ex_uni, axis=1)

with_canton.sample(10)

Unnamed: 0_level_0,Institution,University,Approved Amount,Canton
Project Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
464,Ethnologisches Seminar Universität Basel,Universität Basel,105087.0,BS
3027,Departement Physik Universität Basel,Universität Basel,193544.0,BS
56819,Zoologisches Institut Universität Zürich-Irchel,Universität Zürich,327030.0,ZH
30841,Deutsches Seminar Universität Basel,Universität Basel,213525.0,BS
137652,Institut für Mathematik Universität Zürich,Universität Zürich,162516.0,ZH
43201,Institut de hautes études en administration pu...,Université de Lausanne,57773.0,VD
139449,Département d'histoire générale Faculté des le...,Université de Genève,6000.0,GE
7861,Institut de chimie thérapeutique Ecole de Phar...,Université de Lausanne,189260.0,VD
40657,Centre Universitaire d'Informatique Université...,Université de Genève,543834.0,GE
117383,Anästhesie-Labor Departement Anesthesie und Bi...,Universität Basel,110000.0,BS


In [362]:
grouped = with_canton.groupby(['Canton', 'University']).sum().reset_index()
len(grouped)

76

In [307]:
cantons = ['ZH','BE','LU','UR','SZ','OW','NW','GL','ZG','FR','SO','BS','BL','SH','AR','AI','SG','GR','AG','TG','TI','VD','VS','NE','GE','JU']
cantons

['ZH',
 'BE',
 'LU',
 'UR',
 'SZ',
 'OW',
 'NW',
 'GL',
 'ZG',
 'FR',
 'SO',
 'BS',
 'BL',
 'SH',
 'AR',
 'AI',
 'SG',
 'GR',
 'AG',
 'TG',
 'TI',
 'VD',
 'VS',
 'NE',
 'GE',
 'JU']

In [363]:
def is_known_canton(x, axis):
    return x.strip() in cantons

wc = grouped.copy()
wc['IsCanton'] = wc['Canton'].apply(is_known_canton, axis=1)

Unnamed: 0,Canton,University,Approved Amount,IsCanton
0,AGS,Forschungsanstalten Agroscope,3.311572e+07,False
1,AORI,AO Research Institute,3.435621e+06,False
2,ASP,Pädag. Hochschule Tessin (Teilschule SUPSI),1.593170e+05,False
3,ASPIT,Weitere Spitäler,1.074981e+07,False
4,BE,Berner Fachhochschule,3.102870e+07,True
5,BE,Pädagogische Hochschule Bern,1.836136e+06,True
6,BE,Robert Walser,5.695790e+05,True
7,BE,Universität Bern,1.490646e+09,True
8,BITG,Biotechnologie Institut Thurgau,2.492535e+06,False
9,BS,Staatsunabh. Theologische Hochschule Basel,1.730000e+04,True


In [309]:
len(wc[wc['IsCanton'] == False])

55

In [310]:
wc[wc['IsCanton'] == False]

Unnamed: 0,Canton,University,Approved Amount,IsCanton
0,AGS,Forschungsanstalten Agroscope,33115720.0,False
1,AORI,AO Research Institute,3435621.0,False
2,ASP,Pädag. Hochschule Tessin (Teilschule SUPSI),159317.0,False
3,ASPIT,Weitere Spitäler,10749810.0,False
8,BITG,Biotechnologie Institut Thurgau,2492535.0,False
11,CREALP,Centre de rech. sur l'environnement alpin,1567678.0,False
12,CSEM,Swiss Center for Electronics and Microtech.,18068250.0,False
13,EAWAG,Eidg. Anstalt für Wasserversorgung,73975850.0,False
14,EHB,Eidg. Hochschulinstitut für Berufsbildung,2086572.0,False
15,EMPA,Eidg. Material und Prüfungsanstalt,57930690.0,False


In [311]:
len(wc[wc['IsCanton'] == False])

55

In [447]:
params = {
    'username': 'ada_drs3',
    'country': 'CH',
    'type': 'json'
}

def geoname_query(q):
    params['q'] = q
    # print('Searching for %s...' % q)
    return requests.get('http://api.geonames.org/search', params)

def search_by(col):
    for i in wc[wc['IsCanton'] == False].index:
        row = wc.iloc[i]
        res = geoname_query(row[col].strip())
        json = res.json()
        
        if json['totalResultsCount'] > 0:
            canton = json['geonames'][0]['adminCode1']
            print('=> Found ' + canton)
            wc.set_value(i,'Canton', canton)
            
#search_by('University')
#search_by('Canton')

In [313]:
wc_geonames = wc.copy()
wc_geonames['IsCanton'] = wc_geonames['Canton'].apply(is_known_canton, axis=1)

In [314]:
len(wc_geonames[wc_geonames['IsCanton'] == False])

46

In [315]:
wc_geonames[wc_geonames['IsCanton'] == False]

Unnamed: 0,Canton,University,Approved Amount,IsCanton
0,AGS,Forschungsanstalten Agroscope,33115720.0,False
1,AORI,AO Research Institute,3435621.0,False
3,ASPIT,Weitere Spitäler,10749810.0,False
8,BITG,Biotechnologie Institut Thurgau,2492535.0,False
11,CREALP,Centre de rech. sur l'environnement alpin,1567678.0,False
12,CSEM,Swiss Center for Electronics and Microtech.,18068250.0,False
14,EHB,Eidg. Hochschulinstitut für Berufsbildung,2086572.0,False
16,EOC,Ente Ospedaliero Cantonale,5067172.0,False
17,FFHS,Fernfachhochschule Schweiz (Mitglied SUPSI),12000.0,False
18,FHKD,Fachhochschule Kalaidos,1090280.0,False


In [453]:
def get_placeId(Uni):
    url = 'https://maps.googleapis.com/maps/api/place/textsearch/json?'
    params = {'query':Uni,
              'key':'AIzaSyD-4HtBL9Z_YeUJP4xEDtrLDnNiEDDywtY'}
    res = requests.get(url,params=params).json()
    if res['status']=='OK':
        # return res['results'][0]['place_id']
        return res['results']
    else:
        return None

In [454]:
# We retrieve the all list of 'address_components' b.c. the canton 'short_name' is indexed at 5 or 6 depending 
# on the JSON result.
def get_cantonCode(Uni):
    url = 'https://maps.googleapis.com/maps/api/geocode/json?'
    params = {'place_id':get_placeId(Uni),
              'key':'AIzaSyD-4HtBL9Z_YeUJP4xEDtrLDnNiEDDywtY'}
    res = requests.get(url,params=params).json()
    if res['status']=='OK': 
        return res['results']
    #    ll = list(res['results'][0]['address_components'][i]['types'][0] =='administrative_area_level_1'
    #              for i in range(0,len(res['results'][0]['address_components'])))
    #    return res['results'][0]['address_components'][ll.index(True)]['short_name']
    else:
        return ''

In [457]:
# Get the canton 'short_name' for all the university' entries that did not have a result with geoname API request.

place_ids = {}
geocodes = {}

for i in wc.index:
    query = wc.iloc[i]['University']
    print('GMap request for %s' % query)
    place_ids[query] = get_placeId(query)
    geocodes[query] = get_cantonCode(query)
    
pickle.dump(place_ids, open('place_ids.p','wb'))
pickle.dump(geocodes, open('geocodes.p','wb'))

GMap request for Forschungsanstalten Agroscope
GMap request for AO Research Institute
GMap request for Pädag. Hochschule Tessin (Teilschule SUPSI)
GMap request for Weitere Spitäler
GMap request for Berner Fachhochschule
GMap request for Pädagogische Hochschule Bern
GMap request for Robert Walser
GMap request for Universität Bern
GMap request for Biotechnologie Institut Thurgau
GMap request for Staatsunabh. Theologische Hochschule Basel
GMap request for Universität Basel
GMap request for Centre de rech. sur l'environnement alpin
GMap request for Swiss Center for Electronics and Microtech.
GMap request for Eidg. Anstalt für Wasserversorgung
GMap request for Eidg. Hochschulinstitut für Berufsbildung
GMap request for Eidg. Material und Prüfungsanstalt
GMap request for Ente Ospedaliero Cantonale
GMap request for Fernfachhochschule Schweiz (Mitglied SUPSI)
GMap request for Fachhochschule Kalaidos
GMap request for Fachhochschule Nordwestschweiz (ohne PH)
GMap request for Fachhochschule Ostsch

In [458]:
place_ids

{'AO Research Institute': None,
 'Allergie': None,
 'Berner Fachhochschule': None,
 'Biotechnologie Institut Thurgau': None,
 "Centre de rech. sur l'environnement alpin": None,
 'EPF Lausanne': None,
 'ETH Zürich': None,
 'Eidg. Anstalt für Wasserversorgung': None,
 'Eidg. Forschungsanstalt für Wald,Schnee,Land': None,
 'Eidg. Hochschulinstitut für Berufsbildung': None,
 'Eidg. Material und Prüfungsanstalt': None,
 'Ente Ospedaliero Cantonale': None,
 'Fachhochschule Kalaidos': None,
 'Fachhochschule Nordwestschweiz (ohne PH)': None,
 'Fachhochschule Ostschweiz': None,
 'Facoltà di Teologia di Lugano': None,
 'Fernfachhochschule Schweiz (Mitglied SUPSI)': None,
 'Firmen/Privatwirtschaft': None,
 'Forschungsanstalten Agroscope': None,
 'Forschungsinstitut für Opthalmologie': None,
 'Forschungsinstitut für biologischen Landbau': None,
 'Forschungskommission SAGW': None,
 'Franklin University Switzerland': None,
 'Friedrich Miescher Institute': None,
 'HES de Suisse occidentale': None,
 '

In [324]:
# We reapply to see if the results the we got are legit.
wc['IsCanton'] = wc['Canton'].apply(is_known_canton, axis=1)
wc[wc['IsCanton'] == False]

Unnamed: 0,Canton,University,Approved Amount,IsCanton
0,,Forschungsanstalten Agroscope,33115720.0,False
2,,Pädag. Hochschule Tessin (Teilschule SUPSI),159317.0,False
3,,Weitere Spitäler,10749810.0,False
12,,Swiss Center for Electronics and Microtech.,18068250.0,False
15,,Eidg. Material und Prüfungsanstalt,57930690.0,False
19,,Fachhochschule Nordwestschweiz (ohne PH),42305970.0,False
21,HE,Forschungsinstitut für biologischen Landbau,7442410.0,False
22,,Weitere Institute,9256736.0,False
24,,Schweizer Kompetenzzentrum Sozialwissensch.,34732820.0,False
25,,Firmen/Privatwirtschaft,109180100.0,False


In [325]:
# Output the results of our last requests
from __future__ import division
print ('Total length: ' +  repr(len(wc)))
print ('Entries with known canton: ' + repr(len(wc)-len(wc[wc['IsCanton'] == False])))
print ('ratio of missing canton to total length: ' + repr((len(wc)-len(wc[wc['IsCanton'] == False]))/len(wc)))

Total length: 76
Entries with known canton: 57
ratio of missing canton to total length: 0.75


In [326]:
import pickle
pickle.dump(wc,open('p3_data.p','wb'))
#imp_wc = pickle.load(open('p3_data.p','rb'))

In [327]:
grouped_ = imp_wc.groupby(['Canton', 'University']).sum().reset_index()


In [335]:
def strip_spaces(x, axis=None):
    return x.strip()

grouped_wc = grouped_.copy()
grouped_wc['Canton'] = grouped_wc['Canton'].apply(strip_spaces, axis=1)

In [336]:
grouped_wc = grouped_wc.groupby(['Canton']).sum().reset_index()

In [337]:
grouped_wc['IsCanton'] = grouped_wc['Canton'].apply(is_known_canton, axis=1)

In [338]:
grouped_wc[grouped_wc['IsCanton']==True]

Unnamed: 0,Canton,Approved Amount,IsCanton
1,AG,115269000.0,True
2,BE,1526167000.0,True
3,BS,1366673000.0,True
5,FR,449639900.0,True
6,GE,1846063000.0,True
7,GR,5269915.0,True
9,JU,34162970.0,True
10,LU,48820480.0,True
13,NE,380547500.0,True
14,SG,88134300.0,True


In [339]:
pickle.dump(imp_wc,open('p4_data.p','wb'))

In [340]:
l = ['ZH','BE','LU','UR','SZ','OW','NW','GL','ZG','FR','SO','BS','BL','SH','AR','AI','SG','GR','AG','TG','TI','VD','VS','NE','GE','JU']
len(l)

26

In [354]:
#grouped_wc = grouped_wc.reset_index()
#grouped_wc.loc[24]

ll= list(i in grouped_wc['Canton'].values for i in l)

for j in range(len(ll)):
    if ll[j] == False:
        grouped_wc.loc[len(grouped_wc)+1] = [l[j],0,True]
    #grouped_wc.loc[len(grouped_wc)+1] = ['l[i]',0,True]

In [355]:
grouped_wc.set_value(16,['Canton'], 'GR')
grouped_wc = grouped_wc.groupby('Canton').sum().reset_index()
grouped_wc

Unnamed: 0,Canton,Approved Amount,IsCanton
0,,718336400.0,0.0
1,AG,115269000.0,1.0
2,AI,0.0,1.0
3,AR,0.0,1.0
4,BE,1526167000.0,1.0
5,BL,0.0,1.0
6,BS,1366673000.0,1.0
7,BW,3478469.0,0.0
8,FR,449639900.0,1.0
9,GE,1846063000.0,1.0


In [356]:
grouped_wc['IsCanton'] = grouped_wc['Canton'].apply(is_known_canton, axis=1)

In [357]:
grouped_wc[grouped_wc['IsCanton']==True]

Unnamed: 0,Canton,Approved Amount,IsCanton
1,AG,115269000.0,True
2,AI,0.0,True
3,AR,0.0,True
4,BE,1526167000.0,True
5,BL,0.0,True
6,BS,1366673000.0,True
8,FR,449639900.0,True
9,GE,1846063000.0,True
10,GL,0.0,True
11,GR,17368350.0,True


In [358]:
pickle.dump(grouped_wc[grouped_wc['IsCanton']==True],open('p5_data.p','wb'))

In [359]:
len(grouped_wc[grouped_wc['IsCanton']==True])

26

In [396]:
# Coordinate DataFrame
df_coord = df.copy()


In [397]:
df_coord = df_coord.reset_index().drop(['Institution'],1)
df_coord = df_coord.drop(['Project Number'],1)

In [440]:
df_coord = df_coord.groupby(['University']).sum().reset_index()
df_coord['lng']= ''
df_coord['lat']= ''

In [441]:
df_coord



Unnamed: 0,University,Approved Amount,lng,lat
0,AO Research Institute - AORI,3.435621e+06,,
1,Allergie- und Asthmaforschung - SIAF,1.916996e+07,,
2,Berner Fachhochschule - BFH,3.102870e+07,,
3,Biotechnologie Institut Thurgau - BITG,2.492535e+06,,
4,Centre de rech. sur l'environnement alpin - CR...,1.567678e+06,,
5,EPF Lausanne - EPFL,1.162778e+09,,
6,ETH Zürich - ETHZ,1.618742e+09,,
7,Eidg. Anstalt für Wasserversorgung - EAWAG,7.397585e+07,,
8,"Eidg. Forschungsanstalt für Wald,Schnee,Land -...",4.836039e+07,,
9,Eidg. Hochschulinstitut für Berufsbildung - EHB,2.086572e+06,,


In [449]:
for i in df_coord.index:
    row = df_coord.iloc[i]['University']
    res = geoname_query(ex_uni(row,1))
    json = res.json()
    print(json)
    if json['totalResultsCount'] > 0:
        lng = json['geonames'][0]['lng']
        lat = json['geonames'][0]['lat']
        df_coord.set_value(i,'lng', lng)
        df_coord.set_value(i,'lat', lat)
  

{'totalResultsCount': 0, 'geonames': []}
{'totalResultsCount': 0, 'geonames': []}
{'totalResultsCount': 0, 'geonames': []}
{'totalResultsCount': 0, 'geonames': []}
{'totalResultsCount': 0, 'geonames': []}
{'totalResultsCount': 0, 'geonames': []}
{'totalResultsCount': 5, 'geonames': [{'population': 0, 'geonameId': 6930856, 'lat': '47.3763', 'fcode': 'UNIV', 'countryCode': 'CH', 'fclName': 'spot, building, farm', 'name': 'Eidgenössische Technische Hochschule Zürich', 'fcodeName': 'university', 'lng': '8.54805', 'adminName1': 'Zurich', 'adminCode1': 'ZH', 'countryId': '2658434', 'fcl': 'S', 'countryName': 'Switzerland', 'toponymName': 'Eidgenössische Technische Hochschule Zürich'}, {'population': 5, 'geonameId': 6295476, 'lat': '47.40951', 'fcode': 'PPLX', 'countryCode': 'CH', 'fclName': 'city, village,...', 'name': 'Zürich (Kreis 10) / ETH-Hönggerberg', 'fcodeName': 'section of populated place', 'lng': '8.50769', 'adminName1': 'Zurich', 'adminCode1': 'ZH', 'countryId': '2658434', 'fcl': 

In [450]:
df_coord

Unnamed: 0,University,Approved Amount,lng,lat
0,AO Research Institute - AORI,3.435621e+06,,
1,Allergie- und Asthmaforschung - SIAF,1.916996e+07,,
2,Berner Fachhochschule - BFH,3.102870e+07,,
3,Biotechnologie Institut Thurgau - BITG,2.492535e+06,,
4,Centre de rech. sur l'environnement alpin - CR...,1.567678e+06,,
5,EPF Lausanne - EPFL,1.162778e+09,,
6,ETH Zürich - ETHZ,1.618742e+09,8.54805,47.3763
7,Eidg. Anstalt für Wasserversorgung - EAWAG,7.397585e+07,,
8,"Eidg. Forschungsanstalt für Wald,Schnee,Land -...",4.836039e+07,,
9,Eidg. Hochschulinstitut für Berufsbildung - EHB,2.086572e+06,,


In [455]:
wc                                     

Unnamed: 0,Canton,University,Approved Amount,IsCanton
0,AGS,Forschungsanstalten Agroscope,3.311572e+07,False
1,AORI,AO Research Institute,3.435621e+06,False
2,AG,Pädag. Hochschule Tessin (Teilschule SUPSI),1.593170e+05,False
3,ASPIT,Weitere Spitäler,1.074981e+07,False
4,BE,Berner Fachhochschule,3.102870e+07,True
5,BE,Pädagogische Hochschule Bern,1.836136e+06,True
6,BE,Robert Walser,5.695790e+05,True
7,BE,Universität Bern,1.490646e+09,True
8,BITG,Biotechnologie Institut Thurgau,2.492535e+06,False
9,BS,Staatsunabh. Theologische Hochschule Basel,1.730000e+04,True
