# Import the data

In [135]:
import pandas as pd
import requests
import math

In [136]:
df=pd.read_csv('P3_GrantExport.csv',sep=';',usecols=[0,6,7,13])

In [137]:
df=df.rename(columns={'\ufeff"Project Number"':'Project','Approved Amount':'Amount'})

In [138]:
df.describe()

Unnamed: 0,Project
count,63969.0
mean,84723.419453
std,53406.795178
min,1.0
25%,36692.0
50%,101689.0
75%,133018.0
max,171414.0


# Database creation

In [139]:
# Remove missing data
nan_string='data not included in P3'
# Amount NaN
df=df[~df.Amount.isin([nan_string])]
# Institution NaN
df=df[df.Institution.notnull() | (df.University.notnull() & ~df.University.isin(['Nicht zuteilbar - NA']))]
df.shape

(49823, 4)

In [140]:
# Change Amount type
df.Amount=pd.to_numeric(df.Amount)
df.dtypes

Project          int64
Institution     object
University      object
Amount         float64
dtype: object

In [141]:
# Setting index
df=df.set_index('Project')

In [142]:
df

Unnamed: 0_level_0,Institution,University,Amount
Project,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,Faculté de Psychologie et des Sciences de l'Ed...,Université de Genève - GE,41022.0
5,Kommission für das Corpus philosophorum medii ...,"NPO (Biblioth., Museen, Verwalt.) - NPO",79732.0
6,Abt. Handschriften und Alte Drucke Bibliothek ...,Universität Basel - BS,52627.0
7,Schweiz. Thesauruskommission,"NPO (Biblioth., Museen, Verwalt.) - NPO",120042.0
8,"Séminaire de politique économique, d'économie ...",Université de Fribourg - FR,53009.0
9,Institut für ökumenische Studien Université de...,Université de Fribourg - FR,25403.0
10,Ostasiatisches Seminar Universität Zürich,Universität Zürich - ZH,47100.0
11,,Université de Lausanne - LA,25814.0
13,Laboratoire de Didactique et Epistémologie des...,Université de Genève - GE,360000.0
14,Klinische Psychologie und Psychotherapie Insti...,Université de Fribourg - FR,153886.0


In [127]:
df
df=df.fillna('prova')
a=df.groupby(df['University'])
for i,group in a:
    if i=='prova':
        print(group)
df.shape

       Project                                        Institution University  \
9000     25782        UNI: Universität Basel Biozentrum  Basel CH      prova   
9001     25784  UNI: ETH-Hönggerberg Institut für Biophysik Zü...      prova   
9002     25787        UNI: Friedrich-Miescher Institut   Basel CH      prova   
9003     25788  UNI: ETH-Zürich Laboratorium für organische Ch...      prova   
9004     25793                UNI: Basel Mission Archiv  Basel CH      prova   
9005     25794         UNI: Friedrich Miescher-Institut  Basel CH      prova   
9006     25795  UNI: Univesity of Western Ontario Astronomy De...      prova   
9007     25796  UNI: Kantonsspital Basel Abt. Neurobiologie Ba...      prova   
9018     25826  UNI: Universitätsspital Zürich Departement f ü...      prova   
9019     25827  Physikalische Chemie Departement Chemie Univer...      prova   
9020     25831  UNI: Universität Zürich Physiologisches Inst i...      prova   
9021     25833  Institut Romand de Reche

(49823, 4)

In [143]:
df.head()

Unnamed: 0_level_0,Institution,University,Amount
Project,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,Faculté de Psychologie et des Sciences de l'Ed...,Université de Genève - GE,41022.0
5,Kommission für das Corpus philosophorum medii ...,"NPO (Biblioth., Museen, Verwalt.) - NPO",79732.0
6,Abt. Handschriften und Alte Drucke Bibliothek ...,Universität Basel - BS,52627.0
7,Schweiz. Thesauruskommission,"NPO (Biblioth., Museen, Verwalt.) - NPO",120042.0
8,"Séminaire de politique économique, d'économie ...",Université de Fribourg - FR,53009.0


## Extraction of Canton

In [206]:
username='deatinor'
url='http://api.geonames.org/postalCodeSearchJSON?'

In [207]:
correspondencies_dictionary={'CERN':'GE','Projekte + Ausbildung Soziales Gesundheit Rehabilitation':'ZH',
                            'Psychotherapeutische Abteilung Universitäre Psychiatrische Kliniken UPK':'BS',
                            'Pädagogische Hochschule Fachhochschule Nordwestschweiz, Pädagogische Hochschule Nordwestschweiz - PHFHNW':'BS',
                            'Kalaidos Fachhochschule Departement Gesundheit, Fachhochschule Kalaidos - FHKD':'ZH',
                            'Eawag':'ZH',
                            'Pädagogische Hochschule FHNW, Pädagogische Hochschule Nordwestschweiz - PHFHNW':'AG',
                            'Naturwissenschaftsdidaktik Sekundarstufe Pädagogische Hochschule Fachhochschule Nordwestschweiz, Pädagogische Hochschule Nordwestschweiz - PHFHNW':'AG',
                            'Forschungsgruppe Sozioökonomie Forschungsbereich Agrarökonomie Agroscope':'VD'
                            }

In [208]:
params={'username':username,'placename':'CH','maxRows':1,'operator':'OR'}
r=requests.get(url,params=params)

In [209]:
params['placename']='CERN'
r=requests.get(url,params=params)
r.text

'{"postalCodes":[]}'

In [210]:
i=0
df_final=pd.DataFrame({'Canton':[]})
not_found_list=[]
for block in df[['Institution','University']].itertuples(index=False):
    nan1=str(block[0])
    nan2=str(block[1])
    
    # By default take only the university.
    # The first time a value is added it is checked for differences if adding also the institution.
    if nan1=='nan':
        if nan2=='nan':
            raise('Bad preprocessing - double nan')
        query_string=block[1]
    elif nan2=='nan':
        query_string=block[0]
    else:
        query_string=block[0]+", "+block[1]
    
    
    # List of checks if already present in the dictionary:
    # 1- institution + university 
    # 2- university 
    # 3- query to geonames
    try:
        canton=correspondencies_dictionary[query_string]
        df2=pd.DataFrame({'Canton':[canton]})
        df_final=df_final.append(df2)
    except:
        try:
            query_string_university=str(block[1])
            canton=correspondencies_dictionary[query_string_university]
            df2=pd.DataFrame({'Canton':[canton]})
            df_final=df_final.append(df2)
        except:
            try:
                params['placename']=query_string
                r=requests.get(url,params=params)
                df1=pd.read_json(r.text,orient='records')
                canton=df1.postalCodes[0]

                if nan2!='nan':
                    query_string_short=block[1]
                    r=requests.get(url,params=params)
                    df1=pd.read_json(r.text,orient='records')
                    canton2=df1.postalCodes[0]
                    if canton2==canton:
                        query_string=query_string_short
                    else:
                        print(canton2,canton)

                if canton['countryCode']!='CH':
    #                 if nan2!='nan':
    #                     print(2140358234)
    #                 print(query_string)
    #                 print(canton['countryCode'])
                    continue
                df2=pd.DataFrame(canton,columns=['adminCode1'],index=['adminCode1'])
                df2=df2.rename(columns={'adminCode1':'Canton'})
                df_final=df_final.append(df2)
                correspondencies_dictionary[query_string]=df2.Canton[0]
            except:
                print(query_string)
                not_found_list.append(query_string)
    i+=1
    if i%5000==0:
        print(i)


5000
10000
15000
20000
25000
30000
35000
40000
45000


In [212]:
df_final.shape

(48273, 1)

In [213]:
len(correspondencies_dictionary)

596

In [214]:
correspondencies_dictionary

{'Abt. Industriegüter- & Technologiemarketing Inst. für Marketing und Unternehmensführung Universität Bern': 'BE',
 'Abteilung Biochemie Biozentrum Universität Basel': 'BS',
 'Abteilung Gastroenterologie Departement Klinische Forschung Universität Bern': 'BE',
 'Abteilung Molekulare Pathobiologie Vetsuisse-Fakultät Universität Bern': 'BE',
 'Abteilung Pharmakologie/Neurobiologie Biozentrum der Universität Basel': 'BS',
 'Abteilung Populationsgenetik Institut für Ökologie und Evolution Universität Bern': 'BE',
 'Abteilung c2d Zentrum für Demokratie Aarau Universität Zürich': 'ZH',
 'Anatomisches Institut Universität Zürich': 'ZH',
 'Anthropologisches Institut und Museum Universität Zürich-Irchel': 'ZH',
 'Architektur und Bauprozess Institut für Technologie in der Architektur ETH Zürich': 'ZH',
 'Archivio di Stato del Canton Ticino': 'TI',
 'Berner Fachhochschule - BFH': 'BE',
 'Biotechnologie Institut Thurgau - BITG': 'TG',
 'Biozentrum der Universität Basel Systembiologie': 'BS',
 'Bot

In [203]:
df=df.reset_index()
del df['index']

In [None]:
del df['level_0']
del df['index']

In [215]:
df_final['index']=range(df_final.shape[0])
df_final=df_final.set_index(['index'])
df['Canton']=df_final['Canton']
df

Unnamed: 0,Project,Institution,University,Amount,Canton
0,4,Faculté de Psychologie et des Sciences de l'Ed...,Université de Genève - GE,41022.0,GE
1,5,Kommission für das Corpus philosophorum medii ...,"NPO (Biblioth., Museen, Verwalt.) - NPO",79732.0,BS
2,6,Abt. Handschriften und Alte Drucke Bibliothek ...,Universität Basel - BS,52627.0,FR
3,7,Schweiz. Thesauruskommission,"NPO (Biblioth., Museen, Verwalt.) - NPO",120042.0,FR
4,8,"Séminaire de politique économique, d'économie ...",Université de Fribourg - FR,53009.0,ZH
5,9,Institut für ökumenische Studien Université de...,Université de Fribourg - FR,25403.0,VD
6,10,Ostasiatisches Seminar Universität Zürich,Universität Zürich - ZH,47100.0,GE
7,11,,Université de Lausanne - LA,25814.0,FR
8,13,Laboratoire de Didactique et Epistémologie des...,Université de Genève - GE,360000.0,ZH
9,14,Klinische Psychologie und Psychotherapie Insti...,Université de Fribourg - FR,153886.0,GE


# Folium visualization

In [216]:
a=df.groupby(df.Canton)

In [217]:
df_group=pd.DataFrame({'Canton':[],'Amount':[]})

In [218]:
for i,group in a:
    print(i)
    s=group['Amount'].sum()
    df_group=df_group.append(pd.DataFrame({'Canton':[i],'Amount':[s]}))

AG
BE
BL
BS
FR
GE
GR
LU
NE
SG
SH
SO
SZ
TG
TI
VD
VS
ZG
ZH


In [219]:
canton_list=['ZH','BE','LU','UR','SZ','OW','NW','GL','ZG','FR','SO','BS','BL','SH','AR','AI','SG','GR','AG','TG','TI','VD','VS','NE','GE','JU']

In [220]:
for i in canton_list:
    isin=df_group.Canton.isin([i]).sum()
    if not isin:
        df_group=df_group.append(pd.DataFrame({'Canton':[i],'Amount':[0]}))

In [221]:
df_group

Unnamed: 0,Amount,Canton
0,123258100.0,AG
0,1486919000.0,BE
0,249620.0,BL
0,1290150000.0,BS
0,527586600.0,FR
0,1641269000.0,GE
0,16194670.0,GR
0,254181000.0,LU
0,460992600.0,NE
0,125832200.0,SG


In [222]:
import folium
map_osm = folium.Map(location=[47, 7])
state_geo = r'ch-cantons.topojson.json'
map_osm.choropleth(geo_path=state_geo,key_on='feature.id',topojson='objects.cantons',data=df_group,
                   columns=['Canton','Amount'],fill_color='BuPu', fill_opacity=0.7, line_opacity=0.2,
                  legend_name='Unemployment Rate (%)')
map_osm.save('prova.html')

