# Import the data

In [1]:
import pandas as pd
import requests
import math

In [2]:
df=pd.read_csv('P3_GrantExport.csv',sep=';',usecols=[0,6,7,13])

In [3]:
df=df.rename(columns={'\ufeff"Project Number"':'Project','Approved Amount':'Amount'})

In [4]:
df.describe()

Unnamed: 0,Project
count,63969.0
mean,84723.419453
std,53406.795178
min,1.0
25%,36692.0
50%,101689.0
75%,133018.0
max,171414.0


# Database creation

In [5]:
# Remove missing data
nan_string='data not included in P3'
# Amount NaN
df=df[~df.Amount.isin([nan_string])]
# Institution NaN
df=df[df.Institution.notnull() | (df.University.notnull() & ~df.University.isin(['Nicht zuteilbar - NA']))]
df.shape

(49823, 4)

In [6]:
# Change Amount type
df.Amount=pd.to_numeric(df.Amount)
df.dtypes

Project          int64
Institution     object
University      object
Amount         float64
dtype: object

In [7]:
# Setting index
df=df.set_index('Project')

In [8]:
df

Unnamed: 0_level_0,Institution,University,Amount
Project,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,Faculté de Psychologie et des Sciences de l'Ed...,Université de Genève - GE,41022.0
5,Kommission für das Corpus philosophorum medii ...,"NPO (Biblioth., Museen, Verwalt.) - NPO",79732.0
6,Abt. Handschriften und Alte Drucke Bibliothek ...,Universität Basel - BS,52627.0
7,Schweiz. Thesauruskommission,"NPO (Biblioth., Museen, Verwalt.) - NPO",120042.0
8,"Séminaire de politique économique, d'économie ...",Université de Fribourg - FR,53009.0
9,Institut für ökumenische Studien Université de...,Université de Fribourg - FR,25403.0
10,Ostasiatisches Seminar Universität Zürich,Universität Zürich - ZH,47100.0
11,,Université de Lausanne - LA,25814.0
13,Laboratoire de Didactique et Epistémologie des...,Université de Genève - GE,360000.0
14,Klinische Psychologie und Psychotherapie Insti...,Université de Fribourg - FR,153886.0


In [9]:
df=df.reset_index()

In [10]:
# df
# df=df.fillna('prova')
# a=df.groupby(df['University'])
# for i,group in a:
#     if i=='prova':
#         print(group)
# df.shape

In [11]:
df.head()

Unnamed: 0,Project,Institution,University,Amount
0,4,Faculté de Psychologie et des Sciences de l'Ed...,Université de Genève - GE,41022.0
1,5,Kommission für das Corpus philosophorum medii ...,"NPO (Biblioth., Museen, Verwalt.) - NPO",79732.0
2,6,Abt. Handschriften und Alte Drucke Bibliothek ...,Universität Basel - BS,52627.0
3,7,Schweiz. Thesauruskommission,"NPO (Biblioth., Museen, Verwalt.) - NPO",120042.0
4,8,"Séminaire de politique économique, d'économie ...",Université de Fribourg - FR,53009.0


## Extraction of Canton

In [70]:
username='deatinor'
url='http://api.geonames.org/postalCodeSearchJSON?'

In [71]:
correspondencies_dictionary={'CERN':'GE','Projekte + Ausbildung Soziales Gesundheit Rehabilitation':'ZH',
                            'Psychotherapeutische Abteilung Universitäre Psychiatrische Kliniken UPK':'BS',
                            'Pädagogische Hochschule Fachhochschule Nordwestschweiz, Pädagogische Hochschule Nordwestschweiz - PHFHNW':'BS',
                            'Kalaidos Fachhochschule Departement Gesundheit, Fachhochschule Kalaidos - FHKD':'ZH',
                            'Eawag':'ZH',
                            'Pädagogische Hochschule FHNW, Pädagogische Hochschule Nordwestschweiz - PHFHNW':'BL',
                            'Naturwissenschaftsdidaktik Sekundarstufe Pädagogische Hochschule Fachhochschule Nordwestschweiz, Pädagogische Hochschule Nordwestschweiz - PHFHNW':'BL',
                            'Forschungsgruppe Sozioökonomie Forschungsbereich Agrarökonomie Agroscope':'VD',
                            'Departement Erziehungswissenschaften Universität Freiburg': 'FR',
                            'Eidg. Material und Prüfungsanstalt - EMPA': 'SG',
                            'Fachhochschule Nordwestschweiz (ohne PH) - FHNW': 'SO',
                            'Haute école de santé ARC Haute Ecole Spécialisée de Suisse occidentale':'JU',
                            'HES de Suisse occidentale - HES-SO':'JU',
                            'Haute école de santé ARC Haute Ecole Spécialisée de Suisse occidentale':'JU',
                            'Haute école pédagogique BE, JU, NE - HEPBEJUNE': 'JU',
                            "IHEID Fondation pour l'institut de hautes études internationales et du développement": 'GE',
                            'Idiap Research Institute - IDIAP': 'VS',
                            'Inst. Suisse de Spéléologie et Karstologie - ISSKA': 'JU',
                            'Inst. de Hautes Etudes Internat. et du Dév - IHEID': 'GE',
                            'Institut de physique de la matière condensée EPFL - SB - ICMP': 'VD', 
                            'Laboratoire de Neurologie et Imagerie de la Cognition Dépt. de Neurosciences Fondamentales': 'GE',
                            'Laboratoire de physique de la matière vivante EPFL - SB - IPSB - LPMV': 'VD',
                            'Schweiz. Institut für Kunstwissenschaft - SIK-ISEA': 'ZH',
                            'Station fédérale de recherches agronomiques de Changins': 'VD',
                            #'UNI: EPFL Institut de Génie Atomique  Lausan ne CH': 'VD',
                            'UNI: ETH-Z Mikrobiologisches Institut  Züric h CH': 'ZH',
                            'UNI: Eidg. Forschungsanstalt Dept Zoologie W ädenswil CH': 'ZH', 
                            'UNI: McMaster University Department of Biolo gy  Hamilton CDN': 'VD',
                            'Università della Svizzera italiana - USI': 'TI',
                            }

In [94]:
reject_list=['Firmen/Privatwirtschaft - FP',
            'Institut für Physikalische Chemie Universität Freiburg',
            'NPO (Biblioth., Museen, Verwalt.) - NPO',
            'Nicht zuteilbar - NA',
            "UMR 6578 CNRS Unité d'anthropologie Faculté de Médecine Université de la Méditerranée",
            'UNI: Centre de Recherche sur les Maladies Au toimmune Groupe Hospitalier Necker Paris F',
            'UNI: Heriott-Watt University Department of M athematics Riccarton Edinburgh GB',
            'UNI: IMAGE et VILLE Institut de Géographie Strasbourg F',
            'UNI: University of East Anglia Climatic Rese arch Unit  Norwich GB',
            'Weitere Institute - FINST',
            'Weitere Spitäler - ASPIT'
            ]

In [73]:
#not_found=['Forschungsanstalten Agroscope - AGS',
#          'Forschungsgruppe Sozioökonomie Forschungsbereich Agrarökonomie Agroscope',
#          'Laboratoire de Biologie Cellulaire Clinique et Policlinique de Dermatologie Hôpital Cantonal Universitaire-HCUCE',
#          ]

In [74]:
params={'username':username,'placename':'CH','maxRows':1,'operator':'OR'}
r=requests.get(url,params=params)

In [75]:
params['placename']='CERN'
r=requests.get(url,params=params)
r.text

'{"postalCodes":[]}'

In [76]:
i=0
df_final=pd.DataFrame({'Name':[],'Canton':[],'Amount':[]})
not_found_list=[]
for block in df[['Institution','University','Amount']].itertuples(index=False):
    nan1=str(block[0])
    nan2=str(block[1])
    amount=block[2]
    
    # By default take only the university.
    # The first time a value is added it is checked for differences if adding also the institution.
    if nan1=='nan':
        if nan2=='nan':
            raise('Bad preprocessing - double nan')
        query_string=block[1]
    elif nan2=='nan':
        query_string=block[0]
    else:
        query_string=block[0]+", "+block[1]
    
    
    # List of checks if already present in the dictionary:
    # 1- institution + university 
    # 2- university 
    # 3- query to geonames
    try:
        if query_string in reject_list:
            #print(query_string)
            continue
        canton=correspondencies_dictionary[query_string]
        df2=pd.DataFrame({'Name':[query_string],'Canton':[canton],'Amount':[amount]})
        df_final=df_final.append(df2)
    except:
        try:
            query_string_university=str(block[1])
            if query_string_university in reject_list:
                #print(query_string)
                continue
            canton=correspondencies_dictionary[query_string_university]
            df2=pd.DataFrame({'Name':[query_string_university],'Canton':[canton],'Amount':[amount]})
            df_final=df_final.append(df2)
        except:
            try:
                params['placename']=query_string
                r=requests.get(url,params=params)
                df1=pd.read_json(r.text,orient='records')
                canton=df1.postalCodes[0]

                if nan2!='nan':
                    query_string_short=block[1]
                    r=requests.get(url,params=params)
                    df1=pd.read_json(r.text,orient='records')
                    canton2=df1.postalCodes[0]
                    if canton2==canton:
                        query_string=query_string_short
                    else:
                        print(canton2,canton)

                if canton['countryCode']!='CH':
    #                 if nan2!='nan':
    #                     print(2140358234)
    #                 print(query_string)
    #                 print(canton['countryCode'])
                    continue
                
                df2=pd.DataFrame({'Name':[query_string],'Canton':[canton['adminCode1']],'Amount':[amount]})
                df2=df2.rename(columns={'adminCode1':'Canton'})
                df_final=df_final.append(df2)
                correspondencies_dictionary[query_string]=df2.Canton[0]
            except:
                print(query_string)
                not_found_list.append(query_string)
    i+=1
    if i%5000==0:
        print(i)
        

5000
10000
15000
20000
25000
30000
35000
40000
45000


In [77]:
df_final.shape

(46130, 3)

In [78]:
len(correspondencies_dictionary)

585

In [79]:
correspondencies_dictionary

{'Abt. Industriegüter- & Technologiemarketing Inst. für Marketing und Unternehmensführung Universität Bern': 'BE',
 'Abteilung Biochemie Biozentrum Universität Basel': 'BS',
 'Abteilung Gastroenterologie Departement Klinische Forschung Universität Bern': 'BE',
 'Abteilung Molekulare Pathobiologie Vetsuisse-Fakultät Universität Bern': 'BE',
 'Abteilung Pharmakologie/Neurobiologie Biozentrum der Universität Basel': 'BS',
 'Abteilung Populationsgenetik Institut für Ökologie und Evolution Universität Bern': 'BE',
 'Abteilung c2d Zentrum für Demokratie Aarau Universität Zürich': 'ZH',
 'Anatomisches Institut Universität Zürich': 'ZH',
 'Anthropologisches Institut und Museum Universität Zürich-Irchel': 'ZH',
 'Architektur und Bauprozess Institut für Technologie in der Architektur ETH Zürich': 'ZH',
 'Archivio di Stato del Canton Ticino': 'TI',
 'Berner Fachhochschule - BFH': 'BE',
 'Biotechnologie Institut Thurgau - BITG': 'TG',
 'Biozentrum der Universität Basel Systembiologie': 'BS',
 'Bot

In [80]:
df_final['index']=range(df_final.shape[0])
df_final=df_final.set_index(['index'])
# df['Canton']=df_final['Canton']
#df=df.set_index(['index'])
df_final

Unnamed: 0_level_0,Amount,Canton,Name
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,41022.0,GE,Université de Genève - GE
1,52627.0,BS,Universität Basel - BS
2,53009.0,FR,Université de Fribourg - FR
3,25403.0,FR,Université de Fribourg - FR
4,47100.0,ZH,Universität Zürich - ZH
5,25814.0,VD,Université de Lausanne - LA
6,360000.0,GE,Université de Genève - GE
7,153886.0,FR,Université de Fribourg - FR
8,116991.0,GE,Université de Genève - GE
9,112664.0,BS,Universität Basel - BS


# Folium visualization

In [81]:
a=df.groupby(df_final.Canton)

In [82]:
df_group=pd.DataFrame({'Canton':[],'Amount':[]})

In [83]:
for i,group in a:
    print(i)
    s=group['Amount'].sum()
    df_group=df_group.append(pd.DataFrame({'Canton':[i],'Amount':[s]}))

AG
BE
BL
BS
FR
GE
GR
JU
LU
NE
SG
SH
SO
SZ
TG
TI
VD
VS
ZG
ZH


In [84]:
canton_list=['ZH','BE','LU','UR','SZ','OW','NW','GL','ZG','FR','SO','BS','BL','SH','AR','AI','SG','GR','AG','TG','TI','VD','VS','NE','GE','JU']

In [85]:
for i in canton_list:
    isin=df_group.Canton.isin([i]).sum()
    if not isin:
        df_group=df_group.append(pd.DataFrame({'Canton':[i],'Amount':[0]}))

In [86]:
df_group

Unnamed: 0,Amount,Canton
0,120457300.0,AG
0,1417785000.0,BE
0,698466.0,BL
0,1183156000.0,BS
0,527206900.0,FR
0,1671036000.0,GE
0,20897920.0,GR
0,85527860.0,JU
0,111180900.0,LU
0,397293700.0,NE


In [87]:
import folium
map_osm = folium.Map(location=[47, 7])
state_geo = r'ch-cantons.topojson.json'
map_osm.choropleth(geo_path=state_geo,key_on='feature.id',topojson='objects.cantons',data=df_group,
                   columns=['Canton','Amount'],fill_color='YlGn', fill_opacity=0.7, line_opacity=0.2,
                  legend_name='Unemployment Rate (%)',
                  threshold_scale=[1e05, 1e06, 1e07, 1e08, 5e08,1e09],)
map_osm.save('prova.html')

# Bonus

In [88]:
french_cantons=['GE','JU','NE','VD']

In [89]:
italian_cantons=['TI']

In [90]:
# Bern is mostly german, we considered it as german since 
# most of the projects are in the german-speaking city of Bern

# The Grigioni canton is considered a german-speaking canton.
# The money given to this canton are not so much compared to the others so the estimate is reasonable.

both_cantons=['FR','VS']

In [91]:
french_money=0
german_money=0
for block in df_group[['Amount','Canton']].itertuples(index=False):
    canton=block[1]
    money=block[0]
    if canton in french_cantons:
        french_money+=money
    elif canton in both_cantons:
        french_money+=money/2
        german_money+=money/2
    elif canton not in italian_cantons:
        german_money+=money

rostigraben_df=pd.DataFrame({'French':[french_money],'German':[german_money]})
rostigraben_df

Unnamed: 0,French,German
0,4615058000.0,6872963000.0


In [92]:
fraction=french_money/(french_money+german_money)
print("The percentage of money given to the french part of Switzerland is "+str(fraction*100)+"%")

The percentage of money given to the french part of Switzerland is 40.1727876729%
