## Exercices

1. Combien de journaux différents sont mentionnés dans la base de données https://raw.githubusercontent.com/OpenAPC/openapc-de/master/data/snsf/snsf_openapc.csv
2. Quels sont les 10 journaux les plus présents ?
3. Quel est le montant total payé par le FNS pour le journal le plus mentionné ?
4. La même question, mais pour les 10 journaux les plus fréquents ?
5. Quelle est la moyenne des dépenses pour l'éditeur le plus présent dans ce dataset ?
6. Combien d'articles publiés en open access ont été financés par le FNS en 2017 ?
7. Quels sont les articles pour lesquels la publication a coûté plus de 4000 euros ? Pour quels journaux ?
8. Créer un dataframe data_modif comprennant les données de l'année 2017 présentant une dépense d'une valeur supérieure à 2000 euros

In [1]:
# setup
# manipulation :
import numpy as np
import pandas as pd

### 1. Combien de journaux différents sont mentionnés dans la base de données https://raw.githubusercontent.com/OpenAPC/openapc-de/master/data/snsf/snsf_openapc.csv


In [2]:
# je charge les données dans un dataframe avec pd.read_csv
df = pd.read_csv("https://raw.githubusercontent.com/OpenAPC/openapc-de/master/data/snsf/snsf_openapc.csv")

In [3]:
# je sélectionne la colone journal_full_title
journaux_unique = df["journal_full_title"].unique()

In [4]:
# j'utilise 
len(journaux_unique)

273

In [5]:
# la même chose en condensé :
nb_journaux = len(df["journal_full_title"].unique())
print("Il y a {} journaux différents dans la base.".format(nb_journaux))

Il y a 273 journaux différents dans la base.


In [6]:
# même sortie print mais en utilisant f-string : https://realpython.com/python-f-strings/
print(f"Il y a {nb_journaux} journaux différents dans la base.")

Il y a 273 journaux différents dans la base.


In [7]:
# je pouvais aussi regarder dans value_counts
df["journal_full_title"].value_counts()

Nature Communications             72
Scientific Reports                62
PLOS ONE                          46
Cell Reports                      24
Frontiers in Psychology           19
                                  ..
Respiratory Research               1
Acta Veterinaria Scandinavica      1
Journal of Applied Volcanology     1
Genetics                           1
Ecology and Society                1
Name: journal_full_title, Length: 273, dtype: int64

In [8]:
# en réalité pas vraiment 273…

journaux_lower_unique = df["journal_full_title"].str.lower().unique()
len(journaux_lower_unique)

269

### 2. Quels sont les 10 journaux les plus présents ?


In [9]:
df["journal_full_title"].value_counts()

Nature Communications             72
Scientific Reports                62
PLOS ONE                          46
Cell Reports                      24
Frontiers in Psychology           19
                                  ..
Respiratory Research               1
Acta Veterinaria Scandinavica      1
Journal of Applied Volcanology     1
Genetics                           1
Ecology and Society                1
Name: journal_full_title, Length: 273, dtype: int64

In [10]:
df["journal_full_title"].value_counts()[0:10]
# on a d'ailleurs un petit souci avec des doublons de côté de plos one

Nature Communications        72
Scientific Reports           62
PLOS ONE                     46
Cell Reports                 24
Frontiers in Psychology      19
Nucleic Acids Research       14
Science Advances             13
Frontiers in Microbiology    13
Optics Express               13
PLoS ONE                     11
Name: journal_full_title, dtype: int64

In [11]:
def recodage_plos(entree):
    if entree == "PLoS ONE":
        return "PLOS ONE"
    else:
        return entree
    
df["journal_recod"] = df["journal_full_title"].apply(recodage_plos)

In [12]:
top10_journaux = df["journal_recod"].value_counts()[0:10]
top10_journaux

Nature Communications        72
Scientific Reports           62
PLOS ONE                     57
Cell Reports                 24
Frontiers in Psychology      19
Nucleic Acids Research       14
Optics Express               13
Science Advances             13
Frontiers in Microbiology    13
Physical Review X             9
Name: journal_recod, dtype: int64

In [13]:
# si on veut récupérer une liste :
# top10_journaux.keys().to_list()

In [14]:
df["journal_full_title"].str.lower().value_counts()[0:10]

nature communications        72
scientific reports           62
plos one                     57
cell reports                 24
frontiers in psychology      19
nucleic acids research       14
optics express               13
science advances             13
frontiers in microbiology    13
new journal of physics        9
Name: journal_full_title, dtype: int64

### 3. Quel est le montant total payé par le FNS pour le journal le plus mentionné ?

In [15]:
# On a vu précédemment que Nature Communications est le journal le plus mentionné.
# je crée donc un df qui ne garde que ce journal :
df_nature = df[df["journal_recod"]=="Nature Communications"]

# Puis je fais la somme de la colonne euros
df_nature["euro"].sum()

304545.91000000003

### 4. La même question, mais pour les 10 journaux les plus fréquents ?

In [16]:
# on les a vus à la question 2
top10_journaux

Nature Communications        72
Scientific Reports           62
PLOS ONE                     57
Cell Reports                 24
Frontiers in Psychology      19
Nucleic Acids Research       14
Optics Express               13
Science Advances             13
Frontiers in Microbiology    13
Physical Review X             9
Name: journal_recod, dtype: int64

In [17]:
id_top10 = top10_journaux.keys() #ou .index
id_top10

Index(['Nature Communications', 'Scientific Reports', 'PLOS ONE',
       'Cell Reports', 'Frontiers in Psychology', 'Nucleic Acids Research',
       'Optics Express', 'Science Advances', 'Frontiers in Microbiology',
       'Physical Review X'],
      dtype='object')

In [18]:
liste_top10 = id_top10.to_list()
liste_top10

['Nature Communications',
 'Scientific Reports',
 'PLOS ONE',
 'Cell Reports',
 'Frontiers in Psychology',
 'Nucleic Acids Research',
 'Optics Express',
 'Science Advances',
 'Frontiers in Microbiology',
 'Physical Review X']

In [19]:
df_top10 = df[df["journal_recod"].isin(liste_top10)]

In [20]:
df[df["journal_recod"].isin(liste_top10)]

Unnamed: 0,institution,period,euro,doi,journal_full_title,publisher,is_hybrid,issn,url,chf,conversion_rate,invoice_original_amount,invoice_original_currency,snsf_voucher_number,grant_snsf,grant_snsf_related,journal_recod
0,Swiss National Science Foundation (SNSF),2011,896.45,10.1371/journal.pone.0024555,PLoS ONE,Public Library of Science (PLoS),False,,,1105.82,1.23355,1215.00,USD,,3100A0B-128675,128675,PLOS ONE
3,Swiss National Science Foundation (SNSF),2012,972.18,10.3389/fmicb.2012.00106,Frontiers in Microbiology,Frontiers Media SA,False,,,1171.78,1.20531,972.00,EUR,,PDFMP2-123048,123048,Frontiers in Microbiology
14,Swiss National Science Foundation (SNSF),2013,918.56,10.1371/journal.pone.0069473,PLoS ONE,Public Library of Science (PLoS),False,,,1130.56,1.23080,1215.00,USD,,31003A_141225,141225,PLOS ONE
15,Swiss National Science Foundation (SNSF),2013,1013.28,10.1371/journal.pone.0072876,PLoS ONE,Public Library of Science (PLoS),False,,,1247.14,1.23080,1350.00,USD,,PP00P3_123346,123346,PLOS ONE
16,Swiss National Science Foundation (SNSF),2013,927.44,10.1371/journal.pone.0074249,PLoS ONE,Public Library of Science (PLoS),False,,,1141.49,1.23080,1215.00,USD,,310030_141067,141067,PLOS ONE
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
678,Swiss National Science Foundation (SNSF),2019,2526.99,10.3389/fpsyg.2019.00020,Frontiers in Psychology,Frontiers Media SA,False,,,2854.01,1.12941,285.44,USD,9000129.0,10AC-4_186515,162388,Frontiers in Psychology
679,Swiss National Science Foundation (SNSF),2019,2014.45,10.3389/fpsyg.2019.00180,Frontiers in Psychology,Frontiers Media SA,False,,,2275.14,1.12941,2279.47,EUR,9000242.0,51AC-0_186581,125770,Frontiers in Psychology
680,Swiss National Science Foundation (SNSF),2019,2889.06,10.3389/fpsyg.2019.01225,Frontiers in Psychology,Frontiers Media SA,False,,,3262.93,1.12941,3177.15,USD,9001745.0,10AC-4_189582,143573,Frontiers in Psychology
681,Swiss National Science Foundation (SNSF),2019,815.08,10.3389/fpsyg.2019.01338,Frontiers in Psychology,Frontiers Media SA,False,,,920.56,1.12941,916.53,USD,9001951.0,CRAC-2_189718,160837,Frontiers in Psychology


In [21]:
df_top10["euro"].sum()

730993.5900000001

In [22]:
# si on n'avait pas recodé : 712592.55 €
ancientop10 = df["journal_full_title"].value_counts()[0:10].keys().to_list() # ou index.to_list()
dftop10_sansreco = df[df["journal_full_title"].isin(ancientop10)]
dftop10_sansreco["euro"].sum()

712592.55

### 5. Quelle est la moyenne des dépenses pour l'éditeur le plus présent dans ce dataset ?

In [23]:
# je dois donc trouver l'éditeur le plus présent
# Comme précédement, j'utilise value_counts, mais cette fois sur le publisher
# Et si je ne veux pas tout afficher je peux directement identifier le plus présent avec idxmax()
df["publisher"].value_counts().idxmax()

'Springer Nature'

In [24]:
df["publisher"].value_counts()

Springer Nature                                155
Frontiers Media SA                              84
Public Library of Science (PLoS)                79
Elsevier BV                                     64
MDPI AG                                         42
                                              ... 
Ovid Technologies (Wolters Kluwer Health)        1
American Society of Plant Biologists (ASPB)      1
Rockefeller University Press                     1
EDP Sciences                                     1
Resilience Alliance, Inc.                        1
Name: publisher, Length: 62, dtype: int64

In [25]:
# je filtre uniquement l'éditeur en question : Springer Nature
springer_nature = df[df["publisher"]=="Springer Nature"]

# Et je calcule la moyenne des dépenses (en euros)
springer_nature["euro"].mean()

2419.8024516129026

In [26]:
# tout en une ligne :
df[df["publisher"]==df["publisher"].value_counts().idxmax()]["euro"].mean()

2419.8024516129026

### 6. Combien d'articles publiés en open access ont été financés par le FNS en 2017 ?

In [27]:
# Plusieurs possibilités pour une même résultat : 
    
# Option 1
# je filtre les résultats de 2017
df_2017 = df[df["period"]==2017]
# et j'utilise len
len(df_2017)

# on peut aussi au choix utiliser df_2017.shape

71

In [28]:
df_2017.shape

(71, 17)

In [29]:
# Option 2
# ou alors utiliser value counts
df["period"].value_counts()

2019    199
2018    163
2016    106
2015     98
2017     71
2014     54
2013     22
2012      4
2011      1
Name: period, dtype: int64

In [30]:
# option 3
# de façon un peu sauvage faire une somme sur un retour TRUE/FALSE
(df["period"]==2017).sum()

71

### 7. Quels sont les articles pour lesquels la publication a coûté plus de 4000 euros ? Pour quels journaux ?


In [31]:
# je sélectionne ceux dont le montant en euros est supérieur à 4000€
df_sup_4000 = df[df["euro"]>4000]

In [32]:
# et je récupère le doi des journaux en question :
df_sup_4000["doi"].to_list()

['10.1016/j.celrep.2015.01.063',
 '10.1016/j.celrep.2015.06.051',
 '10.1038/ncomms8837',
 '10.1038/ncomms9892',
 '10.3791/53188',
 '10.1016/j.celrep.2015.12.097',
 '10.1038/ncomms10796',
 '10.1016/j.celrep.2017.08.075',
 '10.1016/j.celrep.2017.12.020',
 '10.1016/j.molcel.2017.06.027',
 '10.1038/s41467-017-01467-7',
 '10.1016/j.celrep.2018.03.026',
 '10.1016/j.celrep.2018.03.102',
 '10.1016/j.celrep.2018.04.076',
 '10.1016/j.celrep.2018.05.083',
 '10.1016/j.celrep.2018.07.102',
 '10.1016/j.celrep.2018.08.019',
 '10.1016/j.celrep.2018.08.043',
 '10.1016/j.celrep.2018.08.087',
 '10.1016/j.celrep.2018.10.090',
 '10.1016/j.celrep.2018.12.002',
 '10.1016/j.celrep.2018.12.044',
 '10.1038/s41467-018-05181-w',
 '10.1038/s41467-018-05410-2',
 '10.1038/s41467-018-05709-0',
 '10.1038/s41467-018-05715-2',
 '10.1038/s41467-018-05879-x',
 '10.1038/s41467-018-05952-5',
 '10.1038/s41467-018-06025-3',
 '10.1038/s41467-018-06040-4',
 '10.1038/s41467-018-06160-x',
 '10.1038/s41467-018-06246-6',
 '10.1038/

In [33]:
# et je récupère le nom des journaux en question
# avec unique() cette fois en raison des apparitions multiples
df_sup_4000["journal_recod"].unique()

array(['Cell Reports', 'Nature Communications',
       'Journal of Visualized Experiments', 'Molecular Cell'],
      dtype=object)

In [34]:
#si je veux une liste:
list(df_sup_4000["journal_recod"].unique())

['Cell Reports',
 'Nature Communications',
 'Journal of Visualized Experiments',
 'Molecular Cell']

### 8. Créer un dataframe data_modif comprennant les données de l'année 2017 présentant une dépense d'une valeur supérieure à 2000 euros

In [35]:
# soit on fait tout d'un coup en une ligne :
data_modif = df[(df["period"]==2017) & (df["euro"]>2000)]

In [36]:
# soit on décompose les étapes :

# un filtre pour 2017
filtre_2017 = df["period"]==2017

# un filtre pour > 2000€
filtre_sup_2000 = df["euro"]>2000

# et la créatio d'un nouveau df en utilisant les filtres
data_modif2 = df[filtre_2017 & filtre_sup_2000]

In [37]:
data_modif.shape

(30, 17)

In [38]:
data_modif2.shape

(30, 17)

In [39]:
# (30, 16) si pas recodé dans une nouvelle colone