# Pandas pour l'analyse de données

Avec des morceaux de Emilien Schultz et de [Mickael Temporão](https://mickaeltemporao.github.io/itds/resources/notebooks/) dedans


**Aujourd'hui :**  
- Charger des données
- Explorer les données
- Découvrir les méthodes/fonctions de pandas

Et notamment :
- Sélectionner et filtrer des observations
- Faire des tris à plat
- Des tris croisés
- Recoder des variables
    - .apply() / .replace() / .cut()


User guide : https://pandas.pydata.org/docs/user_guide/10min.html  
Cheat Sheet : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

# IMPORTER PANDAS

In [None]:
# Si pas installé (normalement OK avec anaconda)

# Installer avec conda :
#conda install -c conda-forge pandas

# Installer avec pip :
#pip install pandas

In [1]:
import pandas as pd

# LE DATAFRAME

Un dataframe = des series (~listes) mises ensemble dans un tableau  
Données tabulaires : lignes (observations) et colonnes (variables)

![](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

**On peut (si on aime souffrir) créer un dataframe à la main**  
(ça a une vertue pédagogique)  
(même si dans la vraie vie on va plutôt charger des données)

In [36]:
# Une façon de créer un dataframe :
Exemple = pd.DataFrame([["Python","Faible"],
              ["R","Forte"],
              ["Julia","Très faible"]],
            columns = ["Langage","Connaissance en SHS"])
#Exemple

Unnamed: 0,Langage,Connaissance en SHS
0,Python,Faible
1,R,Forte
2,Julia,Très faible


In [35]:
# Une autre façon de créer un dataframe : 
langage = ["Python","R","Julia"]
connaissance = ["Faible","Forte","Très faible"]

Exemple2 = pd.DataFrame(
    {
        "LANGAGE": langage,
        "CONNAISSANCE EN SHS": connaissance
    })

#Exemple2

Unnamed: 0,LANGAGE,CONNAISSANCE EN SHS
0,Python,Faible
1,R,Forte
2,Julia,Très faible


In [43]:
type(Exemple)

pandas.core.frame.DataFrame

# CHARGER DES DONNÉES

### Lire directement des données depuis l'internet mondial
`pd.read_csv("https://ma_super_url_qui_pointe_vers_mon_fichier.csv")`

Ici on va travailler avec des donnes trouvables sur ce dépot : https://zenodo.org/records/5827206

In [2]:
url = "https://zenodo.org/record/5827206/files/SOSP_Export_base%20de%20donn%C3%A9es%20diffusable.csv"
data = pd.read_csv(url)

### Lire des données depuis son ordinateur
Plus courant

`pd.read_csv("chemin/vers/le/fichier.csv")`

In [42]:
# un exemple avec un fichier local

### On peut lire plusieurs formats

- `pd.read_csv()`
- `pd.read_excel()`
- `pd.read_spss()` (avec pyreadstat)
- `pd.read_sql()`
- `pd.read_json()` 




In [None]:
#pd.read_

# EXPLORATION DE DONNÉES

**Quelques outils utiles :**  
- `.info()` des infos sur notre df  
- `.shape` sa "forme"  
- `.columns` les colonnes  
- `.dtypes` le type des données  
- `.head()` afficher les premières observations  
- `.tail()` afficher la fin du df  
- `.describe()` description basique  

In [50]:
# Utiliser .info() pour obtenir des informations basiques sur notre dataframe


In [58]:
# voir ce que font shape ; columns ; dtypes

In [59]:
# utiliser head() et tail()

# et si je veux afficher les x premiers ?

# Sélectionner des colonnes (nos variables)

Avec pandas, on peut sélectionner nos variables à l'aide des crochets :  
[ ]  

(maj+alt+ sous mac, aucune idée sous pc)

`mon_dataframe["ma_variable"]`


In [71]:
# Sélectionner la variable "sexe"


In [63]:
# vérifier le type ?


pandas.core.series.Series

#### On peut aussi sélectionner plusieurs variables :
`["ma_variable1", "ma_variable2"]`

In [70]:
mes_variables = [
    "sexe",
    "disciplines_9niv",
    "annee_de_naissance-recod10niv"
    ]

# data[mes_variables]

In [74]:
# attention : df[["var1", "var2"]]

In [43]:
# renommer une variable
data = data.rename(columns = {"annee_de_naissance-recod10niv":"age"})

#### On peut aussi sélectionner des observations / lignes ou des élements particuliers
- `.loc[]`
- `.iloc[]`

In [16]:
# Afficher les 3 premières observations :
data.loc[0:2]

Unnamed: 0,Id,contexte_travail,fonction_recherche,statut_professionnel,statut_professionnel_Autre,annee_premiere_publi,Systeme_exploitation,Usage_telephone_mobile,Outils_gestion_travail_av_confinement_visioconférence,Outils_gestion_travail_av_confinement_planification_RDV,...,Souhait_partage_donnees_produites_discipline,Souhait_partage_donnees_produites_pays_continent,Souhait_partage_donnees_produites_domaine_economique,Souhait_partage_donnees_produites_secteur_associatif,Souhait_partage_donnees_produites_sans_restriction,compatibilite_diffusion_partage,evolutions_pratiques_numeriques,sexe,disciplines_9niv,annee_de_naissance-recod10niv
0,1,nous sommes entre 6 et 10 personnes,professeur / professeure des universités et assimilés,fonctionnaire ou assimilé,,1995,Windows,rarement,parfois,souvent,...,oui,oui,oui,oui,oui,oui,je ne sais pas,un homme,Sciences humaines,61 à 65 ans
1,2,nous sommes plus de 50 personnes,ingénieur / ingénieure de recherche,en CDI,,2005,Windows,rarement,parfois,parfois,...,oui,oui,oui,oui,oui,,,un homme,Médecine,46 à 50 ans
2,3,nous sommes entre 2 et 5 personnes,maître / maîtresse de conférences et assimilés,fonctionnaire ou assimilé,,2006,Windows,parfois,rarement,souvent,...,oui,oui,oui,oui,oui,"oui, tout est dans la chronologie",non,un homme,Médecine,36 à 40 ans


In [20]:
# Afficher le sexe de la 3ème observation (donc avec 2, ouais ouais):
data.loc[2, "sexe"]

'un homme'

# FAIRE DES TRUCS SUR NOS VARIABLES !
C'est mignon de les selectionner, mais on en fait quoi ?

### Les trucs utiles
Quelques outils utiles pour décrire les données :

- `mean()`
- `std()`
- `min()`
- `max()`
- `count()`
- `describe()`
- `unique()` (et `nunique()`)
- `value_counts()`

In [82]:
# essayer avec le "sexe"

In [83]:
# quelles sont les modalités de la variable sexe ? unique()

In [84]:
# combien il y en a ? nunique()

In [85]:
# est-ce que j'ai des valeurs manquantes ? isna() et sum()

In [None]:
# et quelle est la répartition ? value_counts()

In [27]:
# et en proportion / pourcentage ? normalize=True

In [38]:
# et un mini graphique ? .plot() et sans doute kind="bar"

### Et avec une variable quanti ?

L'année de la première publication

"annee_premiere_publi"

In [53]:
# Quelle est l'année moyenne de la première publi ? mean()

In [44]:
# Quel est l'écart type ? .std()

In [54]:
# Une petite description toute prête ? describe()

## Créer une variable ?

Mettons que je veux savoir si mes individus ont publié plutôt ou plus tard que la moyenne…

In [57]:
# Calculer l'écart entre les observations et la moyenne
#data["annee_premiere_publi"] - data["annee_premiere_publi"].mean()

In [58]:
# Et si je veux créer une nouvelle variable avec ça ?
#data["écart"] = data["annee_premiere_publi"] - data["annee_premiere_publi"].mean()

# GROUPBY ?

`df.groupby("ma_var_groupe")["la_variable_intérêt"].mon_operation()`

Mais est-ce que les femmes et les hommes ont des profils différents ?  
Je veux savoir qu'elle est la date moyenne de publi pour les femmes et pour les hommes

In [None]:
# EXEMPLE AVEC LA MOYENNE POUR LES HOMMES /LES FEMMES.

In [69]:
#data.groupby("sexe")["annee_premiere_publi"].mean()

In [70]:
#data.groupby("sexe")["écart"].mean()

In [53]:
# grouper plusieurs opération dans groupby avec agg([]) ex : .agg(["min", "max", "mean"])

# Filtrer et sélectionner des données

Pandas permet également de filtrer nos données selon des conditions

**Exemple 1 : ne garder que les femmes**

In [89]:
#filtre_femme = data["sexe"] == "une femme"

In [84]:
# filtre_femme

In [85]:
#data[filtre_femme]

In [86]:
#data[data["sexe"] == "une femme"]

In [80]:
#data_femme = data[data["sexe"] == "une femme"]

In [54]:
#data_femme.shape

**Exemple 2 : ne garder que les gens ayant eu leur première publi après 2010**

In [2]:
#filtre_publi = data["annee_premiere_publi"] > 2010

In [1]:
#data[filtre_publi].shape

**On peut les combiner !**  
& : et  
| : ou

In [96]:
#data[filtre_femme & filtre_publi]

(165, 132)

In [104]:
# Équivalent :
# directement écrire les conditions avec des parenthèses :
#data[(data["sexe"] == "une femme") & (data["annee_premiere_publi"] > 2010)]

In [106]:
# et avec un ou :
# data[filtre_femme | filtre_publi]

# RECODER DES DONNÉES

#### Utiliser .replace()


In [23]:
data["sexe"].value_counts()

sexe
un homme                       565
une femme                      480
je ne souhaite pas répondre     44
Name: count, dtype: int64

In [24]:
data["sexe_recod"] = data["sexe"].replace({"un homme":"homme",
                      "une femme":"femme",
                     "je ne souhaite pas répondre":"na"})

In [25]:
data["sexe_recod"]

0       homme
1       homme
2       homme
3       femme
4       femme
        ...  
1084    homme
1085    homme
1086    homme
1087    femme
1088       na
Name: sexe_recod, Length: 1089, dtype: object

In [26]:
# Équivalent à créer un dictionnaire :
dico_labels = {"un homme":"homme",
                "une femme":"femme",
                "je ne souhaite pas répondre":"na"}

# Puis l'utiliser avec replace :
data["sexe"].replace(dico_labels).value_counts()

sexe
homme    565
femme    480
na        44
Name: count, dtype: int64

In [27]:
# ou faire une liste des anciennes et nouvelles valeurs
anciens_labels = ["un homme", "une femme", "je ne souhaite pas répondre"]
nouveaux_labels = ["homme", "femme", "na"]

# puis les passer dans replace :
data["sexe"].replace(anciens_labels, nouveaux_labels).value_counts()

sexe
homme    565
femme    480
na        44
Name: count, dtype: int64

### Créer une fonction et l'appliquer avec apply()

Une méthode générique pour appliquer des opératoins sur chaque cellule / ligne

In [55]:
def recodage(code):
    if code  == "un homme":
        return "Homme"
    if code == "une femme":
        return "Femme"
    if code == "je ne souhaite pas répondre":
        return "NA"
    return "Problème"

In [56]:
data["sexe_recod"] = data["sexe"].apply(recodage)

#### Utiliser pd.cut() pour discrétiser des variables numériques

```
pd.cut(
    x,
    bins,
    right: bool = True,
    labels=None,
    retbins: bool = False,
    precision: int = 3,
    include_lowest: bool = False,
    duplicates: str = 'raise',
    ordered: bool = True,
)

Docstring:
Bin values into discrete intervals.

Use `cut` when you need to segment and sort data values into bins. This
function is also useful for going from a continuous variable to a
categorical variable. For example, `cut` could convert ages to groups of
age ranges. Supports binning into an equal number of bins, or a
pre-specified array of bins.
```


In [171]:
# faire attention lors de la déclaration
# ou alors en précisant le comportement souhaité dans les paramètres de pd.cut
# de base : right=True / include_lowest=False

In [165]:
# Exemple : recoder l'année de première publi en catégories

In [6]:
data["annee_premiere_publi"].describe()

count    1089.000000
mean     2004.030303
std        11.362671
min      1968.000000
25%      1996.000000
50%      2005.000000
75%      2014.000000
max      2020.000000
Name: annee_premiere_publi, dtype: float64

In [61]:
data["publi_recod"] = pd.cut(data["annee_premiere_publi"],
                        bins=[1968,1996,2005,2014, 2020],
                        #labels=["Avant1996", "1997-2005", "2005-2014", "2015 et +"]
                        #right=True,
                        #include_lowest=False
                        )
data["publi_recod"].value_counts(normalize=True).sort_index()


publi_recod
(1968, 1996]    0.270221
(1996, 2005]    0.253676
(2005, 2014]    0.229779
(2014, 2020]    0.246324
Name: proportion, dtype: float64

## Un exemple de traitement un peu plus avancé

Colonnes plein texte qui contiennent des réponses

In [31]:
colonnes = ["logiciel_production_donnees","outils_nettoyage",
           "Outils_analyses","Outils_visualisation"]

Une fonction qui agrège les réponses par ligne et  vérifie si le mot clé python est dedans

In [62]:
def is_python(ligne):
    contenu = ""
    for variable in colonnes:
        contenu = contenu + str(ligne[variable])
    contenu = contenu.lower()
    return "python" in contenu

In [33]:
data["utilise python"] = data.apply(is_python,axis=1)

En une ligne

In [34]:
data[colonnes].apply(lambda x : "python" in ";".join([str(i) for i in x]),axis=1)

0       False
1       False
2       False
3       False
4       False
        ...  
1084    False
1085    False
1086    False
1087    False
1088    False
Length: 1089, dtype: bool

# Tableau Croisé

In [35]:
tableau = pd.crosstab(data["sexe_recod"], data["utilise python"])
tableau

utilise python,False,True
sexe_recod,Unnamed: 1_level_1,Unnamed: 2_level_1
Femme,396,84
Homme,487,78
,38,6


In [37]:
tableau_mieux = pd.crosstab(data["sexe_recod"], data["utilise python"],
                            normalize="index", margins=True)*100
tableau_mieux

utilise python,False,True
sexe_recod,Unnamed: 1_level_1,Unnamed: 2_level_1
Femme,82.5,17.5
Homme,86.19469,13.80531
,86.363636,13.636364
All,84.573003,15.426997


In [63]:
tableau_mieux.round(2)

utilise python,False,True
sexe_recod,Unnamed: 1_level_1,Unnamed: 2_level_1
Femme,82.5,17.5
Homme,86.19,13.81
,86.36,13.64
All,84.57,15.43


Faire un chi2 avec la bibliothèque Scipy

In [64]:
# importer
from scipy.stats import chi2_contingency

# appliquer à notre tableau
var = chi2_contingency(tableau)

# afficher
var

Chi2ContingencyResult(statistic=2.8279751952956116, pvalue=0.2431716764475686, dof=2, expected_freq=array([[405.95041322,  74.04958678],
       [477.83746556,  87.16253444],
       [ 37.21212121,   6.78787879]]))

In [41]:
var[1]

0.2431716764475686