# Pandas pour l'analyse de données

Avec des morceaux de Emilien Schultz et de [Mickael Temporão](https://mickaeltemporao.github.io/itds/resources/notebooks/) dedans.


**Aujourd'hui :**  
- Charger des données
- Explorer les données
- Découvrir les méthodes/fonctions de pandas

Et notamment :
- Sélectionner et filtrer des observations
- Faire des tris à plat
- Des tris croisés ?
- Recoder des variables
    - .apply() / .replace() / .cut()


User guide : https://pandas.pydata.org/docs/user_guide/10min.html  
Cheat Sheet : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

# IMPORTER PANDAS

In [None]:
import pandas as pd

In [None]:
# Si pas installé (normalement OK avec anaconda)

# Installer avec conda :
#conda install -c conda-forge pandas

# Installer avec pip :
#pip install pandas

# LE DATAFRAME

Un dataframe = des series mises ensemble dans un tableau  
Données tabulaires : lignes (observations) et colonnes (variables)

![](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

**On peut (si on aime souffrir) créer un dataframe à la main**  
(ça a une vertue pédagogique)  
(même si dans la vraie vie on va plutôt charger des données)

In [None]:
# Une façon de créer un dataframe :
Exemple = pd.DataFrame([["Python","Faible"],
              ["R","Forte"],
              ["Julia","Très faible"]],
            columns = ["Langage","Connaissance en SHS"])

# Afficher le résultat
Exemple

In [None]:
# Une autre façon de créer un dataframe : 
langage = ["Python","R","Julia"]
connaissance = ["Faible","Forte","Très faible"]

Exemple2 = pd.DataFrame(
    {
        "LANGAGE": langage,
        "CONNAISSANCE EN SHS": connaissance
    })

# Afficher le résultat
Exemple2

In [None]:
# Vérifier le type ?
type(Exemple)

# CHARGER DES DONNÉES

### Lire directement des données depuis l'internet mondial
`pd.read_csv("https://ma_super_url_qui_pointe_vers_mon_fichier.csv")`

Ici on va travailler avec des donnes trouvables sur ce dépot : https://zenodo.org/records/5827206

In [None]:
# Stocker l'url
url = "https://zenodo.org/record/5827206/files/SOSP_Export_base%20de%20donn%C3%A9es%20diffusable.csv"

# charger
data = pd.read_csv(url)

# pareil que ça:
# data = pd.read_csv("https://zenodo.org/record/5827206/files/SOSP_Export_base%20de%20donn%C3%A9es%20diffusable.csv")

In [None]:
# l'afficher
data

### Lire des données depuis son ordinateur
Plus courant

`pd.read_csv("chemin/vers/le/fichier.csv")`

In [None]:
# un exemple avec un fichier local
# si j'ai téléchargé le fichier disponible sur le dépot zenodo
# et que je l'ai mis dans le même dossier que mon notebook :
local = pd.read_csv("SOSP_Export_base de données diffusable.csv")

In [None]:
# L'afficher
local

### On peut lire plusieurs formats

- `pd.read_csv()`
- `pd.read_excel()`
- `pd.read_spss()` (avec pyreadstat)
- `pd.read_sql()`
- `pd.read_json()` 




# EXPLORATION DE DONNÉES

**Quelques outils utiles :**  
- `.info()` des infos sur notre df  
- `.shape` sa "forme"  
- `.columns` les colonnes  
- `.dtypes` le type des données  
- `.head()` afficher les premières observations  
- `.tail()` afficher la fin du df  
- `.describe()` description basique  

In [None]:
# Utiliser .info() pour obtenir des informations basiques sur notre dataframe
data.info()

In [None]:
# voir ce que font shape ; columns ; dtypes
data.shape

In [None]:
# utiliser head() et tail()

# et si je veux afficher les x premiers ?
data.head(10)

# Sélectionner des colonnes (nos variables)

Avec pandas, on peut sélectionner nos variables à l'aide des crochets :  
[ ]  

(maj+alt+5 sous mac, alt gr+5 sous pc)

`mon_dataframe["ma_variable"]`


In [None]:
# Sélectionner la variable "sexe"
data["sexe"]

In [None]:
# vérifier le type ?
type(data["sexe"])

#### On peut aussi sélectionner plusieurs variables :
Lui donner une liste de variables  
`["ma_variable1", "ma_variable2"]`

In [None]:
mes_variables = [
    "sexe",
    "disciplines_9niv",
    "annee_de_naissance-recod10niv"
    ]

data[mes_variables]

In [None]:
# attention : df[["var1", "var2"]]
data[["sexe","disciplines_9niv"]]

In [None]:
# renommer une variable
data = data.rename(columns = {"annee_de_naissance-recod10niv":"age"})

#### On peut aussi sélectionner des observations / lignes ou des élements particuliers
- `.loc[]`
- `.iloc[]`

In [None]:
# Afficher les 3 premières observations :
data.loc[0:2]

In [None]:
# Afficher le sexe de la 3ème observation (donc avec 2, ouais ouais):
data.loc[2, "sexe"]

# FAIRE DES TRUCS SUR NOS VARIABLES !
C'est mignon de les selectionner, mais on en fait quoi ?

### Les trucs utiles
Quelques outils utiles pour décrire les données :

- `mean()`
- `std()`
- `min()`
- `max()`
- `count()`
- `describe()`
- `unique()` (et `nunique()`)
- `value_counts()`

**Essayer avec le "sexe"**

In [None]:
# quelles sont les modalités de la variable sexe ? unique()
data["sexe"].unique()

In [None]:
# combien il y en a ? nunique()
data["sexe"].nunique()

In [None]:
# pareil que de demander la longeur de unique
len(data["sexe"].unique())

In [None]:
# est-ce que j'ai des valeurs manquantes ? isna() et sum()
data["sexe"].isna().sum()

In [None]:
# et quelle est la répartition ? value_counts()
data["sexe"].value_counts()

In [None]:
# et en proportion / pourcentage ? normalize=True
data["sexe"].value_counts(normalize=True)

# Ce qui revient à faire diviser par la longueur de la serie :
#data["sexe"].value_counts()/len(data["sexe"])

In [None]:
# On multiplie par 100 pour des pourcentages ?
data["sexe"].value_counts(normalize=True)*100

In [None]:
# On arrondit ? avec 2 chiffres après la virgule ?
(data["sexe"].value_counts(normalize=True)*100).round(2)

# pareil que : 
# round(data["sexe"].value_counts(normalize=True)*100, 2)

In [None]:
# et un mini graphique ? .plot() et sans doute kind="bar"
data["sexe"].value_counts().plot(kind ="bar")

### Et avec une variable quanti ?

L'année de la première publication

"annee_premiere_publi"

In [None]:
# Quelle est l'année moyenne de la première publi ? mean()
data["annee_premiere_publi"].mean()

In [None]:
# Quel est l'écart type ? .std()
data["annee_premiere_publi"].std()

In [None]:
# Une petite description toute prête ? describe()
data["annee_premiere_publi"].describe()

## Créer une variable ?

Mettons que je veux savoir si mes individus ont publié plus tôt ou plus tard que la moyenne…

In [None]:
# Calculer l'écart entre les observations et la moyenne
data["annee_premiere_publi"] - data["annee_premiere_publi"].mean()

In [None]:
# Et si je veux créer une nouvelle variable avec ça ?
data["écart"] = data["annee_premiere_publi"] - data["annee_premiere_publi"].mean()

In [None]:
data

## Grouper nos données ? GROUPBY

`df.groupby("ma_var_groupe")["la_variable_intérêt"].mon_operation()`

Mais est-ce que les femmes et les hommes ont des profils différents ?  
Je veux savoir qu'elle est la date moyenne de publi pour les femmes et pour les hommes

In [None]:
# EXEMPLE AVEC LA MOYENNE POUR LES HOMMES /LES FEMMES.

In [None]:
data.groupby("sexe")["annee_premiere_publi"].mean()

In [None]:
# on peut grouper plusieurs opération dans groupby avec agg([]) ex : .agg(["min", "max", "mean"])
data.groupby("sexe")["annee_premiere_publi"].agg(["min", "max", "mean"])

# FILTRER ET SÉLECTIONNER DES DONNÉES

Pandas permet également de filtrer nos données selon des conditions

**Exemple 1 : ne garder que les femmes**

In [None]:
filtre_femme = (data["sexe"] == "une femme")

In [None]:
data[filtre_femme].shape

In [None]:
data[filtre_femme]

In [None]:
# pour le stocker dans un nouveau df:
data_femme = data[data["sexe"] == "une femme"]

In [None]:
data_femme.shape

In [None]:
data_femme["annee_premiere_publi"].mean()

**Exemple 2 : ne garder que les gens ayant eu leur première publi après 2010**

In [None]:
filtre_2010 = (data["annee_premiere_publi"] > 2010)

In [None]:
data[filtre_2010].shape

In [None]:
# et pour créer un nouveau df :
data_sup_2010 = data["annee_premiere_publi"] > 2010

**On peut les combiner !**  
& : et  
| : ou

In [None]:
data[filtre_femme & filtre_2010].shape

In [None]:
# ou tout en une ligne :
# Sélectionner les femmes qui ont leur premiere publi après 2010
femmes_sup2010 = data[(data["sexe"] == "une femme") & (data["annee_premiere_publi"] > 2010)]

In [None]:
femmes_sup2010.shape

In [None]:
# on aurait pu prendre l'une OU l'autre des conditions
# donc soit des femmes, soit des gens qui ont leur première publi après 2010
# (pas super utile dans les faits…)
data[filtre_femme | filtre_2010].shape

# RECODER DES DONNÉES

#### Utiliser .replace()


In [None]:
# Tout passer directement : on donne un dico avec clés/valeurs
data["sexe_recod"] = data["sexe"].replace({
                                        "un homme" : "homme",
                                        "une femme" : "femme",
                                        "je ne souhaite pas répondre" : "na"
                                        })

In [None]:
data["sexe_recod"].value_counts()

In [None]:
#data["sexe_recod"]

In [None]:
# Équivalent à créer un dictionnaire :
dico_labels = {"un homme":"homme"}
                #"une femme":"femme",
                #"je ne souhaite pas répondre":"na"}

# Puis l'utiliser avec replace :
data["sexe"].replace(dico_labels).value_counts()

In [None]:
# ou encore faire une liste des anciennes et nouvelles valeurs
anciens_labels = ["un homme", "une femme", "je ne souhaite pas répondre"]
nouveaux_labels = ["homme", "femme", "na"]

# puis les passer dans replace :
data["sexe"].replace(anciens_labels, nouveaux_labels).value_counts()

### Créer une fonction et l'appliquer avec apply()

Une méthode générique pour appliquer des opératoins sur chaque cellule / ligne

In [None]:
# définir ma fonction
def recodage(code):
    if code  == "un homme":
        return "Homme"
    if code == "une femme":
        return "Femme"
    if code == "je ne souhaite pas répondre":
        return "NA"
    return "Problème"

In [None]:
# L'appliquer à mon tableau avec .apply()
data["sexe_recod1"] = data["sexe"].apply(recodage)

In [None]:
data["sexe_recod1"].value_counts()

#### Utiliser pd.cut() pour discrétiser des variables numériques

```
pd.cut(
    x,
    bins,
    right: bool = True,
    labels=None,
    retbins: bool = False,
    precision: int = 3,
    include_lowest: bool = False,
    duplicates: str = 'raise',
    ordered: bool = True,
)

Docstring:
Bin values into discrete intervals.

Use `cut` when you need to segment and sort data values into bins. This
function is also useful for going from a continuous variable to a
categorical variable. For example, `cut` could convert ages to groups of
age ranges. Supports binning into an equal number of bins, or a
pre-specified array of bins.
```


In [None]:
# faire attention aux valeurs inclues/exclues lors de la déclaration
# ou alors en précisant le comportement souhaité dans les paramètres de pd.cut
# de base : right=True / include_lowest=False

In [None]:
# Exemple : recoder l'année de première publi en catégories

In [None]:
data["annee_premiere_publi"].describe()

In [None]:
data["publi_recod"] = pd.cut(data["annee_premiere_publi"],
                        bins=[1968,1996,2005,2014, 2020],
                        #labels=["Avant1996", "1997-2005", "2005-2014", "2015 et +"]
                        #right=True,
                        #include_lowest=False
                        )
data["publi_recod"].value_counts().sort_index()

# Tableau Croisé

In [None]:
# Croiser genre et discipline
tableau = pd.crosstab(data["sexe_recod"], data["disciplines_9niv"])
tableau

In [None]:
# Ajouter des marges et des %
tableau_mieux = pd.crosstab(data["sexe_recod"], data["disciplines_9niv"],
                            normalize="index", margins=True)*100
tableau_mieux

In [None]:
# Arrondir ?
tableau_arrondi = tableau_mieux.round(2)
tableau_arrondi

In [None]:
# en faire un graphique
# (moche en l'état, il faudrait le retravailler, cf. semaine prochaine)

tableau_arrondi.plot(kind="bar")

# Sauvegarder nos fichiers et les écrire sur notre ordinateur

In [None]:
# Écrire les fichiers

In [None]:
# utilier .to_csv()
data.to_csv("mon_fichier.csv")

In [None]:
# Ou .to_excel()
# préciser l'extension : "gnagnagna.xlsx"
data.to_excel("mon_fichier.xlsx")