# Révision 2 : la bibliothèque Pandas

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/450px-Pandas_logo.svg.png" alt="pandas" width="400"/>

#### [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation développeur d'applications spécialisation data analyst - Webforce3 - Grenoble Ecole de Management

## Création de dataframes Pandas

- **Import** de la bibliothèque avec son **alias** et vérification de la **version**

In [None]:
import numpy as np
import pandas as pd

print(f"Version de la bibliothèque Numpy : {np.__version__}")
print(f"Version de la bibliothèque Pandas : {pd.__version__}")

- Création d'un **dataframe Pandas** à partir d'un **dictionnaire**

Ressources :

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

In [None]:
data = {
    "id" : range(5),
    "name" : [f"nom_{i}" for i in range(5)],
}
df = pd.DataFrame(data)
df

- Création d'un **dataframe Pandas** à partir d'une **liste**

In [None]:
data = [
    range(5),
    [f"nom_{i}" for i in range(5)],
]
df = pd.DataFrame(data, index=["id", "name"])
df

In [None]:
df.T

- Création d'un **dataframe Pandas** à partir d'un **tableau Numpy**

In [None]:
data = np.array([
    range(5),
    [f"nom_{i}" for i in range(5)],
])
data, data.shape

In [None]:
df = pd.DataFrame(data.T, columns=["id", "name"])
df

- Création d'un **dataframe Pandas** par concaténation d'un **Dataframe** et d'une **Serie**

In [None]:
df

In [None]:
ser = pd.Series([f"prenom_{i}" for i in range(5)], name="firstname")
ser

In [None]:
pd.concat([df, ser], axis=1)

## Récupération de données dans un dataframe Pandas

Ressources :

- https://pandas.pydata.org/docs/user_guide/io.html

___

- Récupération des données à partir d'un **fichier CSV**

In [None]:
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)
df

- Récupération d'un **sous-ensemble de colonnes** d'un fichier CSV et **changement d'index**

In [None]:
df = pd.read_csv(url, usecols=["PassengerId", "Survived", "Pclass", "Sex", "Age", "Fare"], index_col="PassengerId")
df

- Récupération d'un **sous-ensemble de lignes** d'un fichier CSV

In [None]:
df = pd.read_csv(url, nrows=100)
df

## Manipulation des données d'un dataframe Pandas

- Sélection d'une **partie du dataframe**

In [None]:
df.loc[2:10, "Survived":"Name"]

In [None]:
df.iloc[2:11, 1:4]

- **Renommage des colonnes** du datframe

In [None]:
df.columns

In [None]:
df.rename(columns={"Name" : "Nom"})

## Manipulation de données temporelles Pandas

- Création d'un **index datetime** à partir de **données textuelles**

In [None]:
data = {
    "year" : np.random.randint(1980, 2025, size=100),
    "month" : np.random.randint(1, 13, size=100),
    "day" : np.random.randint(1, 29, size=100),
}
df = pd.DataFrame(data)
df

In [None]:
df["date"] = pd.to_datetime(df)
df

In [None]:
df = df.set_index("date")
df

In [None]:
df = df.sort_index()
df

## ✏️ Exercice

- **Récupérer** le jeu de données à cette url : https://raw.githubusercontent.com/Pierre-Loic/Formation-DA-GEM-2022/main/Datasets/CAC40.csv
- Sélectionner uniquement une entreprise (colonne "Name")
- **Ajouter** des données pour les jours de **week-end** et **fériés**
- Effectuer une **imputation des données manquantes** sur les jours ajoutés

In [None]:
# A COMPLETER

## Manipulation de données textuelles avec Pandas

- Changement des chaines de caractères en **majuscules**

In [None]:
df = pd.read_csv(url, nrows=100)
df

In [None]:
df.Sex.str.upper()

- **Séparation des éléments** d'une colonne

In [None]:
df.Name.str.split(expand=True)

- Récupération du numéro des billets avec une **expression régulière**

In [None]:
df.Ticket.str.replace(r"^[^\d][^ ]*", "", regex=True).astype("int")

## Manipulation de catégories avec Pandas

- Transformation de **chaines de caractères** en **catégories**

In [None]:
df.memory_usage(deep=True)

In [None]:
df.info(memory_usage="deep")

In [None]:
df["Embarked"] = df.Embarked.astype('category')
df.info()

In [None]:
df.memory_usage(deep=True)

## Fusion de dataframes Pandas

In [None]:
df1 = pd.DataFrame({'colonne_commune': ['donnée_commune', 'donnée_df1'], 'colonne_df1': [1, 1]})
df2 = pd.DataFrame({'colonne_commune': ['donnée_commune', 'donnée_df2'], 'colonne_df2': [2, 2]})
display(df1, df2)

In [None]:
df1.merge(df2, how='inner', on='colonne_commune')

In [None]:
df1.merge(df2, how='outer', on='colonne_commune')

In [None]:
df1.merge(df2, how='left', on='colonne_commune')

In [None]:
df1.merge(df2, how='right', on='colonne_commune')

## 🏅 Exercice bilan

- Créer un **index datetime** pour toutes les lignes du Dataframe suivant :

In [None]:
data = {
    "Année" : np.random.randint(1980, 2025, size=100),
    "Trimestre" : [f"T{np.random.randint(1, 5)}" for _ in range(100)],
    "Mois" : [np.random.randint(1, 13) if np.random.randn()<0.8 else np.nan for _ in range(100)],
    "Prix" : np.random.randint(5, 250, size=100),
}
df = pd.DataFrame(data)
df

In [None]:
# A COMPLETER