#### Pandas

Pandas est une bibliothèque pour le traitement et l'analyse de données en Python. Son nom vient de Panel Data et met l'accent sur sa capacité à gérer efficacement des données tabulaires ou multidimensionnelles. Pandas offre une large gamme d'outils qui simplifient la manipulation, la visualisation et l'analyse des données.

Genis Skura - Janvier 2025

**DataFrame**  Le DataFrame est la structure phare de Pandas. C'est une structure de données bidimensionnelle, semblable à une feuille Excel ou une table SQL, qui contient des données organisées en lignes et colonnes.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]))
df

Différentes façons de déclarer un DataFrame

In [None]:
##### À partir d'une liste de dictionnaires :
data = {
    'Nom': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Ville': ['Paris', 'Lyon', 'Marseille']
}
df = pd.DataFrame(data)
print(df)
print()

##### À partir d'une liste de dictionnaires :
data = [
    {'Nom': 'Alice', 'Age': 25, 'Ville': 'Paris'},
    {'Nom': 'Bob', 'Age': 30, 'Ville': 'Lyon'},
    {'Nom': 'Charlie', 'Age': 35, 'Ville': 'Marseille'}
]

df = pd.DataFrame(data)
print(df)


#### À partir d'un tableau NumPy

Exercise

Créez un DataFrame de Pandas rempli de 36 nombres entiers aléatoires (entre 20 et 30) séparés en 3 colonnes.
En utilisant uniquement des tableaux Numpy

In [None]:
df = pd.DataFrame(np.random.randint(20, 30, 36).reshape(12, 3), columns=np.arange(1, 4, 1))
df

Chaque colonne d'un DataFrame est une **Series**. Elle est une structure de données unidimensionnelle de Pandas, semblable à une liste ou un tableau unidimensionnel de NumPy.

In [4]:
#### type, name, info, is_unique
our_series = []

In [5]:
### Combiner Numpy et Pandas comme des boîtes de lego


Histogram

In [None]:
all_values = df.values.flatten()
plt.hist(all_values, color='teal', bins = 25)
plt.title('Histogramme de toutes les valeurs')
plt.show()

Fonctions très utiles dans Pandas
Pandas propose de nombreuses fonctions pour explorer, manipuler et analyser des données

**describe()** : Résumé statistique
La fonction describe() génère des statistiques descriptives pour les colonnes numériques

In [None]:
df[1].describe()

**head()** : Afficher les premières lignes d'un DataFrame ou d'une Series
La fonction head() permet d'afficher les premières lignes d'un DataFrame ou d'une Series. Par défaut, elle affiche les 5 premières lignes, mais on peut spécifier un autre nombre.

**tail()** : Afficher les dernières lignes d'un DataFrame ou d'une Series
Similaire à head(), la fonction tail() affiche les dernières lignes d'un DataFrame ou d'une Series. Utile pour vérifier les dernières valeurs d'un ensemble de données.

**info()** : Obtenir des informations générales sur un DataFrame
La fonction info() fournit un résumé de la structure d'un DataFrame, y compris :

In [None]:
df.info()

**value_counts()** : Compter les occurrences dans une colonne ou une Series
Cette fonction permet de compter la fréquence d'apparition de chaque valeur unique dans une colonne ou une Series. Très utile pour explorer des données catégorielles.

In [None]:
df[2].value_counts()

**dtypes** : Identifier les types de données des colonnes
L'attribut dtypes permet d'afficher les types de données (data types) de chaque colonne dans un DataFrame.

In [None]:
df.dtypes

Reportez-vous au lien suivant pour l'intégralité des attributs Pandas DataFrame: https://pandas.pydata.org/docs/reference/frame.html

Pandas supporte divers formats de fichiers (CSV, Excel, Parquet, JSON, etc.), ce qui permet d'importer et d'exporter des données facilement.

1) CSV: Texte brut, colonnes séparées par des délimiteurs (comme ,). Rapide à lire et écrire, mais coûteux en mémoire. **Support universel** dans presque tous les outils
2) Excel: Format binaire avec des feuilles multiples et moderement lourd. Utilisé principalement avec MS Office et logiciels compatibles.
3) Format binaire optimisé pour les grandes données et leger grâce à la compression. **Très rapide** et efficace en mémoire

En utilisant de **pandas.read..()**

In [None]:
df = pd.read_csv('data/clothes_sales.csv')
df

Exercise

Après avoir chargé l'ensemble de données ci-dessus, utilisez les fonctions Pandas pour décrire et fournir des statistiques de base.
Affichez ensuite un histogramme des différents types de vêtements (deuxieme colonne).

Sélection

Accéder à une colonne unique (en utilisant des crochets [])

In [None]:
df[['Day']][:4]
### df.Day

In [None]:
df[['Day', 'Type']].head()

Accès par **get** - il permet d’éviter les erreurs si la colonne n’existe pas (retourne None au lieu d’une exception).

In [None]:
col = df.get('Age')
print(col)

In [15]:
random = df.sample(2)

Sélection de lignes

**loc** et **iloc** sont deux méthodes très importantes dans Pandas pour sélectionner des données dans un DataFrame ou une Série, chacune ayant une approche différente.

**loc** est utilisé pour sélectionner des données basées sur les étiquettes des lignes et des colonnes. Cela signifie que vous pouvez accéder à des données en utilisant les noms des index ou des colonnes.

In [None]:
df

In [None]:
df.loc[3, 'Day']

In [None]:
a = np.arange(25).reshape(5, 5)
print(a)
test_df = pd.DataFrame(a, index = list("abcde"), columns = list("FGHIJ"))
test_df

In [19]:
test_df.loc['a'] = test_df.loc['a'] + 15

In [None]:
test_df.loc[['a', 'b', 'd'], 'H']

**iloc** est utilisé pour sélectionner des données basées sur les indices numériques des lignes et des colonnes. Les positions commencent à 0.

In [None]:
print(test_df.iloc[3])  ### Sélectionne la quatrième ligne (index 3)

print()

print(test_df.iloc[3, 1])  ### Sélectionne la cellule à l'intersection de la ligne 4 (index 3) et de la colonne 2 (index 1)

print()

print(test_df.iloc[::2])  ### Sélectionne une ligne sur deux

Différence clé entre loc et iloc :


In [22]:
lignes = df.shape[0]
string_indeces = ["nomades_{}".format(i) for i in np.arange(lignes)]

In [23]:
df.index = string_indeces

###### boolean indexing, add and remove columns , where, query and two exercises.

Une autre opération courante consiste à utiliser des vecteurs booléens pour filtrer les données. 

Les opérateurs sont les suivants : **|** -> **or**, **&** -> **and**, et **~** -> **not**. Ils doivent être regroupés en utilisant des parenthèses

In [None]:
df[df['Units Sold'] > 30]

Utilisation de conditions logiques combinées.

Ici, on applique des opérations booléennes directement sur les colonnes du DataFrame pour construire une condition.

In [None]:
df[(df['Units Sold'] > 30) & ~(df['Day'] == 'Sunday')]

Création d'une liste de valeurs booléennes avec une compréhension de liste.

In [None]:
df[[x.startswith('T') for x in df['Type']]]

In [None]:
df.loc[df['Type'] == 'Dress', 'Units Sold']

Considérons la méthode **isin()** de Series, qui renvoie un vecteur booléen qui est vrai partout où les éléments Series existent dans la liste transmise. Cela vous permet de sélectionner les lignes où une ou plusieurs colonnes ont les valeurs que vous souhaitez :

In [None]:
df.isin([37, 'Dress', 'Tuesday'])

#### Souvent, vous voudrez faire correspondre certaines valeurs à certaines colonnes. Il suffit de créer un dict dont la clé est la colonne et 
# la valeur est une liste d'éléments que vous souhaitez vérifier.

**where()** 
La sélection de valeurs dans une série à l'aide d'un vecteur booléen renvoie généralement un sous-ensemble de données. 

Pour garantir que le résultat de la sélection a la même forme que les données d'origine, vous pouvez utiliser la méthode **where()** dans Series et DataFrame.


In [None]:
print(df[df['Units Sold'] > 40])

### 
df.where(df['Units Sold'] > 40)[:3]
# df.where(df['Units Sold'] > 40, -11)

**query()** -> La méthode **query()** permet de filtrer les lignes d'un DataFrame à l'aide de conditions exprimées sous forme de chaînes de caractères. 

Syntaxe lisible et proche du langage naturel.

In [None]:
## Query Exemples
df.query("Type == 'Dress'")

df.query("`Units Sold` > 30")

df.query("Type == 'Dress' and `Units Sold` > 20")

df.query("Type in ['Dress', 'Skirt']")

df.query("Day != 'Sunday'")

df.query("(`Units Sold` > 20 and `Units Sold` < 50) and (Type in ['Dress', 'Skirt', 'Sweater']) and (Day not in ['Sunday', 'Saturday'])")

Exercise : 

Pour chacune des queries ci-dessus, écrivez l'équivalent de l'indexation booléenne classique ci-dessous.

Vérifiez les résultats

##### Manipulation

Ajout de colonnes - L’ajout d’une colonne dans un DataFrame consiste à introduire une nouvelle variable en définissant ses valeurs pour chaque ligne.

In [31]:
df['Revenue'] = df['Units Sold'] * 10

In [32]:
#### autre méthode qui ne modifie pas directement le DataFrame original
# df.assign(Discounted_Price=df['Revenue'] * 0.9)

L’ajout d’une ligne permet d’inclure de nouvelles observations.



In [None]:
new_row = pd.DataFrame({'Day': ['Friday'], 'Type': ['Jacket'], 'Units Sold': [450]})
df = pd.concat([df, new_row], ignore_index = True)
df

Autre méthode : Utiliser .loc pour ajouter une ligne 

In [34]:
df.loc[len(df)] = ['Monday', 'Jeans', 30, 4500]

In [35]:
df_extra = pd.DataFrame({'Discount': [5, 10, 0, 20, 15]})
df_expanded = pd.concat([df, df_extra], axis=1)

Suppression de lignes et de colonnes

In [36]:
#### inplace applique directement la modification au tableau original
df.drop(columns = ['Revenue'], inplace = True)

# df.drop(columns = ['Type'])

In [None]:
#### Suppression de lignes
### Exemple : Supprimer toutes les ventes du dimanche
df[df['Day'] != 'Sunday']

In [38]:
### Suppression par index
# df.drop(index=[0, 2], inplace=True)

In [39]:
df['Revenue'] = df['Units Sold'] * 10

In [None]:
df

Exercise

1) Créer une colonne "Profit" en supposant que le coût de production d'un article est 5 par unité vendue.

2) Calculer les ventes totales par jour et les afficher dans un **barplot**.