# Exploration de Pandas - Analyse et Manipulation de Données en Python

## Introduction :
Pandas est une bibliothèque open-source incontournable en Python pour l'analyse, la manipulation et la préparation de données. Elle fournit des structures de données flexibles et performantes, ainsi qu'un large éventail d'outils pour effectuer des opérations complexes sur les données tabulaires. Pandas est utilisée dans divers domaines, notamment l'analyse de données, la science des données et le développement d'applications axées sur les données.

## Principales Caractéristiques :

***DataFrames et Séries*** : Les deux structures de données fondamentales de Pandas sont les DataFrames et les Séries. Les DataFrames sont des tableaux bidimensionnels qui permettent de stocker et de manipuler des données tabulaires avec des colonnes potentiellement de types différents. Les Séries sont des structures unidimensionnelles similaires aux tableaux, mais avec des étiquettes d'index.

***Chargement et Sauvegarde de Données*** : Pandas offre des outils puissants pour importer des données à partir de divers formats tels que CSV, Excel, SQL, JSON, etc., ainsi que pour sauvegarder les résultats dans ces mêmes formats.

***Indexing et Sélection*** : Pandas propose des options flexibles pour indexer, sélectionner et filtrer les données en fonction des conditions, des valeurs d'index et des étiquettes de colonne.

***Nettoyage et Préparation des Données*** : La bibliothèque facilite le nettoyage des données en détectant et en traitant les valeurs manquantes, en supprimant les duplications et en transformant les données en vue de l'analyse.

***Opérations de Groupe et d'Aggrégation*** : Pandas permet de regrouper les données en fonction de critères spécifiques, puis d'effectuer des opérations d'agrégation telles que la somme, la moyenne, la médiane, etc., sur ces groupes.

***Manipulation de Colonnes*** : Vous pouvez ajouter, supprimer ou renommer des colonnes dans les DataFrames, ainsi que créer de nouvelles colonnes basées sur des calculs ou des conditions.

***Intégration avec d'autres Bibliothèques*** : Pandas s'intègre harmonieusement avec d'autres bibliothèques Python telles que NumPy, Matplotlib et SciPy pour réaliser des analyses et des visualisations de données plus avancées.

***Utilisation*** :
Pandas est utilisée dans une variété de scénarios, tels que la préparation de données avant l'analyse, la manipulation de jeux de données volumineux, la création de tableaux de bord interactifs, la génération de rapports et bien plus encore. Elle est une étape cruciale dans le flux de travail de la science des données, depuis l'acquisition des données brutes jusqu'à leur transformation en informations exploitables.

### Documentation

Il sera impossible de couvrir toutes les fonctionnalités de la bibliothèque Pandas ici, donc voici un lien pour la documentation si besoin (https://pandas.pydata.org/docs/getting_started/index.html#getting-started)

## Installation

Dans votre environnement virtuel

```bash
pip install pandas
```

En sélectionnant votre environnement virtuel, vous allez ainsi pouvoir utiliser la libairie.

In [2]:
import pandas as pd

### Lecture et sauvegarde d'un fichier

In [27]:
df = pd.read_csv("./dataframes/cities.csv")
df.to_csv("./dataframes/cities.csv", index=False)
df.head()

Unnamed: 0,LatD,LatM,LatS,NS,LonD,LonM,LonS,EW,City,State
0,41,5,59,N,80,39,0,W,Youngstown,OH
1,42,52,48,N,97,23,23,W,Yankton,SD
2,46,35,59,N,120,30,36,W,Yakima,WA
3,42,16,12,N,71,48,0,W,Worcester,MA
4,43,37,48,N,89,46,11,W,WisconsinDells,WI


### Colonnes

Le dataframe est un tableau avec des colonnes et des lignes. Les lignes sont généralement indéxées de 0 à n et les colonnes ont des noms que l'on peut accéder par l'attribut 'columns'.

In [29]:
list(df.columns)

['LatD', 'LatM', 'LatS', 'NS', 'LonD', 'LonM', 'LonS', 'EW', 'City', 'State']

On peut alors ensuite accéder à toutes les valeurs d'une colonne, voire même une seule valeur en prenant l'index.

In [30]:
df["State"]

0      OH
1      SD
2      WA
3      MA
4      WI
       ..
123    NV
124    SA
125    CA
126    PA
127    OH
Name: State, Length: 128, dtype: object

In [32]:
df["State"][3]

'MA'

### Fonctions de mapping

Cela permet de créer une nouvelle colonne en appliquant une opération sur une autre colonne. Par exemple, si je veux remplacer la colonne 'City' par une colonne 'City_min' où c'est écrit en minuscule. Je définis alors une fonction qui prend en paramètre 'x' et qui retourne ce que je désire. Et je peux ensuite définir ma nouvelle colonne en appliquant cette opération sur mon ancienne colonne.

In [33]:
def to_lower(x) :
    return x.lower()

df['City_min'] = df['City'].apply(lambda x : to_lower(x))

df.head()

Unnamed: 0,LatD,LatM,LatS,NS,LonD,LonM,LonS,EW,City,State,City_min
0,41,5,59,N,80,39,0,W,Youngstown,OH,youngstown
1,42,52,48,N,97,23,23,W,Yankton,SD,yankton
2,46,35,59,N,120,30,36,W,Yakima,WA,yakima
3,42,16,12,N,71,48,0,W,Worcester,MA,worcester
4,43,37,48,N,89,46,11,W,WisconsinDells,WI,wisconsindells


### Fonctions de filtre

Parfois, on ne va vouloir garder qu'une partie du dataframe sous certaines conditions. On va alors pouvoir faire des filtres pour supprimer une partie des données.

In [34]:
print("Il y a {} lignes.".format(len(df)))
df_cut = df[df["LatD"] < 42]
print("Il y a {} lignes.".format(len(df_cut)))

Il y a 128 lignes.
Il y a 86 lignes.


A noter que si l'on veut plusieurs conditions, le 'et' est symbolisé par & et le 'ou' par ||.

In [35]:
df_cut = df[(df["LatD"] < 42) & (df["LonM"] > 40)]
print("Il y a {} lignes.".format(len(df_cut)))

Il y a 23 lignes.


Il y a plein d'autres fonctionalités disponibles (on peut simuler les requêtes SQL) mais les deux principales dans ce tutoriel suffiront à comprendre la suite de noos tutoriels.

### Différents fichiers

Pour le moment, nous avons travaillé avec des fichiers '.csv' mais on peut aussi utiliser des fichiers excel ('.xlsx') avec la fonction ```pd.read_excel```. Les autres formats sont aussi disponibles avec d'autres noms de fonctions.