# Introduction to Pandas 

**pandas** est un paquet Python fournissant des structures de données rapides, flexibles et expressives conçues pour fonctionner avec des données *relationnelles* ou *étiquetées*. Il s'agit d'une bibliothèque haut niveau pour effectuer des analyses de données en Python. 

pandas est bien adapté pour :

- les données tabulaires avec des colonnes de type hétérogène, comme celles que l'on peut trouver dans un tableau SQL ou dans une feuille de calcul Excel
- des données ordonnées et non ordonnées (pas nécessairement à fréquence fixe), notamment des **séries temporelles**.
- Données arbitraires de type **matrice**, avec étiquettes de lignes et de colonnes

Pratiquement tout ensemble de données statistiques, étiquetées ou non, peut être converti en une structure de données pandas pour le nettoyage, la transformation et l'analyse.


### Caractéristiques principales
    
- Manipulation aisée des **données manquantes**.
- **Structure modifiable** : les colonnes peuvent être insérées et supprimées du DataFrame et des objets de dimensions supérieures
- Alignement automatique et explicite des données : les objets peuvent être explicitement alignés sur un ensemble d'étiquettes, ou les données peuvent être alignées automatiquement
- Fonctionnalités **group by** pour effectuer des opérations de combinaison de demandes séparées sur des ensembles de données
- Étiquetage intelligent basé sur le découpage, l'indexation et les sous-ensembles de grands ensembles de données
- Des ensembles de données intuitifs 
- **Etiquetage hiérarchique** des axes
- Des outils **I/O** robustes pour charger des données à partir de fichiers texte, de fichiers Excel, de bases de données et de HDF5
- **Fonctionnalité pour les séries temporelles** : génération de plages de dates et conversion de fréquence, statistiques de la fenêtre mobile, régressions linéaires de la fenêtre mobile, décalage et décalage des dates, etc.

### Convention d'importation de la bibliothèque

In [None]:
import pandas as pd

## Pandas Series

* Une Series panda est un array 1D (généralisation d'un array 1D de Numpy)
* Une Series a un *index* qui étiquette chaque élément du vecteur.
* Une `Series` peut être comparée à une liste ordonnées de clés-valeur.

In [None]:
counts = pd.Series([632, 1638, 569, 115])
counts

Si un index n'est pas specifié, par défaut une séquence d'entiers est utilisé. Les valeurs sont stockées en tant qu'un array NumPy, alors que l'index est un objet `Index` de pandas.

In [None]:
counts.values

### Objet Index 

Pandas permet d'accéder aux lignes grâce aux labels de l'index

In [None]:
counts.index

Si souhaité, on peut donner des labels plus "explicatifs"

In [None]:
bacteria = pd.Series([632, 1638, 569, 115], 
                     index=['Firmicutes', 'Proteobacteria', 
                            'Actinobacteria', 'Bacteroidetes'])

bacteria

Les fonctions associées à NumPy peuvent s'appliquer aux Series sans perdre la structure des données.

In [None]:
np.log(bacteria)

* Il est possible de créer un Series à partir d'un dictionnaire (clé:valeur)

In [None]:
bacteria_dict = {
    'Firmicutes': 632, 
    'Proteobacteria': 1638,
    'Actinobacteria': 569, 
    'Bacteroidetes': 115
}

pd.Series(bacteria_dict)

## DataFrames Pandas 

On veut souvent manipuler plus qu'un array 1D.

Un `DataFrame` est une structure tabulaire, qui regroupe plusieurs Series comme dans un tableur.

In [None]:
data = pd.DataFrame({'value': [632, 1638, 569, 115, 433, 1130, 754, 555],
                     'patient': [1, 1, 1, 1, 2, 2, 2, 2],
                     'phylum': ['Firmicutes', 'Proteobacteria', 'Actinobacteria', 
                                'Bacteroidetes', 'Firmicutes', 'Proteobacteria',
                                'Actinobacteria', 'Bacteroidetes']})
data

* Pour afficher les premières lignes d'un Dataframe on peut utiliser la fonction `head()` (ou `tail()` si on veut voir les dernières lignes.

In [None]:
data.head()

### Index des Columns

Le premier axe d'un DataFrame inclut les labels des colonnes

In [None]:
data.columns

## Lecture et Ecriture à partir de fichiers

* Pandas offre plusiers possibilités d'entrée/sortie
* `read_csv()` est une fonction permettant la lecture de fichiers de type csv

In [None]:
vessels = pd.read_csv("./data/AIS/vessel_information.csv")
vessels.head()

### Exercice

* Lire et afficher les premières 20 lignes du fichier `./data/NationalFoodSurvey/NFS_1974.csv`

In [None]:
%load solutions/read_nfs_1974.py


---