# Introduction à Pandas 

**Pandas** est une bibliothèque open source en Python dédiée à la **manipulation et à l’analyse de données**.
Les structures de données de Pandas reposent en grande partie sur **NumPy**, qui fournit les tableaux numériques sous-jacents.
Bien que des alternatives open source plus récentes et parfois plus performantes, comme **Polars**, existent aujourd’hui, Pandas reste très largement utilisé et constitue une excellente porte d’entrée pour apprendre la manipulation de données et découvrir ces nouvelles bibliothèques.

In [None]:
import numpy as np
import pandas as pd

Il existe principalement deux types de données dans la bibliothèque Pandas.

- Les suites d’éléments appelées **`Series`**, qui représentent des données unidimensionnelles.
- Les données organisées sous forme de tableaux bidimensionnels, appelées **`DataFrame`**.


## Series et DataFrame

Une série est essentiellement une suite d'élement (pas forcément du meme data type).

In [None]:
s = pd.Series([1,2, 5, np.nan, 6, 9, 'a'])
s

In [None]:
dates = pd.date_range('20260129', periods =  7)
print(dates)

Les tableaux de données sont construits de la manière suivante :

In [None]:
m1 = np.array([[10*i + j for j in range(4)] for i in range(7)])

In [None]:
tableau1 = pd.DataFrame(m1, index = dates, columns = list("ABCD"))
tableau1

Un dictionnaires (Key -> Value) peux être ulitsé pour crée un tableau de donnés:

In [None]:
tableau2 = pd.DataFrame(
    { "A": 1.0,
      "B": pd.Timestamp("20260129"),
      "C": pd.date_range('20260129', periods =  7),
      "D":  np.arange(7)+2.0,
      "E":  pd.Categorical(["a", "b","c","d","e","f","g"]),
   
    }
)

tableau2

In [None]:
tableau2.dtypes

Si tu utilises **IPython** (un interpréteur Python interactif), comme c’est le cas dans **Jupyter Notebook** ou **Google Colab**, tu peux explorer les fonctions et attributs disponibles en appuyant sur la touche `Tab`.

Par exemple, après avoir écrit `tableau2.` puis appuyé sur `Tab`, une liste des méthodes et attributs accessibles pour l’objet `frame2` s’affiche automatiquement.


In [None]:
tableau2.A

## Visualisation des données

Les attributs `head` et `tail` permettent d’afficher respectivement les premières et les dernières lignes d’un tableau.


In [None]:
tableau2.head()


In [None]:
tableau2.tail()

In [None]:
tableau2.tail(2)

In [None]:
tableau2.index

In [None]:
tableau2

In [None]:
numpymatrix = tableau1.to_numpy()
numpymatrix

La fonction `describe()` renvoie les principales statistiques descriptives du tableau.

In [None]:
tableau1.describe()

Comme pour les matrices, on peut renverser un tableau en utilisant la transposition.

In [None]:
tableau1.T

Ou réorganim̀ser les colonnes.


In [None]:
tableau2.sort_index(axis=1, ascending=False)

## Séléctions

In [None]:
colA = tableau1['A']
print(type(colA))
colA

In [None]:
tableau1[['B','C']]

On peut aussi effectuer des sélections par labels.


In [None]:
print(dates[0])
tableau1.loc[dates[0]]

Avec `:`, on sélectionne toutes les colonnes (ou toutes les lignes) correspondant à un certain label.


In [None]:
tableau1.loc[:, ["A", "B"]]

Selection par position, avec `.iloc`

In [None]:
tableau1.iloc[3]

In [None]:
tableau1.iloc[1:3,:]

In [None]:
tableau1.iloc[:,1:3]

In [None]:
tableau1.iloc[2,3]

On peut aussi utiliser des commandes de compréhension (sélections conditionnelles).  
La commande suivante sélectionne le sous-tableau correspondant aux lignes pour lesquelles les valeurs de la colonne `D` sont strictement supérieures à 3.5.

In [None]:
tableau2[tableau2["D"]>3.5]

In [None]:
tableau2['F']=pd.Series(np.arange(3,10))
tableau2

## Données manquantes:

Pour les données NumPy, `np.Nan (=Not a number) represente un donnée manquantes.

In [None]:
tableau1.loc[dates[0] : dates[1], "E"] = 1
tableau1

On peux remplir les cases où une donné manque de la façon suivante

In [None]:
tableau1.fillna(value=4)

## Concaténation de tableaux

Il est possible de concaténer plusieurs tableaux Pandas le long des lignes.

In [None]:
pieces = [tableau1[:3], tableau1[3:7], tableau1[7:]]
pieces

In [None]:
pd.concat(pieces)

Remarque: ajouter des colonnes est rapide, mais ajouter des lignes est coûteux.
Il est préférable de construire un DataFrame en une seule fois.


La fonction merge() permet d’effectuer des jointures de type SQL.

In [None]:
tableau3 = pd.DataFrame(
    {
        "date": pd.to_datetime(["2026-01-29", "2026-01-30", "2026-02-01"]),
        "valeur": [10, 20, 30],
    }
)

tableau4 = pd.DataFrame(
    {
        "date": pd.to_datetime(["2026-01-30", "2026-01-29", "2026-02-02"]),
        "F": [4, 3, 99],
    }
)

In [None]:
tableau3

In [None]:
tableau4

In [None]:
tableau5 = pd.merge(tableau3, tableau4, on="date")
tableau5

In [None]:
tableau6 = pd.merge(tableau3, tableau4, on="date",  how="left")
tableau6