# IV-2. Cours Python : Introduction à Pandas
> Python - Chapter 4 - LESSON 2.

- toc: false 
- badges: true
- comments: false
- categories: [Python-Intermediary, Python-Pandas, Python-Pandas-Introduction]
- layout: post
- permalink: /python/chapter/4/lesson/2/

-Python
    - Pandas
        -lesson = Introduction à Pandas

Pandas est une librairie python qui permet de manipuler, analyser, nettoyer et explorer facilement des données.
Le nom "Pandas" fait référence à la fois à "Panel Data" et à "Python Data Analysis" 

## 1. Les Séries

Une série Pandas est un tableau étiqueté (avec un label), unidimensionnel capable de contenir n'importe quel type de données (entiers, chaînes, nombres à virgule flottante, objets Python, etc.). Les labels d'axe sont collectivement appelés `index`. Voici quelques exemples de création de séries :

In [None]:
import numpy as np
import pandas as pd

# Default index
data= [1, 7, 2]
a = pd.Series(data)
print(a)

# Labeled index
b = pd.Series(np.arange(0, 13, 3), index=["a", "b", "c", "d", "e"])
print(b)

# Create from dict
dico = {"b": 1, "a": 0, "c": 2}
c = pd.Series(dico)
print(c)

# Create from dict with base64
dico = {"a": 0.0, "b": 1.0, "c": 2.0}
d = pd.Series(dico)
print(d)

# Create from dict with index
e = pd.Series(dico, index=["b", "c", "d", "a"])
print(e)

# Create with fixed value
f = pd.Series(5.0, index=["a", "b", "c", "d", "e"])
print(f)


Une serie agit de manière très similaire à un `ndarray` et constitue un argument valide pour la plupart des fonctions NumPy. Cependant, des opérations telles que le slicing trancheront également l'index

In [None]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

print(s[0])

print(s[:3])

print(s[s > s.median()])

print(s[[4, 3, 1]])

print(np.exp(s))



Une série est comme un `dict` de taille fixe dans la mesure où vous pouvez obtenir et définir des valeurs par le label d'index :

In [None]:
print(s["a"])

s["e"] = 12.0
print(s)

print("e" in s)

print("f" in s)

Les séries ont un nom :

In [None]:
# Create serie with name
s = pd.Series(np.random.randn(5), name="something")
print(s)
print(s.name)

# Create new serie renamed
s2 = s.rename("different")
print(s2.name)


## 2. Les Dataframes

Un `DataFrame` est une structure de données étiquetée en 2 dimensions avec des colonnes de types potentiellement différents. Vous pouvez le considérer comme une feuille de calcul ou une table `SQL`, ou un `dict` d'objets `Series`. C'est l'objet pandas le plus couramment utilisé. Comme pour un `Series`, un `DataFrame` accepte de nombreux types d'entrées :

 - Dict de ndarrays 1D, listes, dicts ou séries
 - numpy.ndarray 2D
 - ndarray structuré
 - Une série
 - Un autre DataFrame

En plus des données, vous pouvez éventuellement transmettre des arguments d'index (label de ligne) et de colonnes (label de colonne).

In [None]:
# --- Build from dict of series ---
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
}
df = pd.DataFrame(d)
print(df)

# Set indexes
df = pd.DataFrame(d, index=["d", "b", "a"])
print(df)

# Set columns
df = pd.DataFrame(d, index=["d", "b", "a"], columns=["two", "three"])
print(df)

# Show indexes and columns
print(df.index)
print(df.columns)


# --- Build from dict of lists ---
d = {"one": [1.0, 2.0, 3.0, 4.0], "two": [4.0, 3.0, 2.0, 1.0]}
df = pd.DataFrame(d)
print(df)

# Set indexes
df = pd.DataFrame(d, index=["a", "b", "c", "d"])
print(df)


# --- From csv ---
df = pd.read_csv("\file_path\data.csv")
print(df)

### Pratique :

Pandas permet de lire des fichiers CSV, JSON, Excel, etc. Suivez le tutoriel suivant pour en savoir plus sur les formats de fichiers supportés (vous allez vouloir par la suite lire toutes vos sources de données avec Pandas ) :

https://pandas.pydata.org/docs/getting_started/intro_tutorials/02_read_write.html#min-tut-02-read-write

Vous pouvez traiter un `DataFrame` comme un `dict` d'objets Series indexés de la même manière. Obtenir, définir et supprimer des colonnes fonctionne avec la même syntaxe que les opérations `dict` analogues :

In [None]:
# Show column "one"
print(df["one"])

# Create column "three"
df["three"] = df["one"] * df["two"]
print(df)

# Create column "flag"
df["flag"] = df["one"] > 2
print(df)

# Delete column "flag"
del df["flag"]
print(df)

# Get and delete column "three"
three = df.pop("three")
print(df)

# Set fixed value
df["foo"] = "bar"
print("df")

# Create column "one_trunc"
df["one_trunc"] = df["one"][:2]
print(df)

# Insert column "bar"
df.insert(1, "bar", df["one"])
print(df)


Les `DataFrame` ont une méthode `assign()` qui vous permet de créer facilement de nouvelles colonnes potentiellement dérivées de colonnes existantes :

In [None]:
dfa = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
dfa2 = dfa.assign(C=dfa["A"] + dfa["B"])
print(dfa2)

dfa3 = dfa.assign(C=lambda x: x["A"] + x["B"], D=lambda x: x["A"] + x["C"])
print(dfa3)

### L'indexation et selection

Les bases de l'indexation sont les suivantes :

| Operation | Syntaxe | 
| --------- | ------ | 
| Select column | `df[col]` |
| Select row by integer location | `df.iloc[loc]` | 
| Slice rows | `df[5:10]` | 
| Select rows by boolean vector | `df[bool_vec]` | 

In [None]:
df = pd.DataFrame(np.random.randn(10, 4), columns=["A", "B", "C", "D"])

print(df["B"])
print(df.iloc[2])
print(df[5:10])

### Alignement des données et arithmétique

L'alignement des données entre les objets `DataFrame` s'aligne automatiquement sur les colonnes et l'index (labels de ligne). Encore une fois, l'objet résultant aura l'union des labels de colonne et de ligne.


In [None]:
df = pd.DataFrame(np.random.randn(10, 4), columns=["A", "B", "C", "D"])
df2 = pd.DataFrame(np.random.randn(7, 3), columns=["A", "B", "C"])

print(df + df2)

print(df - df.iloc[0])

print(df * 5 + 2)

print(1 / df)

print(df ** 4)

# Transpose
print(df.T)

# Sort
print(df.sort_values(by="B"))

# --- Boolean operators ---

df1 = pd.DataFrame({"a": [1, 0, 1], "b": [0, 1, 1]}, dtype=bool)
df2 = pd.DataFrame({"a": [0, 1, 1], "b": [1, 1, 0]}, dtype=bool)

print(df1 & df2)

print(df1 | df2)

print(df1 ^ df2)

print(-df1)


## 3. Affichage

Les très gros `DataFrames` seront tronqués pour les afficher dans la console. Vous pouvez également obtenir un résumé en utilisant `info()`.

In [None]:
df = pd.DataFrame(np.random.randn(200, 4), columns=["A", "B", "C", "D"])

print(df)

df.info()

df.head()
df.head(10)

df.tail()

df.describe()

### Pratique : Exploration des attributs et méthodes utiles dans les objets dataframes

Les `DataFrames` ont des attributs et des méthodes qui sont utiles pour la manipulation des données. Utilisez `dir()`, `help()` et `print()` pour explorer les méthodes et les attributs disponibles. En vous attardant sur les suivants :

Attributs : dtypes, columns, axes, ndim, size, shape, values

Méthodes : head(), describe(), max(), min(), min(), mean(), median(), count(), dropna(), sample()



### Pratique 3 : Exploration du dataframe salaries


En vous appuyant sur le fichier `salaries.csv` fourni, chargez le et répondez aux questions suivantes : 

 -1) Quel est le type de la colonne `salary` ?

 -2) Quel est le type de toutes les colonnes ?

 -3) Selectionnez la colonne `salary` et affichez la valeur la plus élevée.

 -4) Selectionnez les 20 premières lignes du dataframe

 -5) Affichez les 2 dernières lignes du dataframe

 -6) Give the summary for the numeric columns in the dataset

 -7) Calculer l'écart type pour chaque colonne numérique

 -8) Quelle est la moyenne des salaires ?
 
 -9) Quel est la le grade le plus répondu dans le dataframe ?

 -10) Structurer votre code pour avoir deux fonctions : Une pour la lecture et Quel est le grade le moins répondu dans le dataframe ?

 Documentation Pandas à voir : https://pandas.pydata.org/docs/getting_started/index.html
