# Pandas - Analyse statistique

**Libraries**

In [None]:
# pip install pandas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import csv

### Importation des données

Lien pandas: https://pandas.pydata.org/docs/

In [None]:
# Méthode 1: avec pandas
df = pd.read_csv("data_eleves.csv")
print(type(df))
print(df)

# Méthode 2: avec la librarie csv
# with open("data_eleves.csv", newline='', encoding='utf-8') as file:
#     reader = csv.reader(file)
#     for row in reader:
#         print(row)

### Visualisation des données

shape donne un tuple (nb_lignes, nb_colonnes)

In [None]:
print(f"Dimensions du DataFrame (lignes, colonnes) : {df.shape}")
print(f"Nombre de lignes : {df.shape[0]}")
print(f"Nombre de colonnes : {df.shape[1]}")

**Visualisation des premières lignes**

df.head() retourne les 5 premières lignes du dataframe.

In [None]:
df.head() 

# df.head(10)

**Affichage des noms de colonne** d'un dataframe

In [None]:
print(df.columns)

print(type(df.columns))

**Extraire les valeurs d'une colonne** d'un dataframe

In [None]:
df["Nom"]

**Indexation**

Par défaut, l'index est numérique. 

In [None]:
df.head()

In [None]:
df.index

# for i in df.index:
#     print(i)

In [None]:
df = df.set_index("Nom") # par défault, l'index est numérique 

df.head()

In [None]:
df.index

In [None]:
df = df.reset_index() # ou df.reset_index(inplace=True)

df.head()

**Extraire des valeurs** d'un dataframe

iloc[num_ligne, num_colonne] -> utiliser les positions numériques

loc[nom_ligne, nom_colonne] -> Utiliser les noms des lignes et colonnes (à indexer)

In [None]:
# Exemple 1 : première ligne, quatrième colonne (Maths)
valeur = df.iloc[0, 3]
print(f"Note de Maths (1ère ligne) : {valeur}")

# Exemple 2 : troisième ligne, dernière colonne (Anglais)
valeur = df.iloc[2, -1]
print(f"Note d'Anglais (3e ligne) : {valeur}")

# Exemple 3 : lignes 0 à 2 (exclu 3), colonnes 3 à 5 (Maths à Français)
sous_df = df.iloc[0:3, 3:6]
print(sous_df)

In [None]:
# Exemple 1 : note de Physique de la ligne 2
valeur = df.loc[2, "Physique"]
print(f"Physique de la ligne 2 : {valeur}")

In [None]:
df = df.set_index("Nom")

# Exemple 1 : note de Physique de Oscar_2
valeur = df.loc["Oscar_2", "Physique"]
print(f"Physique de Oscar_2 : {valeur}")

# Exemple 2 : ligne complète de Kevin_11
ligne_kevin = df.loc["Kevin_11"]
print("Infos de Kevin_11 :")
print(ligne_kevin)

# Exemple 3 : notes de Maths et Français pour Thiago_25
notes = df.loc["Thiago_25", ["Maths", "Français"]]
print("Notes d'Thiago_25 :")
print(notes)

**Extraire des valeurs** d'un dataframe conditionnellement

In [None]:
print("Élèves ayant plus de 15 en Maths :")
print(df[df["Maths"] > 15])
print("\n")

print("Filles en classe de Seconde :")
print(df[(df["Sexe"] == "F") & (df["Classe"] == "Seconde")])
print("\n")

print("Élèves ayant moins de 10 en Physique ou en Français :")
print(df[(df["Physique"] < 10) | (df["Français"] < 10)])
print("\n")

print("Garçons ayant entre 12 et 16 en Maths :")
print(df.loc[
    (df["Sexe"] == "M") & (df["Maths"].between(12, 16)),
    ["Maths"] # On ne met pas "Nom" c'est l'index ici il y sera par défaut !
])

**Trier** un dataframe

On utilise sort_values(by=[colonnes], ascending=[boolean])

In [None]:
print("Garçons ayant entre 12 et 16 en Maths (triés par note décroissante) :")
print(
    df.loc[
        (df["Sexe"] == "M") & (df["Maths"].between(12, 16)),
        ["Maths"]
    ].sort_values(by=["Maths"], ascending=[False])
)

df['Maths_arrondi'] = df['Maths'].round()

print("Garçons ayant entre 12 et 16 en Maths (triés par note décroissante) et par sexe (triés de manière croissant F avant M) :")
result = df.loc[
    df["Maths_arrondi"].between(12, 16),
    ["Sexe", "Maths_arrondi"]
].sort_values(by=["Maths_arrondi", "Sexe"], ascending=[False, True])

print(result)



In [None]:
df.drop(columns=["Maths_arrondi"], inplace=True)

df.head()

### Indicateurs statistiques

On utilise pour cela une seule commande : describe()

In [None]:
df.describe()

Nous pouvons isoler les indicateurs.

In [None]:
print(f"Moyenne en Maths : {df['Maths'].mean():.2f}")
print(f"Écart-type en Maths : {df['Maths'].std():.2f}")
print(f"Médiane en Maths : {df['Maths'].median():.2f}")
print(f"Nombre de valeurs (non nulles) en Maths : {df['Maths'].count()}")

### Travailler avec des séries

Une série en pandas est une structure de données unidimensionnelle (comme une colonne) qui contient des valeurs indexées, un peu comme une liste avec des étiquettes.

In [None]:
print(type(df["Maths"]))

In [None]:
# Série contenant les notes de Maths
notes_maths = df["Maths"]

# 1. Afficher les notes de Maths supérieures à 13
print("Notes de Maths supérieures à 13 :")
print(notes_maths[notes_maths > 13])
print("\n")

# 2. Valeurs uniques des notes de Maths
notes_maths_unique = notes_maths.unique()
print("Valeurs uniques des notes de Maths :")
print(notes_maths_unique)
print("\n")

# 3. Occurrences de chaque note (arrondies à l'entier pour une meilleure lisibilité)
# print(f"Index (les notes arrondies à l'entier) : {notes_maths.round(0).value_counts().index.to_list()}")
# print(f"La fréquence des notes : {notes_maths.round(0).value_counts().values}")
# print(notes_maths.round(0).value_counts())
notes_maths_occurences = notes_maths.round(0).value_counts().sort_index()
print("Nombre d'occurrences par note (arrondies) :")
print(notes_maths_occurences)
print("\n")

# 4. Occurrences en pourcentage
notes_maths_occurences_pourcentages = notes_maths.round(0).value_counts(normalize=True).sort_index()
print("Pourcentage d'apparition de chaque note (arrondies) :")
print(notes_maths_occurences_pourcentages)


In [None]:
plt.figure(figsize=(10, 6))
plt.bar(notes_maths_occurences_pourcentages.index.astype(str), notes_maths_occurences_pourcentages.values)
# ou
# notes_maths_occurences_pourcentages.plot.bar()

plt.title("Pourcentage d'apparition de chaque note en Maths (arrondie à l'entier)")
plt.xlabel("Note en Maths")
plt.ylabel("Pourcentage")
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()