# Introduction
Ce notebook est une introduction à l'analyse de données avec Python. Nous allons explorer un jeu de données sur les performances des étudiants.

## Prérequis
- Python 3.12.0
- Bibliothèque tabulate pour l'affichage des données

## Objectifs
- Importer et visualiser les données
- Calculer des statistiques descriptives
- Analyser les distributions des scores

## Installation des dépendances
Exécuter cette cellule pour installer la bibliothèque tabulate nécessaire pour l'affichage des données.

In [1]:
!pip install tabulate



### Importation des bibliothèques
Exécuter cette cellule pour importer les bibliothèques nécessaires.

In [2]:
import csv
from tabulate import tabulate

## Les données
Cette cellule définit le chemin vers le fichier CSV contenant les données des étudiants.

In [3]:
file = "StudentsPerformance.csv"

### Fonction d'importation des données
Cette fonction permet de lire et parser le fichier CSV.

In [4]:
def import_csv(file):
    data = []
    with open(file) as csvfile:
        rows = csv.reader(csvfile, dialect='excel', delimiter=',', quotechar='|')
        for i, row in enumerate(rows):
            if i == 0:
                headers = row
                continue
            data.append(row)
    return data, headers

### Fonction d'affichage des données
Cette fonction utilise tabulate pour afficher les données de manière formatée.

In [5]:
def display_data(data, headers):
    print(tabulate(data, headers=headers))

### Importation et stockage des données
Exécuter cette cellule pour importer les données et les stocker dans les variables `data` et `headers`.

In [6]:
data, headers = import_csv(file)

### Affichage des données
Exécuter cette cellule pour afficher les données importées.

In [7]:
display_data(data, headers)

gender    race/ethnicity    parents_education    lunch         test_prep_course      math_score    reading_score    writing_score
--------  ----------------  -------------------  ------------  ------------------  ------------  ---------------  ---------------
female    group B           bachelor's degree    standard      none                          72               72               74
female    group C           some college         standard      completed                     69               90               88
female    group B           master's degree      standard      none                          90               95               93
male      group A           associate's degree   free/reduced  none                          47               57               44
male      group C           some college         standard      none                          76               78               75
female    group B           associate's degree   standard      none                       

## Moyenne

### Fonction de calcul de la moyenne
Cette fonction calcule la moyenne d'une liste de nombres.

In [8]:
def calculate_mean(numbers):
    return sum(numbers) / len(numbers)

### Calcul des moyennes
Cette cellule calcule les moyennes des notes pour chaque étudiant.

In [None]:
list_numbers = []
for i in range(len(data)):
    numbers = []
    row = data[i]
    numbers = [int(row[i]) for i in range(5,8)]
    mean = calculate_mean(numbers)
    numbers.append(mean)
    print(numbers)
    list_numbers.append(numbers)

[72, 72, 74, 72.66666666666667]
[69, 90, 88, 82.33333333333333]
[90, 95, 93, 92.66666666666667]
[47, 57, 44, 49.333333333333336]
[76, 78, 75, 76.33333333333333]
[71, 83, 78, 77.33333333333333]
[88, 95, 92, 91.66666666666667]
[40, 43, 39, 40.666666666666664]
[64, 64, 67, 65.0]
[38, 60, 50, 49.333333333333336]
[58, 54, 52, 54.666666666666664]
[40, 52, 43, 45.0]
[65, 81, 73, 73.0]
[78, 72, 70, 73.33333333333333]
[50, 53, 58, 53.666666666666664]
[69, 75, 78, 74.0]
[88, 89, 86, 87.66666666666667]
[18, 32, 28, 26.0]
[46, 42, 46, 44.666666666666664]
[54, 58, 61, 57.666666666666664]
[66, 69, 63, 66.0]
[65, 75, 70, 70.0]
[44, 54, 53, 50.333333333333336]
[69, 73, 73, 71.66666666666667]
[74, 71, 80, 75.0]
[73, 74, 72, 73.0]
[69, 54, 55, 59.333333333333336]
[67, 69, 75, 70.33333333333333]
[70, 70, 65, 68.33333333333333]
[62, 70, 75, 69.0]
[69, 74, 74, 72.33333333333333]
[63, 65, 61, 63.0]
[56, 72, 65, 64.33333333333333]
[40, 42, 38, 40.0]
[97, 87, 82, 88.66666666666667]
[81, 81, 79, 80.33333333333

### Définition des en-têtes
Cette cellule définit les en-têtes pour l'affichage des moyennes des notes.

In [10]:
headers2 = ["math_score","reading_score","writing_score","scores_mean"]

### Affichage des moyennes
Exécuter cette cellule pour afficher les moyennes calculées.

In [11]:
display_data(list_numbers, headers2)

  math_score    reading_score    writing_score    scores_mean
------------  ---------------  ---------------  -------------
          72               72               74        72.6667
          69               90               88        82.3333
          90               95               93        92.6667
          47               57               44        49.3333
          76               78               75        76.3333
          71               83               78        77.3333
          88               95               92        91.6667
          40               43               39        40.6667
          64               64               67        65
          38               60               50        49.3333
          58               54               52        54.6667
          40               52               43        45
          65               81               73        73
          78               72               70        73.3333
          50           

## Médiane

### Fonction de tri des données
Cette fonction permet de trier une liste de nombres.

In [12]:
def sort_data(numbers):
    sorted_numbers = sorted(numbers)
    return sorted_numbers

### Executer pour calculer la médiane

In [13]:
# Fonction pour calculer la médiane
def calculate_median(sorted_numbers):
    n = len(sorted_numbers)
    if n % 2 == 1:
        return sorted_numbers[n // 2]
    else:
        return (sorted_numbers[(n // 2) - 1] + sorted_numbers[n // 2]) / 2

In [14]:
means = []
for i in range(len(list_numbers)):
    row = list_numbers[i]
    mean = row[3]
    means.append(mean)

In [15]:
sorted_means = sort_data(means)

In [16]:
calculate_median(sorted_means)

68.33333333333333

### Calcul des quantiles
Cette fonction calcule les quantiles Q1, Q2 et Q3.

In [228]:
# Fonction pour calculer les quantiles
def calculate_quantiles(numbers):
    sorted_numbers = sort_data(numbers)
    n = len(sorted_numbers)
    
    # Indices des quartiles
    q1_index = (n - 1) * 0.25
    q2_index = (n - 1) * 0.5
    q3_index = (n - 1) * 0.75
    
    def get_quantile(index):
        value = sorted_numbers[int(index)]
        return value if index == int(index) else (value + sorted_numbers[int(index) + 1]) / 2
    
    return [
        ("Q1", get_quantile(q1_index)),
        ("Q2", get_quantile(q2_index)),
        ("Q3", get_quantile(q3_index))
    ]

In [None]:
calculate_quantiles(means)

### Fonction de calcul des min et max
Cette fonction trouve les valeurs minimales et maximales dans une liste.

In [219]:
# Fonction pour trouver les min et max
def find_min_max(numbers):
    if not numbers:
        return None, None
    min_val = min(numbers)
    max_val = max(numbers)
    return min_val, max_val

In [220]:
find_min_max(means)

(9.0, 100.0)

### Fonction de calcul de la variance
Cette fonction calcule la variance d'une liste de nombres.

In [221]:
# Fonction pour calculer la dispersion (variance)
def calculate_variance(numbers):
    if len(numbers) < 2:
        return 0
    mean = calculate_mean(numbers)
    squared_diffs = [(x - mean)**2 for x in numbers]
    variance = sum(squared_diffs) / (len(numbers) - 1) if len(numbers) > 1 else 0
    return variance

### Fonction de calcul de l'écart-type
Cette fonction calcule l'écart-type à partir de la variance.

In [None]:
# Fonction pour calculer l'écart-type
def calculate_standard_deviation(variance):
    if variance == 0:
        return 0.0
    return variance ** 0.5

### Calcul de la variance
Cette cellule calcule la variance des moyennes.

In [225]:
variance = calculate_variance(means)

### Calcul de l'écart-type
Cette cellule calcule l'écart-type à partir de la variance.

In [226]:
calculate_standard_deviation(variance)

14.257325984669144