<a href="https://colab.research.google.com/github/gcorrigan/Integration-Mathematiques-Codage/blob/main/3_Initiation_%C3%A0_l'analyse_de_donn%C3%A9es_en_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Initiation à l'analyse de données en Python <img src="https://i.imgur.com/qUSxW7s.png" height=45 width=45 align=right>

## Les objectifs d’apprentissage
- Utiliser Python pour explorer un jeu de données et effectuer une analyse statistique sur des données à une ou deux variables
- Comprendre comment Python peut être utilisé pour effectuer une analyse de données

## Les critères de réussite

Je sais que je réussis quand :
- Je sais utiliser le code Python pour générer des boîtes à moustaches (alias *boxplot*) et des nuages de points (alias des graphiques de dispersion ou *scatterplot*)
- Je sais utiliser le code Python pour calculer le minimum, le maximum, la moyenne, la médiane et les quartiles d'un jeu de données 
- Je sais analyser la sortie du code pour évaluer sa signification statistique et mathématique
- Je sais modifier le code pour effectuer une analyse statistique



---

# Les feuilles de calcul <img src="https://1000logos.net/wp-content/uploads/2017/03/McDonalds-logo.png" height=115 width=200 align=right>

Dans cette activité, nous travaillerons avec des données nutritionnelles liées aux aliments du déjeuner disponibles aux restaurants McDonald's. Les données que nous utiliserons sont stockées dans une **feuille de calcul**. Une feuille de calcul est un tableau à deux dimensions de lignes et de colonnes contenant des données organisées. 

<img src="https://i.imgur.com/ERyR1QB.png" width=800>

Le jeu de données comprend les aliments du déjeuner servis chez McDonald's. La première colonne contient les noms des éléments. Les autres colonnes contiennent des informations nutritionnelles pour chaque élément : taille de la portion, calories, total lipides et protéines.

Cliquez sur <a href="https://docs.google.com/spreadsheets/d/1jztPCJmKDJkG01F4MhjSlQ6dSRmPh7cJ0fE57dsDauc/edit#gid=1733379091">feuille de calcul</a> pour voir le jeu de données. 

En utilisant Python, nous traiterons et analyserons cet jeu de données en effectuant des calculs statistiques et en affichant des graphiques.



---



## La moyenne et la médiane

*La moyenne* et *la médiane* sont deux mesures statistique utilisées pour représenter une valeur typique ou centrale d'un jeu de données.  

Bien qu'elles aient un objectif similaire, elles ont des façons différentes de produire un nombre.

**Quel est le processus de calcul de la moyenne ?**

La moyenne est calculée en additionnant toutes les valeurs dans un jeu de données et en divisant la somme par le nombre total de valeurs. Cela donne un nombre qui représente la valeur moyenne de toutes les données. 


**Quel est le processus de calcul de la médiane ?**

La médiane, quant à elle, est la valeur qui se trouve exactement au milieu d'un jeu de données trié par ordre croissant ou décroissant. Cela signifie que 50% des valeurs sont supérieures à la médiane et 50% sont inférieures.

---

Exécutez le bloc de code ci-dessous.

Les commandes Python ```import pandas as pd ``` et ``` import numpy as np```
importeront du code pour nous aider à effectuer **une analyse de données** sur notre jeu de données. L'analyse de données peut inclure la recherche de statistiques de base des données telles que la moyenne et la médiane, ainsi que la création de graphiques et de tableaux pour représenter nos données.


In [11]:
import pandas as pd
import numpy as np

Nous trouverons le nombre moyen et médian de calories parmi les aliments du déjeuner chez McDonald's. Exécutez le code ci-dessous pour trouver ces valeurs :

In [None]:
donnée = pd.read_csv("https://raw.githubusercontent.com/coding-integration/Integration-Mathematiques-Codage/main/Menu_dejeuner_McDonald.csv").dropna() # ouvrir notre jeu de données

moyenne = donnée["Calories"].mean() #calculer la moyenne de la colonne 'Calories'
médian = donnée["Calories"].median() #calculer la médian de la colonne 'Calories'



print("La moyenne des calories est", moyenne)
print("La médiane des calories est", médian)

---
<img src="https://www.eatthis.com/wp-content/uploads/sites/4/2019/08/best-worst-mcdonalds.jpg?quality=82&strip=1" height=200 width=250 align=right>

# Boîtes à moustaches

L'une des façons dont nous pouvons visualiser la distribution des données est avec une boîte à moustaches (également connu sous le nom *boxplot*). Une boîte à moustaches montrera les valeurs minimales et maximales ainsi que les quartiles des données. Mais d'abord, nous calculerons ces valeurs en utilisant Python.

Exécutez le code ci-dessous pour trouver le nombre minimum et maximum (le plus bas et le plus élevé) de calories parmi tous les éléments du menu McDonald's pour le déjeuner.



In [None]:
minimum = donnée["Calories"].min()

# utilisez la valeur minimale pour trouver l'élément avec le moins de calories
minÉlément = donnée.loc[donnée["Calories"] == minimum]["Element"].values[0]

maximum = donnée["Calories"].max()

# utilisez la valeur maximale pour trouver l'élément avec le plus de calories
maxÉlément = donnée.loc[donnée["Calories"] == maximum]["Element"].values[0]

print("L'élément ayant le moins de calories est le",minÉlément,"avec",minimum,"calories")
print("L'élément ayant le plus de calories est le",maxÉlément,"avec",maximum,"calories")

## Les quartiles

Rappel : **Les quartiles** divisent les données en 4 parties, chacune contenant 25% des données. Pour diviser les données, il faut les ranger dans l'ordre et calculer 3 valeurs (Q1, Q2 et Q3). Le calcul de ces valeurs nous permettra d'en apprendre davantage sur les données.

Exécutez le code ci-dessous pour calculer les quartiles Q1, Q2 et Q3.

In [None]:
Q1 = donnée["Calories"].quantile(0.25)
Q2 = donnée["Calories"].quantile(0.5)
Q3 = donnée["Calories"].quantile(0.75)

print("Q1:",Q1)
print("Q2:",Q2)
print("Q3:",Q3)

### Répondez aux questions :
1. Que nous disent les valeurs Q1 et Q3 ?
2. Quel est l'autre nom de Q2 ?



Double-cliquez **ici** pour entrer vos réponses.

## Génération d'une boîte à moustaches

Maintenant que nous avons calculé les valeurs, en utilisant Python, nous allons générer une boîte à moustaches. Exécutez le bloc de code ci-dessous pour générer la boîte à moustaches.

In [None]:
boxplot = donnée.boxplot(column=["Calories"], whis=[0,100])

#### Que peut nous dire cette boîte à moustaches sur la répartition des calories ?


Double-cliquez **ici** pour entrer vos réponses.



---


# Analyse de la corrélation entre deux variables

Nous allons créer un graphique en nuage de points en utilisant deux variables de notre jeu de données : les **calories** et les **lipides totales**.

## Hypothèse

1. Quel type de corrélation existe-t-il entre la quantité de calories et les lipides totales ? Justifiez votre raisonnement.
2. Est-ce que la quantité de calories et les lipides totales seront représentées par une ligne de tendance linéaire ou non linéaire ? Justifiez votre raisonnement.

Double-cliquez **ici** pour entrer vos réponses.

## Génération d'un graphique en nuage de points

Exécutez le code ci-dessous pour générer le nuage de points.

In [None]:
nuage_de_points = donnée.plot.scatter(x='Total Lipides', y='Calories')
#can change "Total Fat" or "Calories" to be other columns in the spreadsheet
x = np.array(donnée['Total Lipides'].tolist())
y = np.array(donnée['Calories'].tolist())

#calculate the trendline
z = np.polyfit(x, y, 1) 
p = np.poly1d(z)

nuage_de_points.plot(x,p(x),"r--") #plot the trendline

ligne_de_tendance = f"y={z[0]:0.3f}x{z[1]:+0.3f}" #prints the trendline as y=ax+b
print("La ligne de tendance de ce nuage de points est",ligne_de_tendance)

## Questions de consolidation :

1. Est-ce qu'il y a des valeurs aberrantes dans les données ? Comment pourraient-elles être expliquées ?
2. Rédigez une déclaration qui décrit la tendance. Assurez-vous d'utiliser un langage approprié.
3. Utilisez le graphique en nuage de points pour interpoler la quantité de lipides totales si un aliment contient 200 calories.
4. Utilisez le graphique en nuage de points pour extrapoler le nombre de calories si la quantité de lipides totales dans l'aliment est de 70.
5. Utilisez l'équation de la ligne de tendance pour vérifier vos calculs d'interpolation et d'extrapolation. 
6. Ces interpolations et extrapolations sont-elles précises ? Pourquoi ou pourquoi pas ? Quels facteurs pourraient influencer la précision de ces prédictions ?
7. Est-ce que vos hypothèses initiales sur la ligne de tendance et le type de corrélation étaient correctes ? Expliquez comment vous le savez.

Double-cliquez **ici** pour entrer vos réponses.



---


# Dernière matière à réflexion.....

Répondez aux questions suivantes :

Essayez de trouver des aliments qui ont des tailles de portion similaires, mais des calories différentes. Quels facteurs pourraient influencer la quantité de calories d'un aliment ?
Pensez-vous qu'il y aurait une différence dans l'analyse des données pour d'autres restaurants de restauration rapide ? Pourquoi ou pourquoi pas ?
Pensez-vous qu'il pourrait exister d'autres corrélations entre d'autres variables ? Essayez de changer le code dans la section **Génération d'un graphique en nuage de points** en utilisant d'autres colonnes de données.

Double-cliquez **ici** pour entrer vos réponses.