![Data Dunkers Banner](https://github.com/Data-Dunkers/lessons/blob/main/images/top-banner.jpg?raw=true)

<a href="https://hub.callysto.ca/jupyter/hub/user-redirect/git-pull?repo=https%3A%2F%2Fgithub.com%2Fdata-dunkers%2Flessons&branch=main&subPath=data-from-csv.ipynb&depth=1" target="_parent"><img src="https://raw.githubusercontent.com/Data-Dunkers/lessons/main/images/open-in-callysto-button.svg?sanitize=true" width="123" height="24" alt="Open in Callysto"/></a>
<a href="https://colab.research.google.com/github/data-dunkers/lessons/blob/main/data-from-csv.ipynb" target="_parent"><img src="https://raw.githubusercontent.com/Data-Dunkers/lessons/main/images/open-in-colab-button.svg?sanitize=true" width="123" height="24" alt="Open in Colab"/></a>

# Leçon de Data Dunkers : Données d'un fichier CSV

Le cahier d'activités correspondant à ce cahier de leçons est disponible [ici] (https://github.com/Data-Dunkers/activities/blob/main/data-from-csv.ipynb).

## Objectifs

À la fin de cette leçon, les élèves seront capables de :
- Charger et afficher des données à partir d'un fichier CSV (Comma Separated Values).
    - Exemple : Charger et visualiser un ensemble de données de valeurs X et Y à partir d'un fichier CSV pour en comprendre la structure.
- Identifier et utiliser les colonnes de données.
    - Exemple : Identifier les colonnes "Saison" et "Points" pour visualiser les performances d'un joueur au fil du temps.
- Visualiser efficacement les données à l'aide de graphiques linéaires simples.
    - Exemple : Créez un graphique linéaire montrant la relation entre les valeurs X et Y des données CSV.

## IPO : Configuration et saisie

Une méthode courante consiste à obtenir les données en dehors du code, souvent à partir d'un fichier [CSV (comma separated values)] (https://en.wikipedia.org/wiki/Comma-separated_values).

Nous allons importer la [bibliothèque de code](https://en.wikipedia.org/wiki/Library_(computing)) appelée [pandas](https://pandas.pydata.org/) pour lire les données de [ce fichier CSV](https://raw.githubusercontent.com/pbeens/Data-Dunkers/main/Data/x-y-data.csv) dans un [DataFrame](https://www.w3schools.com/python/pandas/pandas_dataframes.asp).

In [None]:
import plotly.express as px
import pandas as pd

# Read the CSV file into a DataFrame named df
url = 'https://raw.githubusercontent.com/pbeens/Data-Dunkers/main/Data/x-y-data.csv'
df = pd.read_csv(url)

## IPO : Processus

Après avoir importé des données, il est important de les examiner pour s'assurer que tout se passe comme prévu. L'une des premières choses à faire est d'utiliser la fonction Pandas `head()` pour regarder rapidement les premières lignes des données.

In [None]:
df.head()

Qu'en est-il des rangées inférieures (nous n'examinerons que les deux rangées inférieures) ?

In [None]:
df.tail(2)

Vous verrez que Pandas a inséré un index dans la première colonne. Nous l'utiliserons plus tard.

En plus d'utiliser `head()` pour avoir un aperçu rapide des données, les data scientists utilisent souvent `df.columns` pour montrer quelles colonnes sont incluses.

In [None]:
df.columns

Il nous indique qu'il y a deux colonnes : 'X' et 'Y'. La casse des lettres est importante, il faut donc toujours y faire attention.

## IPO : Sortie

Et maintenant, traçons-le en utilisant Plotly Express (`px`). Nous procédons de la même manière qu'avec les données internes, mais nous spécifions également la variable dans laquelle le dataframe est stocké (`df`).

In [None]:
px.line(df, x='X', y='Y', title='Data from a CSV file')

Une autre façon de créer un graphique est de le stocker dans une variable et de l'afficher.

In [None]:
fig = px.line(df, x='X', y='Y', title='Data from a CSV file')
fig.show()

Si l'on met tout cela bout à bout, on obtient

In [None]:
# Setup
import plotly.express as px
import pandas as pd

# Input
url = 'https://raw.githubusercontent.com/pbeens/Data-Dunkers/main/Data/x-y-data.csv'
df = pd.read_csv(url)

# Process 
fig = px.line(data_frame=df, x='X', y='Y', title='Data from a CSV file')

# Output
fig.show()

## Et si nous voulions changer les noms des colonnes ?

S'il n'y a que quelques colonnes, vous pouvez simplement les réaffecter comme suit :

In [None]:
df.columns = ['X Value', 'X^2']

df.columns

### Supplémentaire

Si votre DataFrame contient de nombreuses colonnes et que vous ne devez en renommer que quelques-unes, vous pouvez le faire efficacement en utilisant Python [*dictionaries*](https://www.w3schools.com/python/python_dictionaries.asp). Cette méthode vous permet de spécifier uniquement les colonnes que vous souhaitez renommer sans affecter les autres.

In [None]:
df = df.rename(columns={'X Value': 'X', 'X^2': 'Y'})

df.columns

## Exercice

En utilisant le code ci-dessus comme exemple, utilisez les données ci-dessous pour tracer les buts marqués par Pascal Siakam au cours de sa carrière chez les Raptors.

In [None]:
url = 'https://raw.githubusercontent.com/Data-Dunkers/data-dunkers-modules/main/data-dunkers/Data/example.csv'



---
Dans la prochaine leçon, nous obtiendrons nos données à partir d'un fichier [Excel](data-from-excel.ipynb).

---
Retour à [Leçons](https://github.com/Data-Dunkers/lessons/blob/main/lessons.ipynb)