![Data Dunkers Banner](https://github.com/Data-Dunkers/lessons/blob/main/images/top-banner.jpg?raw=true)

<a href="https://hub.callysto.ca/jupyter/hub/user-redirect/git-pull?repo=https%3A%2F%2Fgithub.com%2Fdata-dunkers%2Flessons&branch=main&subPath=data-filtering.ipynb&depth=1" target="_parent"><img src="https://raw.githubusercontent.com/Data-Dunkers/lessons/main/images/open-in-callysto-button.svg?sanitize=true" width="123" height="24" alt="Open in Callysto"/></a>
<a href="https://colab.research.google.com/github/data-dunkers/lessons/blob/main/data-filtering.ipynb" target="_parent"><img src="https://raw.githubusercontent.com/Data-Dunkers/lessons/main/images/open-in-colab-button.svg?sanitize=true" width="123" height="24" alt="Open in Colab"/></a>

# Leçon de Data Dunkers : Filtrer les données

Le cahier d'activités correspondant à ce cahier de leçons est disponible [ici] (https://github.com/Data-Dunkers/activities/blob/main/data-filtering.ipynb).

## Objectifs

A la fin de cette leçon, les élèves seront capables de :

- d'apprendre à filtrer les données pour se concentrer sur ce qui est important.
  - Exemple : Filtrer les statistiques de Pascal Siakam pour ne retenir que les saisons jusqu'en 2022-23.
- Comprendre le processus d'affinage des données pour une meilleure analyse.
  - Exemple : Supprimer les saisons et les colonnes non pertinentes des données de Pascal Siakam pour se concentrer sur ses principales performances.
- Appliquer des techniques simples pour nettoyer et préparer les données en vue de leur utilisation.
  - Exemple : Nettoyer un ensemble de données en éliminant les entrées contenant des informations incomplètes et en se concentrant sur les colonnes pertinentes.

## Importation / Entrée

Là encore, nous allons importer [pandas](https://pandas.pydata.org/) pour lire les données d'un [fichier CSV](https://en.wikipedia.org/wiki/Comma-separated_values).

In [None]:
import pandas as pd

# URL of the CSV file containing data for Pascal Siakam
url = 'https://raw.githubusercontent.com/pbeens/Data-Dunkers/main/Data/Pascal_Siakam.csv'

# Read the CSV file into a pandas DataFrame
df = pd.read_csv(url)

# Display the DataFrame
display(df)

## Ne prendre en compte que les saisons avec les Raptors

Il y a plusieurs choses que vous remarquerez dans les données ci-dessus. La première est qu'elles incluent des données de l'année où Pascal Siakam a été échangé avec les Indiana Pacers, ainsi qu'une ligne contenant les totaux et les moyennes de sa carrière. Pour éliminer ces éléments, nous pouvons simplement nous assurer que nous n'incluons que les données jusqu'à la saison 2022-23 incluse.

In [None]:
# Filter the DataFrame to exclude seasons after 2022-23
filter = df['SEASON_ID'] <= '2022-23'
df = df[filter]

# Display the filtered DataFrame
display(df)

## Comment réduire le nombre de colonnes

Réduisons le nombre de colonnes pour faciliter le travail. Pour ce faire, nous mettons en place un filtre, d'abord en spécifiant les colonnes que nous voulons conserver, puis en utilisant ce filtre pour filtrer le DataFrame.

In [None]:
# Filter the DataFrame to only include specific columns
columns_to_keep = [
    'SEASON_ID','PLAYER_AGE', 'GP', 'GS', 'MIN', 'AST', 'STL', 'FGM', 'FGA', 'FG_PCT', 'FG3M', 
    'FG3A', 'FG3_PCT', 'FTM', 'FTA', 'FT_PCT', 'PTS', 'FG2M', 'FG2A', 'FG2_PCT' 
]
df = df[columns_to_keep]

# Display the filtered DataFrame
display(df)

## Filtrage par pourcentage de lancers francs > 75%

Nous pouvons filtrer les données pour n'afficher que les lignes où le pourcentage de lancers francs de Pascal Siakam est supérieur à 75 %.

In [None]:
filter = df['FT_PCT'] > 0.75  # free throw % above 75%

# Display the filtered DataFrame
display(df[filter])

## ...et quand il a commencé chaque match

Et si nous ne voulions afficher que les saisons où il a commencé tous les matchs. Logiquement, il s'agirait des saisons où le nombre de matchs joués (GS) est égal au nombre de matchs commencés (GS). Nous pouvons filtrer en utilisant `==` qui signifie "est égal à".

In [None]:
filter = df['GS'] == df['GP'] # games started equals games 

# Display the filtered DataFrame
display(df[filter])

Il est même possible d'inclure plusieurs conditions. "`&`" signifie "et".

In [None]:
filter_1 = df['FT_PCT'] > 0.75 # free throw % above 75%
filter_2 = df['GS'] == df['GP'] # games started equals games

# Display the filtered DataFrame
display(df[filter_1 & filter_2])

Ce sont les symboles que nous utilisons pour les opérations de comparaison en Python :

|Symbole|Manière|
|-|-|
|>|plus grand que
|<|moins que|
|==|est égal à|
|!=|pas égal à|
|>=|Plus grand ou égal à
|<==inférieur ou égal à|
|et
||ou||

## Exercice

Dans la cellule ci-dessous, mettez à jour le code pour n'afficher que les lignes où le nombre de passes décisives ("AST") est supérieur à 200 ou le nombre d'interceptions ("STL") est supérieur à 50.

In [None]:
import pandas as pd

url = 'https://raw.githubusercontent.com/pbeens/Data-Dunkers/main/Data/Pascal_Siakam.csv'
df = pd.read_csv(url)

df = df[df['SEASON_ID'] <= '2022-23']

filter_1 = 
filter_2 = 
display(df) 

---
*Report issues or give us feedback about this notebook [here](https://docs.google.com/forms/d/e/1FAIpQLSdMRX2hPqZyD8-argFJXxB3ABQdLk3aUH1CAfmMEtcFAlWzCw/viewform?usp=pp_url&entry.1771525592=Module%20Resources%20%28the%20Jupyter%20notebooks%2C%20PPTS%20or%20additional%20resources%29&entry.1364186163=Filtering%20Our%20Data).*


---
Retour à [Leçons](https://github.com/pbeens/Data-Dunkers/blob/main/Lessons.ipynb)

---
