# **Devoir: Manipulation des Données**

Temps estimé nécessaire : **30** minutes

Dans ce laboratoire, vous utiliserez les compétences acquises dans le module et aborderez les problèmes de gestion des données manquantes, corrigerez le type de données de l'attribut du dataframe et exécuterez les processus de standardisation et de normalisation des données sur des attributs spécifiques du jeu de données.


# Objectifs

Après avoir terminé ce laboratoire, vous serez capable de :

 - Gérer les données manquantes de différentes manières
 - Corriger le type de données de différentes valeurs selon les besoins
 - Standardiser et normaliser les attributs de données appropriés
 - Visualiser les données sous forme de graphique à barres groupées en utilisant le binning
 - Convertir une donnée catégorielle en variables indicatrices numériques


# Setup


### Importation des Bibliothèques Nécessaires

_Nous vous recommandons d'importer toutes les bibliothèques nécessaires en un seul endroit (ici) :_


In [7]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

Téléchargez le jeu de données mis à jour en exécutant la cellule ci-dessous.

Les fonctions ci-dessous téléchargeront le jeu de données dans votre navigateur :


In [3]:
#from pyodide.http import pyfetch
import requests

async def download(url, filename):
    #response = await pyfetch(url)
    response = requests.get(url)
    if response.status_code == 200:
        with open(filename, "wb") as f:
            f.write(response.content)

In [4]:
file_path= "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DA0101EN-Coursera/laptop_pricing_dataset_mod1.csv"

Pour obtenir le jeu de données, utilisez la fonction download() telle que définie ci-dessus :


In [5]:
await download(file_path, "laptops.csv")
file_name="laptops.csv"

Tout d'abord, nous chargeons les données dans un `pandas.DataFrame` :


In [12]:
df = pd.read_csv(file_name, header=0)

Vérifiez le chargement en affichant le résumé du dataframe en utilisant `dataframe.info()`


In [13]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 238 entries, 0 to 237
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Unnamed: 0      238 non-null    int64  
 1   Manufacturer    238 non-null    object 
 2   Category        238 non-null    int64  
 3   Screen          238 non-null    object 
 4   GPU             238 non-null    int64  
 5   OS              238 non-null    int64  
 6   CPU_core        238 non-null    int64  
 7   Screen_Size_cm  234 non-null    float64
 8   CPU_frequency   238 non-null    float64
 9   RAM_GB          238 non-null    int64  
 10  Storage_GB_SSD  238 non-null    int64  
 11  Weight_kg       233 non-null    float64
 12  Price           238 non-null    int64  
dtypes: float64(3), int64(8), object(2)
memory usage: 24.3+ KB
None


Affichez les 5 premières valeurs du dataframe mis à jour en utilisant `dataframe.head()`


In [10]:
df.head()

Unnamed: 0.1,Unnamed: 0,Manufacturer,Category,Screen,GPU,OS,CPU_core,Screen_Size_cm,CPU_frequency,RAM_GB,Storage_GB_SSD,Weight_kg,Price
0,0,Acer,4,IPS Panel,2,1,5,35.56,1.6,8,256,1.6,978
1,1,Dell,3,Full HD,1,1,3,39.624,2.0,4,256,2.2,634
2,2,Dell,3,Full HD,1,1,7,39.624,2.7,8,256,2.2,946
3,3,Dell,4,IPS Panel,2,1,5,33.782,1.6,8,128,1.22,1244
4,4,HP,4,Full HD,2,1,7,39.624,1.8,8,256,1.91,837


Notez que nous pouvons mettre à jour la colonne `Screen_Size_cm` de manière à ce que toutes les valeurs soient arrondies à 2 décimales près en utilisant `numpy.round()`


In [None]:
df[['Screen_Size_cm']] = np.round(df[['Screen_Size_cm']],2)
df.head()

# Tâche - 1

### Évaluer le jeu de données pour les données manquantes
Les données manquantes ont été converties de '?' à numpy.NaN. Pandas utilise les valeurs NaN et Null de manière interchangeable. Cela signifie que vous pouvez simplement identifier les entrées ayant des valeurs Null. Écrivez un code qui identifie quelles colonnes ont des données manquantes.


In [None]:
# Write your code below and press Shift+Enter to execute


# Tâche - 2

### Remplacer par la moyenne
Les valeurs manquantes dans les attributs ayant des données continues sont mieux remplacées par la valeur moyenne. Nous remarquons que les valeurs de l'attribut "Weight_kg" sont de nature continue et que certaines valeurs sont manquantes. Par conséquent, écrivez un code pour remplacer les valeurs manquantes du poids par la valeur moyenne de l'attribut.


In [None]:
# Write your code below and press Shift+Enter to execute


### Remplacer par la valeur la plus fréquente
Les valeurs manquantes dans les attributs ayant des données catégorielles sont mieux remplacées par la valeur la plus fréquente. Nous remarquons que les valeurs de l'attribut "Screen_Size_cm" sont de nature catégorielle et que certaines valeurs sont manquantes. Par conséquent, écrivez un code pour remplacer les valeurs manquantes de la taille de l'écran par la valeur la plus fréquente de l'attribut.


In [None]:
# Write your code below and press Shift+Enter to execute

<details>
    <summary>Click here for the solution</summary>
    
```python
# replacing missing data with mode
common_screen_size = df['Screen_Size_cm'].value_counts().idxmax()
df["Screen_Size_cm"].replace(np.nan, common_screen_size, inplace=True)
```
</details>


# Tâche - 3

### Correction des types de données
Les colonnes "Weight_kg" et "Screen_Size_cm" ont toutes deux le type de données "Object", alors qu'elles devraient avoir un type de données "float". Écrivez un code pour corriger le type de données de ces deux colonnes.


In [None]:
# Write your code below and press Shift+Enter to execute


# Tâche - 4

### Standardisation des Données
La valeur de la taille de l'écran est généralement exprimée en pouces. De même, le poids de l'ordinateur portable doit être en livres. Utilisez les unités de conversion mentionnées ci-dessous et écrivez un code pour modifier les colonnes du dataframe en conséquence. Mettez également à jour leurs noms.
```{math}
1 inch = 2.54 cm
1 kg   = 2.205 pounds
```


In [None]:
# Write your code below and press Shift+Enter to execute


### Normalisation des Données
Il est souvent nécessaire de normaliser un attribut de données continues. Écrivez un code pour normaliser l'attribut "CPU_frequency" par rapport à la valeur maximale disponible dans le jeu de données.


In [None]:
# Write your code below and press Shift+Enter to execute


# Tâche - 5

### Binning
Le binning est un processus de création d'un attribut catégoriel qui divise les valeurs d'une donnée continue en un nombre spécifié de groupes. Dans ce cas, écrivez un code pour créer 3 bins pour l'attribut "Price". Ces bins seront nommés "Low", "Medium" et "High". Le nouvel attribut sera nommé "Price-binned".


In [None]:
# Write your code below and press Shift+Enter to execute


De plus, affichez le graphique à barres de ces bins.


In [None]:
# Write your code below and press Shift+Enter to execute


# Tâche - 6

### Variables indicatrices
Convertissez l'attribut "Screen" du jeu de données en 2 variables indicatrices, "Screen-IPS_panel" et "Screen-Full_HD". Ensuite, supprimez l'attribut "Screen" du jeu de données.


In [None]:
# Write your code below and press Shift+Enter to execute


In [None]:
print(df.head())