# Types de données et valeurs manquantes
Traitez les problèmes de blocage de progression les plus courants

## Introduction
Dans ce tutoriel, vous apprendrez à examiner les types de données dans un DataFrame ou une Series, ainsi qu'à trouver et remplacer les valeurs manquantes.

## Dtypes (Types de données)
Le type de données d'une colonne dans un DataFrame ou une Series est connu sous le nom de ***dtype***.

### 1. Obtenir le type de données d'une colonne spécifique :
Par exemple, pour obtenir le type de la colonne price dans le DataFrame reviews :

In [5]:
import pandas as pd
reviews = pd.read_csv('winemag_data_130k_v2.csv', index_col=0)

In [7]:
reviews.price.dtype

dtype('float64')

### 2. Obtenir les types de toutes les colonnes dans le DataFrame :

In [9]:
reviews.dtypes

country                   object
description               object
designation               object
points                     int64
price                    float64
province                  object
region_1                  object
region_2                  object
taster_name               object
taster_twitter_handle     object
title                     object
variety                   object
winery                    object
dtype: object

Les types de données pour les chaînes de caractères sont affichés comme object, car il s'agit d'un type générique dans Pandas pour les objets non numériques.

### 3. Conversion des types de données :
Vous pouvez convertir une colonne d'un type à un autre en utilisant la fonction ***astype()***. Par exemple, pour convertir la colonne points de type ***int64*** en ***float64*** :

In [13]:
reviews.points.astype('float64')

0         87.0
1         87.0
2         87.0
3         87.0
4         87.0
          ... 
129966    90.0
129967    90.0
129968    90.0
129969    90.0
129970    90.0
Name: points, Length: 129971, dtype: float64

In [15]:
reviews.dtypes

country                   object
description               object
designation               object
points                     int64
price                    float64
province                  object
region_1                  object
region_2                  object
taster_name               object
taster_twitter_handle     object
title                     object
variety                   object
winery                    object
dtype: object

### 4. Le type de l'index : 
L'index d'un DataFrame ou Series possède aussi son propre **dtype** :

In [18]:
reviews.index.dtype

dtype('int64')

Pandas prend en charge des types de données plus complexes comme les **données catégorielles** et les **séries temporelles**, mais ces types seront abordés dans des sections ultérieures du tutoriel.

## Données manquantes
Les valeurs manquantes sont représentées par NaN (Not a Number) en Pandas. Pour des raisons techniques, les valeurs **NaN** sont toujours de type float64.

### - Sélectionner les entrées manquantes :
Vous pouvez utiliser ***pd.isnull()*** ou ***pd.notnull()*** pour identifier les valeurs manquantes :

In [23]:
reviews[pd.isnull(reviews.country)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
913,,"Amber in color, this wine has aromas of peach ...",Asureti Valley,87,30.0,,,,Mike DeSimone,@worldwineguys,Gotsa Family Wines 2014 Asureti Valley Chinuri,Chinuri,Gotsa Family Wines
3131,,"Soft, fruity and juicy, this is a pleasant, si...",Partager,83,,,,,Roger Voss,@vossroger,Barton & Guestier NV Partager Red,Red Blend,Barton & Guestier
4243,,"Violet-red in color, this semisweet wine has a...",Red Naturally Semi-Sweet,88,18.0,,,,Mike DeSimone,@worldwineguys,Kakhetia Traditional Winemaking 2012 Red Natur...,Ojaleshi,Kakhetia Traditional Winemaking
9509,,This mouthwatering blend starts with a nose of...,Theopetra Malagouzia-Assyrtiko,92,28.0,,,,Susan Kostrzewa,@suskostrzewa,Tsililis 2015 Theopetra Malagouzia-Assyrtiko W...,White Blend,Tsililis
9750,,This orange-style wine has a cloudy yellow-gol...,Orange Nikolaevo Vineyard,89,28.0,,,,Jeff Jenssen,@worldwineguys,Ross-idi 2015 Orange Nikolaevo Vineyard Chardo...,Chardonnay,Ross-idi
...,...,...,...,...,...,...,...,...,...,...,...,...,...
124176,,This Swiss red blend is composed of four varie...,Les Romaines,90,30.0,,,,Jeff Jenssen,@worldwineguys,Les Frères Dutruy 2014 Les Romaines Red,Red Blend,Les Frères Dutruy
129407,,Dry spicy aromas of dusty plum and tomato add ...,Reserve,89,22.0,,,,Michael Schachner,@wineschach,El Capricho 2015 Reserve Cabernet Sauvignon,Cabernet Sauvignon,El Capricho
129408,,El Capricho is one of Uruguay's more consisten...,Reserve,89,22.0,,,,Michael Schachner,@wineschach,El Capricho 2015 Reserve Tempranillo,Tempranillo,El Capricho
129590,,"A blend of 60% Syrah, 30% Cabernet Sauvignon a...",Shah,90,30.0,,,,Mike DeSimone,@worldwineguys,Büyülübağ 2012 Shah Red,Red Blend,Büyülübağ


#### - Remplacer les valeurs manquantes :
Vous pouvez remplacer les valeurs manquantes avec la méthode ***fillna()***. Par exemple, pour remplacer toutes les valeurs manquantes de la colonne **region_2** par ***"Unknown"*** :

In [27]:
reviews.region_2.fillna("Unknown")

0                   Unknown
1                   Unknown
2         Willamette Valley
3                   Unknown
4         Willamette Valley
                ...        
129966              Unknown
129967         Oregon Other
129968              Unknown
129969              Unknown
129970              Unknown
Name: region_2, Length: 129971, dtype: object

### - Stratégies de remplissage :
Une autre approche pour remplir les valeurs manquantes est **la méthode de backfill**, qui remplace chaque NaN par la première valeur non nulle qui apparaît après l'enregistrement manquant :

In [32]:
reviews.region_2.bfill()

0         Willamette Valley
1         Willamette Valley
2         Willamette Valley
3         Willamette Valley
4         Willamette Valley
                ...        
129966         Oregon Other
129967         Oregon Other
129968                  NaN
129969                  NaN
129970                  NaN
Name: region_2, Length: 129971, dtype: object

### - Remplacer des valeurs spécifiques :
Vous pouvez également utiliser la méthode ***replace()*** pour modifier des valeurs spécifiques dans le DataFrame. Par exemple, pour remplacer un ancien identifiant Twitter par un nouveau :

In [35]:
reviews.taster_twitter_handle.replace("@kerinokeefe", "@kerino")

0             @kerino
1          @vossroger
2         @paulgwine 
3                 NaN
4         @paulgwine 
             ...     
129966            NaN
129967    @paulgwine 
129968     @vossroger
129969     @vossroger
129970     @vossroger
Name: taster_twitter_handle, Length: 129971, dtype: object

Cela est particulièrement utile pour remplacer des valeurs manquantes ou des valeurs spécifiques (comme "Unknown", "Invalid", etc.).

### Conclusion
Ce tutoriel vous aide à comprendre comment travailler avec les types de données et les valeurs manquantes dans Pandas. Vous avez appris à examiner les types de données des colonnes, à les convertir et à gérer les données manquantes de manière efficace avec différentes méthodes telles que **fillna()** et **replace()**.

Pour plus de pratique, vous pouvez commencer les exercices disponibles dans le tutoriel.






