# Pandas et les Dataframes

## Pandas First Steps

### Install and import
Pandas est un paquet facile à installer. Ouvrez votre programme de terminal (pour les utilisateurs de Mac) ou votre ligne de commande (pour les utilisateurs de PC) et installez-le à l'aide de l'une des commandes suivantes:

Alternativement, vous pouvez exécuter cette cellule pour installer pandas à partir de 'pip':

Le "!" Au début exécute les cellules comme si elles étaient dans un terminal.

Pour importer pandas, nous l'importons généralement avec un nom plus court car il est tellement utilisé:

In [1]:
import pandas as pd

Passons maintenant aux composants de base de pandas.

## Core components of pandas: Series and DataFrames

### Créer des DataFrames à partir de zéro
Créer des DataFrames directement en Python est bon à savoir et très utile lors du test de nouvelles méthodes et fonctions que vous trouverez dans la documentation pandas.

Il y a * beaucoup * de façons de créer un DataFrame à partir de rien, mais une bonne option consiste simplement à utiliser un simple `dict`.

Disons que nous avons un kiosque à fruits qui vend des pommes et des oranges. Nous voulons avoir une colonne pour chaque fruit et une rangée pour chaque achat client. Pour organiser cela comme un dictionnaire pour pandas, nous pourrions définir un dictionnaire de la forme :
    - {'key1': [value1, value2, value3..], 'key2': [value1, value2, value3...]} 

In [10]:
kiosque = {'pommes': [1,5,3], 'oranges': [6,2,4]}

Et puis transmettez-le au constructeur DataFrame de pandas (pd.DataFrame()):

In [11]:
df = pd.DataFrame(kiosque)
df

Unnamed: 0,pommes,oranges
0,1,6
1,5,2
2,3,4


Comment cela a-t-il fonctionné? 

Chaque élément * (clé, valeur) * dans `data` correspond à une colonne dans le DataFrame résultant.

L'Index de ce DataFrame nous a été attribué lors de la création sous les chiffres 0,1,2,3..., mais nous pourrions également créer le nôtre lorsque nous initialisons le DataFrame.

Ayons les noms de clients comme index: index=['June', 'Robert', 'Lily', 'David'] comme argument 

In [14]:
df2 = pd.DataFrame(kiosque, index=['June', 'Robert', 'Lily'])
df2

Unnamed: 0,pommes,oranges
June,1,6
Robert,5,2
Lily,3,4


Nous pouvons donc maintenant ** localiser la commande d'un client en utilisant son nom: (utiliser df.loc[])

In [17]:
df2.loc['Robert']

pommes     5
oranges    2
Name: Robert, dtype: int64

In [18]:
df2.loc['Robert':'Lily']

Unnamed: 0,pommes,oranges
Robert,5,2
Lily,3,4


In [19]:
df2.loc['Robert','pommes']

5

In [21]:
df2.iloc[1:3]

Unnamed: 0,pommes,oranges
Robert,5,2
Lily,3,4


Vous trouverez plus d'informations sur la localisation et l'extraction de données à partir de DataFrame ultérieurement, mais vous devriez maintenant pouvoir créer un DataFrame avec toutes les données aléatoires sur lesquelles apprendre.

Passons maintenant à quelques méthodes rapides pour créer des DataFrames à partir de diverses autres sources.

In [22]:
df2.iloc[1:3,1]

Robert    2
Lily      4
Name: oranges, dtype: int64

## Comment lire les données

C’est assez simple de charger des données de différents formats de fichiers dans un DataFrame. Dans les exemples suivants, nous continuerons à utiliser nos données relatives aux pommes et aux oranges, mais cette fois-ci, elles proviennent de différents fichiers.

## Comment lire les données

C’est assez simple de charger des données de différents formats de fichiers dans un DataFrame. Dans les exemples suivants, nous continuerons à utiliser nos données relatives aux pommes et aux oranges, mais cette fois-ci, elles proviennent de différents fichiers : 'purchases.csv'

In [24]:
df_purch = pd.read_csv("purchases.csv")
df_purch

Unnamed: 0.1,Unnamed: 0,apples,oranges
0,June,3,0
1,Robert,2,3
2,Lily,0,7
3,David,1,2


Les CSV n’ont pas d’index comme nos DataFrames, il suffit donc de désigner le `index_col` lors de la lecture: index_col=0

In [31]:
df_purch2 = pd.read_csv("purchases.csv", index_col=0)
df_purch2

Unnamed: 0,apples,oranges
June,3,0
Robert,2,3
Lily,0,7
David,1,2


Ici, nous définissons l'index pour être la colonne zéro.

Vous constaterez que la plupart des CSV n'auront jamais de colonne d'index et que, par conséquent, vous n'avez pas à vous soucier de cette étape.

### Lecture de données à partir de JSON

Si vous avez un fichier JSON - qui est essentiellement un `dict` Python stocké - pandas peuvent le lire aussi facilement: 'purchases.json'

In [29]:
df_purch3 =pd.read_json("purchases.json")
df_purch3

Unnamed: 0,apples,oranges
June,3,0
Robert,2,3
Lily,0,7
David,1,2


In [30]:
from json import dumps, loads

purch_dict = loads(open("purchases.json", 'r').read()) # loads: Str => Dict # dumps : Dict => Str

print(purch_dict)
print(type(purch_dict))

df_purch4 = pd.DataFrame(purch_dict)
df_purch4

{'apples': {'June': 3, 'Robert': 2, 'Lily': 0, 'David': 1}, 'oranges': {'June': 0, 'Robert': 3, 'Lily': 7, 'David': 2}}
<class 'dict'>


Unnamed: 0,apples,oranges
June,3,0
Robert,2,3
Lily,0,7
David,1,2


Remarquez que cette fois, notre index nous a été fourni correctement car l'utilisation de JSON permettait aux index de fonctionner via l'imbrication. N'hésitez pas à ouvrir `data_file.json` dans un bloc-notes afin de voir comment cela fonctionne.

## Principales opérations DataFrame

Les DataFrames possèdent des centaines de méthodes et d’autres opérations cruciales pour toute analyse. En tant que débutant, vous devez connaître les opérations qui effectuent des transformations simples de vos données et celles qui fournissent une analyse statistique fondamentale.

Commençons par charger le jeu de données films IMDB:

In [34]:
df_imdb = pd.read_csv("IMDB-Movie-Data.csv", index_col=1)
df_imdb

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0


Nous chargeons cet ensemble de données à partir d'un fichier CSV et désignons les titres de film comme étant notre index.

### Voir vos données

La première chose à faire lors de l’ouverture d’un nouveau jeu de données est d’imprimer quelques lignes à conserver comme référence visuelle. Nous accomplissons cela avec `.head ()`:

In [35]:
df_imdb.head()

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


`.head ()` affiche les ** premières ** ** lignes de votre DataFrame par défaut, mais nous pourrions également passer un nombre: `movies_df.head (10)` afficherait les dix premières lignes, par exemple.

Pour voir les ** dernières ** cinq dernières lignes, utilisez `.tail ()`. `tail ()` accepte également un nombre, et dans ce cas, nous imprimons les deux dernières lignes.

In [36]:
df_imdb.tail()

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0
Nine Lives,1000,"Comedy,Family,Fantasy",A stuffy businessman finds himself trapped ins...,Barry Sonnenfeld,"Kevin Spacey, Jennifer Garner, Robbie Amell,Ch...",2016,87,5.3,12435,19.64,11.0


Généralement, lorsque nous chargeons un jeu de données, nous aimons afficher les cinq premières lignes environ pour voir ce qu'il y a sous le capot. Ici, nous pouvons voir les noms de chaque colonne, l’index et des exemples de valeurs dans chaque ligne.

Vous remarquerez que l'index de notre DataFrame est la colonne * Title *, que vous pouvez déterminer par la façon dont le mot * Title * est légèrement inférieur au reste des colonnes.

### Traitement des doublons

Cet ensemble de données ne contient pas de lignes en double, mais il est toujours important de vérifier que vous n'agrégez pas des lignes en double.

Pour illustrer notre propos, doublons simplement nos films DataFrame en les ajoutant à lui-même:

In [45]:
df_x2 = df_imdb.append(df_imdb)
df_x2 = pd.DataFrame(temp)

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0


L'utilisation de `append ()` renverra une copie sans affecter le DataFrame d'origine. Nous capturons cette copie dans `temp`, nous ne travaillons donc pas avec les données réelles.

Remarquez que l'appel `.shape` prouve rapidement que nos lignes DataFrame ont doublé.

Maintenant, nous pouvons essayer de supprimer les doublons: utiliser .drop_duplicates()

In [48]:
df_x2.drop_duplicates(inplace=True)
#ou
df_x2 = df_x2.drop_duplicates()
df_x2

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Secret in Their Eyes,996,"Crime,Drama,Mystery","A tight-knit team of rising investigators, alo...",Billy Ray,"Chiwetel Ejiofor, Nicole Kidman, Julia Roberts...",2015,111,6.2,27585,,45.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0
Search Party,999,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0


Tout comme `append ()`, la méthode `drop_duplicates ()` renverra également une copie de votre DataFrame, mais cette fois, les doublons seront supprimés. L'appel de `.shape` confirme que nous sommes revenus aux 1000 lignes de notre jeu de données d'origine.

Maintenant, notre `temp_df` * aura * les données transformées automatiquement.

Un autre argument important pour `drop_duplicates ()` est `keep`, qui a trois options possibles:

* `first`: (par défaut) Supprime les doublons sauf pour la première occurrence.
* `last`: Supprime les doublons à l'exception de la dernière occurrence.
* `False`: Supprime tous les doublons.

Comme nous n'avons pas défini l'argument `keep` dans l'exemple précédent, il a été remplacé par défaut par `first`. Cela signifie que si deux rangées sont identiques, pandas abandonnera la deuxième et conserveront la première. L'utilisation de `last` a l'effet inverse: la première ligne est supprimée.

`keep`, en revanche, supprimera tous les doublons. Si deux lignes sont identiques, les deux seront supprimées. Regardez ce qui arrive à `temp_df`:

Toutes les lignes étant des doublons, `keep = False` les a toutes supprimées, de sorte qu'il ne reste aucune ligne. Si vous vous demandez pourquoi vous voudriez faire cela, une des raisons est que cela vous permet de localiser tous les doublons dans votre jeu de données. Lorsque les sélections conditionnelles sont indiquées ci-dessous, vous verrez comment procéder.

### Nettoyage des colonnes

Plusieurs fois, les ensembles de données auront des noms de colonne détaillés avec des symboles, des mots en majuscules et minuscules, des espaces et des fautes de frappe. Pour faciliter la sélection des données par nom de colonne, nous pouvons passer un peu de temps à nettoyer leurs noms.

Voici comment imprimer les noms de colonne de notre jeu de données: utiliser .columns

In [49]:
df_imdb.columns

Index(['Rank', 'Genre', 'Description', 'Director', 'Actors', 'Year',
       'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)',
       'Metascore'],
      dtype='object')

`.Column` est non seulement pratique si vous souhaitez renommer des colonnes en permettant un simple copier-coller, il est également utile si vous devez comprendre pourquoi vous recevez une` Key Error` lorsque vous sélectionnez des données par colonne.


que faire si nous voulons mettre tous les noms en minuscule? Au lieu d'utiliser `.rename ()`, nous pourrions également définir une liste de noms pour les colonnes, comme ceci: .columns = [...]

### Comment travailler avec des valeurs manquantes

Lorsque vous explorez des données, vous rencontrerez très probablement des valeurs manquantes ou null, qui sont essentiellement des espaces réservés pour des valeurs inexistantes. Le plus souvent, vous verrez «Aucun» de Python ou «np.nan» de NumPy, chacun étant traité différemment dans certaines situations.

Il existe deux options pour traiter les valeurs nulles:

1. Se débarrasser des lignes ou des colonnes avec des valeurs NULL
2. Remplacez les valeurs NULL par des valeurs non NULL, une technique appelée imputation

Calculons le nombre total de valeurs nuls dans chaque colonne de notre jeu de données. La première étape consiste à vérifier quelles cellules de notre DataFrame sont nulles: .isnull()

In [51]:
df_imdb['Revenue (Millions)'].isnull().sum()

128

Notice `isnull ()` renvoie un DataFrame dans lequel chaque cellule a la valeur True ou False, en fonction du statut null de cette cellule.

Pour compter le nombre de valeurs NULL dans chaque colonne, nous utilisons une fonction d'agrégation pour additionner: .sum()

In [53]:
df_imdb.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, Guardians of the Galaxy to Nine Lives
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                1000 non-null   int64  
 1   Genre               1000 non-null   object 
 2   Description         1000 non-null   object 
 3   Director            1000 non-null   object 
 4   Actors              1000 non-null   object 
 5   Year                1000 non-null   int64  
 6   Runtime (Minutes)   1000 non-null   int64  
 7   Rating              1000 non-null   float64
 8   Votes               1000 non-null   int64  
 9   Revenue (Millions)  872 non-null    float64
 10  Metascore           936 non-null    float64
dtypes: float64(3), int64(4), object(4)
memory usage: 93.8+ KB


`.isnull ()` par lui-même n'est pas très utile, et est généralement utilisé en conjonction avec d'autres méthodes, comme `sum ()`.

Nous pouvons voir maintenant que nos données ont 128 valeurs manquantes pour `revenue_millions` et 64 valeurs manquantes pour` metascore`.

#### Supprimer les valeurs nulles

Les data scientists et les analystes de données sont régulièrement confrontés au dilemme consistant à supprimer ou à imputer des valeurs nulles. C'est une décision qui nécessite une connaissance intime de vos données et de leur contexte. Dans l’ensemble, la suppression des données nulles n’est suggérée que si vous avez une petite quantité de données manquantes.

Supprimer les valeurs nulles est assez simple: .dropna()

In [56]:
# df_imdb.dropna(subset = ['Revenue (Millions)', 'Metascore'], inplace = True)
# ou
df_imdb_dropna = df_imdb.dropna(subset = ['Revenue (Millions)', 'Metascore'])
df_imdb_dropna

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Resident Evil: Afterlife,994,"Action,Adventure,Horror",While still out to destroy the evil Umbrella C...,Paul W.S. Anderson,"Milla Jovovich, Ali Larter, Wentworth Miller,K...",2010,97,5.9,140900,60.13,37.0
Project X,995,Comedy,3 high school seniors throw a birthday party t...,Nima Nourizadeh,"Thomas Mann, Oliver Cooper, Jonathan Daniel Br...",2012,88,6.7,164088,54.72,48.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0


Cette opération supprimera toute ligne ** comportant au moins une valeur null unique, mais renverra un nouveau DataFrame sans altérer celui d'origine. Vous pouvez également spécifier `inplace = True` dans cette méthode.

Ainsi, dans le cas de notre ensemble de données, cette opération supprimerait 128 lignes où `revenue_millions` est nul et 64 lignes où` metascore` est nul. Cela semble évidemment être un gaspillage car il y a des données parfaitement bonnes dans les autres colonnes de ces lignes supprimées. C'est pourquoi nous examinerons ensuite l'imputation.

En plus de supprimer des lignes, vous pouvez également supprimer des colonnes avec des valeurs NULL en définissant `axis = 1`:

In [60]:
df_imdb.info()

<class 'pandas.core.frame.DataFrame'>
Index: 838 entries, Guardians of the Galaxy to Nine Lives
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                838 non-null    int64  
 1   Genre               838 non-null    object 
 2   Description         838 non-null    object 
 3   Director            838 non-null    object 
 4   Actors              838 non-null    object 
 5   Year                838 non-null    int64  
 6   Runtime (Minutes)   838 non-null    int64  
 7   Rating              838 non-null    float64
 8   Votes               838 non-null    int64  
 9   Revenue (Millions)  838 non-null    float64
 10  Metascore           838 non-null    float64
dtypes: float64(3), int64(4), object(4)
memory usage: 118.6+ KB


Dans notre jeu de données, cette opération supprime les colonnes `revenue_millions` et` metascore`.

Note: Qu'est-ce qui se passe avec ce paramètre `axis = 1`?

Il n’est pas immédiatement évident d’où vient l’axe et pourquoi vous avez besoin que ce soit 1 pour qu’il affecte les colonnes. Pour voir pourquoi, regardez simplement le résultat `.shape`:

Comme nous l'avons appris ci-dessus, il s'agit d'un tuple qui représente la forme du DataFrame, c'est-à-dire 1000 lignes et 11 colonnes. Notez que les ligness ont à l'index zéro de ce tuple et les colonnes sont à l'index 1 de ce tuple. C'est pourquoi `axis = 1` affecte les colonnes. Ceci vient de NumPy et constitue un excellent exemple de la raison pour laquelle apprendre NumPy vaut votre temps.

### Imputation

L'imputation est une technique conventionnelle d'ingénierie des caractéristiques utilisée pour conserver des données de valeur contenant des valeurs nulles.

Il peut y avoir des cas où le fait de supprimer chaque ligne avec une valeur null supprime une partie trop importante de votre jeu de données. Nous pouvons donc imputer cette valeur null avec une autre valeur, généralement la moyenne ou le médian de cette colonne.

Voyons comment imputer les valeurs manquantes dans la colonne `revenue_millions`. Nous allons d’abord extraire cette colonne dans sa propre variable:

In [57]:
df_imdb_fillna = df_imdb.fillna(0)
df_imdb_fillna

Unnamed: 0_level_0,Rank,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Guardians of the Galaxy,1,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
Prometheus,2,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
Split,3,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
Sing,4,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
Suicide Squad,5,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
Resident Evil: Afterlife,994,"Action,Adventure,Horror",While still out to destroy the evil Umbrella C...,Paul W.S. Anderson,"Milla Jovovich, Ali Larter, Wentworth Miller,K...",2010,97,5.9,140900,60.13,37.0
Project X,995,Comedy,3 high school seniors throw a birthday party t...,Nima Nourizadeh,"Thomas Mann, Oliver Cooper, Jonathan Daniel Br...",2012,88,6.7,164088,54.72,48.0
Hostel: Part II,997,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
Step Up 2: The Streets,998,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0


L'utilisation de crochets constitue la méthode générale de sélection des colonnes dans un DataFrame.

Si vous vous souvenez de la création de DataFrames à partir de rien, les clés de `dict` se sont retrouvées sous la forme de noms de colonnes. Désormais, lorsque nous sélectionnons les colonnes d'un DataFrame, nous utilisons des crochets comme si nous avions accès à un dictionnaire Python.

`revenue` contient maintenant une série. l'affichage sera avec .head():

Un format légèrement différent de celui d'un DataFrame, mais nous avons toujours notre index `Title`.

Nous imputerons les valeurs manquantes du revenu en utilisant la moyenne. Voici la valeur moyenne: utiliser .mean()

Avec la moyenne, remplissons les valeurs NULL en utilisant `fillna ()`:

Nous avons maintenant remplacé toutes les valeurs nulles dans `revenu` par la moyenne de la colonne. Notez qu'en utilisant `inplace = True`, nous avons réellement affecté le film` movies_df` d'origine:

L'imputation d'une colonne entière avec la même valeur est un exemple élémentaire. Il serait préférable d’essayer une imputation plus détaillée par genre ou par directeur.

Par exemple, vous devriez trouver la moyenne des revenus générés dans chaque genre individuellement et imputer les valeurs nulles dans chaque genre avec la moyenne de ce genre.

Voyons maintenant plus de façons d'examiner et de comprendre l'ensemble de données.

### Comprendre vos variables

En utilisant `describe ()` sur un DataFrame entier, nous pouvons obtenir un résumé de la distribution des variables continues:

In [61]:
df_imdb.describe()

Unnamed: 0,Rank,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
count,838.0,838.0,838.0,838.0,838.0,838.0,838.0
mean,485.247017,2012.50716,114.638425,6.81432,193230.3,84.564558,59.575179
std,286.572065,3.17236,18.470922,0.877754,193099.0,104.520227,16.952416
min,1.0,2006.0,66.0,1.9,178.0,0.0,11.0
25%,238.25,2010.0,101.0,6.3,61276.5,13.9675,47.0
50%,475.5,2013.0,112.0,6.9,136879.5,48.15,60.0
75%,729.75,2015.0,124.0,7.5,271083.0,116.8,72.0
max,1000.0,2016.0,187.0,9.0,1791916.0,936.63,100.0


Comprendre quels nombres sont continus est également utile lorsque vous réfléchissez au type de graphique à utiliser pour représenter vos données visuellement.

`.describe ()` peut également être utilisé sur une variable catégorielle pour obtenir le nombre de lignes, le nombre unique de catégories, la catégorie supérieure et la fréquence de la catégorie supérieure:

Cela nous indique que la colonne genre a 207 valeurs uniques, la valeur la plus élevée étant Action / Aventure / Sci-Fi, qui s'affiche 50 fois (fréq).

`.value_counts ()` peut nous dire la fréquence de toutes les valeurs d'une colonne: utiliser .value_counts().head(10)

### DataFrame découper, sélectionner, extraire

Jusqu'à présent, nous nous sommes concentrés sur quelques résumés de base de nos données. Nous avons appris l’extraction de colonne simple à l’aide de crochets simples et imputé des valeurs nulles dans une colonne à l'aide de `fillna ()`. Vous trouverez ci-dessous les autres méthodes de découpage, de sélection et d’extraction à utiliser en permanence.

Il est important de noter que, même si de nombreuses méthodes sont identiques, DataFrames et Series ont des attributs différents. Par conséquent, vous devez être sûr de connaître le type avec lequel vous travaillez ou vous recevrez des erreurs d'attribut.

Regardons d'abord travailler avec les colonnes.

#### Par colonne

Vous avez déjà vu comment extraire une colonne en utilisant des crochets comme ceci:

Cela retournera une * série *. Pour extraire une colonne en tant que * DataFrame *, vous devez passer une liste de noms de colonnes. Dans notre cas, il ne s'agit que d'une seule colonne:

Comme il ne s'agit que d'une liste, ajouter un autre nom de colonne est simple:

Nous allons maintenant chercher à obtenir des données par rangées.

Pour les lignes, nous avons deux options:

- `.loc` - localise par nom
- `.iloc`- localise par index

Rappelez-vous que nous sommes toujours indexés par titre de film, donc pour utiliser `.loc`, nous lui donnons le titre d'un film:

D'autre part, avec `iloc`, on lui donne l'indice numérique de Prométhée:

`loc` et` iloc` peuvent être considérés comme similaires au découpage en Python `list`. Pour montrer cela encore plus loin, sélectionnons plusieurs lignes.

Comment le feriez-vous avec une liste? En Python, il suffit de couper avec des crochets comme `example_list [1: 4]`. Cela fonctionne de la même manière dans les pandas:

Une distinction importante entre l’utilisation de `.loc` et de` .iloc` pour sélectionner plusieurs lignes est que `.loc` inclut le film * Sing * dans le résultat, mais lorsque vous utilisez` .iloc`, nous obtenons les lignes 1: 4, mais le film à l'index 4 (* Suicide Squad *) n'est pas inclus.

Le découpage avec `.iloc` suit les mêmes règles que le découpage avec des listes, l’objet situé à la fin de l’index n’est pas inclus.

#### Sélections conditionnelles
Nous avons expliqué comment sélectionner des colonnes et des lignes, mais que se passe-t-il si nous souhaitons effectuer une sélection conditionnelle?

Par exemple, que se passe-t-il si nous voulons filtrer nos films DataFrame pour ne montrer que les films dirigés par Ridley Scott ou les films ayant une note supérieure ou égale à 8,0?

Pour ce faire, nous prenons une colonne du DataFrame et lui appliquons une condition booléenne. Voici un exemple de condition booléenne:

Semblable à `isnull ()`, ceci retourne une série de valeurs True et False: True pour les films réalisés par Ridley Scott et False pour ceux qui ne le sont pas.

Nous voulons filtrer tous les films non réalisés par Ridley Scott, autrement dit, nous ne voulons pas des films faux. Pour renvoyer les lignes où cette condition est vraie, nous devons passer cette opération dans le DataFrame:

Vous pouvez vous habituer à regarder ces conditions en les lisant comme ceci:

> Sélectionnez movies_df où réalisateur movies_df est égal à Ridley Scott

Regardons les sélections conditionnelles en utilisant des valeurs numériques en filtrant le DataFrame par notations:

Nous pouvons créer des conditions plus riches en utilisant les opérateurs logiques `|` pour "ou" et `&` pour "et".

Filtrons le DataFrame pour ne montrer que les films de Christopher Nolan OU Ridley Scott:

Nous devons nous assurer de grouper les évaluations avec des parenthèses afin que Python sache évaluer le conditionnel.

En utilisant la méthode `isin ()`, nous pourrions rendre ceci plus concis:

## Application de fonctions

Il est possible d'effectuer une itération sur un DataFrame ou une série, comme vous le feriez avec une liste, mais cela est très lent, en particulier pour les grands ensembles de données.

Une alternative efficace consiste à `apply ()` une fonction à l'ensemble de données. Par exemple, nous pourrions utiliser une fonction pour convertir les films avec une version 8.0 ou supérieure à une valeur de chaîne de « bon » et le reste « mauvais » et d'utiliser ces valeurs transformées pour créer une nouvelle colonne.

Tout d'abord, nous créerions une fonction qui, lorsque une série est notée, détermine si elle est bonne ou mauvaise:

In [None]:
df_imdb.apply(lambda ligne: ligne.replace('%', ' '))

Maintenant, nous voulons envoyer toute la colonne de classement via cette fonction, ce que fait `apply ()`:

La méthode `.apply ()` transmet chaque valeur de la colonne `rating` à travers la` notation_function`, puis renvoie une nouvelle série. Cette série est ensuite affectée à une nouvelle colonne appelée `rating_category`.

Vous pouvez également utiliser des fonctions anonymes. Cette fonction lambda donne le même résultat que `rating_function`:

Globalement, utiliser `apply ()` sera beaucoup plus rapide que de parcourir manuellement les lignes car pandas utilise la vectorisation.

> Vectorisation: style de programmation informatique dans lequel les opérations sont appliquées à des tableaux entiers au lieu d'éléments individuels 

Un bon exemple d'utilisation intensive de `apply ()` est le travail de traitement du langage naturel (NLP). Vous devrez appliquer toutes sortes de fonctions de nettoyage de texte aux chaînes pour vous préparer à l'apprentissage automatique.

# Merging/Joining

Pandas possède des opérations de jointure en mémoire hautes performances et hautes performances idiomatiquement très similaires aux bases de données relationnelles telles que SQL.pandas fournissent une fonction unique, fusion, en tant que point d’entrée pour toutes les opérations de jointure de base de données standard entre objets DataFrame -

Ici, nous avons utilisé les paramètres suivants -
- left - Un objet DataFrame.
- right - Un autre objet DataFrame.
- on - Columns (noms) à joindre. Doit être trouvé dans les objets DataFrame gauche et droit.
- left_on - Colonnes de gauche DataFrame à utiliser comme clés. Il peut s'agir de noms de colonnes ou de tableaux de longueur égale à celle du DataFrame.
- right_on - Colonnes de droite DataFrame à utiliser comme clés. Il peut s'agir de noms de colonnes ou de tableaux de longueur égale à celle du DataFrame.
- left_index - Si la valeur est True, utilisez l'index (étiquettes de ligne) du DataFrame de gauche comme clé de jointure. Dans le cas d'un DataFrame avec un MultiIndex (hiérarchique), le nombre de niveaux doit correspondre au nombre de clés de jointure du droit DataFrame.
- right_index - Même utilisation que left_index pour le DataFrame droit.
- how - Un de 'gauche', 'droite', 'extérieur', 'intérieur'. La valeur par défaut est intérieure. Chaque méthode a été décrite ci-dessous.
- sort - Trie le résultat DataFrame par les clés de jointure dans l'ordre lexicographique. La valeur par défaut est True, la valeur False améliorera considérablement les performances dans de nombreux cas.

In [None]:
left = pd.DataFrame({
   'id':[1,2,3,4,5],
   'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
   'subject_id':['sub1','sub2','sub4','sub6','sub5']})
right = pd.DataFrame(
   {'id':[1,2,3,4,5],
   'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
   'subject_id':['sub2','sub4','sub3','sub6','sub5']})

Fusionner deux DataFrames sur une clé

Fusionner avec l'argument 'Comment'L'argument how à fusionner spécifie comment déterminer les clés à inclure dans la table résultante. Si aucune combinaison de touches n'apparaît dans les tables de gauche ou de droite, les valeurs de la table jointe seront NA.

## Conclusion

Explorer, nettoyer, transformer et visualiser des données avec des pandas en Python est une compétence essentielle en science des données. Rien que le nettoyage des données conflictuelles représente 80% de votre travail en tant que Data Scientist. Après quelques projets et un peu de pratique, vous devriez être très à l'aise avec la plupart des bases.