In [73]:
import pandas as pd
# pd.set_option('max_rows', 5)

### Création, lecture et écriture d’un DataFrame

Un DataFrame est une table. Il contient un tableau d'entrées individuelles, chacune ayant une certaine valeur.

Chaque entrée correspond à une ligne (ou enregistrement) et une colonne.

Par exemple, considérons le DataFrame suivant :

In [2]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


In [3]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


La liste des étiquettes de lignes utilisées dans un DataFrame est appelée Index.

Nous pouvons lui attribuer des valeurs en utilisant un paramètre d'index dans notre constructeur 

In [5]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], # avec index on peut nommé chaque ligne du DataFrame
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


### Series
Une series, en revanche, est une séquence de valeurs de données.

Si un DataFrame est une table, une Series est une liste.

Et en fait, vous pouvez en créer un avec rien de plus qu'une liste :

In [6]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Une série est, par essence, une seule colonne d'un DataFrame. Vous pouvez donc attribuer des étiquettes de ligne à la série de la même manière qu'auparavant, à l'aide d'un paramètre d'index. 

Cependant, une série n'a pas de nom de colonne, elle n'a qu'un seul nom global :


In [7]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

## Lecture de fichiers de données
### Le fichier de type CSV :
Un fichier CSV est un tableau de valeurs séparées par des virgules. D'où le nom : "Comma-Separated Values", ou CSV.

Laissons maintenant de côté nos jeux de données jouets et voyons à quoi ressemble un jeu de données réel lorsque nous le lisons dans un DataFrame.

Nous utiliserons la fonction pd.read_csv() pour lire les données dans un DataFrame. Cela va ainsi :

In [26]:
data = pd.read_csv("C:/Users/Abdoulaye MAIGA/OneDrive/Bureau/Data/covid.csv") # , index_col = 0) 
data

Unnamed: 0,Country/Region,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
0,USA,North America,3.311981e+08,5032179,,162804.0,,2576668.0,,2292707.0,18296.0,15194.0,492.0,63139605.0,190640.0,Americas
1,Brazil,South America,2.127107e+08,2917562,,98644.0,,2047660.0,,771258.0,8318.0,13716.0,464.0,13206188.0,62085.0,Americas
2,India,Asia,1.381345e+09,2025409,,41638.0,,1377384.0,,606387.0,8944.0,1466.0,30.0,22149351.0,16035.0,South-EastAsia
3,Russia,Europe,1.459409e+08,871894,,14606.0,,676357.0,,180931.0,2300.0,5974.0,100.0,29716907.0,203623.0,Europe
4,South Africa,Africa,5.938157e+07,538184,,9604.0,,387316.0,,141264.0,539.0,9063.0,162.0,3149807.0,53044.0,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
204,Montserrat,North America,4.992000e+03,13,,1.0,,10.0,,2.0,,2604.0,200.0,61.0,12220.0,
205,Caribbean Netherlands,North America,2.624700e+04,13,,,,7.0,,6.0,,495.0,,424.0,16154.0,
206,Falkland Islands,South America,3.489000e+03,13,,,,13.0,,0.0,,3726.0,,1816.0,520493.0,
207,Vatican City,Europe,8.010000e+02,12,,,,12.0,,0.0,,14981.0,,,,Europe


In [131]:
data.shape

(209, 16)

Avec le paramètre inde_col = 0, on à definie la première colonne du data comme les noms des lignes

En Python, nous pouvons accéder à la propriété d'un objet en y accédant en tant qu'attribut.

Un objet livre, par exemple, peut avoir une propriété title, à laquelle nous pouvons accéder en appelant book.title.

Les colonnes d'un pandas DataFrame fonctionnent à peu près de la même manière.

Par conséquent, pour accéder à la propriété Continent, nous pouvons utiliser :

In [31]:
data.Continent

0      North America
1      South America
2               Asia
3             Europe
4             Africa
           ...      
204    North America
205    North America
206    South America
207           Europe
208           Africa
Name: Continent, Length: 209, dtype: object

In [33]:
data['Continent']

0      North America
1      South America
2               Asia
3             Europe
4             Africa
           ...      
204    North America
205    North America
206    South America
207           Europe
208           Africa
Name: Continent, Length: 209, dtype: object

In [35]:
data['Country/Region']

0                        USA
1                     Brazil
2                      India
3                     Russia
4               South Africa
               ...          
204               Montserrat
205    Caribbean Netherlands
206         Falkland Islands
207             Vatican City
208           Western Sahara
Name: Country/Region, Length: 209, dtype: object

### Indexation dans les pandas
L'opérateur d'indexation et la sélection d'attributs sont agréables car ils fonctionnent comme ils le font dans le reste de l'écosystème Python.

En tant que novice, cela les rend faciles à prendre en main et à utiliser. Cependant, pandas a ses propres opérateurs d'accès, loc et iloc.

Pour les opérations plus avancées, ce sont celles que vous êtes censé utiliser.


Pour sélectionner la première ligne de données dans un DataFrame, nous pouvons utiliser

In [36]:
data.iloc[0]

Country/Region                USA
Continent           North America
Population            331198130.0
TotalCases                5032179
NewCases                      NaN
TotalDeaths              162804.0
NewDeaths                     NaN
TotalRecovered          2576668.0
NewRecovered                  NaN
ActiveCases             2292707.0
Serious,Critical          18296.0
Tot Cases/1M pop          15194.0
Deaths/1M pop               492.0
TotalTests             63139605.0
Tests/1M pop             190640.0
WHO Region               Americas
Name: 0, dtype: object

loc et iloc sont tous deux en première ligne, en deuxième colonne. C'est l'opposé de ce que nous faisons en Python natif, qui est la première colonne, la deuxième ligne.

Cela signifie qu'il est légèrement plus facile de récupérer des lignes et légèrement plus difficile d'obtenir des colonnes de récupération.

Pour obtenir une colonne avec iloc, nous pouvons procéder comme suit :


In [37]:
data.iloc[:,0]

0                        USA
1                     Brazil
2                      India
3                     Russia
4               South Africa
               ...          
204               Montserrat
205    Caribbean Netherlands
206         Falkland Islands
207             Vatican City
208           Western Sahara
Name: Country/Region, Length: 209, dtype: object

À lui seul, l'opérateur : , qui vient également du Python natif, signifie "tout". Lorsqu'il est combiné avec d'autres sélecteurs, cependant, il peut être utilisé pour indiquer une plage de valeurs.

Par exemple, pour sélectionner la colonne de pays uniquement dans la première, la deuxième et la troisième ligne, nous ferions :


In [38]:
data.iloc[:3,0]

0       USA
1    Brazil
2     India
Name: Country/Region, dtype: object

Ou, pour sélectionner uniquement les deuxième et troisième entrées, nous ferions :


In [39]:
data.iloc[1:3,0]

1    Brazil
2     India
Name: Country/Region, dtype: object

Il est aussi possible de passer une liste :

In [40]:
data.iloc[[0,1,2,3],0]

0       USA
1    Brazil
2     India
3    Russia
Name: Country/Region, dtype: object

Enfin, sachez que les nombres négatifs peuvent être utilisés dans la sélection. Cela commencera à compter à partir de la fin des valeurs. 

Ainsi, par exemple, voici les cinq derniers éléments du jeu de données.

In [42]:
data.iloc[-5:]

Unnamed: 0,Country/Region,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
204,Montserrat,North America,4992.0,13,,1.0,,10.0,,2.0,,2604.0,200.0,61.0,12220.0,
205,Caribbean Netherlands,North America,26247.0,13,,,,7.0,,6.0,,495.0,,424.0,16154.0,
206,Falkland Islands,South America,3489.0,13,,,,13.0,,0.0,,3726.0,,1816.0,520493.0,
207,Vatican City,Europe,801.0,12,,,,12.0,,0.0,,14981.0,,,,Europe
208,Western Sahara,Africa,598682.0,10,,1.0,,8.0,,1.0,,17.0,2.0,,,Africa


### Sélection basée sur des étiquettes
Le deuxième paradigme pour la sélection d'attributs est celui suivi par l'opérateur loc : la sélection basée sur l'étiquette. Dans ce paradigme, c'est la valeur de l'index de données, et non sa position, qui compte.

Par exemple, pour obtenir la première entrée dans les avis, nous ferions maintenant ce qui suit :

In [51]:
data.loc[0, "Country/Region"]

'USA'

iloc est conceptuellement plus simple que loc car il ignore les indices de l'ensemble de données.

Lorsque nous utilisons iloc, nous traitons l'ensemble de données comme une grande matrice (une liste de listes), dans laquelle nous devons indexer par position.

loc, en revanche, utilise les informations contenues dans les index pour faire son travail. Étant donné que votre jeu de données a généralement des indices significatifs, il est généralement plus facile de faire les choses en utilisant loc à la place. 

Par exemple, voici une opération beaucoup plus simple avec loc :


In [53]:
data.loc[:,['Continent','Population','TotalDeaths']]

Unnamed: 0,Continent,Population,TotalDeaths
0,North America,3.311981e+08,162804.0
1,South America,2.127107e+08,98644.0
2,Asia,1.381345e+09,41638.0
3,Europe,1.459409e+08,14606.0
4,Africa,5.938157e+07,9604.0
...,...,...,...
204,North America,4.992000e+03,1.0
205,North America,2.624700e+04,
206,South America,3.489000e+03,
207,Europe,8.010000e+02,



Choisir entre loc et iloc
Lors du choix ou de la transition entre loc et iloc, il y a un "gotcha" à garder à l'esprit, à savoir que les deux méthodes utilisent des schémas d'indexation légèrement différents.

iloc utilise le schéma d'indexation Python stdlib, où le premier élément de la plage est inclus et le dernier exclu. Ainsi 0:10 sélectionnera les entrées 0,...,9. loc, quant à lui, indexe inclusivement. Ainsi 0:10 sélectionnera les entrées 0,...,10.

Pourquoi le changement ? N'oubliez pas que loc peut indexer n'importe quel type de stdlib : des chaînes, par exemple. Si nous avons un DataFrame avec des valeurs d'index Pommes, ..., Pommes de terre, ..., et que nous voulons sélectionner "tous les choix de fruits alphabétiques entre Pommes et Pommes de terre", alors il est beaucoup plus pratique d'indexer df.loc[' Apples':'Potatoes'] qu'il ne l'est pour indexer quelque chose comme df.loc['Apples', 'Potatoet'] (t venant après s dans l'alphabet).

Ceci est particulièrement déroutant lorsque l'index DataFrame est une simple liste numérique, par ex. 0,...,1000. Dans ce cas, df.iloc[0:1000] renverra 1000 entrées, tandis que df.loc[0:1000] en renverra 1001 ! Pour obtenir 1000 éléments en utilisant loc, vous devrez descendre un plus bas et demander df.loc[0:999].

Sinon, la sémantique de l'utilisation de loc est la même que celle d'iloc.

### Manipulation de l'index
La méthode set_index() peut être utilisée pour faire le travail. Voici ce qui se passe lorsque nous définissons_index sur le champ continent

In [55]:
data.set_index("Continent")

Unnamed: 0_level_0,Country/Region,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
Continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
North America,USA,3.311981e+08,5032179,,162804.0,,2576668.0,,2292707.0,18296.0,15194.0,492.0,63139605.0,190640.0,Americas
South America,Brazil,2.127107e+08,2917562,,98644.0,,2047660.0,,771258.0,8318.0,13716.0,464.0,13206188.0,62085.0,Americas
Asia,India,1.381345e+09,2025409,,41638.0,,1377384.0,,606387.0,8944.0,1466.0,30.0,22149351.0,16035.0,South-EastAsia
Europe,Russia,1.459409e+08,871894,,14606.0,,676357.0,,180931.0,2300.0,5974.0,100.0,29716907.0,203623.0,Europe
Africa,South Africa,5.938157e+07,538184,,9604.0,,387316.0,,141264.0,539.0,9063.0,162.0,3149807.0,53044.0,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
North America,Montserrat,4.992000e+03,13,,1.0,,10.0,,2.0,,2604.0,200.0,61.0,12220.0,
North America,Caribbean Netherlands,2.624700e+04,13,,,,7.0,,6.0,,495.0,,424.0,16154.0,
South America,Falkland Islands,3.489000e+03,13,,,,13.0,,0.0,,3726.0,,1816.0,520493.0,
Europe,Vatican City,8.010000e+02,12,,,,12.0,,0.0,,14981.0,,,,Europe


In [59]:
data.Continent == 'Africa'# Pour verifié si on a que le continent Africain das l’ensemble des données

0      False
1      False
2      False
3      False
4       True
       ...  
204    False
205    False
206    False
207    False
208     True
Name: Continent, Length: 209, dtype: bool

In [60]:
data.loc[data.Continent == 'Africa'] ## Là on a selection que le information concernant 
                                       ##le continent Africain

Unnamed: 0,Country/Region,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
4,South Africa,Africa,59381566.0,538184,,9604.0,,387316.0,,141264.0,539.0,9063.0,162.0,3149807.0,53044.0,Africa
26,Egypt,Africa,102516525.0,95006,,4951.0,,48898.0,,41157.0,41.0,927.0,48.0,135000.0,1317.0,EasternMediterranean
45,Nigeria,Africa,206606300.0,45244,,930.0,,32430.0,,11884.0,7.0,219.0,5.0,306894.0,1485.0,Africa
50,Ghana,Africa,31133483.0,39642,,199.0,,36384.0,,3059.0,7.0,1273.0,6.0,405817.0,13035.0,Africa
54,Algeria,Africa,43926079.0,33626,,1273.0,,23238.0,,9115.0,57.0,766.0,29.0,,,Africa
56,Morocco,Africa,36953359.0,29644,,449.0,,20553.0,,8642.0,31.0,802.0,12.0,1383816.0,37448.0,EasternMediterranean
61,Kenya,Africa,53881160.0,24411,,399.0,,10444.0,,13568.0,44.0,453.0,7.0,335318.0,6223.0,Africa
66,Ethiopia,Africa,115223736.0,20900,,365.0,,9027.0,,11508.0,185.0,181.0,3.0,468814.0,4069.0,Africa
70,Cameroon,Africa,26606188.0,17718,,391.0,,15320.0,,2007.0,30.0,666.0,15.0,149000.0,5600.0,Africa
71,Ivory Coast,Africa,26437950.0,16447,,103.0,,12484.0,,3860.0,,622.0,4.0,104584.0,3956.0,Africa


Nous pouvons utiliser l'esperluette (&) pour réunir deux questions

In [63]:
data.loc[(data.Continent == 'Africa') & (data.TotalDeaths >= 200)] 

Unnamed: 0,Country/Region,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
4,South Africa,Africa,59381566.0,538184,,9604.0,,387316.0,,141264.0,539.0,9063.0,162.0,3149807.0,53044.0,Africa
26,Egypt,Africa,102516525.0,95006,,4951.0,,48898.0,,41157.0,41.0,927.0,48.0,135000.0,1317.0,EasternMediterranean
45,Nigeria,Africa,206606300.0,45244,,930.0,,32430.0,,11884.0,7.0,219.0,5.0,306894.0,1485.0,Africa
54,Algeria,Africa,43926079.0,33626,,1273.0,,23238.0,,9115.0,57.0,766.0,29.0,,,Africa
56,Morocco,Africa,36953359.0,29644,,449.0,,20553.0,,8642.0,31.0,802.0,12.0,1383816.0,37448.0,EasternMediterranean
61,Kenya,Africa,53881160.0,24411,,399.0,,10444.0,,13568.0,44.0,453.0,7.0,335318.0,6223.0,Africa
66,Ethiopia,Africa,115223736.0,20900,,365.0,,9027.0,,11508.0,185.0,181.0,3.0,468814.0,4069.0,Africa
70,Cameroon,Africa,26606188.0,17718,,391.0,,15320.0,,2007.0,30.0,666.0,15.0,149000.0,5600.0,Africa
78,Sudan,Africa,43943536.0,11780,,763.0,,6194.0,,4823.0,,268.0,17.0,401.0,9.0,EasternMediterranean
80,Senegal,Africa,16783877.0,10715,,223.0,,7101.0,,3391.0,33.0,638.0,13.0,114761.0,6838.0,Africa


Pandas est livré avec quelques sélecteurs conditionnels intégrés, dont deux que nous allons souligner ici.

Le premier est isin. isin permet de sélectionner des données dont la valeur "est dans" une liste de valeurs.

In [65]:
data.loc[data.Continent.isin(['Africa','Asia'])] ## Là on a selection que le information concernant 
                                                    ##le continent Africain et Asiatique

Unnamed: 0,Country/Region,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
2,India,Asia,1.381345e+09,2025409,,41638.0,,1377384.0,,606387.0,8944.0,1466.0,30.0,22149351.0,16035.0,South-EastAsia
4,South Africa,Africa,5.938157e+07,538184,,9604.0,,387316.0,,141264.0,539.0,9063.0,162.0,3149807.0,53044.0,Africa
10,Iran,Asia,8.409762e+07,320117,,17976.0,,277463.0,,24678.0,4156.0,3806.0,214.0,2612763.0,31068.0,EasternMediterranean
12,Saudi Arabia,Asia,3.486592e+07,284226,,3055.0,,247089.0,,34082.0,1915.0,8152.0,88.0,3635705.0,104277.0,EasternMediterranean
13,Pakistan,Asia,2.212959e+08,281863,,6035.0,,256058.0,,19770.0,809.0,1274.0,27.0,2058872.0,9304.0,EasternMediterranean
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
186,Bhutan,Asia,7.724430e+05,105,,,,93.0,,12.0,,136.0,,54589.0,70671.0,South-EastAsia
193,Macao,Asia,6.501930e+05,46,,,,46.0,,0.0,,71.0,,4071.0,6261.0,
197,Timor-Leste,Asia,1.320812e+06,25,,,,24.0,,1.0,,19.0,,4238.0,3209.0,South-EastAsia
200,Laos,Asia,7.285750e+06,20,,,,19.0,,1.0,,3.0,,29374.0,4032.0,WesternPacific



Le second est isnull (et son compagnon notnull). Ces méthodes permettent de mettre en évidence des valeurs qui sont (ou non) vides (NaN).

In [66]:
data.loc[data.NewDeaths.notnull()]

Unnamed: 0,Country/Region,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
5,Mexico,North America,129066160.0,462690,6590.0,50517.0,819.0,308848.0,4140.0,103325.0,3987.0,3585.0,391.0,1056915.0,8189.0,Americas
28,Bolivia,South America,11688459.0,86423,1282.0,3465.0,80.0,27373.0,936.0,55585.0,71.0,7394.0,296.0,183583.0,15706.0,Americas
72,S. Korea,Asia,51273732.0,14519,20.0,303.0,1.0,13543.0,42.0,673.0,18.0,283.0,6.0,1613652.0,31471.0,WesternPacific


### Fonctions récapitulatives et cartes

#### Fonctions récapitulatives
Pandas fournit de nombreuses "fonctions de résumé" simples (pas un nom officiel) qui restructurent les données de manière utile. Par exemple, considérons la méthode describe()

In [74]:
data.describe()

Unnamed: 0,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop
count,208.0,209.0,4.0,188.0,3.0,205.0,3.0,205.0,122.0,208.0,187.0,191.0,191.0
mean,30415490.0,91718.5,1980.5,3792.590426,300.0,58878.98,1706.0,27664.33,534.393443,3196.024038,98.681176,1402405.0,83959.366492
std,104766100.0,432586.7,3129.611424,15487.184877,451.199512,256698.4,2154.779803,174632.7,2047.518613,5191.986457,174.956862,5553367.0,152730.59124
min,801.0,10.0,20.0,1.0,1.0,7.0,42.0,0.0,1.0,3.0,0.08,61.0,4.0
25%,966314.0,712.0,27.5,22.0,40.5,334.0,489.0,86.0,3.25,282.0,6.0,25752.0,8956.5
50%,7041972.0,4491.0,656.0,113.0,80.0,2178.0,936.0,899.0,27.5,1015.0,29.0,135702.0,32585.0
75%,25756140.0,36896.0,2609.0,786.0,449.5,20553.0,2538.0,7124.0,160.25,3841.75,98.0,757696.0,92154.5
max,1381345000.0,5032179.0,6590.0,162804.0,819.0,2576668.0,4140.0,2292707.0,18296.0,39922.0,1238.0,63139600.0,995282.0


Cette méthode génère un résumé de haut niveau des attributs de la colonne donnée. Il est sensible au type, ce qui signifie que sa sortie change en fonction du type de données de l'entrée.

La sortie ci-dessus n'a de sens que pour les données numériques

Pour les données de chaîne, voici ce que nous obtenons :

In [77]:
data.Continent.describe()

count        208
unique         6
top       Africa
freq          57
Name: Continent, dtype: object

In [78]:
data.Continent.value_counts()

Africa               57
Asia                 48
Europe               48
North America        35
South America        14
Australia/Oceania     6
Name: Continent, dtype: int64

In [80]:
import numpy as np

#### La fonction map()
Mapper en Python signifie appliquer une opération pour chaque élément d’un itérable, tel qu’une liste.

In [82]:
data_population_moyenne = data.Population.mean()

In [83]:
data.Population.map(lambda p: p-data_population_moyenne) 

0      3.007826e+08
1      1.822952e+08
2      1.350930e+09
3      1.155254e+08
4      2.896608e+07
           ...     
204   -3.041049e+07
205   -3.038924e+07
206   -3.041200e+07
207   -3.041469e+07
208   -2.981680e+07
Name: Population, Length: 209, dtype: float64

apply() est la méthode équivalente de map() si nous voulons transformer un DataFrame entier en appelant une méthode personnalisée sur chaque ligne

###  Regroupement et tri

In [84]:
data.groupby("Continent").count()

Unnamed: 0_level_0,Country/Region,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
Continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Africa,57,57,57,0,55,0,57,0,57,28,57,55,44,44,54
Asia,48,48,48,1,42,1,48,1,48,28,48,42,46,46,46
Australia/Oceania,6,6,6,0,4,0,6,0,6,1,6,4,6,6,4
Europe,48,48,48,0,45,0,44,0,44,34,48,45,47,47,44
North America,35,35,35,2,28,1,35,1,35,17,35,28,34,34,24
South America,14,14,14,1,13,1,14,1,14,13,14,13,14,14,12


In [86]:
data.groupby("Country/Region").count()

Unnamed: 0_level_0,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
Country/Region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Afghanistan,1,1,1,0,1,0,1,0,1,1,1,1,1,1,1
Albania,1,1,1,0,1,0,1,0,1,1,1,1,1,1,1
Algeria,1,1,1,0,1,0,1,0,1,1,1,1,0,0,1
Andorra,1,1,1,0,1,0,1,0,1,1,1,1,1,1,1
Angola,1,1,1,0,1,0,1,0,1,1,1,1,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Vietnam,1,1,1,0,1,0,1,0,1,0,1,1,1,1,1
Western Sahara,1,1,1,0,1,0,1,0,1,0,1,1,0,0,1
Yemen,1,1,1,0,1,0,1,0,1,0,1,1,1,1,1
Zambia,1,1,1,0,1,0,1,0,1,0,1,1,1,1,1


In [88]:
data.groupby("Country/Region").mean()

Unnamed: 0_level_0,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop
Country/Region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Afghanistan,39009447.0,36896.0,,1298.0,,25840.0,,9758.0,31.0,946.0,33.0,90396.0,2317.0
Albania,2877470.0,6016.0,,188.0,,3155.0,,2673.0,23.0,2091.0,65.0,38997.0,13553.0
Algeria,43926079.0,33626.0,,1273.0,,23238.0,,9115.0,57.0,766.0,29.0,,
Andorra,77278.0,944.0,,52.0,,828.0,,64.0,1.0,12216.0,673.0,3750.0,48526.0
Angola,32956300.0,1483.0,,64.0,,520.0,,899.0,20.0,45.0,2.0,64747.0,1965.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
Vietnam,97425470.0,747.0,,10.0,,392.0,,345.0,,8.0,0.1,482456.0,4952.0
Western Sahara,598682.0,10.0,,1.0,,8.0,,1.0,,17.0,2.0,,
Yemen,29886897.0,1768.0,,508.0,,898.0,,362.0,,59.0,17.0,120.0,4.0
Zambia,18430129.0,7164.0,,199.0,,5786.0,,1179.0,,389.0,11.0,90307.0,4900.0


In [89]:
data.groupby("Country/Region").min()

Unnamed: 0_level_0,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
Country/Region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Afghanistan,Asia,39009447.0,36896,,1298.0,,25840.0,,9758.0,31.0,946.0,33.0,90396.0,2317.0,EasternMediterranean
Albania,Europe,2877470.0,6016,,188.0,,3155.0,,2673.0,23.0,2091.0,65.0,38997.0,13553.0,Europe
Algeria,Africa,43926079.0,33626,,1273.0,,23238.0,,9115.0,57.0,766.0,29.0,,,Africa
Andorra,Europe,77278.0,944,,52.0,,828.0,,64.0,1.0,12216.0,673.0,3750.0,48526.0,Europe
Angola,Africa,32956300.0,1483,,64.0,,520.0,,899.0,20.0,45.0,2.0,64747.0,1965.0,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Vietnam,Asia,97425470.0,747,,10.0,,392.0,,345.0,,8.0,0.1,482456.0,4952.0,WesternPacific
Western Sahara,Africa,598682.0,10,,1.0,,8.0,,1.0,,17.0,2.0,,,Africa
Yemen,Asia,29886897.0,1768,,508.0,,898.0,,362.0,,59.0,17.0,120.0,4.0,EasternMediterranean
Zambia,Africa,18430129.0,7164,,199.0,,5786.0,,1179.0,,389.0,11.0,90307.0,4900.0,Africa


In [105]:
data_Continent = data.groupby(['Country/Region','Continent']).sum()
data_Continent

Unnamed: 0_level_0,Unnamed: 1_level_0,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop
Country/Region,Continent,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Afghanistan,Asia,39009447.0,36896,0.0,1298.0,0.0,25840.0,0.0,9758.0,31.0,946.0,33.0,90396.0,2317.0
Albania,Europe,2877470.0,6016,0.0,188.0,0.0,3155.0,0.0,2673.0,23.0,2091.0,65.0,38997.0,13553.0
Algeria,Africa,43926079.0,33626,0.0,1273.0,0.0,23238.0,0.0,9115.0,57.0,766.0,29.0,0.0,0.0
Andorra,Europe,77278.0,944,0.0,52.0,0.0,828.0,0.0,64.0,1.0,12216.0,673.0,3750.0,48526.0
Angola,Africa,32956300.0,1483,0.0,64.0,0.0,520.0,0.0,899.0,20.0,45.0,2.0,64747.0,1965.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Vietnam,Asia,97425470.0,747,0.0,10.0,0.0,392.0,0.0,345.0,0.0,8.0,0.1,482456.0,4952.0
Western Sahara,Africa,598682.0,10,0.0,1.0,0.0,8.0,0.0,1.0,0.0,17.0,2.0,0.0,0.0
Yemen,Asia,29886897.0,1768,0.0,508.0,0.0,898.0,0.0,362.0,0.0,59.0,17.0,120.0,4.0
Zambia,Africa,18430129.0,7164,0.0,199.0,0.0,5786.0,0.0,1179.0,0.0,389.0,11.0,90307.0,4900.0


### Data Types and Missing Values

Dtypes
Le type de données d'une colonne dans un DataFrame ou une série est appelé dtype.

In [107]:
data.Continent.dtype

dtype('O')

In [108]:
data.Population.dtype

dtype('float64')

In [111]:
data.dtypes ## Noublier pas le s à la fin de dtypes ici

Country/Region       object
Continent            object
Population          float64
TotalCases            int64
NewCases            float64
                     ...   
Tot Cases/1M pop    float64
Deaths/1M pop       float64
TotalTests          float64
Tests/1M pop        float64
WHO Region           object
Length: 16, dtype: object

### Données manquantes
Les valeurs manquantes des entrées reçoivent la valeur NaN, abréviation de "Not a Number". Pour des raisons techniques, ces valeurs NaN sont toujours de type float64 d.

Pandas fournit des méthodes spécifiques aux données manquantes. 

Pour sélectionner des entrées NaN, vous pouvez utiliser pd.isnull() (ou son compagnon pd.notnull()). Ceci est destiné à être utilisé ainsi :


Le remplacement des valeurs manquantes est une opération courante. Pandas propose une méthode très pratique pour résoudre ce problème : fillna().

fillna() fournit quelques stratégies différentes pour atténuer ces données. Par exemple, nous pouvons simplement remplacer chaque NaN par un "Inconnu":


In [112]:
data.NewCases.fillna('Non definie')

0      Non definie
1      Non definie
2      Non definie
3      Non definie
4      Non definie
          ...     
204    Non definie
205    Non definie
206    Non definie
207    Non definie
208    Non definie
Name: NewCases, Length: 209, dtype: object

La fonction replace(), pour remplacer un ou plusieurs éléments

### Renommer et combiner

Renommer
La première fonction que nous allons introduire ici est rename(), qui vous permet de changer les noms d'index et/ou les noms de colonnes. 

In [113]:
data

Unnamed: 0,Country/Region,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
0,USA,North America,3.311981e+08,5032179,,162804.0,,2576668.0,,2292707.0,18296.0,15194.0,492.0,63139605.0,190640.0,Americas
1,Brazil,South America,2.127107e+08,2917562,,98644.0,,2047660.0,,771258.0,8318.0,13716.0,464.0,13206188.0,62085.0,Americas
2,India,Asia,1.381345e+09,2025409,,41638.0,,1377384.0,,606387.0,8944.0,1466.0,30.0,22149351.0,16035.0,South-EastAsia
3,Russia,Europe,1.459409e+08,871894,,14606.0,,676357.0,,180931.0,2300.0,5974.0,100.0,29716907.0,203623.0,Europe
4,South Africa,Africa,5.938157e+07,538184,,9604.0,,387316.0,,141264.0,539.0,9063.0,162.0,3149807.0,53044.0,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
204,Montserrat,North America,4.992000e+03,13,,1.0,,10.0,,2.0,,2604.0,200.0,61.0,12220.0,
205,Caribbean Netherlands,North America,2.624700e+04,13,,,,7.0,,6.0,,495.0,,424.0,16154.0,
206,Falkland Islands,South America,3.489000e+03,13,,,,13.0,,0.0,,3726.0,,1816.0,520493.0,
207,Vatican City,Europe,8.010000e+02,12,,,,12.0,,0.0,,14981.0,,,,Europe


In [114]:
data.rename(columns = {'Country/Region':'Country'})

Unnamed: 0,Country,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
0,USA,North America,3.311981e+08,5032179,,162804.0,,2576668.0,,2292707.0,18296.0,15194.0,492.0,63139605.0,190640.0,Americas
1,Brazil,South America,2.127107e+08,2917562,,98644.0,,2047660.0,,771258.0,8318.0,13716.0,464.0,13206188.0,62085.0,Americas
2,India,Asia,1.381345e+09,2025409,,41638.0,,1377384.0,,606387.0,8944.0,1466.0,30.0,22149351.0,16035.0,South-EastAsia
3,Russia,Europe,1.459409e+08,871894,,14606.0,,676357.0,,180931.0,2300.0,5974.0,100.0,29716907.0,203623.0,Europe
4,South Africa,Africa,5.938157e+07,538184,,9604.0,,387316.0,,141264.0,539.0,9063.0,162.0,3149807.0,53044.0,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
204,Montserrat,North America,4.992000e+03,13,,1.0,,10.0,,2.0,,2604.0,200.0,61.0,12220.0,
205,Caribbean Netherlands,North America,2.624700e+04,13,,,,7.0,,6.0,,495.0,,424.0,16154.0,
206,Falkland Islands,South America,3.489000e+03,13,,,,13.0,,0.0,,3726.0,,1816.0,520493.0,
207,Vatican City,Europe,8.010000e+02,12,,,,12.0,,0.0,,14981.0,,,,Europe


rename() vous permet de renommer les valeurs d'index ou de colonne en spécifiant respectivement un paramètre de mot-clé d'index ou de colonne.

Il prend en charge une variété de formats d'entrée, mais généralement un dictionnaire Python est le plus pratique.

Voici un exemple l'utilisant pour renommer certains éléments de l'index.

In [115]:
data.rename(index={0: 'firstEntry', 1: 'secondEntry'})

Unnamed: 0,Country/Region,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
firstEntry,USA,North America,3.311981e+08,5032179,,162804.0,,2576668.0,,2292707.0,18296.0,15194.0,492.0,63139605.0,190640.0,Americas
secondEntry,Brazil,South America,2.127107e+08,2917562,,98644.0,,2047660.0,,771258.0,8318.0,13716.0,464.0,13206188.0,62085.0,Americas
2,India,Asia,1.381345e+09,2025409,,41638.0,,1377384.0,,606387.0,8944.0,1466.0,30.0,22149351.0,16035.0,South-EastAsia
3,Russia,Europe,1.459409e+08,871894,,14606.0,,676357.0,,180931.0,2300.0,5974.0,100.0,29716907.0,203623.0,Europe
4,South Africa,Africa,5.938157e+07,538184,,9604.0,,387316.0,,141264.0,539.0,9063.0,162.0,3149807.0,53044.0,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
204,Montserrat,North America,4.992000e+03,13,,1.0,,10.0,,2.0,,2604.0,200.0,61.0,12220.0,
205,Caribbean Netherlands,North America,2.624700e+04,13,,,,7.0,,6.0,,495.0,,424.0,16154.0,
206,Falkland Islands,South America,3.489000e+03,13,,,,13.0,,0.0,,3726.0,,1816.0,520493.0,
207,Vatican City,Europe,8.010000e+02,12,,,,12.0,,0.0,,14981.0,,,,Europe


Vous renommerez probablement les colonnes très souvent, mais renommerez très rarement les valeurs d'index. Pour cela, set_index() est généralement plus pratique.

L'index de ligne et l'index de colonne peuvent avoir leur propre attribut de nom. La méthode complémentaire rename_axis() peut être utilisée pour changer ces noms.

Par exemple:


In [116]:
data.rename_axis("wines", axis='rows').rename_axis("fields", axis='columns')

fields,Country/Region,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,"Serious,Critical",Tot Cases/1M pop,Deaths/1M pop,TotalTests,Tests/1M pop,WHO Region
wines,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
0,USA,North America,3.311981e+08,5032179,,162804.0,,2576668.0,,2292707.0,18296.0,15194.0,492.0,63139605.0,190640.0,Americas
1,Brazil,South America,2.127107e+08,2917562,,98644.0,,2047660.0,,771258.0,8318.0,13716.0,464.0,13206188.0,62085.0,Americas
2,India,Asia,1.381345e+09,2025409,,41638.0,,1377384.0,,606387.0,8944.0,1466.0,30.0,22149351.0,16035.0,South-EastAsia
3,Russia,Europe,1.459409e+08,871894,,14606.0,,676357.0,,180931.0,2300.0,5974.0,100.0,29716907.0,203623.0,Europe
4,South Africa,Africa,5.938157e+07,538184,,9604.0,,387316.0,,141264.0,539.0,9063.0,162.0,3149807.0,53044.0,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
204,Montserrat,North America,4.992000e+03,13,,1.0,,10.0,,2.0,,2604.0,200.0,61.0,12220.0,
205,Caribbean Netherlands,North America,2.624700e+04,13,,,,7.0,,6.0,,495.0,,424.0,16154.0,
206,Falkland Islands,South America,3.489000e+03,13,,,,13.0,,0.0,,3726.0,,1816.0,520493.0,
207,Vatican City,Europe,8.010000e+02,12,,,,12.0,,0.0,,14981.0,,,,Europe


### Combiner
Lors de l'exécution d'opérations sur un jeu de données, nous aurons parfois besoin de combiner différents DataFrames et/ou Series de manière non triviale.

Pandas a trois méthodes de base pour ce faire. Par ordre de complexité croissante, il s'agit de concat(), join() et merge().

La plupart de ce que merge() peut faire peut aussi être fait plus simplement avec join(), nous allons donc l'omettre et nous concentrer sur les deux premières fonctions ici.


La méthode de combinaison la plus simple est concat(). Étant donné une liste d'éléments, cette fonction fusionnera ces éléments le long d'un axe.

In [134]:
d1 = pd.DataFrame({'Yes': [15, 25], 'No': [45, 35]})
d2 = pd.DataFrame({'Yes': [39,19], 'No': [9,29]})

In [125]:
d1

Unnamed: 0,Yes,No
0,15,45
1,25,35


In [126]:
d2

Unnamed: 0,Yes,No
0,39,9
1,19,29


In [127]:
pd.concat([d1,d2])

Unnamed: 0,Yes,No
0,15,45
1,25,35
0,39,9
1,19,29
