# **Débuter avec pandas**
- Nous commencerons par présenter les classes Series, DataFrame et Index, qui sont les éléments de base de la bibliothèque pandas, et montrerons comment les utiliser.
- À la fin de cette section, vous serez en mesure de créer des DataFrames et d'y effectuer des opérations pour inspecter et filtrer les données.

# **Anatomie d'un DataFrame**

![image](https://user-images.githubusercontent.com/123748165/226333609-b31f6d91-580d-460e-9001-4535664ddfe9.png)

- Un DataFrame est composé d'une ou plusieurs Series. Les noms des séries forment les noms des colonnes et les étiquettes des lignes forment l'index.

In [None]:
import pandas as pd

meteorites = pd.read_csv('/content/Meteorite_Landings.csv', nrows=5)
meteorites

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


**Series**

In [None]:
meteorites.name

0      Aachen
1      Aarhus
2        Abee
3    Acapulco
4     Achiras
Name: name, dtype: object

**Colonnes:**

In [None]:
meteorites.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

**Index:**

In [None]:
meteorites.index

RangeIndex(start=0, stop=5, step=1)

**Créer des DataFrames**
- Nous pouvons créer des DataFrames à partir d'une variété de sources telles que d'autres objets Python, des fichiers plats, du webcraping et des requêtes API.
- Nous ne verrons ici que quelques exemples de création de DataFrames

**Utiliser un fichier plat**

In [None]:
import pandas as pd

meteorites = pd.read_csv('/content/Meteorite_Landings.csv')

**Utiliser des données provenant d'une API**
- Collecter les données à partir du portail de données ouvertes de la NASA en utilisant l'API de données ouvertes Socrata (SODA) avec la bibliothèque de requêtes :

In [None]:
import requests

response = requests.get(
    'https://data.nasa.gov/resource/gh4g-9sfh.json',
    params={'$limit': 50_000}
)

if response.ok:
    payload = response.json()
else:
    print(f'Request was not successful and returned code: {response.status_code}.')
    payload = None

In [None]:
df = pd.DataFrame(payload)
df.head(3)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,geolocation,:@computed_region_cbhk_fwbd,:@computed_region_nnqa_25f4
0,Aachen,1,Valid,L5,21,Fell,1880-01-01T00:00:00.000,50.775,6.08333,"{'latitude': '50.775', 'longitude': '6.08333'}",,
1,Aarhus,2,Valid,H6,720,Fell,1951-01-01T00:00:00.000,56.18333,10.23333,"{'latitude': '56.18333', 'longitude': '10.23333'}",,
2,Abee,6,Valid,EH4,107000,Fell,1952-01-01T00:00:00.000,54.21667,-113.0,"{'latitude': '54.21667', 'longitude': '-113.0'}",,


**Inspecter les données**
- Maintenant que nous disposons de données, nous devons procéder à une première inspection de celles-ci. 
- Cela nous donne des informations sur l'aspect des données, le nombre de lignes/colonnes et la quantité de données dont nous disposons.

- Inspectons les données relatives aux météorites.

**Combien y a-t-il de lignes et de colonnes ?**

In [None]:
meteorites.shape

(45716, 10)

**Quels sont les noms des colonnes ?**

In [None]:
meteorites.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass (g)', 'fall', 'year',
       'reclat', 'reclong', 'GeoLocation'],
      dtype='object')

**Quel type de données chaque colonne contient-elle ?**

In [None]:
meteorites.dtypes

name            object
id               int64
nametype        object
recclass        object
mass (g)       float64
fall            object
year            object
reclat         float64
reclong        float64
GeoLocation     object
dtype: object

**A quoi ressemblent les données ?**

In [None]:
meteorites.head()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,01/01/1880 12:00:00 AM,50.775,6.08333,"(50.775, 6.08333)"
1,Aarhus,2,Valid,H6,720.0,Fell,01/01/1951 12:00:00 AM,56.18333,10.23333,"(56.18333, 10.23333)"
2,Abee,6,Valid,EH4,107000.0,Fell,01/01/1952 12:00:00 AM,54.21667,-113.0,"(54.21667, -113.0)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,01/01/1976 12:00:00 AM,16.88333,-99.9,"(16.88333, -99.9)"
4,Achiras,370,Valid,L6,780.0,Fell,01/01/1902 12:00:00 AM,-33.16667,-64.95,"(-33.16667, -64.95)"


- Il peut arriver que la fin du fichier contienne des données superflues ; il est donc également important de vérifier les quelques lignes inférieures :

In [None]:
meteorites.tail()

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,01/01/1990 12:00:00 AM,29.037,17.0185,"(29.037, 17.0185)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,01/01/1999 12:00:00 AM,13.78333,8.96667,"(13.78333, 8.96667)"
45713,Zlin,30410,Valid,H4,3.3,Found,01/01/1939 12:00:00 AM,49.25,17.66667,"(49.25, 17.66667)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,01/01/2003 12:00:00 AM,49.78917,41.5046,"(49.78917, 41.5046)"
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,01/01/1976 12:00:00 AM,33.98333,-115.68333,"(33.98333, -115.68333)"


**Obtenir des informations sur le DataFrame**

In [None]:
meteorites.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   name         45716 non-null  object 
 1   id           45716 non-null  int64  
 2   nametype     45716 non-null  object 
 3   recclass     45716 non-null  object 
 4   mass (g)     45585 non-null  float64
 5   fall         45716 non-null  object 
 6   year         45425 non-null  object 
 7   reclat       38401 non-null  float64
 8   reclong      38401 non-null  float64
 9   GeoLocation  38401 non-null  object 
dtypes: float64(3), int64(1), object(6)
memory usage: 3.5+ MB


**Exercice 1.1**
- Créez un DataFrame en lisant le fichier 2019_Yellow_Taxi_Trip_Data.csv.
- Examinez les 5 premières lignes.

In [None]:
#solution

Double-click __here__ for the solution.

<!-- Your answer is below:
taxis = pd.read_csv('/content/2019_Yellow_Taxi_Trip_Data.csv')
taxis.head()

-->

**Exercise 1.2**
- Trouvez les dimensions (nombre de lignes et nombre de colonnes) dans les données.

In [None]:
#solution

Double-click __here__ for the solution.

<!-- Your answer is below:
taxis.shape
-->

# **Extraire des sous-ensembles**
- Une partie essentielle du travail avec les DataFrames consiste à extraire des sous-ensembles de données : trouver des lignes qui répondent à un certain nombre de critères, isoler les colonnes/lignes d'intérêt, etc. 
- Après avoir réduit nos données, nous sommes plus près de découvrir des informations. 
- Cette section constituera l'épine dorsale de nombreuses tâches d'analyse.

**Sélectionner des colonnes**
- Nous pouvons sélectionner des colonnes comme attributs si leurs noms sont des variables Python valides :

In [None]:
meteorites[['name', 'mass (g)']]

Unnamed: 0,name,mass (g)
0,Aachen,21.0
1,Aarhus,720.0
2,Abee,107000.0
3,Acapulco,1914.0
4,Achiras,780.0
...,...,...
45711,Zillah 002,172.0
45712,Zinder,46.0
45713,Zlin,3.3
45714,Zubkovsky,2167.0


**Sélectionner des lignes**


In [None]:
meteorites[100:104]

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
100,Benton,5026,Valid,LL6,2840.0,Fell,01/01/1949 12:00:00 AM,45.95,-67.55,"(45.95, -67.55)"
101,Berduc,48975,Valid,L6,270.0,Fell,01/01/2008 12:00:00 AM,-31.91,-58.32833,"(-31.91, -58.32833)"
102,Béréba,5028,Valid,Eucrite-mmict,18000.0,Fell,01/01/1924 12:00:00 AM,11.65,-3.65,"(11.65, -3.65)"
103,Berlanguillas,5029,Valid,L6,1440.0,Fell,01/01/1811 12:00:00 AM,41.68333,-3.8,"(41.68333, -3.8)"


**Indexation**
- Nous utilisons iloc[] pour sélectionner les lignes et les colonnes en fonction de leur position :

In [None]:
meteorites.iloc[100:104, [0, 3, 4, 6]]

Unnamed: 0,name,recclass,mass (g),year
100,Benton,LL6,2840.0,01/01/1949 12:00:00 AM
101,Berduc,L6,270.0,01/01/2008 12:00:00 AM
102,Béréba,Eucrite-mmict,18000.0,01/01/1924 12:00:00 AM
103,Berlanguillas,L6,1440.0,01/01/1811 12:00:00 AM


**Nous utilisons loc[] pour sélectionner par nom:**

In [None]:
meteorites.loc[100:104, 'mass (g)':'year']

Unnamed: 0,mass (g),fall,year
100,2840.0,Fell,01/01/1949 12:00:00 AM
101,270.0,Fell,01/01/2008 12:00:00 AM
102,18000.0,Fell,01/01/1924 12:00:00 AM
103,1440.0,Fell,01/01/1811 12:00:00 AM
104,960.0,Fell,01/01/2004 12:00:00 AM


**Filtrage avec des masques booléens**
- Un masque booléen est une structure de type tableau de valeurs booléennes - c'est un moyen de spécifier les lignes/colonnes que l'on veut sélectionner (Vrai) et celles que l'on ne veut pas (Faux).

- Voici un exemple de masque booléen pour les météorites de plus de 50 grammes trouvées sur Terre (c'est-à-dire dont la chute n'a pas été observée) :

In [None]:
(meteorites['mass (g)'] > 50) & (meteorites.fall == 'Found')

0        False
1        False
2        False
3        False
4        False
         ...  
45711     True
45712    False
45713    False
45714     True
45715     True
Length: 45716, dtype: bool

- **Important:** Faites attention à la syntaxe. Nous entourons chaque condition de parenthèses et nous utilisons des opérateurs binaires (&, |, ~) au lieu d'opérateurs logiques (and, or, not).

**Exercice 1.3 :**    
- Utilisez un masque booléen pour sélectionner le sous-ensemble de météorites pesant plus d'un million de grammes (1 000 kilogrammes ou environ 2 205 livres) dont la chute a été observée.

In [None]:
#solution

Double-click __here__ for the solution.

<!-- Your answer is below:
meteorites[(meteorites['mass (g)'] > 1e6) & (meteorites.fall == 'Fell')]
-->

- Une alternative à cette méthode est la méthode query() :

In [None]:
meteorites.query("`mass (g)` > 1e6 and fall == 'Fell'")

Unnamed: 0,name,id,nametype,recclass,mass (g),fall,year,reclat,reclong,GeoLocation
29,Allende,2278,Valid,CV3,2000000.0,Fell,01/01/1969 12:00:00 AM,26.96667,-105.31667,"(26.96667, -105.31667)"
419,Jilin,12171,Valid,H5,4000000.0,Fell,01/01/1976 12:00:00 AM,44.05,126.16667,"(44.05, 126.16667)"
506,Kunya-Urgench,12379,Valid,H5,1100000.0,Fell,01/01/1998 12:00:00 AM,42.25,59.2,"(42.25, 59.2)"
707,Norton County,17922,Valid,Aubrite,1100000.0,Fell,01/01/1948 12:00:00 AM,39.68333,-99.86667,"(39.68333, -99.86667)"
920,Sikhote-Alin,23593,Valid,"Iron, IIAB",23000000.0,Fell,01/01/1947 12:00:00 AM,46.16,134.65333,"(46.16, 134.65333)"
