![Datailab Logo](https://kajabi-storefronts-production.kajabi-cdn.com/kajabi-storefronts-production/file-uploads/themes/2155698250/settings_images/dd1ab6f-208-d4e5-d187-483a245d87_logo_header_Datailab.png)


# Section 1 : Débuter avec pandas avec Pandas

Nous commencerons par introduire les classes `Series`, `DataFrame` et `Index`, qui sont les éléments de base de la bibliothèque pandas, et montrer comment travailler avec elles. À la fin de cette section, vous serez capable de créer des DataFrames et d'effectuer des opérations pour inspecter et filtrer les données.


## Anatomie d'un DataFrame

Un **DataFrame** est composé d'une ou plusieurs **Series**. Les noms des **Series** forment les noms des colonnes, et les étiquettes de ligne forment l'**Index**.


In [None]:
import pandas as pd

meteorites = pd.read_csv('data/Meteorite_Landings.csv', nrows=5)
meteorites

*Source: [NASA's Open Data Portal](https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh)*

#### Series:

Pour accéder aux éléments de la séquences de la colonne name 
```python
meteorites.name
```


In [None]:
meteorites.name

#### Columns:

Pour donner la liste des colonnes 
```python
meteorites.columns
```

In [None]:
meteorites.columns

#### Index:

Pour afficher les indexes  
```python
meteorites.index
```

In [None]:
meteorites.index

## Création de DataFrames

Nous pouvons créer des DataFrames à partir de diverses sources telles que d'autres objets Python, des fichiers plats, le web scraping et les requêtes API. Ici, nous verrons juste quelques exemples, mais assurez-vous de consulter [cette page](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) dans la documentation pour une liste complète.


### Utilisation d'un fichier plat


In [None]:
import pandas as pd

meteorites = pd.read_csv('data/Meteorite_Landings.csv')

*Tip : Cette fonction possède de nombreux paramètres pour gérer un traitement initial lors de la lecture du fichier &ndash; assurez-vous de consulter la [documentation](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).*


### Utilisation de données depuis une API

Collectez les données depuis le [Portail de données ouvertes de la NASA](https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh) en utilisant l'API de données ouvertes Socrata (SODA) avec la bibliothèque `requests` :


In [None]:
import requests

response = requests.get(
    'https://data.nasa.gov/resource/gh4g-9sfh.json',
    params={'$limit': 50_000}
)

if response.ok:
    payload = response.json()
else:
    print(f'Request was not successful and returned code: {response.status_code}.')
    payload = None

Créez le DataFrame avec la charge utile résultante payload:


In [None]:
import pandas as pd

df = pd.DataFrame(payload)
df.head(3)

*Astuce : `df.to_csv('data.csv')` écrit ces données dans un nouveau fichier nommé `data.csv`.*


## Inspection des données
Maintenant que nous avons des données, nous devons effectuer une inspection initiale. Cela nous donne des informations sur l'apparence des données, le nombre de lignes/colonnes, et la quantité de données que nous avons.


Inspectons les données des `météorites`.


#### Combien y a-t-il de lignes et de colonnes ?


In [None]:
meteorites.shape

#### Quels sont les noms des colonnes ?


In [None]:
meteorites.columns

#### Quel type de données chaque colonne contient-elle actuellement ?


In [None]:
meteorites.dtypes

#### À quoi ressemblent les données ?


In [None]:
meteorites.head()
# .head() pour afficher les 5 premières lignes 

Parfois, il peut y avoir des données superflues à la fin du fichier, donc vérifier les dernières lignes est également important :


In [None]:
meteorites.tail()

#### Obtenir des informations sur le DataFrame


In [None]:
meteorites.info()

### [Exercice 1.1](./workbook.ipynb#Exercice-1.1)

##### Créez un DataFrame en lisant le fichier `2019_Yellow_Taxi_Trip_Data.csv`. Examinez les 5 premières lignes.


In [None]:
# Complétez cet exercice dans le fichier workbook.ipynb
# Cliquez sur `Exercice 1.1` ci-dessus pour ouvrir le fichier workbook.ipynb



### [Exercice 1.2](./workbook.ipynb#Exercice-1.2)

##### Trouvez les dimensions (nombre de lignes et nombre de colonnes) des données.


In [None]:
# Complétez cet exercice dans le fichier workbook.ipynb
# Cliquez sur `Exercice 1.2` ci-dessus pour ouvrir le fichier workbook.ipynb




## Extraction de sous-ensembles

Une partie cruciale du travail avec les DataFrames consiste à extraire des sous-ensembles de données : trouver des lignes qui répondent à certains critères, isoler des colonnes/lignes d'intérêt, etc. En réduisant nos données, nous nous rapprochons de la découverte d'informations clés. Cette section sera le fondement de nombreuses tâches d'analyse.


#### Sélection des colonnes

Nous pouvons sélectionner des colonnes comme des attributs si leurs noms sont des variables Python valides :


In [None]:
meteorites.name

Si ce n'est pas le cas, nous devons les sélectionner comme des clés. Cependant, nous pouvons sélectionner plusieurs colonnes à la fois de cette manière :


In [None]:
meteorites[['name', 'mass (g)']]

#### Sélection des lignes


In [None]:
meteorites[100:104]

We use `loc[]` to select by name:

In [None]:
meteorites.iloc[100:104, [0, 3, 4, 6]]

Nous utilisons `loc[]` pour sélectionner par nom :


In [None]:
meteorites.loc[100:104, 'mass (g)':'year']

#### Filtrage avec des masques booléens

Un **masque booléen** est une structure de type tableau contenant des valeurs booléennes &ndash; c'est une façon de spécifier quelles lignes/colonnes nous voulons sélectionner (`True`) et lesquelles nous ne voulons pas (`False`).


Voici un exemple de masque booléen pour les météorites pesant plus de 50 grammes qui ont été trouvées sur Terre (c'est-à-dire qu'elles n'ont pas été observées en train de tomber) :


In [None]:
(meteorites['mass (g)'] > 50) & (meteorites.fall == 'Found')

**Important** : Notez la syntaxe ici. Nous entourons chaque condition de parenthèses, et nous utilisons les opérateurs bit à bit (`&`, `|`, `~`) plutôt que les opérateurs logiques (`and`, `or`, `not`).


Nous pouvons utiliser un masque booléen pour sélectionner le sous-ensemble des météorites pesant plus d'un million de grammes (1 000 kilogrammes ou environ 2 205 livres) qui ont été observées en train de tomber :


In [None]:
meteorites[(meteorites['mass (g)'] > 1e6) & (meteorites.fall == 'Fell')]

*Astuce : Les masques booléens peuvent être utilisés avec `loc[]` et `iloc[]`.*


Une alternative à cela est la méthode `query()` :


In [None]:
meteorites.query("`mass (g)` > 1e6 and fall == 'Fell'")

*Astuce : Ici, nous pouvons utiliser à la fois des opérateurs logiques et des opérateurs bit à bit.*


## Calcul des statistiques récapitulatives

Dans la prochaine section de cet atelier, nous discuterons du nettoyage des données pour une analyse plus significative de nos ensembles de données. Cependant, nous pouvons déjà extraire des informations intéressantes des données sur les `météorites` en calculant des statistiques récapitulatives.


#### Combien de météorites ont été trouvées par rapport à celles observées en train de tomber ?


In [None]:
meteorites.fall.value_counts()

*Astuce : Utilisez `normalize=True` pour voir ce résultat en pourcentages. Consultez la [documentation](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html) pour des fonctionnalités supplémentaires.*


#### Quel était le poids moyen d'une météorite ?


In [None]:
meteorites['mass (g)'].mean()

**Important** : La moyenne n'est pas toujours la meilleure mesure de la tendance centrale. Si la distribution contient des valeurs aberrantes, la moyenne sera biaisée. Ici, la moyenne est tirée vers le haut par quelques météorites très lourdes &ndash; la distribution est [asymétrique vers la droite](https://www.analyticsvidhya.com/blog/2020/07/what-is-skewness-statistics/).


En examinant certains quantiles aux extrémités de la distribution, on constate que la moyenne se situe entre le 95e et le 99e centile de la distribution, ce qui en fait une mauvaise mesure de la tendance centrale ici :


In [None]:
meteorites['mass (g)'].quantile([0.01, 0.05, 0.5, 0.95, 0.99])

Une meilleure mesure dans ce cas est la médiane (50e percentile), car elle est robuste aux valeurs aberrantes :


In [None]:
meteorites['mass (g)'].median()

#### Quel était le poids de la météorite la plus lourde ?


In [None]:
meteorites['mass (g)'].max()

Examinons les informations sur cette météorite :


In [None]:
meteorites.loc[meteorites['mass (g)'].idxmax()]

#### Combien de types différents de classes de météorites sont représentés dans cet ensemble de données ?


In [None]:
meteorites.recclass.nunique()

Some examples:

In [None]:
meteorites.recclass.unique()[:14]

*Note : Tous les champs précédés de "rec" sont les valeurs recommandées par la Société météoritique. Consultez [cet article Wikipedia](https://en.wikipedia.org/wiki/Meteorite_classification) pour des informations sur les classes de météorites.*


#### Obtenir des statistiques récapitulatives sur les données elles-mêmes
Nous pouvons obtenir des statistiques récapitulatives courantes pour toutes les colonnes à la fois. Par défaut, cela ne sera fait que pour les colonnes numériques, mais ici, nous résumerons tout ensemble :


In [None]:
meteorites.describe(include='all')

**Important** : Les valeurs `NaN` indiquent des données manquantes. Par exemple, la colonne `fall` contient des chaînes de caractères, donc il n'y a pas de valeur pour `moyenne`; de même, `masse (g)` est numérique, donc nous n'avons pas d'entrées pour les statistiques récapitulatives catégorielles (`unique`, `top`, `fréq`).


#### Consultez la documentation pour plus de statistiques descriptives :

- [Series](https://pandas.pydata.org/docs/reference/series.html#computations-descriptive-stats)
- [DataFrame](https://pandas.pydata.org/docs/reference/frame.html#computations-descriptive-stats)
