# Analyse et visualisation de données avec Python
## Accéder à un sous-ensemble d'un DataFrames
Questions
* Comment accéder à des données spécifiques dans un dataframe?

Objectifs
* Utiliser les tranches pour sélectionner un intervalle de données.
* Utiliser les étiquettes de rangées et les noms de colonnes pour délimiter une tranche.
* Réassigner des valeurs à une sélection dans un dataframe.
* Créer une copie d'un dataframe.
* Effectuer une sélection en utilisant un critère contenant un opérateur: `=`, `!=`, `>`, `<`, `>=`, `<=`.
* Manipuler les données avec des masques de valeurs booléennes.

## Charger nos données

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
valeurs = pd.read_csv("../data/valeurs.csv")

## *Indexing* et *Slicing* dans Python
### Sélectionner des données en utilisant des noms de colonne

In [None]:
valeurs###

In [None]:
### = valeurs['company_ID']

In [None]:
# Sélectionner deux colonnes à l'aide d'une liste
valeurs['company_ID'###]

### Copier et référencer des objets dans Python

In [None]:
# Créer une copie du dataframe avec les mêmes valeurs
copie_valeurs = valeurs###

# Garder une référence vers le dataframe original
###_valeurs = valeurs

In [None]:
# Écraser toute la colonne avec des zéros
ref_valeurs['Market_Cap_USD']###

In [None]:
valeurs.head()

In [None]:
###_valeurs.head()

In [None]:
# Recharger les données à partir du fichier CSV
valeurs = pd.read_csv("../data/valeurs.csv")
valeurs.head()

### Faire une sélection selon des rangées et des colonnes
On peut sélectionner un sous-ensemble de rangées et de colonnes avec l'attribut `loc`: c'est principalement basé sur les index de rangée et de colonne.

In [None]:
# Qu'est-ce que cela donne?
valeurs.###[###['record_id', 'company_ID', 'Market_Cap_USD']]

In [None]:
# Sélectionner toutes les colonnes pour les rangées 0 et 10
valeurs.###[###, ###]

In [None]:
# Qu'arrive-t-il si on exécute le code ci-dessous?
valeurs.loc[[0, 10, 3082], :]

### Exercice - Un intervalle
Qu'est-ce qui arrive si on exécute :

In [None]:
valeurs.loc[0:4, 1:4] # 'year':'company_ID'

## Sélection par des critères

In [None]:
valeurs['year']###

In [None]:
valeurs[valeurs['year'] ###]

In [None]:
valeurs[(valeurs['year'] ### ### (valeurs['Assets_to_Equity'] ###]

Voici quelques opérateurs de comparaison que vous pouvez essayer :

* Égal : `==`
* Pas égal : `!=`
* Plus grand que, plus petit que : `>` or `<`
* Plus grand ou égal à `>=`
* Plus petit ou égal à `<=`

### Exercices - Sélections avancées
`1`. Vous pouvez utiliser la méthode `isin()` pour aller chercher les enregistrements dont les valeurs d'une colonne correspondent à l'une des valeurs fournies dans une liste. Par exemple:
```
valeurs[valeurs['company_ID'].isin([12345, 789123, 65432])]
```

Utilisez la méthode `isin()` pour trouver tous les `company_ID` ayant eu au moins un `Total_Return_USD` supérieur à 0.1 au cours du dernier mois de chaque saison, soit mars, juin, septembre et décembre.

In [None]:
valeurs[valeurs[###].isin(###) & (valeurs['Total_Return_USD'] ###]['company_ID']###

`2`. Le symbole `~` peut être utilisé pour retourner l'opposé d'une sélection. C'est l'équivalent de "**n'est pas**". Écrivez une requête sélectionnant tous les enregistrements ne contenant ni `low_leverage`, ni `high_leverage`.

In [None]:
valeurs[###valeurs['leverage_category'].###(['low_leverage', 'high_leverage'])]

### Sélection selon les valeurs non définies

In [None]:
###(valeurs)

In [None]:
# Pour sélectionner les enregistrements ayant au moins une valeur NaN
valeurs[pd.isnull(valeurs)###]

In [None]:
# Qu'est-ce que le code suivant va retourner?
une_selection = valeurs[pd.isnull(valeurs['Total_Return_USD'])]['Total_Return_USD']
#print(une_selection)

### Exercice - Enlever les NaN
Créez une sélection contenant seulement les enregistrements ayant une valeur `leverage_category` non-nulle et ayant un `Market_Cap_USD` supérieur ou égal à 200000. Créez un graphique de barres empilées ("stacked bar-plot") montrant le nombre d'enregistrements à chaque année pour chaque compagnie.

In [None]:
# Sélection des enregistrements et des colonnes nécessaires
lev200k = valeurs[###][['record_id', 'company_ID', 'year']]

In [None]:
# Grouper selon les compagnies et les années, compter les record_id
lev200k = lev200k.###(['company_ID', 'year'###).###().unstack()

In [None]:
# Simplification du nom des colonnes dans la légende
lev200k.columns = lev200k.columns.droplevel()

# Créer le stacked bar plot:
lev200k.###(kind=###, stacked=###)