# Analyse et visualisation de données avec Python
## Accéder à un sous-ensemble d'un DataFrames
Questions
* Comment accéder à des données spécifiques dans un dataframe?

Objectifs
* Utiliser les tranches pour sélectionner un intervalle de données.
* Utiliser les étiquettes de rangées et les noms de colonnes pour délimiter une tranche.
* Réassigner des valeurs à une sélection dans un dataframe.
* Créer une copie d'un dataframe.
* Effectuer une sélection en utilisant un critère contenant un opérateur: `=`, `!=`, `>`, `<`, `>=`, `<=`.
* Manipuler les données avec des masques de valeurs booléennes.

## Charger nos données

In [None]:
# first make sure pandas is loaded
import pandas as pd

# read in the survey csv
valeurs = pd.read_csv("../data/valeurs.csv")

## *Indexing* et *Slicing* dans Python
### Sélectionner des données en utilisant des noms de colonne

In [None]:
valeurs['company_ID']

In [None]:
les_cie = valeurs['company_ID']

In [None]:
# Sélectionner deux colonnes à l'aide d'une liste
valeurs[['company_ID', 'record_id']]

### Copier et référencer des objets dans Python

In [None]:
# Créer une copie du dataframe avec les mêmes valeurs
copie_valeurs = valeurs.copy()

# Garder une référence vers le dataframe original
ref_valeurs = valeurs

In [None]:
# Assign the value `0` to the first three rows of data in the DataFrame
ref_valeurs['Market_Cap_USD'] = 0

In [None]:
valeurs.head()

In [None]:
copie_valeurs.head()

In [None]:
# Recharger les données à partir du fichier CSV
valeurs = pd.read_csv("../data/valeurs.csv")
valeurs.head()

### Faire une sélection selon des rangées et des colonnes
On peut sélectionner un sous-ensemble de rangées et de colonnes avec l'attribut `loc`: c'est principalement basé sur les index de rangée et de colonne.

In [None]:
# Qu'est-ce que cela donne?
valeurs.loc[0, ['record_id', 'company_ID', 'Market_Cap_USD']]

In [None]:
# Sélectionner toutes les colonnes pour les rangées 0 et 10
valeurs.loc[[0, 10], :]

In [None]:
# Qu'arrive-t-il si on exécute le code ci-dessous?
valeurs.loc[[0, 10, 3081], :]

### Exercise - Range
What happens when you execute:

In [None]:
valeurs.loc[0:4, 1:4] # 'year':'company_ID'

## Subsetting Data Using Criteria

In [None]:
surveys_df[surveys_df["year"] == 2002]

In [None]:
surveys_df[surveys_df["year"] != 2002]

In [None]:
surveys_df[(surveys_df["year"] >= 1980) & (surveys_df["year"] <= 1985)]

Use can use the syntax below when querying data from a DataFrame. Experiment with selecting various subsets of the "surveys" data.

* Equals: `==`
* Not equals: `!=`
* Greater than, less than: `>` or `<`
* Greater than or equal to `>=`
* Less than or equal to `<=`

### Exercises - Advanced Selection Challenges
`1`. Select a subset of rows in the `surveys_df` DataFrame where the year is 1999 and the weight value is less than or equal to 8.

In [None]:
surveys_df[(surveys_df["year"] == 1999) & (surveys_df["weight"] <= 8)]

`2`. You can use the `isin` command in python to query a DataFrame based upon a list of values as follows:
```
surveys_df[surveys_df['species_id'].isin([listGoesHere])]
```
Use the `isin` function to find all sites that contain particular species (PB and PL) in the surveys DataFrame.

In [None]:
surveys_df[surveys_df['species_id'].isin(['PB', 'PL'])]['plot_id'].unique()

`3`. The `~` symbol in Python can be used to return the OPPOSITE of the selection that you specify in python. It is equivalent to **is not in**. Write a query that selects all rows that are NOT equal to ‘M’ or ‘F’ in the surveys data.

In [None]:
surveys_df[~surveys_df["sex"].isin(['M', 'F'])]

## Using Masks

In [None]:
pd.isnull(surveys_df)

In [None]:
# To select just the rows with NaN values, we can use the .any method
surveys_df[pd.isnull(surveys_df).any(axis=1)]

In [None]:
# What does this do?
empty_weights = surveys_df[pd.isnull(surveys_df['weight'])]['weight']
print(empty_weights)

### Exercises - Removing NaN

Create a new DataFrame that contains only observations that are of sex male or female and where weight values are greater than 0. Create a stacked bar plot of average weight by site with male vs female values stacked for each site.

In [None]:
# make sure figures appear inline in Ipython Notebook
%matplotlib inline

# selection of the data with isin
stack_selection = surveys_df[(surveys_df['sex'].isin(['M', 'F'])) & 
                            surveys_df["weight"] > 0.][["weight", "plot_id", "sex"]]

# calculate the mean weight for each plot id and sex combination: 
stack_selection = stack_selection.groupby(["plot_id", "sex"]).mean().unstack()

# The legend header contains two levels. In order to remove this, the column naming needs to be simplified : 
stack_selection.columns = stack_selection.columns.droplevel()

# and we can make a stacked bar plot from this:
stack_selection.plot(kind='bar', stacked=True)