# 2. Sélectionner des données

## iloc
```python
df.iloc[1000:1020,1:6] # Retourne un Dataframe
df.iloc[3,4] # Retourne une valeur
df.iloc[1000] # Retourne une série pour une ligne du dataframe
df.iloc[:,3] # Retourne une série
df.iloc[:,[1, 3, 4]] # Retourne un Dataframe
```

## loc
```python
df.loc['nom_ligne'] # Retourne une série pour une ligne du dataframe
df.loc['nom_ligne', 'nom_colonne'] # Retourne une valeur
df.loc[:, ['nom_colonne_A', 'nom_colonne_B']] # Retourne un dataframe
```

## Analyser des séries
```python
df['nom_colonne'].unique() # Retourne les valeurs uniques d'une colonne
df['nom_colonne'].nunique() # Retourne le nombre de valeurs uniques
df['nom_colonne'].value_counts() # Retourne le nombre d'observations des valeurs
df['nom_colonne'].count() # Retourne le nombre de valeurs existantes

```

## Filtrer des dataframes
```python
# Ne conserve que les lignes où la colonne présente valeur_déterminee
df.loc[df['nom_colonne']=='valeur_determinee']

# Ne conserve que les lignes où la colonne présente une valeur incluse dans la liste
df.loc[df['nom_colonne'].isin(['valeur_determinee_A', 'valeur_determinee_B'])]

# Conserve les ligne où la colonne ne comporte pas une valeur de la liste
df.loc[~df['nom_colonne'].isin(['valeur_determinee_A', 'valeur_determinee_B'])]

# Conserve les ligne où la colonne contient chaine_caracteres
df[df['nom_colonne'].str.contains('chaine_caracteres')]

# Sélection avec plusieurs conditions. Faire attention aux parenthèses ('&' pour 'and' et '|' pour 'or')
df[(df['nom_colonne_A'].str.contains('chaine_caracteres'))&
   (df['nom_colonne_B'].str.contains('chaine_caracteres'))] 
```

## Définir un index
```python
df.set_index('nom_colonne') # Transforme une colonne en index
df.reset_index() # Transforme l'index en colonne
```

In [None]:
# Importer les bibliothèques essentielles
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Afficher toutes les colonnes
pd.set_option('display.max_columns', None)

In [None]:
# Chargement des données
df = pd.read_csv('Data/items.csv', dtype=str)

In [None]:
# Affichage des dix premières lignes
df.head(10)

In [None]:
df.columns

## Sélection via iloc (indice numérique)
`iloc` permet de sélectionner des éléments en fonction d'indices numériques

In [None]:
# Affichage des lignes 1000 à 1019, mais uniquement les colonnes 1 à 5
# A noter que la premère ligne et la première colonne ont le rang 0
df.iloc[1000:1020,1:6]

In [None]:
# Affichage des lignes 900 à 902, mais uniquement les 6 premières colonnes (0 à 5)
df.iloc[900:903,:6]

## Sélection par nom de colonne

In [None]:
colonnes_to_select = ['MMS ID', 'Holdings ID', 'Barcode', 'Permanent Location', 'Call Number', 'Material Type', 'Item Policy', 'Title']

# Sélectionne seulement les colonnes définies et fait une vraie copie des données
# => si on modifie dg, df ne sera pas modifié
dg = df[colonnes_to_select].copy()

# Affiche les trois premières lignes de dg
dg.head(3)

## Sélection via loc (par nom des colonnes et de l'index)
`loc` permet de sélectionner en recourant au nom de la colonne. Cela rend en général le code beaucoup plus compréhensible.

In [None]:
# Définir une colonne en tant qu'index
# => il faut en principe une colonne avec des valeurs uniques

# Décommenter pour voir ce qui se passe en cas de doublon
# dg.loc[1, 'Barcode'] = 'HPH000001003'

# Affiche le nombre de codes-barres total
print(len(dg['Barcode']))
print(dg['Barcode'].count())

# Affiche le nombre de codes-barres uniques
print(dg['Barcode'].nunique())

# dg['Barcode'].unique() renvoie la liste de tous les codes-barres uniques,
# si on considère la longueur de la liste, on aura la même chose que dg['Barcode'].nunique() 
print(len(dg['Barcode'].unique()))

# => les codes-barres sont bien uniques

In [None]:
dh = dg.set_index('Barcode')
dh.head()

In [None]:
dh.loc['HPH000001005':'03138420', ['Call Number', 'Title']]

In [None]:
dh.loc['HPH000001005':'03138420', 'Call Number':'Title']

In [None]:
dh.loc['HPH000001005']

In [None]:
dh.loc[:, 'Item Policy']

## Filtrer un dataframe

In [None]:
# Lister les localisations
dh['Permanent Location'].value_counts()

In [None]:
# Sélectionner unique la localisation 'BE HEP Jeux'
dh.loc[dh['Permanent Location']=='BE HEP Jeux']

In [None]:
dh['Permanent Location']=='BE HEP Jeux'

In [None]:
(dh['Permanent Location']=='BE HEP Jeux').value_counts()

In [None]:
# Sélectionner tous les exemplaires avec une localisation contenant 'BE HEP'
dh.loc[dh['Permanent Location'].str.contains('BE HEP')]

# Ne pas oublier '.str.'
# Il existe aussi '.str.startswith' ou 'endswith'

In [None]:
# Sélectionner tous les exemplaires appartenant à une liste de localisations
dh.loc[dh['Permanent Location'].isin(['BE HEP Séries de livres', 'BE HEP Littérature jeunesse'])]

In [None]:
# Transforme l'index en colonne
dh = dh.reset_index()
dh.head()

In [None]:
dh.to_csv('Resultat/items_reduced.csv', index=False)