# Indexation et sélection de données

Ce notebook présente les différentes méthodes pour sélectionner des données dans un DataFrame pandas.


## Problème métier : extraire des sous-ensembles de données

Lors de l'analyse, vous devez souvent :
- Consulter une colonne spécifique
- Extraire certaines lignes
- Combiner colonnes et lignes pour créer des vues personnalisées


In [None]:
import pandas as pd

# Charger les données
df = pd.read_csv('../../data/ventes_commerces.csv')

# Sélectionner une colonne unique (retourne une Series)
prix = df['prix_unitaire']
print("Type :", type(prix))
print(prix.head())


In [None]:
# Sélectionner plusieurs colonnes (retourne un DataFrame)
colonnes_selection = df[['date', 'produit_id', 'prix_unitaire']]
print(colonnes_selection.head())


## Sélection de lignes avec .loc[] et .iloc[]

`.loc[]` utilise les labels (index ou noms de colonnes) tandis que `.iloc[]` utilise les positions numériques.


In [None]:
# Sélection par position avec .iloc[]
# Syntaxe : .iloc[lignes, colonnes]
premieres_lignes = df.iloc[0:5]  # Lignes 0 à 4
print("5 premières lignes :")
print(premieres_lignes)

# Sélectionner une ligne et une colonne spécifiques
valeur = df.iloc[0, 2]  # Ligne 0, colonne 2
print(f"\nValeur à la position [0, 2] : {valeur}")


In [None]:
# Sélection par label avec .loc[]
# Syntaxe : .loc[lignes, colonnes]
lignes_et_colonnes = df.loc[0:4, ['date', 'prix_unitaire']]
print("5 premières lignes, colonnes spécifiques :")
print(lignes_et_colonnes)

# Sélectionner toutes les lignes pour certaines colonnes
colonnes_specifiques = df.loc[:, ['categorie', 'region']]
print(f"\nDimensions : {colonnes_specifiques.shape}")


### Exercice : Sélection de données

À partir du DataFrame `df` :
1. Sélectionnez uniquement les colonnes 'date', 'categorie' et 'montant_total'
2. Utilisez .iloc[] pour extraire les lignes 10 à 19
3. Utilisez .loc[] pour extraire les lignes 0 à 4 avec les colonnes 'produit_id' et 'prix_unitaire'


In [None]:
# A COMPLETER
# 1. Sélectionner certaines colonnes
# df_selection = ...

# 2. Extraire lignes 10 à 19 avec .iloc[]
# lignes_10_19 = ...

# 3. Extraire lignes 0-4, colonnes spécifiques avec .loc[]
# df_loc = ...
