## Segmentación (slicing) en pandas con índices

La **segmentación** es una técnica que permite seleccionar elementos consecutivos de objetos de datos, como listas, Series o DataFrames.

En pandas, también puedes segmentar filas de un DataFrame, pero **es importante que el índice esté ordenado previamente** para que la segmentación funcione correctamente.

Para segmentar filas en el nivel exterior de un índice (por ejemplo, el primer nivel de un MultiIndex), utiliza `.loc[]`, pasando el primer y último valor del rango que deseas seleccionar, separados por dos puntos (`:`).

### Ejemplo: ordenar e indexar

Primero, ordenamos el índice para asegurarnos de que la segmentación funcione correctamente:

```python
bmw_sort = bmw.set_index(['Model', 'Year']).sort_index()
```

### Ejemplo: segmentar usando `.loc[]`

Supón que quieres seleccionar todos los modelos desde `"320i"` hasta `"X5"` (ambos inclusive):

```python
segment = bmw_sort.loc["320i":"X5"]
```

Esto selecciona todas las filas cuyo primer nivel del índice (`Model`) esté entre `"320i"` y `"X5"`.

> **Nota:**
> - La segmentación con índices solo funciona correctamente si el índice está ordenado.
> - Puedes segmentar también por tuplas si tu índice tiene varios niveles.

---

**Resumen:**
- Ordena el índice con `sort_index()` antes de segmentar.
- Usa `.loc[inicio:fin]` para seleccionar un rango de filas en el primer nivel del índice.

In [1]:
import pandas as pd

bmw = pd.read_csv('../data/BMW_Car_Sales_Classification.csv')

bmw.dtypes

Model                    object
Year                      int64
Region                   object
Color                    object
Fuel_Type                object
Transmission             object
Engine_Size_L           float64
Mileage_KM                int64
Price_USD                 int64
Sales_Volume              int64
Sales_Classification     object
dtype: object

In [6]:
bmw_sort = bmw.set_index(['Model','Year']).sort_index()
print(bmw_sort.head(3))

                      Region  Color Fuel_Type Transmission  Engine_Size_L  \
Model    Year                                                               
3 Series 2010           Asia  Black    Petrol       Manual            2.1   
         2010         Africa    Red    Diesel    Automatic            4.1   
         2010  North America  Black    Diesel    Automatic            1.8   

               Mileage_KM  Price_USD  Sales_Volume Sales_Classification  
Model    Year                                                            
3 Series 2010      107572      86660          8650                 High  
         2010      123015     105114          8248                 High  
         2010      172040      45092          6364                  Low  


## Segmentación de filas por rango en el nivel exterior del índice

Para seleccionar un rango de filas consecutivas en el **primer nivel** de un índice (ya sea un índice simple o el nivel exterior de un MultiIndex), puedes utilizar la notación de segmentación con `.loc[]`, pasando el primer y el último valor del rango, separados por dos puntos (`:`).

Por ejemplo, para seleccionar todas las filas cuyos valores en el primer nivel del índice estén entre `"X1"` y `"X3"` (ambos inclusive):

```python
bmw_sort.loc['X1':'X3']
```

Esto devuelve todas las filas desde `"X1"` hasta `"X3"` en el nivel exterior del índice.

> **Recuerda:**
> - El índice debe estar ordenado para que la segmentación funcione correctamente.
> - Esta técnica solo segmenta sobre el primer nivel del índice. Si tienes un MultiIndex y quieres segmentar niveles internos, necesitarás técnicas adicionales como `pd.IndexSlice`.

---

In [9]:
bmw_sort.loc['X1':'X3'].head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Region,Color,Fuel_Type,Transmission,Engine_Size_L,Mileage_KM,Price_USD,Sales_Volume,Sales_Classification
Model,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
X1,2010,Africa,Grey,Diesel,Automatic,1.6,100516,49598,1252,Low
X1,2010,Europe,Silver,Electric,Manual,2.5,97558,101553,1718,Low
X1,2010,North America,Red,Hybrid,Manual,3.6,4768,35905,5184,Low


## Segmentación en niveles internos de un MultiIndex

Cuando trabajas con un **MultiIndex** en pandas y quieres segmentar filas no solo por el nivel exterior, sino también por niveles internos, debes utilizar tuplas para especificar el rango de segmentación en `.loc[]`.

Para seleccionar un rango de filas considerando varios niveles del índice, pasa la posición inicial y final como tuplas:

```python
bmw_sort.loc[('X1', 2015):('X3', 2016)]
```

Esto selecciona todas las filas desde el valor `('X1', 2015)` hasta `('X3', 2016)`, incluyendo ambos extremos del rango.

> **Importante:**
> - El índice debe estar ordenado para que la segmentación funcione correctamente.
> - Cada tupla debe contener valores correspondientes a los niveles definidos en el MultiIndex.

---

**Resumen:**
- Para segmentar en niveles internos de un MultiIndex, utiliza tuplas en `.loc[inicio:fin]`.
- Asegúrate de que el índice esté ordenado con `sort_index()` antes de segmentar.

In [11]:
bmw_sort.loc[('X1', 2015):('X3', 2016)].head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Region,Color,Fuel_Type,Transmission,Engine_Size_L,Mileage_KM,Price_USD,Sales_Volume,Sales_Classification
Model,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
X1,2015,Middle East,Silver,Hybrid,Automatic,3.5,117990,58708,3657,Low
X1,2015,Africa,Silver,Hybrid,Automatic,3.4,15994,41990,8543,High
X1,2015,Asia,Grey,Diesel,Automatic,2.1,199235,84022,1194,Low


Como los DataFrames son objetos bidimensionales, tambien puedes segmentar columnas. Para ello pasa dos argumentos a `.loc[]`: el primer argumento es el índice de las filas y el segundo es el índice de las columnas.


```python
bmw_sort.loc[:, 'Price_USD':'Sales_Volume']
```

In [15]:
bmw_sort.loc[:, 'Price_USD':'Sales_Volume'].head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price_USD,Sales_Volume
Model,Year,Unnamed: 2_level_1,Unnamed: 3_level_1
3 Series,2010,86660,8650
3 Series,2010,105114,8248
3 Series,2010,45092,6364


Puedes segmentar en filas y columnas al mismo tiempo: basta con pasar la segmentacion adecuada a cada argumento de `.loc[]`.

```python
bmw_sort.loc[('X1','X3'):('3 Series','X3'),'Price_USD':'Sales_Volume']
```

In [28]:
# Selecciona filas desde ('X1', 2015) hasta ('X3', 2016) y columnas desde 'Price_USD' hasta 'Sales_Volume'
bmw_sort.loc[('X1', 2015):('X3', 2016), 'Price_USD':'Sales_Volume']

Unnamed: 0_level_0,Unnamed: 1_level_0,Price_USD,Sales_Volume
Model,Year,Unnamed: 2_level_1,Unnamed: 3_level_1
X1,2015,58708,3657
X1,2015,41990,8543
X1,2015,84022,1194
X1,2015,103531,4441
X1,2015,50570,3300
...,...,...,...
X3,2016,31317,1798
X3,2016,80583,4433
X3,2016,94496,402
X3,2016,90642,1344


Una funcion util es que puedes segmentar fechas parciales de un DataFrame con un índice de tipo fecha. Por ejemplo, si tienes un DataFrame con un índice de fechas y quieres seleccionar todas las filas correspondientes a enero de 2016, puedes hacerlo así:
```python
bmw_sort.loc['2016-01']
```

Tambien puedes segmentar los DF por numero de fila o columna utilizando el metodo `.iloc[]`. Este método permite seleccionar filas y columnas por su posición numérica, en lugar de por su etiqueta.
```python
bmw_sort.iloc[0:5, 0:3]
```


In [29]:
bmw_sort.iloc[0:5, 0:3]

Unnamed: 0_level_0,Unnamed: 1_level_0,Region,Color,Fuel_Type
Model,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
3 Series,2010,Asia,Black,Petrol
3 Series,2010,Africa,Red,Diesel
3 Series,2010,North America,Black,Diesel
3 Series,2010,North America,Silver,Hybrid
3 Series,2010,Middle East,Blue,Diesel
