In [9]:
import pandas as pd
df = pd.read_csv("../data/BMW_Car_Sales_Classification.csv")
df.dtypes

Model                    object
Year                      int64
Region                   object
Color                    object
Fuel_Type                object
Transmission             object
Engine_Size_L           float64
Mileage_KM                int64
Price_USD                 int64
Sales_Volume              int64
Sales_Classification     object
dtype: object

## Cómo establecer y restablecer el índice en un DataFrame de pandas

En pandas, puedes mover una columna del cuerpo de un DataFrame a la posición 0 para convertirla en el índice. Esto es útil cuando quieres identificar de manera única cada fila usando los valores de una columna específica.

Por ejemplo, para establecer la columna `"Model"` como índice explícito:

```python
bmw_ind = df.set_index("Model")
```

> **Nota:** Establecer un índice explícito significa que la columna seleccionada pasa a funcionar como identificador único de las filas del DataFrame.

Si deseas revertir el índice explícito y volver al índice por defecto (numérico), utiliza el método `reset_index()`. Puedes descartar el índice actual usando la opción `drop=True`:

```python
bmw_ind.reset_index(drop=True)
```

> **Nota:** Si no incluyes `drop=True`, la columna del índice se reincorpora al DataFrame como una columna regular.

---

**Resumen:**
- `set_index("columna")`: Establece una columna como índice.
- `reset_index(drop=True)`: Quita el índice explícito y regresa al índice por defecto, descartando la columna del índice.


In [16]:
bmw_ind = df.set_index("Region") # Establecer la columna "Region" como índice
bmw_ind = bmw_ind.reset_index(drop=True) # Deshacer el índice explícito
bmw_ind

Unnamed: 0,Model,Year,Color,Fuel_Type,Transmission,Engine_Size_L,Mileage_KM,Price_USD,Sales_Volume,Sales_Classification
0,5 Series,2016,Red,Petrol,Manual,3.5,151748,98740,8300,High
1,i8,2013,Red,Hybrid,Automatic,1.6,121671,79219,3428,Low
2,5 Series,2022,Blue,Petrol,Automatic,4.5,10991,113265,6994,Low
3,X3,2024,Blue,Petrol,Automatic,1.7,27255,60971,4047,Low
4,7 Series,2020,Black,Diesel,Manual,2.1,122131,49898,3080,Low
...,...,...,...,...,...,...,...,...,...,...
49995,i3,2014,Red,Hybrid,Manual,4.6,151030,42932,8182,High
49996,i3,2023,Silver,Electric,Manual,4.2,147396,48714,9816,High
49997,5 Series,2010,Red,Petrol,Automatic,4.5,174939,46126,8280,High
49998,i3,2020,White,Electric,Automatic,3.8,3379,58566,9486,High


## Índice jerárquico (MultiIndex) en pandas

Puedes establecer varias columnas como índice en un DataFrame de pandas, pasando una lista de nombres de columnas al método `set_index()`. Esto crea lo que se conoce como un **índice jerárquico** o **MultiIndex**, útil para organizar datos de manera más estructurada.

Por ejemplo, para usar `"Region"` y `"Model"` como índice:

```python
bmw_ind = df.set_index(["Region", "Model"])
```

> **El MultiIndex permite trabajar con índices compuestos**, lo que facilita el análisis de datos agrupados por varias categorías.

### Acceso a datos con un índice jerárquico

Para seleccionar datos usando `.loc` con un MultiIndex, debes especificar los valores de uno o más niveles del índice. Por ejemplo, para obtener todos los modelos de una región específica:

```python
bmw_ind.loc["Europe"]
```

Esto devuelve todas las filas donde el primer nivel del índice (`Region`) es `"Europe"`.

> **Nota:** Puedes seguir especificando más niveles del índice para obtener resultados más específicos:
>
> ```python
> bmw_ind.loc[("Europe", "3 Series")]
> ```

---

**Resumen:**
- `set_index(["col1", "col2"])`: Crea un índice jerárquico.
- `.loc[nivel_1]`: Accede a todas las filas del primer nivel del índice.
- `.loc[(nivel_1, nivel_2)]`: Accede a filas de niveles específicos del índice.


In [20]:
bmw_ind = df.set_index(["Region", "Model"])
bmw_ind.loc["Europe"].head(3)

Unnamed: 0_level_0,Year,Color,Fuel_Type,Transmission,Engine_Size_L,Mileage_KM,Price_USD,Sales_Volume,Sales_Classification
Model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
i8,2022,White,Diesel,Manual,1.8,196741,55064,7949,High
i8,2019,White,Electric,Manual,3.0,35700,96257,4411,Low
M5,2011,Grey,Electric,Automatic,3.3,78042,49507,9383,High


Para subconjuntar en niveles internos, tienes que pasar una lista de tuplas con los valores de los niveles internos del índice. Por ejemplo, si quieres acceder a un modelo específico en una región específica, puedes hacer lo siguiente:
```python
bmw_ind.loc[("Europe", "X5")]
```

In [22]:
bmw_ind.loc[("Europe", "X5")]

  bmw_ind.loc[("Europe", "X5")]


Unnamed: 0_level_0,Unnamed: 1_level_0,Year,Color,Fuel_Type,Transmission,Engine_Size_L,Mileage_KM,Price_USD,Sales_Volume,Sales_Classification
Region,Model,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Europe,X5,2016,Silver,Petrol,Automatic,4.7,182118,64095,3880,Low
Europe,X5,2020,Blue,Diesel,Manual,4.1,127392,86328,8960,High
Europe,X5,2013,White,Diesel,Automatic,3.0,162617,79299,2353,Low
Europe,X5,2011,Blue,Petrol,Automatic,4.9,141616,117994,6327,Low
Europe,X5,2018,Silver,Diesel,Manual,2.9,124134,37111,4242,Low
Europe,...,...,...,...,...,...,...,...,...,...
Europe,X5,2012,Red,Petrol,Automatic,2.3,80669,64344,3029,Low
Europe,X5,2019,White,Hybrid,Manual,3.1,112030,71548,8632,High
Europe,X5,2019,White,Petrol,Manual,4.5,142660,100197,2834,Low
Europe,X5,2010,Silver,Hybrid,Manual,3.8,161933,84056,5804,Low


Tambien es posible ordenar por valores de infice utilizando sort_index. Por ejemplo, si quieres ordenar por la región y el modelo, puedes hacer lo siguiente:
```python
bmw_ind.sort_index()
```
Puedes controlar la ordenacion pasando listas al nivel y argumentos ascendentes.

Existe un concepto llamado datos ordenados, en el que los datos se almacenan en forma tabilar como un DataFrame.
Cada fila contiene una unica observacion y cada variable es almacenada en su propia columna.
Los indices infrigen la ultima regla, ya que los valores del indice no tienen su propia columna.