# 1.3. Segmentación e indexación de datos

## Índices explícitos

### Configuración y eliminación de índices

Pandas permite designar columnas como un *índice*. Esto facilita un código más limpio al tomar subconjuntos (además de proporcionar una búsqueda más eficiente en algunas circunstancias).

In [1]:
import pandas as pd

In [None]:
temperatures = pd.read_csv('../../../datasets/temperatures.csv')

temperatures.head()

In [None]:
temperatures.shape

In [None]:
print(temperatures)

**Instrucciones**

- Establece el índice de `temperatures` en `"city"`, asignándolo a `temperatures_ind`.
- *Observa `temperatures_ind`. ¿En qué se diferencia de `temperatures`?*

In [5]:
temperatures_ind = (
    temperatures
    .set_index("city")
)

In [None]:
print(temperatures_ind)

- Restablece el índice de `temperatures_ind`, conservando su contenido.

In [None]:
print(
    temperatures_ind
    .reset_index()
)

- Restablece el índice de `temperatures_ind`, eliminando su contenido.

In [None]:
print(
    temperatures_ind
    .reset_index(drop=True)
)

## Subconjuntos con .loc[]

La característica más potente de los índices es `.loc[]`: un método de subsetting que acepta valores de índice. Cuando le pasas un solo argumento, tomará un subconjunto de filas.

El código para hacer subsetting con `.loc[]` puede ser más fácil de leer que el subsetting con corchetes `[]` estándar, lo que hace que tu código sea más fácil de mantener.

**Instrucciones**

- Crea una lista llamada `cities` que contenga `"Moscow"` y `"Saint Petersburg"`.
- Usa el subsetting con `[]` para filtrar `temperatures` por filas donde la columna `city` tome un valor dentro de la lista `cities`.


In [None]:
cities = ["Moscow", "Saint Petersburg"]

print(
    temperatures[temperatures["city"]
                 .isin(cities)]
    )


- Usa el subsetting con `.loc[]` para filtrar `temperatures_ind` por filas donde la ciudad esté en la lista `cities`.

In [12]:
temperatures_ind = (
    temperatures
    .set_index("city")
)

In [None]:
print(temperatures_ind.loc[cities])

### Configuración de índices multinivel

Los índices también pueden estar formados por múltiples columnas, creando un *índice multinivel* (a veces llamado *índice jerárquico*). Esto tiene ventajas y desventajas.

El beneficio es que los índices multinivel hacen que sea más natural razonar sobre variables categóricas anidadas. Por ejemplo, en un ensayo clínico, podrías tener grupos de control y tratamiento. Cada sujeto de prueba pertenece a uno de estos grupos, y podemos decir que un sujeto está anidado dentro del grupo de tratamiento. De manera similar, en el conjunto de datos de temperaturas, una ciudad se encuentra dentro de un país, por lo que podemos decir que una ciudad está anidada dentro del país.

La principal desventaja es que el código para manipular índices es diferente del código para manipular columnas, por lo que debes aprender dos sintaxis y llevar un control de cómo están representados los datos.

**Instrucciones**

- Establece el índice de `temperatures` en las columnas `"country"` y `"city"`, y asígnalo a `temperatures_ind`.
- Especifica dos pares de país/ciudad a mantener: `"Brazil"`/`"Rio De Janeiro"` y `"Pakistan"`/`"Lahore"`, asignándolos a `rows_to_keep`.
- Imprime y obtén un subconjunto de `temperatures_ind` para `rows_to_keep` utilizando `.loc[]`.

In [None]:
temperatures_ind = (
    temperatures
    .set_index(["country", "city"])
)

rows_to_keep = [
    ("Brazil", "Rio De Janeiro"),
    ("Pakistan", "Lahore")
]

print(
    temperatures_ind
    .loc[rows_to_keep]
)

### Ordenando por valores de índice

Anteriormente, cambiaste el orden de las filas en un DataFrame utilizando `.sort_values()`. También es útil poder ordenar por los elementos en el índice. Para esto, debes usar `.sort_index()`.

**Instrucciones**

- Ordena `temperatures_ind` por los valores del índice.


In [None]:
print(temperatures_ind.sort_index())


- Ordena `temperatures_ind` por los valores del índice en el nivel `"city"`.


In [None]:
print(temperatures_ind.sort_index(level="city"))


- Ordena `temperatures_ind` primero en orden ascendente por `country` y luego en orden descendente por `city`.

In [None]:
print(
    temperatures_ind
    .sort_index(
        level=["country", "city"], 
        ascending=[True, False]
    )
)

## Corte y subsetting con `.loc` y `.iloc`

### Corte de valores de índice

El corte (*slicing*) te permite seleccionar elementos consecutivos de un objeto utilizando la sintaxis `primero:último`. Los DataFrames pueden cortarse por valores de índice o por número de fila/columna; comenzaremos con el primer caso. Esto implica realizar el corte dentro del método `.loc[]`.

En comparación con el corte de listas, hay algunos puntos a recordar:

- Solo puedes cortar un índice si el índice está ordenado (usando `.sort_index()`).
- Para cortar en el nivel exterior, `primero` y `último` pueden ser cadenas de texto.
- Para cortar en niveles internos, `primero` y `último` deben ser tuplas.
- Si pasas un solo rango a `.loc[]`, este cortará las filas.

**Instrucciones**

- Ordena el índice de `temperatures_ind`.
- Usa corte con `.loc[]` para obtener estos subconjuntos:
    - Desde `Pakistan` hasta `Russia`.


In [None]:
temperatures_srt = temperatures_ind.sort_index()

print(temperatures_srt.loc["Pakistan":"Russia"])

- Desde `Lahore` hasta `Moscow`. (*Esto devolverá un resultado sin sentido.*)
 

In [None]:
print(temperatures_srt.loc["Lahore":"Moscow"])

   - Desde `Pakistan, Lahore` hasta `Russia, Moscow`.

In [None]:
print(temperatures_srt.loc[("Pakistan", "Lahore"): ("Russia", "Moscow")])

### Corte en ambas direcciones

Has visto cómo cortar DataFrames por filas y por columnas, pero dado que los DataFrames son objetos bidimensionales, a menudo es natural cortar ambas dimensiones al mismo tiempo. Es decir, pasando dos argumentos a `.loc[]`, puedes obtener un subconjunto de filas y columnas en una sola operación.

`pandas` está cargado como `pd`. `temperatures_srt` está indexado por `country` y `city`, tiene un índice ordenado y está disponible.

**Instrucciones**

- Usa corte con `.loc[]` para obtener un subconjunto de filas desde `India, Hyderabad` hasta `Iraq, Baghdad`.


In [None]:
print(
    temperatures_srt
    .loc[
        ("India", "Hyderabad"): ("Iraq", "Baghdad")
    ]
)


- Usa corte con `.loc[]` para obtener un subconjunto de columnas desde `date` hasta `avg_temp_c`.


In [None]:
print(
    temperatures_srt
    .loc[
        :, "date":"avg_temp_c"
    ]
)

- Realiza un corte en ambas direcciones a la vez, desde `Hyderabad` hasta `Baghdad`, y desde `date` hasta `avg_temp_c`.

In [None]:
print(
    temperatures_srt
    .loc[
        ("India", "Hyderabad"): ("Iraq", "Baghdad"),
          "date":"avg_temp_c"
    ]
)

### Corte de series temporales

El corte (*slicing*) es especialmente útil para series temporales, ya que es común querer filtrar datos dentro de un rango de fechas. Para ello, agrega la columna `date` al índice y luego usa `.loc[]` para realizar el subsetting. Lo más importante es asegurarte de que tus fechas estén en formato ISO 8601, es decir:

- `"yyyy-mm-dd"` para año-mes-día,
- `"yyyy-mm"` para año-mes,
- `"yyyy"` para año.

Recuerda de 1.1 que puedes combinar múltiples condiciones booleanas utilizando operadores lógicos, como `&`. Para hacerlo en una sola línea de código, es necesario agregar paréntesis `()` alrededor de cada condición.

**Instrucciones**

- Usa condiciones booleanas, no `.isin()` ni `.loc[]`, y la fecha completa en formato `"yyyy-mm-dd"`, para obtener un subconjunto de `temperatures` con filas donde la columna `date` esté en los años 2010 y 2011, e imprime los resultados.


In [None]:
temperatures_bool = temperatures[(temperatures["date"] >= "2010-01-01") & (temperatures["date"] <= "2011-12-31")]
print(temperatures_bool)

- Establece el índice de `temperatures` en la columna `date` y ordénalo.

In [26]:
temperatures_ind = (
    temperatures
    .set_index("date")
    .sort_index()
)

- Usa `.loc[]` para obtener un subconjunto de `temperatures_ind` con filas en los años 2010 y 2011.

In [None]:
print(
    temperatures_ind
    .loc["2010-01-01":"2011-12-31"]
)

- Usa `.loc[]` para obtener un subconjunto de `temperatures_ind` con filas desde agosto de 2010 hasta febrero de 2011.

In [None]:
print(
    temperatures_ind
    .loc[
        "2010-08-01":"2011-02-29"
    ]
)

### Subsetting por número de fila/columna

Las formas más comunes de obtener subconjuntos de filas son las que hemos visto anteriormente: usando una condición booleana o mediante etiquetas de índice. Sin embargo, en algunas ocasiones también es útil seleccionar filas por su número de posición.

Para esto, se usa `.iloc[]`, y al igual que `.loc[]`, puede aceptar dos argumentos para permitir el subsetting tanto por filas como por columnas.

`pandas` está cargado como `pd`. `temperatures` (sin índice) está disponible.

**Instrucciones**

Usa `.iloc[]` en `temperatures` para obtener los siguientes subconjuntos:

- Obtén la fila 23 y la columna 2 (posiciones de índice 22 y 1).


In [None]:
print(
    temperatures
    .iloc[22, 1]
)


- Obtén las primeras 5 filas (posiciones de índice de 0 a 4).

In [None]:
print(
    temperatures
    .iloc[:5, :]
)

- Obtén todas las filas y las columnas 3 y 4 (posiciones de índice de 2 a 3).

In [None]:
print(
    temperatures
    .iloc[:, 2:4]
)

- Obtén las primeras 5 filas y las columnas 3 y 4.

In [None]:
print(
    temperatures
    .iloc[:5, 2:4]
)

## Trabajando con tablas dinámicas (*pivot tables*)

### Crear una tabla dinámica de temperaturas por ciudad y año

Es interesante observar cómo cambian las temperaturas de cada ciudad a lo largo del tiempo. Sin embargo, ver cada mes por separado genera una tabla muy grande, lo que puede dificultar su interpretación. En su lugar, analizaremos cómo cambian las temperaturas por año.

Puedes acceder a los componentes de una fecha (año, mes y día) usando el formato `dataframe["columna"].dt.componente`. Por ejemplo, para obtener el mes se usa `dataframe["columna"].dt.month`, y para obtener el año se usa `dataframe["columna"].dt.year`.

Una vez que tengas la columna del año, puedes crear una tabla dinámica (*pivot table*) con los datos agregados por ciudad y año, lo cual explorarás en los siguientes ejercicios.


**Instrucciones**

- Agrega una columna `year` a `temperatures`, obteniendo el componente `year` de la columna `date`.


In [33]:
temperatures["date"] = (
    pd
    .to_datetime(temperatures["date"])
) 

In [34]:
temperatures["year"] = (
    temperatures["date"]
    .dt.year
)

- Crea una tabla dinámica (*pivot table*) de la columna `avg_temp_c`, con `country` y `city` como filas, y `year` como columnas. Asígnala a `temp_by_country_city_vs_year` y *observa el resultado*.

In [None]:
temp_by_country_city_vs_year = (
    temperatures
    .pivot_table(
        values="avg_temp_c",
        index=["country", "city"], 
        columns="year"
    )
)

print(temp_by_country_city_vs_year)

### Subconjuntos en tablas dinámicas

Una tabla dinámica (*pivot table*) es simplemente un DataFrame con índices ordenados, por lo que puedes aplicar las técnicas que ya aprendiste para obtener subconjuntos. En particular, la combinación de `.loc[]` con cortes (*slicing*) suele ser muy útil.


**Instrucciones**

Usa `.loc[]` en `temp_by_country_city_vs_year` para obtener los siguientes subconjuntos:

- Desde `Egypt` hasta `India`.


In [None]:
(
    temp_by_country_city_vs_year
    .loc["Egypt": "India"]
)

- Desde `Egypt, Cairo` hasta `India, Delhi`.

In [None]:
(
    temp_by_country_city_vs_year
    .loc[("Egypt", "Cairo"): ("India", "Delhi")]
)

- Desde `Egypt, Cairo` hasta `India, Delhi`, y desde el año 2005 hasta 2010.

In [None]:
(
    temp_by_country_city_vs_year
    .loc[("Egypt", "Cairo"): ("India", "Delhi"), "2005":"2010"]
)

### Cálculos en una tabla dinámica (*pivot table*)

Las tablas dinámicas contienen estadísticas resumidas, pero suelen ser solo el primer paso para encontrar información relevante. A menudo, es necesario realizar cálculos adicionales sobre ellas. Una operación común es identificar las filas o columnas donde ocurre el valor más alto o más bajo.

Recuerda de 1.1. que puedes obtener un subconjunto de una Serie o DataFrame utilizando una condición lógica dentro de corchetes. Por ejemplo: `serie[serie > valor]`.

`pandas` está cargado como `pd` y el DataFrame `temp_by_country_city_vs_year` está disponible. A continuación, se muestra un `.head()` de este DataFrame con solo algunas columnas de años:

| country | city | 2000 | 2001 | 2002 | … | 2013 |
|---------|------|------|------|------|---|------|
| Afghanistan | Kabul | 15.823 | 15.848 | 15.715 | … | 16.206 |
| Angola | Luanda | 24.410 | 24.427 | 24.791 | … | 24.554 |
| Australia | Melbourne | 14.320 | 14.180 | 14.076 | … | 14.742 |
|  | Sydney | 17.567 | 17.854 | 17.734 | … | 18.090 |
| Bangladesh | Dhaka | 25.905 | 25.931 | 26.095 | … | 26.587 |

**Instrucciones**

- Calcula la temperatura media para cada año y asígnala a `mean_temp_by_year`.
- Filtra `mean_temp_by_year` para obtener el año con la temperatura media más alta.


In [None]:
mean_temp_by_year = (
    temp_by_country_city_vs_year
    .mean(axis="index")
)

print(
    mean_temp_by_year[mean_temp_by_year == mean_temp_by_year.max()]
)

- Calcula la temperatura media para cada ciudad (a través de las columnas) y asígnala a `mean_temp_by_city`.
- Filtra `mean_temp_by_city` para obtener la ciudad con la temperatura media más baja.

In [None]:
mean_temp_by_city = (
    temp_by_country_city_vs_year
    .mean(axis="columns")
)

print(
    mean_temp_by_city[mean_temp_by_city == mean_temp_by_city.min()]
)