
# Clase 9: Generación de Nuevas Columnas y Agregaciones

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**



### Objetivos de la clase

- Crear nuevas columnas a partir de datos existentes.
- Comprender las agregaciones y su funcionamiento interno.
- Aprender a generar agregaciones con pandas.


----

## 1. Pandas 🐼


`Pandas` una librería para python utilizada para manejar datos tabulares. 

<div align='center'>
<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/09-Pandas2/dataframe.png" alt="DataFrames" style="width: 800px;"/>
</div>


Está diseñada para proveer herramientas que faciliten la exploración, limpieza y procesamiento de los datos. Su enfoque es *simplicidad y eficiencia*. Es, al igual que las librerías anteriores, *open-source*.


La base de pandas son los `DataFrames`.



Como convención, `Pandas` se importa de la siguiente manera:

In [None]:
import numpy as np
import pandas as pd

### Entrada / Salida (IO)

La lectura de datos en `pandas` es muy sencilla: `pandas` es compatible con muchos tipos de archivos y fuentes de datos de forma nativa:

- `CSV`
- `Excel`
- `SQL`
- `Json`
- ...

Los datos almacenados en estas fuentes pueden ser importados a `DataFrames` a través de las funcioes `read_*`

De la misma forma, es capaz de guardar los DataFrames en el formato que deseen usando las funciones `to_*`

<div align='center'>

<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/09-Pandas2/pandas_io.png" alt="DataFrames" style="width: 800px;"/>
</div>
    
Toda la información acerca de que puede o no leer la encuentran en la siguiente referencia: https://pandas.pydata.org/docs/user_guide/io.html

### Índices para una Vida Mejor

Para explicar `pandas`, analizaremos datos de la OECD, en particular de los índices para una Vida Mejor:


<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/09-Pandas2/oecd.png" alt="OECD Better life index"/>


http://www.oecdbetterlifeindex.org/

https://stats.oecd.org/Index.aspx?DataSetCode=BLI

Son 11 temas considerados como esenciales para el bienestar de la población. Cada crierio contiene uno o mas indicadores

| Tema | Indicador (Inglés) | Indicador (Español) | Unidad | Descripción |
|---|---|---|---|---|
| Vivienda 🏠 | Dwellings without basic facilities | Vivienda con Instalaciones Básicas | Porcentaje | Porcentaje de personas con inodoros de agua corriente dentro del hogar, año disponible más reciente |
|  | Housing expenditure | Gastos en Vivienda | Porcentaje | Proporción de costos de vivienda en el ingreso neto ajustado de las familias, año disponible más reciente |
|  | Rooms per person | Habitaciones por Persona | Ratio | Número promedio de habitaciones compartidas por persona en una vivienda, año disponible más reciente |
| Ingresos 💰 | Household net adjusted disposable income | Ingreso Familiar Disponible | US Dollar | Cantidad promedio de dinero que una familia gana al año, después de impuestos, año disponible más reciente |
|  | Household net wealth | Patrimonio Neto Familiar | US Dollar | Valor total promedio de los activos financieros de una familia (ahorros, acciones) menos sus pasivos (créditos), año disponible más reciente |
| Empleo ⚙️ | Labour market insecurity | Seguridad en el Empleo | Porcentaje | Pérdida esperada de ingresos cuando alguien queda desempleado, año disponible más reciente |
|  | Employment rate | Tasa de Empleo | Porcentaje | Porcentaje de personas, de 15 a 64 años de edad, actualmente con empleo remunerado, año disponible más reciente |
|  | Long-term unemployment rate | Tasa de Empleo a Largo Plazo | Porcentaje | Porcentaje de personas, de 15 a 64 años de edad, que no trabajan pero que han buscado empleo activamente durante más de un año, año disponible más reciente |
|  | Personal earnings | Ingresos Personales | US Dollar | Ingresos anuales promedio por empleado de tiempo completo, año disponible más reciente |
| Comunidad 🧑‍🤝‍🧑   | Quality of support network  | Calidad del Apoyo Social | Porcentaje | Porcentaje de personas con amigos o parientes en quienes confiar en caso de necesidad |
| Educación 📚 | Educational attainment | Nivel de Educación | Porcentaje | Porcentaje de personas, de 25 a 64 años de edad, graduadas por lo menos de educación media superior, año disponible más reciente |
|  | Student skills | Competencias de estudiantes en matemáticas, lectura y ciencias | Puntaje promedio | Desempeño promedio de estudiantes de 15 años de edad, según PISA (Programa para la Evaluación Internacional de Estudiantes) |
|  | Years in education  | Nivel de educación | Años | Duración promedio de la educación formal en la que un niño de cinco años de edad puede esperar matricularse durante su vida |
| Medio Ambiente 🌳 | Air pollution | Contaminación del Aire | Microgramos por metro cúbico | Concentración promedio de partículas (PM2.5) en ciudades con poblaciones mayores de 100,000 personas, medida en microgramos por metro cúbico, año disponible más reciente |
|  | Water quality | Calidad del Agua | Porcentaje | Porcentaje de personas que informan estar satisfechas con la calidad del agua local |
| Compromiso Cívico 🗳️  | Stakeholder engagement for developing regulations | Participación de los interesados en la elaboración de regulaciones | Puntaje promedio | Nivel de transparencia gubernamental al preparar las regulaciones, año disponible más reciente |
|  | Voter turnout | Participación electoral | Porcentaje | Porcentaje de votantes registrados que votaron durante las elecciones recientes, año disponible más reciente |
| Salud ⚕️ | Life expectancy | Esperanza de vida | Años | Número promedio de años que una persona puede esperar vivir, año disponible más reciente |
|  | Self-reported health | Salud según informan las personas | Porcentaje | Porcentaje de personas que informan que su salud es «buena o muy buena», año disponible más reciente |
| Satisfacción ✨ | Life satisfaction | Satisfacción ante la vida | Puntaje promedio | Autoevaluación promedio de satisfacción ante la vida, en una escala de 0 a 10 |
| Seguridad 🌃 | Feeling safe walking alone at night | Sentimiento de seguridad al caminar solos por la noche | Porcentaje | Porcentaje de personas que reportan sentirse seguras al caminar solas por la noche  |
|  | Homicide rate | Tasa de homicidios | Ratio | Número promedio de homicidios reportados por 100,000 personas, año disponible más reciente |
| Balance Vida Trabajo 🧘 | Employees working very long hours | Empleados que trabajan muchas horas | Porcentaje | Porcentaje de empleados que trabajan más de cincuenta horas a la semana en promedio, año disponible más reciente |
|  | Time devoted to leisure and personal care | Tiempo destinado al ocio y el cuidado personal | Horas | Número promedio de minutos al día dedicados al ocio y el cuidado personal, incluidos el sueño y la alimentación |

### Importar el Dataset

A continuacion, importaremos el dataset a un `DataFrame`. Noten la gran compatiblidad de `Jupyter` con los DataFrames (DF).

Cada DataFrame tiene **indices (Primera columna ) y columnas (primera fila)**. Comunmente se ocupan:

- En las columnas se ocupan `strings` que identifican el nombre de la variable.
- Enteros que identifican el número de la observación en las filas. 

Sin embargo, las filas también pueden ser identificadas por strings como las columnas por enteros

In [None]:
# para abrir archivos excel y visualizar hay que instalar esta dependencia extra
!pip install pandas openpyxl matplotlib plotly statsmodels

In [None]:
import pandas as pd

# utilidad para mostrar todas las columnas
pd.set_option("display.max_columns", None)

df = pd.read_excel(
    "dataset.xlsx",
    header=1,
    index_col=0,
)
df

> **Pregunta ❓:** ¿Cómo puedo obtener solo los datos ambientales (columnas `"Water quality"` y `"Air pollution"`) de todos los paises y guardarlo en un dataframe?

In [None]:
df_ambiental = df.loc[:, ["Water quality", "Air pollution"]]
df_ambiental

> **Pregunta ❓**: Y ahora, ¿Cómo puedo obtener solo los datos de Chile?

In [None]:
df_ambiental.loc["Chile", "Air pollution"]

---

## 1.- Generación de Nuevas Columnas

En esta sección aprenderemos como generar nuevas columnas a partir de la información existente en un dataframe.
En particular, veremos el cómo crear:

- Rankings
- Bins / Intervalos
- Cuantiles



> **Pregunta ❓**: ¿Qué utilidad podría tener el saber generar nuevas columnas al momento de crear modelos predictivos?


### 1.1 Rankings

Un ranking es una clasificación que ordena de mayor a menor los datos a partir de algún tipo de evaluación.

In [None]:
df_ambiental.loc[:, "Air pollution"]

In [None]:
air_pollution_rank = df_ambiental.loc[:, "Air pollution"].rank(
    ascending=True,
    method="min",
)
air_pollution_rank

In [None]:
air_pollution_rank.sort_values()

> **Pregunta ❓** ¿Qué pasa cuando tenemos datos con el mismo valor?

Hint: [Documentación oficial de Rank](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rank.html).


### 1.2 Dividir datos numéricos en intervalos

La función `pd.cut` permite separar los datos de una columna en bins/intervalos de igual tamaño, los cuales son calculados dividiendo el rango (maximo - mínimo) en la cantidad de bins indicada.

Los bins resultantes pueden ser interpretados como categorías.



In [None]:
2322/5

> **Pregunta ❓**: ¿Cuántos datos quedan en cada bin? ¿Igual o distinta cantidad por bin?

In [None]:
df_ambiental.loc[:, "Air pollution"]

In [None]:
import plotly.express as px

px.histogram(df_ambiental, x="Air pollution", nbins=6)

> **Ejercicio 📝:** Calcular los bins de `Air pollution` al dividir el rango de la columna en 5 bins.

In [None]:
min_ = df_ambiental.loc[:, "Air pollution"].min()
min_

In [None]:
max_ = df_ambiental.loc[:, "Air pollution"].max()
max_

In [None]:
rango = max_ - min_
rango

In [None]:
n_bins = 5

print("Tamaño de cada intervalo =", rango / n_bins)

In [None]:
# intervalos: [3, 8), (8, 13], (13, 17], (17, 23], (23, 28]

# chile -> (13, 17]
# korea -> (23, 28]

In [None]:
air_pollution_cut = pd.cut(df_ambiental.loc[:, "Air pollution"], bins=5,)
air_pollution_cut

In [None]:
air_pollution_cut.values

> **Pregunta ❓**: ¿Podemos asignar los intervalos a mano?

In [None]:
air_pollution_cut = pd.cut(
    df_ambiental.loc[:, "Air pollution"], 
    bins=[0, 15, 20, 24, 28])
air_pollution_cut

> **Pregunta ❓** ¿Qué problema presentan las categorías recién generadas?

In [None]:
#  [(2.975, 8.0] < (8.0, 13.0] < (13.0, 18.0] < (18.0, 23.0] < (23.0, 28.0]]
air_pollution_cut = pd.cut(
    df_ambiental.loc[:, "Air pollution"],
    bins=4,
    labels=["Bueno", "Medio", "Malo", "Deplorable"],
)
air_pollution_cut

> **Pregunta ❓:** Entonces, ¿los bins quedaban con la misma o distinta cantidad de datos?

In [None]:
air_pollution_cut.value_counts()

### 1.3 Dividir datos numéricos en cuantiles 

La función `pd.qcut` permite dividir los datos por cuantiles, los cuales a diferencia del anterior, tienen (_o intentan tener_) la misma cantidad de datos por cada intervalo generado.


Al igual que el caso anterior, podemos especificar como nombrar los cuantiles a través del atributo `labels`:

In [None]:
air_pollution_qcut = pd.qcut(
    df_ambiental.loc[:, "Air pollution"],
    q=4,
)

air_pollution_qcut

In [None]:
water_quality_qcut = pd.qcut(
    df_ambiental["Water quality"],
    q=5,
)

water_quality_qcut

In [None]:
water_quality_qcut.value_counts()

> **Pregunta ❓**: ¿Podemos asignar etiquetas en vez de intervalos (i.e., `"Excelente"`, `"Bueno"`, `"Medio"`, `"Malo"`, `"Deplorable"`)?

In [None]:
df_ambiental["Water quality"]

In [None]:
water_quality_qcut = pd.qcut(
    df_ambiental["Water quality"],
    q=5,
    labels=["Deplorable", "Malo", "Medio", "Bueno", "Excelente"],
)

water_quality_qcut

> **Pregunta ❓**: ¿Tienen sentido los bins generados? Para responder esto, interpretar el valor de la calidad de agua en Chile y su cuantil asociado.

### 1.4 Asignación de nuevas columnas a un DataFrame

Hasta el momento hemos generado nuevas columnas, pero no las hemos guardado en ningún dataframe. Sin embargo sería idea poder unir estas columnas con sus respectivos datos originales.

**Si los índices del dataframe son los mismos que el de la nueva columna**, podemos asignar una serie como una nueva columna de nuestro DataFrame de la siguiente forma:

In [None]:
df_ambiental.loc[:, "Air pollution Ranking"] = air_pollution_rank
df_ambiental

In [None]:
df_ambiental.loc[:, "Air pollution Ranking"] = air_pollution_rank
df_ambiental.loc[:, "Air pollution Bins"] = air_pollution_cut
df_ambiental.loc[:, "Air pollution Quintile"] = air_pollution_qcut

df_ambiental.sort_values(by="Air pollution Ranking")

---

## 2.- Agregaciones


### Motivación: Dataset de Temperaturas Globales

![wbg_climate](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/09-Pandas2/wbg_climate.png)


https://climateknowledgeportal.worldbank.org/download-data

**Cargar Dataset de Temperaturas Globales**

In [None]:
import pandas as pd

In [None]:
temperaturas = pd.read_csv(
    "temperature.csv")
temperaturas.head(20)

In [None]:
temperaturas.shape

In [None]:
temperaturas.columns

**Filtrar solo los de Chile**

In [None]:
temperaturas.loc[:, "Country"] == "Chile"

In [None]:
t_chile = temperaturas.loc[temperaturas.loc[:, "Country"] == "Chile", :]
t_chile

In [None]:
import plotly.express as px

px.line(t_chile, x="Month", y="Temperature", color="Year", height=600)

> **Pregunta ❓:** ¿Cómo podría saber el promedio de temperaturas por año?

In [None]:
...

In [None]:
t_chile.loc[:, "Year"].unique()

In [None]:
t_chile[t_chile.loc[:, "Year"] == 1991]

In [None]:
t_chile[t_chile.loc[:, "Year"] == 1991].loc[:, "Temperature"].mean()

In [None]:
t_chile[t_chile.loc[:, "Year"] == 1992].loc[:, "Temperature"].mean()

In [None]:
t_chile[t_chile.loc[:, "Year"] == 1993].loc[:, "Temperature"].mean()

In [None]:
t_chile.groupby(["Year"]).mean()

---

## 5.- Agregaciones con `GroupBy`


![Group By](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/09-Pandas2/group_by.png)

**Group by** es un proceso que implica uno o más de los siguientes pasos:


- **Separar** los datos bajo algún criterio o grupo.

- **Aplicar** esta función a estos datos agrupados.

- **Combinar** los resultados en un nuevo `DataFrame`.


Luego, definimos agregar como calcular alguna métrica o estadístico por grupo.

<div align='center'>
<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/09-Pandas2/aggregations.png" alt="Agregaciones" width=500px/>
</div>


### Paso 1: Separar

En esta parte veremos el primer paso del group-by: **Separar** por grupos.


![Group By](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/09-Pandas2/group_by.png)


Para esto, agrupamos temperaturas de Chile por mes:

#### Cantidad de Grupos

In [None]:
t_chile.head(10)

In [None]:
t_chile.groupby("Year")

In [None]:
t_chile.groupby("Year").groups

In [None]:
t_chile.loc[
    [10608, 10609, 10610, 10611, 10612, 10613, 10614, 10615, 10616, 10617, 10618, 10619]
]

#### Obtener algún grupo en particular

In [None]:
t_chile[t_chile.loc[:, "Year"] == 1991]

In [None]:
t_chile.groupby("Year").get_group(1991)

### Paso 2: Aplicar

En este paso veremos las distintas opciones que tenemos en el paso **aplicar**: agregar, transformar o filtrar.

![Group By](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/09-Pandas2/group_by.png)



#### Agregar

Las funciones que ofrece pandas son:

<div align='center'>
<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/09-Pandas2/aggregations.png" alt="Agregaciones" width=500px/>
</div>

##### Tamaño

In [None]:
t_chile.groupby("Year").size()

##### Promedio

**Por  Mes**

In [None]:
t_chile

In [None]:
t_chile_prom_mes = t_chile.groupby("Year").mean()
t_chile_prom_mes

In [None]:
# Arreglo de conveniencia para ordenar los resultados por mes.
MESES = [
    "Jan",
    "Feb",
    "Mar",
    "Apr",
    "May",
    "Jun",
    "Jul",
    "Aug",
    "Sep",
    "Oct",
    "Nov",
    "Dec",
]

t_chile_prom_mes = t_chile.groupby("Month").mean()
t_chile_prom_mes = t_chile_prom_mes.loc[MESES]

t_chile_prom_mes

In [None]:
px.line(
    t_chile_prom_mes["Temperature"],
    title="Temperatura Promedio en Chile por Mes",
)

In [None]:
t_chile

> Ejercicio: Agrupar por lustros y ver como se mueve la media.

**Por Año**

In [None]:
t_chile_prom_año = t_chile.groupby("Year").mean()
t_chile_prom_año

In [None]:
px.line(
    t_chile_prom_año,
    title="Temperatura Promedio en Chile por Año",
)


#### Describe 

Por mes:

In [None]:
chile_t_stats = t_chile.groupby("Month").describe()["Temperature"]
chile_t_stats = chile_t_stats.loc[MESES]
chile_t_stats

In [None]:
px.line(
    chile_t_stats.reset_index(),
    x="Month",
    y="mean",
    error_y="std",
    title="Temperatura por Mes",
)

#### Multi-indice

También podemos ejecutar la agregación sobre varias columnas. Esto generará un DataFrame multi-indice.
Los multi-indices pueden aparecer tanto en las filas como en las columnas.

In [None]:
stats_general = temperaturas.groupby(["Year", "Country"]).mean()

In [None]:
stats_general.loc[1991, :]

In [None]:
stats_general = temperaturas.groupby(["Country", "Year"]).mean()
stats_general

In [None]:
stats_general.loc["Chile", :]

Noten que esta operación retorna una serie con un multi-índice en los índices.


In [None]:
stats_general.index

Pueden acceder a un sub-índice usando los mismos indexadores que hemos visto hasta el momento.

In [None]:
stats_general.loc["Chile"]

Y podemos acceder a una medición en particular usando tuplas:

In [None]:
stats_general.loc[("Chile", 2015)]

In [None]:
stats_general.loc[("Chile", 2016)]

In [None]:
stats_general.loc[("Chile", 2016)].item()

In [None]:
stats_general.loc[("Chile", 2016), "Temperature"]

In [None]:
stats_general

Para aplanar el dataframe, pueden usar el método `reset_index()`

In [None]:
stats_general = stats_general.reset_index()
stats_general

In [None]:
m1 = stats_general.loc[:, "Country"] == "Chile"

In [None]:
m2 = stats_general.loc[:, "Country"] == "Argentina"

In [None]:
m1 & m2

In [None]:
mascara = stats_general["Country"].isin(
    ["Argentina", "Chile", "Peru", "Paraguay", "Uruguay"]
)
mascara

In [None]:
# filtramos para obtener solo los valores en la lista a través del método .isin
temperature_stats_general_filtrado = stats_general.loc[mascara, :]
temperature_stats_general_filtrado

In [None]:
px.line(
    temperature_stats_general_filtrado.reset_index(),
    x="Year",
    y="Temperature",
    color="Country",
    height=400,
)

### `agg`

`agg` permite agregar datos por grupo usando una o más operaciones a través de un diccionario.
El resultado también será un dataframe multi-índice, pero por columnas:

In [None]:
prom_t_año_global = temperaturas.groupby(["Year"]).agg({"Temperature": ["mean", "std"]})
prom_t_año_global

In [None]:
prom_t_año_global.columns

Al igual que el caso de los multi-índices en los índices de las filas, podemos acceder a ciertas series con multi-indices en las columnas a partir de indexadores basados en tuplas.

In [None]:
prom_t_año_global.loc[:, ("Temperature", "mean")]

In [None]:
px.line(prom_t_año_global.droplevel(0, axis=1).reset_index(), x="Year", y="mean")