# Reducción de Complejidad e Interactividad

En este notebook exploraremos las siguientes técnicas:

- _Small Multiples_ o yuxtaposición de gráficos que utilizan la misma codificación visual, pero a diferentes subconjuntos de un dataset
- _Symbol Map_ o superimposición de gráficos que utilizan distinta codificación visual, pero del mismo dataset (aunque pueden ser atributos diferentes los puntos focales de cada vis.)
- _Widgets_, elementos de control que permiten actualizar una visualización de manera interactiva.

Usaremos la Encuesta Origen-Destino 2012 de Santiago.

In [None]:
import os
from pathlib import Path
from chiricoca.config import setup_style

setup_style()

DATA_PATH = Path("data")
EOD_PATH = DATA_PATH / "EOD_STGO"
EOD_PATH

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

import huedhued.eod_scl as eod
from chiricoca.base.weights import normalize_rows, normalize_columns

In [None]:
viajes = eod.read_trips(EOD_PATH)

# descartamos sectores que no sean relevantes en los orígenes y destinos de los viajes
viajes = viajes[
    (viajes["SectorOrigen"] != "Exterior a RM")
    & (viajes["SectorDestino"] != "Exterior a RM")
    & (viajes["SectorOrigen"] != "Extensión Sur-Poniente")
    & (viajes["SectorDestino"] != "Extensión Sur-Poniente")
    & pd.notnull(viajes["SectorOrigen"])
    & pd.notnull(viajes["SectorDestino"])
]

print(len(viajes))

In [None]:
personas = eod.read_people(EOD_PATH)
hogares = eod.read_homes(EOD_PATH)
tabla = viajes.merge(personas).merge(hogares.drop('TipoDia', axis=1))

In [None]:
tabla["Peso"] = (
    tabla["FactorExpansion"] * tabla["FactorPersona"]
)

## Derivación

### ¿Existen diferencias de género en las actividades?

In [None]:
tabla.groupby(['Proposito', 'Sexo'])['Peso'].sum().unstack().astype(int).div(1000)

In [None]:
proposito_x_sexo = tabla.groupby(['Proposito', 'Sexo'])['Peso'].sum().unstack()
proposito_x_sexo.plot(kind='barh', width=0.9)

In [None]:
(proposito_x_sexo['Hombre'] - proposito_x_sexo['Mujer']).sort_values().plot(kind='barh', width=0.9)

In [None]:
proposito_x_sexo.pipe(normalize_rows).pipe(lambda x: (x['Hombre'] - x['Mujer']) * 100).sort_values().plot(kind='barh', width=0.9, edgecolor='none')

In [None]:
fig, ax = plt.subplots()

proposito_x_sexo.pipe(normalize_rows).pipe(
    lambda x: (x["Hombre"] - x["Mujer"]) * 100
).sort_values().plot(kind="barh", width=0.9, edgecolor="none", ax=ax)

# esto permite que pongamos porcentajes sin signo
ax.xaxis.set_major_formatter(lambda x, pos: f"{abs(x):g}%")

# esto permite que "centremos" los datos en 0 (y no necesariamente al medio del gráfico) para la posición x
ax.set_xlabel(
    "tendencia\n$\leftarrow$ mujeres $\cdot$ hombres $\\rightarrow$",
    ha="center",
    # flashbacks de computación gráfica ;)
    x=ax.transAxes.inverted().transform(ax.transData.transform((0, 0)))[0],
)

fig.tight_layout()

## Small Multiples

### ¿Cuáles son los perfiles etáreos asociados a los propósitos de viaje (actividades)?

Para esto necesitamos calcular la edad y un grupo etáreo.

In [None]:
tabla["Edad"] = 2013 - tabla["AnoNac"]
tabla["GrupoEtareo"] = tabla["Edad"] - (tabla["Edad"] % 5)
tabla['GrupoEtareo'].value_counts().sort_index()

In [None]:
rutina_x_edad = (
    tabla.groupby(["GrupoEtareo", "Proposito"])["Peso"]
    .sum()
    .unstack(fill_value=0)
    # enfoquémonos en propósitos de viaje frecuentes
    [['Al trabajo', 'Al estudio', 'De compras', 'De salud', 'Trámites', 'Visitar a alguien', 'Recreación']]
    .pipe(normalize_columns)
)

rutina_x_edad

In [None]:
rutina_x_edad.plot()

Ya que el resultado es una tabla, podríamos utilizar directamente un _heatmap_:

In [None]:
res = sns.choose_colorbrewer_palette('sequential', as_cmap=True)

In [None]:
fig, ax = plt.subplots(figsize=(6, 2.5))
sns.heatmap(rutina_x_edad.T, cmap=res, ax=ax, annot=True, fmt='.2f', annot_kws={'fontsize': 4}, linewidth=1)

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(10, 3))
axes

In [None]:
fig_ancho = 6
fig_alto = 2

fig, axes = plt.subplots(
    len(rutina_x_edad.columns) // 2,
    len(rutina_x_edad.columns) // 2,
    figsize=(len(rutina_x_edad.columns) // 2 * 3, len(rutina_x_edad.columns) // 2 * fig_alto),
    sharex=False,
    sharey=False,
    layout='constrained'
)

for col, ax in zip(rutina_x_edad.columns, axes.flatten()):
    rutina_x_edad.plot(color='grey', kind='line', legend=False, linewidth=0.5, ax=ax)
    rutina_x_edad[col].plot(ax=ax, kind="line", color="magenta", linewidth=2)
    ax.set_title(col)
    sns.despine(ax=ax)
    ax.set_xlim([0, 100])
    ax.set_xticks(range(0, 101, 10))
    ax.set_xlabel("Edad")
    ax.set_ylabel("Fracción de viajes")

fig.align_ylabels()
fig.tight_layout()

In [None]:
# wideform 
rutina_x_edad

In [None]:
# longform
rutina_x_edad_longform = rutina_x_edad.stack().rename("n_viajes").reset_index()
rutina_x_edad_longform.head(5)

In [None]:
grid = sns.FacetGrid(
    rutina_x_edad_longform,
    col="Proposito",
    col_wrap=3,
    aspect=2,
    height=2.5,
    sharey=False,
)

def plot_todos(*args, **kwargs):
    ax = plt.gca()
    rutina_x_edad.plot(color='grey', kind='line', legend=False, linewidth=0.5, ax=ax)

grid.map(plot_todos)
grid.map(plt.plot, "GrupoEtareo", "n_viajes", color="magenta", linewidth=2)

sns.despine()
grid.set(xlim=[0, 100])
grid.set_xlabels("Edad")
grid.set_ylabels("Fracción")
grid.set(xticks=range(0, 101, 10))
grid.fig.align_ylabels()
#grid.tight_layout()

In [None]:
rutina_x_edad_x_sexo = (
    tabla[
        tabla["Proposito"].isin(
            [
                "Al trabajo",
                "Al estudio",
                "De compras",
                "De salud",
                "Trámites",
                "Visitar a alguien",
                "Recreación",
            ]
        )
    ]
    .groupby(["GrupoEtareo", "Sexo", "Proposito"])["Peso"]
    .sum()
    .unstack(fill_value=0)
    #.pipe(normalize_columns)
    .stack()
    .rename("n_viajes")
    .reset_index()
)

rutina_x_edad_x_sexo

In [None]:
grid = sns.FacetGrid(
    rutina_x_edad_x_sexo,
    col="Proposito",
    col_wrap=3,
    aspect=2,
    height=3,
    sharey=False,
    hue='Sexo', # HSL: Hue (tono), S (saturación), L (luminosidad)
    palette='Set2'
)

grid.map(plt.plot, "GrupoEtareo", "n_viajes", linewidth=2)
grid.add_legend()

sns.despine()
grid.set(xlim=[0, 100])
grid.set_xlabels("Edad")
grid.set_ylabels("Fracción")
grid.set(xticks=range(0, 101, 10))
grid.fig.align_ylabels()

Observando este gráfico notamos cosas como:

- El aumento de los viajes de salud con la edad hasta los 65 años. Después comienzan a disminuir (recordemos que estamos midiendo viajes relativos).
- La mayor cantidad de personas que sale a comer o tomar algo tiene 30 años.
- Los viajes de buscar o dejar a alguien alcanzan su valor máximo a los 40 años y luego decaen. 
- **¿Qué más observan ustedes?**

Problema propuesto:

- Estudiar el uso de modo de transporte (columna `ModoDifusion`) por grupo etáreo.

## Superimposición

### ¿Existen patrones geográficos en los tipos de actividades que se hacen en una comuna?

In [None]:
!ls {DATA_PATH / 'comunas_rm'}

In [None]:
import geopandas as gpd

comunas = gpd.read_file(DATA_PATH / 'comunas_rm' / 'COMUNA_C17.shp')
comunas.head()

In [None]:

zones = gpd.read_file(EOD_PATH / 'Zonificacion_EOD2012').set_index('ID').to_crs(comunas.crs)
zones.head()

In [None]:
from chiricoca.geo.utils import clip_area_geodataframe

bounding_box = [-70.88006218, -33.67612715, -70.43015094, -33.31069169]
comunas_urbanas = clip_area_geodataframe(comunas, bounding_box, buffer=0.001)

In [None]:
comunas_urbanas["NombreComuna"] = comunas_urbanas["COMUNA"].map(
    dict(zip(zones["Com"], zones["Comuna"]))
)

In [None]:
zonas_urbanas = gpd.overlay(zones, comunas_urbanas, how='intersection')

In [None]:
ax = comunas_urbanas.plot()
zonas_urbanas.plot(ax=ax, facecolor='none', edgecolor='black', linewidth=0.5)

In [None]:
tabla['Proposito'].value_counts()

In [None]:
purposes_per_municipality = (
    tabla.drop_duplicates(subset=["Persona", "Proposito"], keep="first")
    .groupby(["ComunaDestino", "Proposito"])["Peso"]
    .sum()
    .unstack(fill_value=0)
)
purposes_per_municipality

In [None]:
from chiricoca.tables.heatmap import heatmap
heatmap(purposes_per_municipality.drop('volver a casa', axis=1).pipe(normalize_rows))

In [None]:
purposes_per_municipality.loc['Santiago'].plot(kind='pie')

In [None]:
trip_activities = {
    "Subsistencia": ["Al estudio", "Al trabajo", "Por trabajo", "Por estudio"],
    "N/A": ["volver a casa"],
    "Mantención": ["De compras", "Trámites", "De salud"],
    "Discrecional": [
        "Buscar o Dejar a alguien",
        "Visitar a alguien",
        "Recreación",
        "Otra actividad (especifique)",
        "Comer o Tomar algo",
        "Buscar o dejar algo",
    ],
}

In [None]:
for key, cols in trip_activities.items():
    purposes_per_municipality[key] = purposes_per_municipality[cols].sum(axis=1)

activities_per_municipality = purposes_per_municipality[
    ["Mantención", "Subsistencia", "Discrecional"]
].pipe(normalize_rows)
activities_per_municipality

In [None]:
heatmap(activities_per_municipality, cluster_rows=True)

In [None]:
cat_colors = sns.choose_colorbrewer_palette('qualitative')

In [None]:
from matplotlib.colors import ListedColormap
activities_per_municipality.loc[["Santiago", "La Pintana"]].T.plot(
    kind="pie", subplots=True, cmap=ListedColormap(cat_colors[:3])
)

In [None]:
from chiricoca.tables import barchart


barchart(
    activities_per_municipality,
    stacked=True,
    normalize=True,
    sort_categories=True,
    sort_items=True,
    palette=cat_colors[:3]
)

In [None]:
seq_colors = sns.dark_palette(cat_colors[1], n_colors=5)
seq_colors

In [None]:
comunas_urbanas

In [None]:
from chiricoca.geo.figures import small_multiples_from_geodataframe
from chiricoca.maps.choropleth import choropleth_map

fig, axes = small_multiples_from_geodataframe(zonas_urbanas, 3, height=5)

for ax, col in zip(axes.flatten(), activities_per_municipality.columns):
    choropleth_map(
        comunas_urbanas.join(
            activities_per_municipality[col], on="NombreComuna", how="inner"
        ),
        col,
        k=5,
        palette=seq_colors,
        ax=ax
    )
    ax.set_title(col)

In [None]:
activities_per_municipality = gpd.GeoDataFrame(
    activities_per_municipality,
    geometry=comunas_urbanas.to_crs(zones.crs).set_index("NombreComuna").centroid,
)

activities_per_municipality

In [None]:
poblacion = (
    hogares.join(
        personas.groupby("Hogar")["FactorPersona"].sum().rename("poblacion"), on="Hogar"
    )
    .groupby("Comuna")["poblacion"]
    .sum()
)
poblacion

In [None]:
poblacion.index = (
    ",".join(poblacion.index)
    .replace("CONCHALI", "CONCHALÍ")
    .replace('ESTACION CENTRAL', 'ESTACIÓN CENTRAL')
    .replace("MAIPU", "MAIPÚ")
    .replace("PEÑALOLEN", "PEÑALOLÉN")
    .replace("SAN JOAQUIN", "SAN JOAQUÍN")
    .replace("SAN RAMON", "SAN RAMÓN")
    .split(",")
)

In [None]:
from chiricoca.geo.figures import figure_from_geodataframe
from chiricoca.colors.base import categorical_color_legend
from chiricoca.maps import add_basemap, choropleth_map
import matplotlib.patheffects as path_effects


fig, ax = figure_from_geodataframe(zonas_urbanas, height=6)

# add_basemap(ax, AVES_ROOT / "data" / "processed" / "scl_positron_12_balanced.tif", comunas_urbanas)

choropleth_map(
    comunas_urbanas.join(poblacion, on='NOM_COMUNA'),
    "poblacion", palette=seq_colors, linewidth=0.5, k=5, edgecolor='black', ax=ax
)

for idx, row in activities_per_municipality.iterrows():
    # posición en el espacio (coordenadas geográficas)
    pos = (row["geometry"].x, row["geometry"].y)
    # posición en el gráfico (coordenadas absolutas)
    p = ax.transData.transform_point(pos)
    # posición en la figura (coordenadas relativas)
    p = fig.transFigure.inverted().transform_point(p)

    pie_size = 0.05 # np.random.rand() * 0.1
    pie_bounds = [p[0] - pie_size * 0.5, p[1] - pie_size * 0.5, pie_size, pie_size]

    box_inset = fig.add_axes(pie_bounds, label=idx)

    box_inset.pie(
        row[["Mantención", "Subsistencia", "Discrecional"]].values,
        wedgeprops=dict(edgecolor="black", linewidth=0.5),
        colors=cat_colors[:3],
    )

    pos_y = 1.0
    va = "bottom"

ax.set_title("Actividades Realizadas en Cada Comuna")


categorical_color_legend(
    ax, cat_colors[:3], ["Mantención", "Subsistencia", "Discrecional"], loc="center left"
)

In [None]:
from io import StringIO

# gracias a https://github.com/hafen/geofacet/issues/148
scl_grid_positions = '''row,col,name,code
1,3,QUILICURA,13125
1,4,CONCHALÍ,13104
1,7,HUECHURABA,13107
1,8,LO BARNECHEA,13115
2,3,RENCA,13128
2,4,QUINTA NORMAL,13126
2,5,INDEPENDENCIA,13108
2,6,RECOLETA,13127
2,7,VITACURA,13132
2,8,LAS CONDES,13114
3,2,PUDAHUEL,13124
3,3,CERRO NAVIA,13103
3,4,ESTACIÓN CENTRAL,13106
3,5,SANTIAGO,13101
3,6,PROVIDENCIA,13123
3,7,ÑUÑOA,13120
3,8,LA REINA,13113
4,3,LO PRADO,13117
4,4,PEDRO AGUIRRE CERDA,13121
4,5,SAN MIGUEL,13130
4,6,MACUL,13118
4,7,PEÑALOLÉN,13122
5,2,MAIPÚ,13119
5,3,CERRILLOS,13102
5,4,LO ESPEJO,13116
5,5,LA CISTERNA,13109
5,6,SAN JOAQUÍN,13129
5,7,LA FLORIDA,13110
6,1,PADRE HURTADO,13604
6,4,EL BOSQUE,13105
6,5,SAN RAMÓN,13131
6,6,LA GRANJA,13111
6,7,PUENTE ALTO,13201
6,8,SAN JOSÉ DE MAIPO,13203
7,4,SAN BERNARDO,13401
7,5,LA PINTANA,13112
7,6,PIRQUE,13202'''

scl_grid_positions = pd.read_csv(StringIO(scl_grid_positions))
scl_grid_positions

In [None]:
comuna_x_grid = scl_grid_positions.set_index(['row', 'col'])['name'].str.title().to_dict()
comuna_x_grid

In [None]:
activities_per_municipality

In [None]:
comuna_x_grid[(4, 4)] in activities_per_municipality.index

In [None]:
n_rows = scl_grid_positions['row'].max()
n_cols = scl_grid_positions['col'].max()

fig, axes = plt.subplots(n_rows, n_cols, figsize=(7,7))

for ax in axes.flatten():
    ax.set_axis_off()

for i in range(n_rows):
    for j in range(n_cols):
        pos = (i + 1, j + 1)
        if not pos in comuna_x_grid:
            continue
        if not comuna_x_grid[pos] in activities_per_municipality.index:
            continue
        
        #print(i, j, comuna_x_grid[pos], activities_per_municipality.loc[comuna_x_grid[pos]])

        ax = axes[i,j]

        ax.pie(
            activities_per_municipality.loc[comuna_x_grid[pos]][["Mantención", "Subsistencia", "Discrecional"]].values,
            wedgeprops=dict(edgecolor="black", linewidth=0.5),
            colors=cat_colors[:3],
        )

        ax.set_title(comuna_x_grid[pos])


fig.align_titles()

categorical_color_legend(
    axes[n_rows-1,0], cat_colors[:3], ["Mantención", "Subsistencia", "Discrecional"], loc="center left"
)

## _Widgets_ interactivos

In [None]:
%matplotlib ipympl

In [None]:
import numpy as np

In [None]:
import ipywidgets as widgets

In [None]:
from IPython.display import display, clear_output


class ODMatrix(widgets.HBox):

    def __init__(self, df):
        super().__init__()
        self.df = df
        self.output = widgets.Output()
        self.proposito = []
        self.modos = []
        self.transformacion = ""
        self.fig = None
        self.ax = None

        self.row_order = sorted(self.df["ComunaOrigen"].unique())

        controls = self.create_control_panel()
        self.children = [controls, self.output]

    def create_control_panel(self):
        widget_proposito = widgets.Dropdown(
            options=['Todos'] + list(tabla["Proposito"].unique()),
            description="Propósito:",
            disabled=False,
        )

        widget_modo = widgets.SelectMultiple(
            options=['Todos'] + list(tabla["ModoDifusion"].unique()),
            description="Modo de transporte:",
            disabled=False,
        )

        widget_proposito.observe(self.update_proposito, "value")
        widget_modo.observe(self.update_modo, "value")

        return widgets.VBox([widget_proposito, widget_modo])

    def update_proposito(self, change):
        self.proposito = change["new"]
        self.plot()

    def update_modo(self, change):
        self.modos = list(change["new"])
        self.plot()

    def plot(self):
        with self.output:
            clear_output(wait=True)
            if self.fig:
                self.fig.clf()
                self.ax = None

            self.fig, self.ax = plt.subplots(figsize=(6, 6))

            viajes = self.df
            if self.proposito and not self.proposito == 'Todos':
                viajes = viajes[viajes["Proposito"] == self.proposito]
            if self.modos and not self.modos[0] == 'Todos':
                viajes = viajes[viajes["ModoDifusion"].isin(self.modos)]

            matriz = (
                viajes.groupby(["ComunaOrigen", "ComunaDestino"])["Peso"]
                .sum()
                .unstack(fill_value=0)
                .pipe(normalize_rows)
                .join(pd.DataFrame(index=self.row_order), how='outer')
                .fillna(0)
            )

            for col in self.row_order:
                if not col in matriz.columns:
                    matriz[col] = 0

            matriz = matriz[self.row_order]


            sns.heatmap(matriz, ax=self.ax, cbar=False, cmap=res)
            self.ax.set_title(
                f"Matriz OD {self.transformacion}\n{repr(self.proposito)} / {repr(self.modos)}"
            )

            self.ax.set_xlabel('Comuna de Destino')
            self.ax.set_ylabel('Comuna de Origen')

            # esto evita que lo muestre el notebook debajo de los widgets.
            plt.close()

            # esto muestra la figura _en_ el widget
            display(self.fig)
            


ODMatrix(tabla)