# Visualización de datos - Entrega final

En esta última entrega de la asignatura se va a llevar a cabo el análisis y la visualización de los conjuntos de datos en los que se ha estado trabajando en las anteriores entregas, especialmente en la intermedia en la que se realizó el (pre)procesado y limpieza de los _datasets_.

Para esta última entrega se va a utilizar la librería Atoti.

Los conjuntos de datos de los que disponemos son los siguientes:

- Censo de animales domésticos
- Factores demográficos
- Factores socioeconómicos
- Factores de salud
- Elecciones locales
- Zonas verdes
- Áreas caninas

<div class="alert alert-block alert-warning">
<b>Nota:</b> Se han vuelto a procesar algunos de los archivos .csv con los datos procesados en la entrega intermedia:
    <ul>
        <li>Para suprimir la columna de los índices del dataframe (index = False), ya que al volverlos a importar se producía una redundancia de estos índices.</li>
        <li>De manera adicional, se ha cambiado el valor de la columna 'año' por 'YEAR' en todos los <i>datasets</i> con el fin de evitar conflictos entre versiones, sistemas operativos, codificaciones, etc.</li>
        <li>Se ha incorporado la columna "cod_distrito" al <i>dataset</i> de parques y zonas verdes, que no la tenía debido a un error en el código de la entrega intermedia.</li>
        <li>Se han añadido entradas adicionales en el conjunto de datos de las elecciones locales para Podemos-Izquierda Unida-Alianza verde en las elecciones 2019 con valores nulos (sin representación) para evitar conflictos al crear las tablas y los cubos de Atoti.</li>
        <li>Se ha reestructurado el conjunto de datos del censo de animales domésticos para facilitar el tratamiento de los datos con el <i>widget</i> de Atoti.</li>
        <li>Se ha unificado la columna DISTRITO en todos los <i>datasets</i> (en mayúsculas y sin tildes) de tal manera que al unir las tablas no haya conflictos.</li>
    </ul>
</div>

## Creación de sesión en Atoti

En primer lugar, importamos la biblioteca Atoti con la que vamos a trabajar para llevar a cabo la visualización de los datos. Creamos asimismo una sesión un puerto fijo asociándola a una carpeta de contenido para poder seguir trabajando en la visualización en el caso de que tengamos que cerrarla o acceder desde otro lugar.

In [1]:
# Instalamos Atoti si aún no lo tenemos
# pip install atoti[jupyterlab]

In [2]:
# Importamos la biblioteca Atoti
import atoti as tt

# Creamos una sesión y definimos sus parámetros
session = tt.Session(
    user_content_storage="./content",
    port=5027,
    java_options=["-Xms1G", "-Xmx10G"],
)

Welcome to Atoti 0.8.11!

By using this community edition, you agree with the license available at https://docs.atoti.io/latest/eula.html.
Browse the official documentation at https://docs.atoti.io.
Join the community at https://www.atoti.io/register.

Atoti collects telemetry data, which is used to help understand how to improve the product.
If you don't wish to send usage data, you can request a trial license at https://www.atoti.io/evaluation-license-request.

You can hide this message by setting the `ATOTI_HIDE_EULA_MESSAGE` environment variable to True.


## Creación de las tablas en Atoti a partir de los .csv del preprocesado

El siguiente paso es importar los _datasets_ que hemos generado en la fase de preprocesado de los datos. Estos se encuentran almacenados en archivos .csv. Además de generar las tablas asociadas en Atoti, vamos a adecuar los títulos de las columnas de tal manera que faciliten la inteligibilidad de las visualizaciones más adelante. Por último, definimos las _keys_ o claves de cada tabla, que son aquellas columnas que hacen única cada entrada del _dataset_.

In [3]:
# Importamos los .csv y hacemos unos últimos cambios
# Censo completo de animales domésticos
censo = session.read_csv(
    "./preprocesado/censo_melt.csv", separator=';',
    table_name="Censo",
    columns={
        "YEAR": "YEAR",
        "cod_distrito": "CODIGO",
        "DISTRITO": "DISTRITO",
        "CATEGORIA": "CATEGORIA",
        "VALOR": "Num ANIMALES",
    },
    keys=["YEAR", "CODIGO", "DISTRITO", "CATEGORIA"],
)

In [4]:
# Renta media anual por hogar
eco = session.read_csv(
    "./preprocesado/dist_eco.csv", separator=';',
    table_name="Economia",
    columns={
        "YEAR": "YEAR",
        "cod_distrito": "CODIGO",
        "distrito": "DISTRITO",
        "valor_indicador": "RENTA MEDIA ANUAL",
    },
    keys=["YEAR", "CODIGO", "DISTRITO"],
)

In [5]:
# Número de habitantes
demo = session.read_csv(
    "./preprocesado/dist_pob.csv", separator=';',
    table_name="Poblacion",
    columns={
        "YEAR": "YEAR",
        "cod_distrito": "CODIGO",
        "distrito": "DISTRITO",
        "indicador_nivel2": "GENERO",
        "valor_indicador": "Num HABITANTES",
    },
    keys=["YEAR", "CODIGO", "DISTRITO", "GENERO"],
)

In [6]:
# Índice de sedentarismo
salud = session.read_csv(
    "./preprocesado/dist_salud.csv", separator=';',
    table_name="Sedentarismo",
    columns={
        "YEAR": "YEAR",
        "cod_distrito": "CODIGO",
        "distrito": "DISTRITO",
        "valor_indicador": "% POBLACION",
    },
    keys=["YEAR", "CODIGO", "DISTRITO"],
)

In [7]:
# Elecciones locales
elec = session.read_csv(
    "./preprocesado/dist_elec_anual_utf8.csv", separator=';',
    table_name="Elecciones",
    columns={
        "YEAR": "YEAR",
        "cod_distrito": "CODIGO",
        "distrito": "DISTRITO",
        "indicador_nivel2": "PARTIDO",
        "porcentaje": "% VOTOS",
    },
    keys=["YEAR","CODIGO", "DISTRITO", "PARTIDO"],
)

In [8]:
# Zonas verdes
parques = session.read_csv(
    "./preprocesado/arbolado_anual.csv", separator=';',
    table_name="Parques",
    columns={
        "YEAR": "YEAR",
        "cod_distrito": "CODIGO",
        "DISTRITO": "DISTRITO",
        "SUPERFICIE (ha)": "SUPERFICIE (ha)",
    },
    keys=["YEAR", "CODIGO", "DISTRITO"],
)

In [9]:
# Áreas caninas
caninas = session.read_csv(
    "./preprocesado/caninas_anual.csv", separator=';',
    table_name="Areas caninas",
    columns={
        "YEAR": "YEAR",
        "cod_distrito": "CODIGO",
        "distrito": "DISTRITO",
        "TOTAL": "TOTAL",
    },
    keys=["YEAR", "CODIGO", "DISTRITO"],
)

## Creación de los cubos de Atoti

A partir de las tablas que acabamos de crear en la sesión, generamos los cubos para poder trabajar con la interfaz gráfica de Atoti y generar las visualizaciones

In [10]:
# Creamos los cubos de Atoti
cube_censo = session.create_cube(censo, name = "Censo animales")
cube_eco = session.create_cube(eco, name = "Nivel de renta")
cube_demo = session.create_cube(demo, name = "Demografía")
cube_salud = session.create_cube(salud, name = "Sedentarismo")
cube_elec = session.create_cube(elec, name = "Elecciones locales")
cube_parques = session.create_cube(parques, name = "Zonas verdes")
cube_caninas = session.create_cube(caninas, name = "Áreas caninas")

### Adición de medidas en los cubos

Atoti genera automáticamente medidas como la media o la suma de las columnas que no son claves, que en el caso de este trabajo no resultan especialmente útiles. Como vamos a trabajar directamente con los valores únicos de cada tabla, tenemos que añadirlos tal y como se hace a continuación en el siguiente bloque de código.

In [11]:
# Añadimos las medidas manualmente
cube_censo.measures["Num ANIMALES"] = tt.agg.single_value(censo["Num ANIMALES"])
cube_eco.measures["RENTA MEDIA ANUAL"] = tt.agg.single_value(eco["RENTA MEDIA ANUAL"])
cube_demo.measures["Num HABITANTES"] = tt.agg.single_value(demo["Num HABITANTES"])
cube_salud.measures["% POBLACION"] = tt.agg.single_value(salud["% POBLACION"])
cube_elec.measures["% VOTOS"] = tt.agg.single_value(elec["% VOTOS"])
cube_parques.measures["SUPERFICIE (ha)"] = tt.agg.single_value(parques["SUPERFICIE (ha)"])
cube_caninas.measures["TOTAL"] = tt.agg.single_value(caninas["TOTAL"])

### Fusión de tablas

Los cubos que hemos generado hasta el momento se corresponden con los datos contenidos en cada uno de los archivos .csv que generamos en la fase anterior de preprocesado de los datos. Pero lo que realmente nos interesa es descubrir si existe una correlación entre los diferentes parámetros de la ciudad con los que estamos trabajando (por ejemplo, número de habitantes y animales domésticos por distrito, nivel de renta y resultados de las elecciones locales por distrito, etc). Para ello vamos a unir la tabla base (la del censo de animales domésticos en Madrid del 2019 al 2023) con el resto de tablas, definiendo como variables comunes el año, el código de distrito y el nombre del distrito. Estas nuevas jerarquías dentro del _dataset_ Censo se incorporan de manera automática al cubo y se ven reflejadas de manera casi instantánea en la interfaz gráfica de Atoti en la que estamos trabajando.

In [12]:
# Añadimos profundidad a la tabla con el censo de animales
censo.join(eco,     (censo["YEAR"] ==     eco["YEAR"]) & (censo["CODIGO"] ==     eco["CODIGO"]) & (censo["DISTRITO"] ==     eco["DISTRITO"]))
censo.join(demo,    (censo["YEAR"] ==    demo["YEAR"]) & (censo["CODIGO"] ==    demo["CODIGO"]) & (censo["DISTRITO"] ==    demo["DISTRITO"]))
censo.join(salud,   (censo["YEAR"] ==   salud["YEAR"]) & (censo["CODIGO"] ==   salud["CODIGO"]) & (censo["DISTRITO"] ==   salud["DISTRITO"]))
censo.join(elec,    (censo["YEAR"] ==    elec["YEAR"]) & (censo["CODIGO"] ==    elec["CODIGO"]) & (censo["DISTRITO"] ==    elec["DISTRITO"]))
censo.join(parques, (censo["YEAR"] == parques["YEAR"]) & (censo["CODIGO"] == parques["CODIGO"]) & (censo["DISTRITO"] == parques["DISTRITO"]))
censo.join(caninas, (censo["YEAR"] == caninas["YEAR"]) & (censo["CODIGO"] == caninas["CODIGO"]) & (censo["DISTRITO"] == caninas["DISTRITO"]))

Comprobamos que hemos fusionado adecuadamente las tablas y que se han asociado correctamente las columnas clave.

In [13]:
# Comprobamos
session.tables.schema

```mermaid
erDiagram
  "Sedentarismo" {
    _ int PK "YEAR"
    _ int PK "CODIGO"
    _ String PK "DISTRITO"
    nullable int "% POBLACION"
  }
  "Economia" {
    _ int PK "YEAR"
    _ int PK "CODIGO"
    _ String PK "DISTRITO"
    nullable int "RENTA MEDIA ANUAL"
  }
  "Poblacion" {
    _ int PK "YEAR"
    _ int PK "CODIGO"
    _ String PK "DISTRITO"
    _ String PK "GENERO"
    nullable int "Num HABITANTES"
  }
  "Censo" {
    _ int PK "YEAR"
    _ int PK "CODIGO"
    _ String PK "DISTRITO"
    _ String PK "CATEGORIA"
    nullable int "Num ANIMALES"
  }
  "Parques" {
    _ int PK "YEAR"
    _ int PK "CODIGO"
    _ String PK "DISTRITO"
    nullable double "SUPERFICIE (ha)"
  }
  "Elecciones" {
    _ int PK "YEAR"
    _ int PK "CODIGO"
    _ String PK "DISTRITO"
    _ String PK "PARTIDO"
    nullable double "% VOTOS"
  }
  "Areas caninas" {
    _ int PK "YEAR"
    _ int PK "CODIGO"
    _ String PK "DISTRITO"
    nullable int "TOTAL"
  }
  "Censo" }o--o| "Economia" : "(`CODIGO` == `CODIGO`) & (`YEAR` == `YEAR`) & (`DISTRITO` == `DISTRITO`)"
  "Censo" }o--o| "Parques" : "(`CODIGO` == `CODIGO`) & (`YEAR` == `YEAR`) & (`DISTRITO` == `DISTRITO`)"
  "Censo" }o--o| "Areas caninas" : "(`CODIGO` == `CODIGO`) & (`YEAR` == `YEAR`) & (`DISTRITO` == `DISTRITO`)"
  "Censo" }o--o| "Sedentarismo" : "(`CODIGO` == `CODIGO`) & (`YEAR` == `YEAR`) & (`DISTRITO` == `DISTRITO`)"
  "Censo" }o..o{ "Poblacion" : "(`CODIGO` == `CODIGO`) & (`DISTRITO` == `DISTRITO`) & (`YEAR` == `YEAR`)"
  "Censo" }o..o{ "Elecciones" : "(`CODIGO` == `CODIGO`) & (`DISTRITO` == `DISTRITO`) & (`YEAR` == `YEAR`)"
```


De nuevo, resulta necesario añadir manualmente las medidas con las que queremos trabajar. En este caso, serían las de todas las tablas excepto la del censo de animales domésticos.

In [14]:
# Añadimos las medidas indidivuales de cada dataset manualmente a Censo
# cube_censo.measures["Num ANIMALES"] = tt.agg.single_value(censo["Num ANIMALES"])
cube_censo.measures["RENTA MEDIA ANUAL"] = tt.agg.single_value(eco["RENTA MEDIA ANUAL"])
cube_censo.measures["Num HABITANTES"] = tt.agg.single_value(demo["Num HABITANTES"])
cube_censo.measures["% POBLACION"] = tt.agg.single_value(salud["% POBLACION"])
cube_censo.measures["% VOTOS"] = tt.agg.single_value(elec["% VOTOS"])
cube_censo.measures["SUPERFICIE (ha)"] = tt.agg.single_value(parques["SUPERFICIE (ha)"])
cube_censo.measures["TOTAL"] = tt.agg.single_value(caninas["TOTAL"])

## Acceso al dashboard

Para acceder al dashboard y trabajar con los cubos que hemos creado a través de la interfaz gráfica de Atoti, utilizaremos el enlace a la sesión que hemos creado inicialmente en el puerto que hemos definido.

In [15]:
# Link de la sesión de Atoti
session.link

http://localhost:5027

_Note_: This is the session's local URL: it may not be reachable if Atoti is running on another machine.