In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pyarrow.parquet as pq
import dash
from dash import html, dcc
from dash.dependencies import Input, Output, State
import pandas as pd
import plotly.express as px
import warnings
warnings.filterwarnings('ignore', category=FutureWarning)

# Tree Map

Lectura del parquet donde se encuentran los datos pretratados. Corresponden a datos de fallecimiento obtenidos del INE desde 1975 hasta el 2022. Se dispone de la provincia de fallecimiento, año y edad de fallecimiento (el resto de variables no se utilizan).

In [74]:
data_fallecimiento_parquet = pq.read_table('data_fallecimiento_reducido.parquet')

df = data_fallecimiento_parquet.to_pandas()
del data_fallecimiento_parquet

In [75]:
df.head()

Unnamed: 0,DEF_PROV,DEF_MES,DEF_ANO,NAC_MES,NAC_ANO,SEXO,ESTADO_CIVIL,EDAD_FALLECIMIENTO
0,18,7,1975,10,1900,1,2,74.75
1,19,11,1975,7,1903,1,2,72.3125
2,23,8,1975,8,1934,1,2,41.0
3,24,6,1975,11,1960,0,1,14.585938
4,24,3,1975,2,1923,1,2,52.09375


In [76]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 17203695 entries, 0 to 17220763
Data columns (total 8 columns):
 #   Column              Dtype  
---  ------              -----  
 0   DEF_PROV            uint8  
 1   DEF_MES             uint8  
 2   DEF_ANO             uint16 
 3   NAC_MES             uint8  
 4   NAC_ANO             uint16 
 5   SEXO                uint8  
 6   ESTADO_CIVIL        uint8  
 7   EDAD_FALLECIMIENTO  float32
dtypes: float32(1), uint16(2), uint8(5)
memory usage: 344.5 MB


In [77]:
(df.groupby('DEF_ANO').EDAD_FALLECIMIENTO).describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
DEF_ANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1975,298177.0,67.326607,21.628279,0.0,61.34375,73.0625,81.1875,115.25
1976,298982.0,67.798531,21.16172,0.0,61.75,73.3125,81.3125,114.25
1977,294307.0,68.111343,20.964764,0.0,62.0,73.5625,81.5,114.4375
1978,296754.0,68.336502,20.775297,0.0,62.09375,73.75,81.6875,114.5
1979,291201.0,68.67202,20.409494,0.0,62.25,74.0,81.75,114.75
1980,289344.0,69.460953,19.743019,0.0,62.90625,74.5,82.0625,109.4375
1981,293384.0,69.935936,19.38928,0.0,63.34375,74.8125,82.3125,111.4375
1982,286655.0,70.341904,18.950714,0.0,63.65625,75.0625,82.4375,111.9375
1983,302569.0,70.932335,18.629951,0.0,64.25,75.5625,82.8125,110.4375
1984,299408.0,71.105553,18.34668,0.0,64.0625,75.6875,83.0,112.8125


## Gráfico

In [78]:
bins = [0, 18, 35, 50, 65, 80, 150]
labels = ['0-18', '19-35', '36-50', '51-65','65-80', '81+']
main_categories = ['Joven', 'Joven', 'Adulto', 'Adulto', 'Senior', 'Senior']
df['Rango_Edad'] = pd.cut(df['EDAD_FALLECIMIENTO'], bins=bins, labels=labels, right=False)
df['Categoria_Edad'] = pd.cut(df['EDAD_FALLECIMIENTO'], bins=bins, labels=main_categories, right=False, ordered=False)

df_agrupado = df.groupby(['DEF_ANO', 'Categoria_Edad', 'Rango_Edad'], observed=True).size().reset_index(name='Fallecidos')

In [70]:
df_agrupado['Fallecidos_log'] = np.log1p(df_agrupado['Fallecidos'])

In [84]:
# Inicializamos la aplicación Dash
app = dash.Dash(__name__, title='Análisis de Mortalidad por Rango de Edad')

# Definimos la estructura de la interfaz de usuario de la aplicación
app.layout = html.Div([
    # Creamos un slider para seleccionar el año
    dcc.Slider(
        id='year-slider',
        min=df_agrupado['DEF_ANO'].min(),
        max=df_agrupado['DEF_ANO'].max(),
        value=df_agrupado['DEF_ANO'].min(),
        marks={str(year): str(year) for year in df_agrupado['DEF_ANO'].unique()},
        step=None
    ),
    
    # Botón para controlar la animación
    html.Button('Iniciar/Pausar Animación', id='play-button', n_clicks=0),
    # Intervalo para la animación
    dcc.Interval(
        id='auto-stepper',
        interval=500,
        n_intervals=0,
        disabled=True
    ),
    # Definimos el gráfico que se actualizará según el año seleccionado
    dcc.Graph(id='treemap-graph', style={'height': '650px', 'width': '1800px'})
]) 

# Callback para controlar el intervalo
@app.callback(
    Output('auto-stepper', 'disabled'),
    [Input('play-button', 'n_clicks')]
)
def toggle_interval(n_clicks):
    # Alternamos el estado del intervalo con cada clic
    return n_clicks % 2 == 0

# Callback para actualizar el año seleccionado automáticamente
@app.callback(
    Output('year-slider', 'value'),
    [Input('auto-stepper', 'n_intervals')],
    [State('year-slider', 'value'), State('year-slider', 'max')]
)
def update_year(n_intervals, year_value, max_year):
    # Calculamos el siguiente
    new_year = year_value + 1
    # Si superamos el año máximo, reiniciamos al primero
    if new_year > max_year:
        new_year = df_agrupado['DEF_ANO'].min()
    return new_year

color_map = {
    'Joven': 'purple',
    'Adulto': 'lightgreen',
    'Senior': 'lightblue'
}

# Callback para actualizar el gráfico basandonos en el año seleccionado
@app.callback(
    Output('treemap-graph', 'figure'),
    [Input('year-slider', 'value')]
)
def update_figure(selected_year):
    filtered_df = df_agrupado[df_agrupado['DEF_ANO'] == selected_year].copy()
    fig = px.treemap(filtered_df, path=['Categoria_Edad', 'Rango_Edad'], values='Fallecidos',
                     color='Categoria_Edad',
                     color_discrete_map=color_map,
                     title=f'Fallecidos por Rango de Edad en {selected_year}')
    fig.update_traces(textinfo='label+value', hoverinfo='label+value+percent parent+percent entry')

    return fig


if __name__ == '__main__':
    app.run_server(mode="external", debug=True)


# Parallel Coordinates Plot 

Lectura de los datos a utilizar. Corresponden a datos anuales entre 2017 y 2021 de (todos por provincia):
- Media y mediana de la edad de fallecimiento.
- Población.
- Pib per capita.
- Médicos colegiados por cada 1000 habitantes.
- Zona a la cuál he asignado a cada una de las provincias, dividiendolas por norte, sur este, centro e islas.
- Otros datos que no serán utilizados.

In [24]:
df_parallel = pd.read_csv("datos_parallel_coordinate.csv", decimal=",", sep=";")

In [25]:
df_parallel.head()

Unnamed: 0,year,codigo_prov,nombre_prov,media,mediana,Poblacion,pib_per_capita,medicos_por_poblacion,Comunidad_autonoma,cod_ccaa,zona
0,2021,28,MADRID,80.238,83.693,6751251,35185,7.14,Madrid,13,3
1,2021,8,BARCELONA,80.56,83.918,5714730,30399,6.611,Cataluna,9,2
2,2021,46,VALENCIA,79.693,82.831,2589312,23717,6.496,Comunidad Valenciana,10,2
3,2021,41,SEVILLA,78.536,81.538,1947852,20873,5.889,Andalucia,1,4
4,2021,3,ALICANTE,79.195,81.927,1881762,19811,4.626,Comunidad Valenciana,10,2


In [26]:
df_parallel.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 260 entries, 0 to 259
Data columns (total 11 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   year                   260 non-null    int64  
 1   codigo_prov            260 non-null    int64  
 2   nombre_prov            260 non-null    object 
 3   media                  260 non-null    float64
 4   mediana                260 non-null    float64
 5   Poblacion              260 non-null    int64  
 6   pib_per_capita         260 non-null    int64  
 7   medicos_por_poblacion  260 non-null    float64
 8   Comunidad_autonoma     260 non-null    object 
 9   cod_ccaa               260 non-null    int64  
 10  zona                   260 non-null    int64  
dtypes: float64(3), int64(6), object(2)
memory usage: 22.5+ KB


In [27]:
df_parallel_filtered = df_parallel[['media', 'mediana', 'Poblacion','pib_per_capita', 'medicos_por_poblacion', 'zona']]

In [36]:
fig = px.parallel_coordinates(df_parallel_filtered, 
                              color="zona",
                              labels={"media": "Media edad fall.", "mediana": "Mediana edad fall.", "Poblacion": "Población",
                                      "pib_per_capita": "PIB per cápita", "medicos_por_poblacion": "Médicos cada 1000 habitantes"},
                              color_continuous_scale=[(0.0, "#ffbe0b"), (0.2, "#ffbe0b"), 
                                                      (0.2, "#338450"), (0.4, "#338450"),
                                                      (0.4, "#ff006e"), (0.6, "#ff006e"),
                                                      (0.6, "#8338ec"), (0.8, "#8338ec"),
                                                      (0.8, "#23C9FF"), (1.0, "#23C9FF")],
                              range_color=(1,5))

# Anotación para identificar las zonas
fig.add_annotation(xref='paper', yref='paper', x=0.5, y=-0.15, showarrow=False,
                   text="Colores por zona: Amarillo - Norte, Verde - Este, Rojo - Central, Púrpura - Sur, Azul - Islas",
                   font=dict(size=14, color="black"),
                   align="center", bgcolor="white")

fig.update_layout(
    title={
        'text': "Análisis Comparativo por Zona",
        'y':0.98,
        'x':0.5,
        'xanchor': 'center',
        'yanchor': 'top'
    }
)

fig.show()