In [1]:
from IPython.display import HTML

HTML('''<script>
code_show=true; 
function code_toggle() {
 if (code_show){
 $('div.input').hide();
 } else {
 $('div.input').show();
 }
 code_show = !code_show
} 
$( document ).ready(code_toggle);
</script>
<form action="javascript:code_toggle()"><input type="submit" value="Click here to toggle on/off the raw code."></form>''')

In [1]:
import pandas as pd
from plotly.offline import init_notebook_mode, iplot
import plotly.graph_objects as go
from plotly.graph_objs import Scatter,Scatter3d
from IPython.display import HTML
pd.set_option('display.max_rows', 500)

In [2]:
init_notebook_mode(connected=True)

# Fallecidos COVID19 en Perú

Fuente de datos: https://www.datosabiertos.gob.pe/dataset/informaci%C3%B3n-de-fallecidos-del-sistema-inform%C3%A1tico-nacional-de-defunciones-sinadef-ministerio

## ¿Cuántos fallecidos hay por COVID19 en Perú?

Según las cifras oficiales actualmente a **día 15 de agosto de 2020 encontramos 25856 fallecidos por COVID19 en Perú**, probablemente se estén considerando únicamente personas a las que se les diagnosticó la enfermedad mediante los test de COVID19. Sin embargo, otro procedimiento para estimar el número de muertes por COVID19 es calculando el incremento de muertes en los mismos meses respecto a años anteriores. <br>
A continuación, se muestra una gráfica de **los fallecimientos por meses para los años 2017, 2018, 2019 y 2020 (lo que llevamos de año hasta el día 15 de agosto de 2020)**. El usuario puede seleccionar los meses que le interese visualizar haciendo click en la leyenda de la derecha.

In [3]:
df_pe = pd.read_csv("fallecidos_sinadef.csv",sep=";",encoding = "ISO-8859-1",low_memory=False)

In [4]:
muertes_mensuales = df_pe.groupby(["AÑO","MES"]).agg({"Nº":"count"}).rename(columns={"Nº":"Fallecidos"}).reset_index()

In [5]:
m2017 = muertes_mensuales[muertes_mensuales["AÑO"]==2017].reset_index(drop=True)
m2018 = muertes_mensuales[muertes_mensuales["AÑO"]==2018].reset_index(drop=True)
m2019 = muertes_mensuales[muertes_mensuales["AÑO"]==2019].reset_index(drop=True)
m2020 = muertes_mensuales[muertes_mensuales["AÑO"]==2020].reset_index(drop=True)

In [7]:
traza_2017 = Scatter(
  x=m2017["MES"],
  y=m2017["Fallecidos"],
  text=m2017["Fallecidos"].astype(str),
  textposition="top center",
  textfont=dict(
                color="black",
                size=10
            ),
  mode='lines+markers+text',
  name= '2017'
)
traza_2018 = Scatter(
  x=m2018["MES"],
  y=m2018["Fallecidos"],
  text=m2018["Fallecidos"].astype(str),
  textposition="top center",
  textfont=dict(
                color="black",
                size=10
            ),
  mode='lines+markers+text',
  name= '2018'
)

traza_2019 = Scatter(
  x=m2019["MES"],
  y=m2019["Fallecidos"],
  text=m2019["Fallecidos"].astype(str),
  textposition="top center",
  textfont=dict(
                color="black",
                size=10
            ),
  mode='lines+markers+text',
  name= '2019'
)

traza_2020 = Scatter(
  x=m2020["MES"],
  y=m2020["Fallecidos"],
  text=m2020["Fallecidos"].astype(str),
  textposition="top center",
  textfont=dict(
                color="black",
                size=10
            ),
  mode='lines+markers+text',
name= '2020'
)
data = [traza_2017,traza_2018,traza_2019,traza_2020]
fig = go.Figure(data=data)
fig.update_layout(
    title="Evoluciones Fallecimientos - Perú",
    xaxis_title="Mes",
    yaxis_title="Fallecidos",
    legend_title="Año"
)

fig.show()

**Podemos ver que más o menos el número de muertes es muy similiar para los meses de 2017,2018 y 2019. Sin embargo, esto cambia para 2020, ya que se puede observar que hasta marzo el número de muertes cuadra con años anteriores, pero a partir de abril la diferencia incrementa muchísimo. Podríamos pensar que ese exceso de fallecimientos sean producidos por COVID19.**

**Si comparamos los fallecimientos de 2020 contra los de 2019 durante los meses de abril-agosto, podemos observar que hay 56417 fallecimientos más  (hay que tener en cuenta que recién vamos por mediados de agosto por lo que el mes aún no está completo)**

## ¿Cómo ha afectado el COVID19 a las diferentes provincias peruanas?

In [10]:
# 2020
bool_anyo = df_pe["AÑO"] == 2020
bool_meses = df_pe["MES"].isin([4,5,6,7])
df_peru_2020_covid = df_pe[bool_anyo & bool_meses].reset_index(drop=True)
df_peru_2020_covid_dom = df_peru_2020_covid.groupby("PROVINCIA DOMICILIO").agg({"Nº":"count"}).rename(columns={"Nº":"Fallecidos2020"}).reset_index()
#df_peru_2020_covid_dom = df_peru_2020_covid_dom[df_peru_2020_covid_dom["Fallecidos2020"] >= 30].reset_index(drop=True)

# 2019
bool_anyo = df_pe["AÑO"] == 2019
bool_meses = df_pe["MES"].isin([4,5,6,7])
df_peru_2019_covid = df_pe[bool_anyo & bool_meses].reset_index(drop=True)
df_peru_2019_covid_dom = df_peru_2019_covid.groupby("PROVINCIA DOMICILIO").agg({"Nº":"count"}).rename(columns={"Nº":"Fallecidos2019"}).reset_index()
#df_peru_2019_covid_dom = df_peru_2019_covid_dom[df_peru_2019_covid_dom["Fallecidos2019"] >= 30].reset_index(drop=True)

# 2018
bool_anyo = df_pe["AÑO"] == 2018
bool_meses = df_pe["MES"].isin([4,5,6,7])
df_peru_2018_covid = df_pe[bool_anyo & bool_meses].reset_index(drop=True)
df_peru_2018_covid_dom = df_peru_2018_covid.groupby("PROVINCIA DOMICILIO").agg({"Nº":"count"}).rename(columns={"Nº":"Fallecidos2018"}).reset_index()
#df_peru_2018_covid_dom = df_peru_2018_covid_dom[df_peru_2018_covid_dom["Fallecidos2018"] >= 30].reset_index(drop=True)

#Incrementos
muertes_provincia = pd.merge(df_peru_2020_covid_dom,df_peru_2019_covid_dom,on="PROVINCIA DOMICILIO",how="outer").fillna(0.0)
muertes_provincia = pd.merge(muertes_provincia,df_peru_2018_covid_dom,on="PROVINCIA DOMICILIO",how="outer").fillna(0.0)
muertes_provincia["incremento"] = muertes_provincia["Fallecidos2020"]-muertes_provincia["Fallecidos2019"]
muertes_provincia["incremento_relativo"] = muertes_provincia["incremento"]/muertes_provincia["Fallecidos2019"]
muertes_provincia["incremento_relativo%"] = muertes_provincia["incremento_relativo"]*100
muertes_provincia = muertes_provincia.sort_values("incremento_relativo%",ascending=False).reset_index(drop=True)
final_provincia = muertes_provincia.rename(columns={"PROVINCIA DOMICILIO":"Provincia", 
                                 "Fallecidos2020": "Fallecidos - 2020",
                                "Fallecidos2019": "Fallecidos - 2019",
                                "Fallecidos2018": "Fallecidos - 2018",
                                 "incremento": "Incremento Absoluto (2020-2019)",
                                 "incremento_relativo": "Incremento Relativo  (2020-2019)",
                                 "incremento_relativo%": "Incremento Relativo  (2020-2019)(%)",
                                })

Para realizar este análisis tendremos en cuenta los fallecimientos en los meses: abril,mayo,junio y julio (periodo covid con meses completos).

Uno de los puntos a destacar en el ámbito provincial es que los datos pueden variar bastante de un año a otro, por ejemplo, en la tabla que se muestra a continuación vemos que hay provincias que tienen un número bastante diferente de muertes para 2018 y 2019, un claro ejemplo es Chiclayo, en 2019 hubo 156 fallecimientos mientras que en 2018 hubo 1016 (abril,mayo,junio y julio), **¿se trata de un error de medición o hubo algún factor que influyera en el número de fallecimientos?**. <br>
En la tabla inferior también se puede observar que hay provincias que durante el periodo COVID19 (abril,mayo,junio y julio) de este año ha habido menos muertes que otros años, **¿puede que en general los fallecimientos no se estén notificando correctamente por el problema que hay actualmente con la pandemia?**<br>
Algunos ejemplos para este último caso:
- Pataz: 31 muertes en abril,mayo,junio y julio de 2020, mientras que en 2019 y 2018 había en total 81 y 85 muertes respectivamente.
- Azamayo: 86 muertes en abril,mayo,junio y julio de 2020, mientras que en 2019 y 2018 había en total 218 y 231 muertes respectivamente.
- Acomayo: 35 muertes en abril,mayo,junio y julio de 2020, mientras que en 2019 y 2018 había en total 65 y 67 muertes respectivamente. 

La tabla inferior está ordenada de mayor a menor incremento relativo de muertes de 2019 a 2020 en los meses de abril, mayo, junio y julio, curiosamente hay 60 provincias (30.30% sobre las 198) con un incremento relativo negativo, es decir, que se han reducido el número de muertes en plena pandemia.

In [11]:
display(final_provincia)

Unnamed: 0,Provincia,Fallecidos - 2020,Fallecidos - 2019,Fallecidos - 2018,Incremento Absoluto (2020-2019),Incremento Relativo (2020-2019),Incremento Relativo (2020-2019)(%)
0,CHICLAYO,1299,156,1016,1143,7.326923,732.692308
1,LAMBAYEQUE,384,49,323,335,6.836735,683.673469
2,FERREÑAFE,104,17,106,87,5.117647,511.764706
3,CONDORCANQUI,23,4,12,19,4.75,475.0
4,PAITA,436,88,131,348,3.954545,395.454545
5,DATEM DEL MARAÑON,54,11,15,43,3.909091,390.909091
6,JAEN,256,59,82,197,3.338983,333.898305
7,LORETO,112,27,42,85,3.148148,314.814815
8,MARISCAL CACERES,187,47,25,140,2.978723,297.87234
9,LIMA,38195,9821,10113,28374,2.889115,288.911516


## ¿Cómo ha afectado el COVID19 a los diferentes distritos (domicilio) limeños?

Para ver el grado de impacto de COVID19 podríamos analizar el número de muertes por distrinto, sin embargo, el número absoluto no sería suficiente puesto que en cada distrito morirá más o menos gente dependiendo de diferentes condiciones (población, situación social, edad...), para hacer frente a este problema una aproximación es obtener el incremento porcentual de muertes para los diferentes distritos. <br>
Utilizaremos los fallecimientos en los meses: abril,mayo,junio y julio (periodo covid con meses completos) y aquellos distritos de Lima en los que haya habido en 2020 al menos 30 muertos durante este periodo.

A continuación, se muestra una tabla con los distritos limeños ordenados de mayor a menor incremento de fallencimientos durante el periódo COVID para los años 2019 y 2020. <br>

In [20]:
# 2020
bool_departamento = df_pe["PROVINCIA DOMICILIO"] == 'LIMA'
bool_anyo = df_pe["AÑO"] == 2020
bool_meses = df_pe["MES"].isin([4,5,6,7])
df_lima_2020_covid = df_pe[bool_departamento & bool_anyo & bool_meses].reset_index(drop=True)
df_lima_2020_covid_dom = df_lima_2020_covid.groupby("DISTRITO DOMICILIO").agg({"Nº":"count"}).rename(columns={"Nº":"Fallecidos2020"}).reset_index()
df_lima_2020_covid_dom = df_lima_2020_covid_dom[df_lima_2020_covid_dom["Fallecidos2020"] >= 30].reset_index(drop=True)

# 2019
bool_departamento = df_pe["PROVINCIA DOMICILIO"] == 'LIMA'
bool_anyo = df_pe["AÑO"] == 2019
bool_meses = df_pe["MES"].isin([4,5,6,7])
df_lima_2019_covid = df_pe[bool_departamento & bool_anyo & bool_meses].reset_index(drop=True)
df_lima_2019_covid_dom = df_lima_2019_covid.groupby("DISTRITO DOMICILIO").agg({"Nº":"count"}).rename(columns={"Nº":"Fallecidos2019"}).reset_index()

# 2018
bool_departamento = df_pe["PROVINCIA DOMICILIO"] == 'LIMA'
bool_anyo = df_pe["AÑO"] == 2018
bool_meses = df_pe["MES"].isin([4,5,6,7])
df_lima_2018_covid = df_pe[bool_departamento & bool_anyo & bool_meses].reset_index(drop=True)
df_lima_2018_covid_dom = df_lima_2018_covid.groupby("DISTRITO DOMICILIO").agg({"Nº":"count"}).rename(columns={"Nº":"Fallecidos2018"}).reset_index()

#Incrementos
muertes_distrito = pd.merge(df_lima_2020_covid_dom,df_lima_2019_covid_dom,on="DISTRITO DOMICILIO",how="left")
muertes_distrito = pd.merge(muertes_distrito,df_lima_2018_covid_dom,on="DISTRITO DOMICILIO",how="left")
muertes_distrito["incremento"] = muertes_distrito["Fallecidos2020"]-muertes_distrito["Fallecidos2019"]
muertes_distrito["incremento_relativo"] = muertes_distrito["incremento"]/muertes_distrito["Fallecidos2019"]
muertes_distrito["incremento_relativo%"] = muertes_distrito["incremento_relativo"]*100
muertes_distrito = muertes_distrito.sort_values("incremento_relativo%",ascending=False).reset_index(drop=True)
final_distrito = muertes_distrito.rename(columns={"DISTRITO DOMICILIO":"Distrito", 
                                 "Fallecidos2020": "Fallecidos - 2020",
                                "Fallecidos2019": "Fallecidos - 2019",
                                "Fallecidos2018": "Fallecidos - 2018",
                                 "incremento": "Incremento Absoluto  (2020-2019)",
                                 "incremento_relativo": "Incremento Relativo (2020-2019)",
                                 "incremento_relativo%": "Incremento Relativo (2020-2019) (%)",
                                })

In [21]:
display(final_distrito)

Unnamed: 0,Distrito,Fallecidos - 2020,Fallecidos - 2019,Fallecidos - 2018,Incremento Absoluto (2020-2019),Incremento Relativo (2020-2019),Incremento Relativo (2020-2019) (%)
0,SAN JUAN DE LURIGANCHO,4130,737,690,3393,4.603799,460.379919
1,ANCON,189,34,61,155,4.558824,455.882353
2,COMAS,2476,463,520,2013,4.347732,434.773218
3,LURIN,295,60,71,235,3.916667,391.666667
4,VILLA EL SALVADOR,1831,379,463,1452,3.831135,383.113456
5,EL AGUSTINO,1114,245,240,869,3.546939,354.693878
6,ATE,1892,420,412,1472,3.504762,350.47619
7,SANTA ANITA,974,217,169,757,3.488479,348.847926
8,VILLA MARIA DEL TRIUNFO,1663,375,534,1288,3.434667,343.466667
9,SAN JUAN DE MIRAFLORES,1771,404,531,1367,3.383663,338.366337


## ¿Tienen relación las características socio demográficas por distrito con el incremento relativo de fallecimientos?

Datos sociodemográficos disponibles en: https://www.pe.undp.org/content/peru/es/home/library/poverty/el-reto-de-la-igualdad.html (2019) <br>
Superficie de distritos obtenidas de : https://es.wikipedia.org/wiki/Anexo:Distritos_de_Lima

Para poder responder a la pregunta anterior una de las variables a considerar es el Índice de Desarrollo Humano (IDH). A continuación, se presenta una definición para dicha variable.<br>

### ¿Qué mide el IDH ( Índice de Desarrollo Humano)?

Desde 1990, el Programa de las Naciones Unidas para el Desarrollo (PNUD) publica el Informe sobre Desarrollo Humano que analiza los problemas, tendencias, avances y políticas de desarrollo a nivel mundial. Este informe presenta un indicador denominado “Índice de Desarrollo Humano” (IDH), el cual mide el avance promedio de un país en tres dimensiones básicas de desarrollo: esperanza de vida, acceso a educación y el nivel de ingresos. El IDH pretende ser un indicador más confiable de desarrollo en comparación con el crecimiento PBI ya que considera otras dimensiones además del nivel de ingreso

Fuente: https://www.ipe.org.pe/portal/indice-de-desarrollo-humano-idh/

In [61]:
#datos_demo = pd.read_csv("DatosDistritosLima.csv")
datos_demo = pd.read_excel("DatosDistritosLima.xls")
datos_demo["Distrito"] = datos_demo["Distrito"].str.upper()
final_distrito_demo = pd.merge(final_distrito,datos_demo, on ="Distrito", how="left")
final_distrito_demo["Densidad"] = final_distrito_demo["Población"]/final_distrito_demo["Área"]
final_distrito_demo = final_distrito_demo[~final_distrito_demo["IDH"].isnull()].reset_index(drop=True)

La gráfica que se presenta a continuación muestra la relación entre el IDH y el incremento porcentual de fallecimientos emtre 2020 y 2019 en el periodo COVID para las diferentes provincias de Lima. <br>
**Se puede observar cierta correlación negativa, a mayor IDH menor incremento porcentual de fallecimientos. Sin embargo, vemos casos como: Cieneguilla, Pucusana, Pachacamac, Santa Rosa y Lurigancho que teniendo un IDH bajo no tienen un incremento porcentual tan alto en comparación otros distritos.**

In [62]:
traza_idh = Scatter(
  x=final_distrito_demo["IDH"],
  y=final_distrito_demo["Incremento Relativo (2020-2019) (%)"],
  text=final_distrito_demo["Distrito"].astype(str),
  textposition="top center",
  textfont=dict(
                color="black",
                size=10
            ),
  mode='markers+text'
)

fig = go.Figure(data=traza_idh)
fig.update_layout(
    title="Fallecimientos - Distritos Perú",
    xaxis_title="Indice Desarrollo Humano",
    yaxis_title="Incremento Relativo de Fallecimientos (2020-2019) (%)",
    legend_title="Año"
)

fig.show()

Para realizar un análisis más profundo podríamos utilizar variables que componen el IDH como son: **la esperanza de vida al nacer, ingreso familiar per cápita, % de individuos con educación secundaria completada y los años de educación**.
Para no representar todas las variables, realizaremos una selección de estas basadas en el **coeficiente de correlación de Pearson**. <br>

### Coeficiente de Correlación de Pearson
Este coeficiente toma valores de -1 a 1 y nos permitirá medir el grado de relación lineal entre dos variables:
- ρ = -1          Correlación perfecta negativa 
- ρ = 0           No existe correlación
- ρ = 1         Correlación perfecta positiva

La matriz de correlaciones inferior podremos seleccionar las variables que más correlan negativamente con el Incremento Relativo (2020-2019) (%) son: 
- **IDH** (-0.60)
- **Ingreso Familiar Per Cápita** (-0.60)
- **Años Educación**  (-0.70)

Como la primera ya la hemos analizado, revisaremos las dos siguientes (Ingreso Familiar Per Cápita y Años Educación)

In [108]:
corr_columns = ["Incremento Relativo (2020-2019) (%)", "IDH","Esperanza de Vida",
                "Porcentaje Secundaria Completa","Años Educación", 
                "Ingreso Familiar Per Cápita"]
final_distrito_demo[corr_columns].corr(method='pearson')

Unnamed: 0,Incremento Relativo (2020-2019) (%),IDH,Esperanza de Vida,Porcentaje Secundaria Completa,Años Educación,Ingreso Familiar Per Cápita
Incremento Relativo (2020-2019) (%),1.0,-0.603682,-0.165562,-0.388452,-0.696191,-0.595787
IDH,-0.603682,1.0,0.714813,0.866026,0.939274,0.984573
Esperanza de Vida,-0.165562,0.714813,1.0,0.822537,0.574881,0.65186
Porcentaje Secundaria Completa,-0.388452,0.866026,0.822537,1.0,0.73581,0.82474
Años Educación,-0.696191,0.939274,0.574881,0.73581,1.0,0.890448
Ingreso Familiar Per Cápita,-0.595787,0.984573,0.65186,0.82474,0.890448,1.0


**Si comparamos el ingreso familiar per cápita y el incremento relativo de fallecidos (2020-2019) en el periodo COVID, podemos ver que por lo general a mayor ingreso familiar per cápita, menor incremento relativo de fallecidos en el distrito.
Sin embargo, nuevamente, distritos como: Cieneguilla, Pucusana, Pachacamac, Santa Rosa y Lurigancho nos vuelven a llamar la atención ya que teniendo ingresos bastante bajos no tienen un incremento tan alto.** <br>
Un dato curioso que encontramos en el informe es que el ingreso per cápita de San Isidro es de 1.641 soles mensuales quedando bastante lejos de San Borja, Miraflores, La Molina, Lince...

In [64]:
traza_ingreso = Scatter(
  x=final_distrito_demo["Ingreso Familiar Per Cápita"],
  y=final_distrito_demo["Incremento Relativo (2020-2019) (%)"],
  text=final_distrito_demo["Distrito"].astype(str),
  textposition="top center",
  textfont=dict(
                color="black",
                size=10
            ),
  mode='markers+text'
)

fig = go.Figure(data=traza_ingreso)
fig.update_layout(
    title="Fallecimientos - Distritos Perú",
    xaxis_title="Ingreso Familiar Per Cápita (N.S. mes)",
    yaxis_title="Incremento Relativo de Fallecimientos (2020-2019) (%)",
    legend_title="Año"
)

fig.show()

**Analizando la última variable con mayor correlación negativa, años educación, podemos observar que cuanto menor son los años de educación, mayor es el incremento relativo de fallecimientos. Nuevamente, nos sorprenden los distritos de: Cieneguilla, Pucusana, Pachacamac, Santa Rosa y Lurigancho, ya que tienen pocos años de educación, pero el incremento relativo de fallecimientos no es tan alto comparado con otros distritos.**

In [73]:
traza_secundaria = Scatter(
  x=final_distrito_demo["Años Educación"],
  y=final_distrito_demo["Incremento Relativo (2020-2019) (%)"],
  text=final_distrito_demo["Distrito"].astype(str),
  textposition="top center",
  textfont=dict(
                color="black",
                size=10
            ),
  mode='markers+text'
)

fig = go.Figure(data=traza_secundaria)
fig.update_layout(
    title="Fallecimientos - Distritos Perú",
    xaxis_title="Años de Educación (Población 25 y más)",
    yaxis_title="Incremento Relativo de Fallecimientos (2020-2019) (%)",
    legend_title="Año"
)

fig.show()

El la siguiente matriz podemos observar que si quitaramos los distritos de: Cieneguilla, Pucusana, Pachacamac, Santa Rosa y Lurigancho, obtendríamos correlaciones aún más negativas:

| Correlación respecto al Incremento Relativo de Fallecidos | Original | Eliminando: Cieneguilla, Pucusana, Pachacamac, Santa Rosa y Lurigancho  |
|-----------------------------------------------------------|----------|-------------------------------------------------------------------------|
| IDH                                                       | -0.60    | -0.85                                                                   |
| Ingreso Familiar Per Cápita                               | -0.60    | -0.81                                                                   |
| Años de Educación                                         | -0.70    | -0.85                                                                   |

Nos podríamos realizar la siguiente pregunta: <br><br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**¿Qué ocurre con Cieneguilla, Pucusana, Pachacamac, Santa Rosa y Lurigancho?** <br><br>
Añadiendo una nueva variable, el área de los distritos, a los datos del informe de PNUD se podría obtener la **densidad de población** ($habitantes/km^2$).<br>
Si utilizamos esta variable como **dimensión de tamaño** (el punto tomará un tamaño menor o mayor dependiendo de la densidad de población) sobre la gráfica de **años de educación e incremento relativo de fallecimientos** se puede observar lo siguiente:

In [109]:
traza_densidad = Scatter(
  x=final_distrito_demo["Años Educación"],
  y=final_distrito_demo["Incremento Relativo (2020-2019) (%)"],
  text=final_distrito_demo["Distrito"].astype(str),
  hovertext= (final_distrito_demo["Densidad"]).round(2).astype(str)+" hab/km2",
  textposition="top center",
  textfont=dict(
                color="black",
                size=10
            ),
  mode='markers+text',
  marker=dict(
        size=final_distrito_demo["Densidad"],
        sizemode='area',
        sizeref=2.*max(final_distrito_demo["Densidad"])/(40.**2),
        sizemin=4
    )
)

fig = go.Figure(data=traza_densidad)
fig.update_layout(
    title="Fallecimientos - Distritos Perú",
    xaxis_title="Años de Educación (Población 25 y más)",
    yaxis_title="Incremento Relativo de Fallecimientos (2020-2019) (%)",
    legend_title="Año"
)

fig.show()

**Puede que los distritos de Cieneguilla, Pucusana, Pachacamac, Santa Rosa y Lurigancho no tengan un incremento relativo de fallecimientos tan alto debido a la baja densidad de población que encontramos en dichos distritos, a pesar de tener menos años de educación. Sin embargo, hay lugares que teniendo una densidad de población bastante baja se ven claramente perjudicados igualmente, por ejemplo, Ancon y Lurín. ¿gente que necesita desplazarse mucho a otros distritos para trabajar? o ¿demasiada concentración de población en un solo punto (a pesar de que haya más área)?**

In [110]:
_ = """
traza_3d = Scatter3d(
  x=final_distrito_demo["IDH"],
  z=final_distrito_demo["Incremento Relativo (2020-2019) (%)"],
  y = final_distrito_demo["Densidad"],
  text=final_distrito_demo["Distrito"].astype(str),
  textposition="top center",
  textfont=dict(
                color="black",
                size=10
            ),
  mode='markers+text'
)


fig = go.Figure(data=traza_3d)
fig.update_layout(
    title="Fallecimientos - Distritos Perú",
    xaxis_title="Años de Educación (Población 25 y más)",
    yaxis_title="Incremento Relativo de Fallecimientos (2020-2019) (%)",
    legend_title="Año"
)

fig.show()
"""