# Deadly Visualizations!!!

![Image](../images/viz_types_portada.png)

## Setup

First we need to create a basic setup which includes:

- Importing the libraries.

- Reading the dataset file (source [Instituto Nacional de Estadística](https://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259942408928&p=1259942408928&pagename=ProductosYServicios%2FPYSLayout)).

- Create a couple of columns and tables for the analysis.

__NOTE:__ some functions were already created in order to help you go through the challenge. However, feel free to perform any code you might need.

In [1]:
# imports

import sys
import re
sys.path.insert(0, "../modules")

import numpy as np
import pandas as pd

import plotly.express as px
import cufflinks as cf
cf.go_offline()
import plotly.graph_objs as go
import matplotlib as plt

import module as mod     # functions are include in module.py

In [2]:
# read dataset

deaths = pd.read_csv('../data/7947.csv', sep=';', thousands='.')

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 5 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 11.5+ MB


In [3]:
# add some columns...you'll need them later

deaths['cause_code'] = deaths['Causa de muerte'].apply(mod.cause_code)
deaths['cause_group'] = deaths['Causa de muerte'].apply(mod.cause_types)
deaths['cause_name'] = deaths['Causa de muerte'].apply(mod.cause_name)

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
 5   cause_code       301158 non-null  object
 6   cause_group      301158 non-null  object
 7   cause_name       301158 non-null  object
dtypes: int64(2), object(6)
memory usage: 18.4+ MB


In [4]:
# lets check the categorical variables

var_list = ['Sexo', 'Edad', 'Periodo', 'cause_code', 'cause_name', 'cause_group']

categories = mod.cat_var(deaths, var_list)
categories

Unnamed: 0,categorical_variable,number_of_possible_values,values
0,cause_code,117,"[001-102, 001-008, 001, 002, 003, 004, 005, 00..."
1,cause_name,117,"[I-XXII.Todas las causas, I.Enfermedades infec..."
2,Periodo,39,"[2018, 2017, 2016, 2015, 2014, 2013, 2012, 201..."
3,Edad,22,"[Todas las edades, Menos de 1 año, De 1 a 4 añ..."
4,Sexo,3,"[Total, Hombres, Mujeres]"
5,cause_group,2,"[Multiple causes, Single cause]"


In [5]:
# we need also to create a causes table for the analysis

causes_table = deaths[['cause_code', 'cause_name']].drop_duplicates().sort_values(by='cause_code').reset_index(drop=True)

causes_table

Unnamed: 0,cause_code,cause_name
0,001,Enfermedades infecciosas intestinales
1,001-008,I.Enfermedades infecciosas y parasitarias
2,001-102,I-XXII.Todas las causas
3,002,Tuberculosis y sus efectos tardíos
4,003,Enfermedad meningocócica
...,...,...
112,098,Suicidio y lesiones autoinfligidas
113,099,Agresiones (homicidio)
114,100,Eventos de intención no determinada
115,101,Complicaciones de la atención médica y quirúrgica


In [6]:
# And some space for free-style Pandas!!! (e.g.: df['column_name'].unique())
deaths['Causa de muerte'].unique()

array(['001-102  I-XXII.Todas las causas',
       '001-008  I.Enfermedades infecciosas y parasitarias',
       '001  Enfermedades infecciosas intestinales',
       '002  Tuberculosis y sus efectos tardíos',
       '003  Enfermedad meningocócica', '004  Septicemia',
       '005  Hepatitis vírica', '006  SIDA',
       '007  VIH+ (portador, evidencias de laboratorio del VIH, ...)',
       '008  Resto de enfermedades infecciosas y parasitarias y sus efectos tardíos',
       '009-041  II.Tumores',
       '009  Tumor maligno del labio, de la cavidad bucal y de la faringe',
       '010  Tumor maligno del esófago',
       '011  Tumor maligno del estómago', '012  Tumor maligno del colon',
       '013  Tumor maligno del recto, de la porción rectosigmoide y del ano',
       '014  Tumor maligno del hígado y vías biliares intrahepáticas',
       '015  Tumor maligno del páncreas',
       '016  Otros tumores malignos digestivos',
       '017  Tumor maligno de la laringe',
       '018  Tumor maligno d

## Lets make some transformations

Eventhough the dataset is pretty clean, the information is completely denormalized as you could see. For that matter a collection of methods (functions) are available in order to generate the tables you might need:

- `row_filter(df, cat_var, cat_values)` => Filter rows by any value or group of values in a categorical variable.

- `nrow_filter(df, cat_var, cat_values)` => The same but backwards. 

- `groupby_sum(df, group_vars, agg_var='Total', sort_var='Total')` => Add deaths by a certain variable.

- `pivot_table(df, col, x_axis, value='Total')`=> Make some pivot tables, you might need them...

__NOTE:__ be aware that the filtering methods can perform a filter at a time. Feel free to perform the filter you need in any way you want or feel confortable with.

In [7]:
#cause_code_dataset = mod.row_filter(deaths, 'cause_group', ['Single cause'])
#cause_code_dataset

In [8]:
# Example 1

dataset = mod.row_filter(deaths, 'Sexo', ['Hombres','Mujeres'])
dataset = mod.nrow_filter(dataset, 'Edad', ['Todas las edades'])


print(dataset.head())
dataset.info()

                    Causa de muerte     Sexo               Edad  Periodo  \
0  001-102  I-XXII.Todas las causas  Mujeres  De 85 a 89 años       2018   
1  001-102  I-XXII.Todas las causas  Mujeres  De 85 a 89 años       2017   
2  001-102  I-XXII.Todas las causas  Mujeres  De 85 a 89 años       2015   
3  001-102  I-XXII.Todas las causas  Mujeres  De 85 a 89 años       2016   
4  001-102  I-XXII.Todas las causas  Mujeres  De 85 a 89 años       2012   

   Total cause_code      cause_group               cause_name  
0  51373    001-102  Multiple causes  I-XXII.Todas las causas  
1  50929    001-102  Multiple causes  I-XXII.Todas las causas  
2  50832    001-102  Multiple causes  I-XXII.Todas las causas  
3  48674    001-102  Multiple causes  I-XXII.Todas las causas  
4  47761    001-102  Multiple causes  I-XXII.Todas las causas  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 191646 entries, 0 to 191645
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---

In [9]:
dataset

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Mujeres,De 85 a 89 años,2018,51373,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Mujeres,De 85 a 89 años,2017,50929,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Mujeres,De 85 a 89 años,2015,50832,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Mujeres,De 85 a 89 años,2016,48674,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Mujeres,De 85 a 89 años,2012,47761,001-102,Multiple causes,I-XXII.Todas las causas
...,...,...,...,...,...,...,...,...
191641,069 Enteritis y colitis no infecciosas,Mujeres,Menos de 1 año,1992,0,069,Single cause,Enteritis y colitis no infecciosas
191642,069 Enteritis y colitis no infecciosas,Mujeres,Menos de 1 año,2007,0,069,Single cause,Enteritis y colitis no infecciosas
191643,069 Enteritis y colitis no infecciosas,Mujeres,Menos de 1 año,2006,0,069,Single cause,Enteritis y colitis no infecciosas
191644,069 Enteritis y colitis no infecciosas,Mujeres,Menos de 1 año,2005,0,069,Single cause,Enteritis y colitis no infecciosas


In [10]:
dataset[dataset['Causa de muerte'] == '002  Tuberculosis y sus efectos tardíos']

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
27960,002 Tuberculosis y sus efectos tardíos,Hombres,De 65 a 69 años,1981,169,002,Single cause,Tuberculosis y sus efectos tardíos
29864,002 Tuberculosis y sus efectos tardíos,Hombres,De 75 a 79 años,1981,153,002,Single cause,Tuberculosis y sus efectos tardíos
30339,002 Tuberculosis y sus efectos tardíos,Hombres,De 70 a 74 años,1980,149,002,Single cause,Tuberculosis y sus efectos tardíos
30547,002 Tuberculosis y sus efectos tardíos,Hombres,De 55 a 59 años,1980,147,002,Single cause,Tuberculosis y sus efectos tardíos
30569,002 Tuberculosis y sus efectos tardíos,Hombres,De 65 a 69 años,1980,147,002,Single cause,Tuberculosis y sus efectos tardíos
...,...,...,...,...,...,...,...,...
178194,002 Tuberculosis y sus efectos tardíos,Hombres,De 5 a 9 años,2003,0,002,Single cause,Tuberculosis y sus efectos tardíos
178195,002 Tuberculosis y sus efectos tardíos,Hombres,De 5 a 9 años,2001,0,002,Single cause,Tuberculosis y sus efectos tardíos
178197,002 Tuberculosis y sus efectos tardíos,Hombres,De 5 a 9 años,2000,0,002,Single cause,Tuberculosis y sus efectos tardíos
178270,002 Tuberculosis y sus efectos tardíos,Hombres,De 1 a 4 años,2013,0,002,Single cause,Tuberculosis y sus efectos tardíos


In [11]:
tuberculosis = dataset[dataset['Causa de muerte'] == '002  Tuberculosis y sus efectos tardíos'].sort_values('Periodo')
tuberculosis.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
36573,002 Tuberculosis y sus efectos tardíos,Hombres,De 50 a 54 años,1980,103,2,Single cause,Tuberculosis y sus efectos tardíos
60917,002 Tuberculosis y sus efectos tardíos,Hombres,De 85 a 89 años,1980,31,2,Single cause,Tuberculosis y sus efectos tardíos
52524,002 Tuberculosis y sus efectos tardíos,Mujeres,De 65 a 69 años,1980,46,2,Single cause,Tuberculosis y sus efectos tardíos
126171,002 Tuberculosis y sus efectos tardíos,Hombres,De 1 a 4 años,1980,2,2,Single cause,Tuberculosis y sus efectos tardíos
136686,002 Tuberculosis y sus efectos tardíos,Hombres,De 20 a 24 años,1980,1,2,Single cause,Tuberculosis y sus efectos tardíos


In [12]:
tuberculosis_hist = tuberculosis.groupby('Periodo')[['Total']].sum().reset_index()
tuberculosis_hist

Unnamed: 0,Periodo,Total
0,1980,1476
1,1981,1583
2,1982,1338
3,1983,1288
4,1984,1141
5,1985,1126
6,1986,1071
7,1987,1062
8,1988,999
9,1989,943


In [13]:
#Evolución de muertes por tuberculosis

fig = go.Figure(data=go.Scatter(x=tuberculosis_hist['Periodo'].astype(dtype=str), 
                        y=tuberculosis_hist['Total'],
                        marker_color='indianred', text="counts"))

fig.update_layout(title='Tuberculosis',
                   xaxis_title='Años',
                   yaxis_title='Muertes Totales',
                   yaxis=dict(range=[0, max(tuberculosis_hist['Periodo'])], autorange=False),  
                   showlegend=False)

fig.show()

In [14]:
#Inicio del cálculo mayor causa de la muerte histórica
#Filtro eliminando el subconjunto de muertes totales

dataset_totales = mod.row_filter(deaths, 'Sexo', ['Hombres','Mujeres'])
dataset_tot = mod.nrow_filter(dataset_totales, 'Edad', ['Todas las edades'])
dataset_tot = mod.nrow_filter(dataset_tot, 'Causa de muerte', ['001-102  I-XXII.Todas las causas'])

print(dataset_tot.head())
dataset_tot.info()

                                    Causa de muerte     Sexo  \
0  053-061 IX.Enfermedades del sistema circulatorio  Mujeres   
1  053-061 IX.Enfermedades del sistema circulatorio  Mujeres   
2  053-061 IX.Enfermedades del sistema circulatorio  Mujeres   
3  053-061 IX.Enfermedades del sistema circulatorio  Mujeres   
4  053-061 IX.Enfermedades del sistema circulatorio  Mujeres   

                Edad  Periodo  Total cause_code      cause_group  \
0  De 85 a 89 años       1998  18466    053-061  Multiple causes   
1  De 85 a 89 años       1999  18432    053-061  Multiple causes   
2  De 85 a 89 años       2012  18373    053-061  Multiple causes   
3  De 85 a 89 años       2015  18371    053-061  Multiple causes   
4  De 85 a 89 años       1997  18018    053-061  Multiple causes   

                                 cause_name  
0  IX.Enfermedades del sistema circulatorio  
1  IX.Enfermedades del sistema circulatorio  
2  IX.Enfermedades del sistema circulatorio  
3  IX.Enfermedades del

In [15]:
#Reviso la información que me devuelve el dataframe
dataset_tot[:5]

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,1998,18466,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
1,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,1999,18432,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
2,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,2012,18373,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
3,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,2015,18371,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
4,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,1997,18018,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio


In [16]:
#Genero un nuevo dataframe sumando el total de muerte por enfermedad sin importar el año
max_muertes = dataset_tot.groupby('Causa de muerte')[['Total']].sum().sort_values(by='Total',ascending=False).reset_index()
max_muertes_500 = max_muertes.loc[max_muertes['Total'] >= 500000]
max_muertes_500

Unnamed: 0,Causa de muerte,Total
0,053-061 IX.Enfermedades del sistema circulatorio,4901487
1,009-041 II.Tumores,3559432
2,062-067 X.Enfermedades del sistema respiratorio,1485807
3,059 Enfermedades cerebrovasculares,1467841
4,055 Infarto agudo de miocardio,855162
5,057 Insuficiencia cardíaca,758343
6,068-072 XI.Enfermedades del sistema digestivo,736556
7,"018 Tumor maligno de la tráquea, de los bronq...",656092
8,058 Otras enfermedades del corazón,644917
9,090-102 XX.Causas externas de mortalidad,629156


In [17]:
#Gráfica de barras con las 10 mayores causas de muerte de la historia

fig_hist = px.bar(max_muertes_500, x='Causa de muerte', y='Total')
fig_hist.show()

In [18]:
#Sabiendo que las enfermedades del sistema circulatorio sobrepasan cualquier otra (cerca tenemos tumores)
#Vamos a ver la evolución anual por género

sist_circulatorio = dataset[dataset['Causa de muerte'] == '053-061 IX.Enfermedades del sistema circulatorio'].sort_values('Periodo')
sist_circulatorio.reset_index(inplace=True)
sist_circulatorio.head()

Unnamed: 0,index,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,3087,053-061 IX.Enfermedades del sistema circulatorio,Hombres,De 90 a 94 años,1980,2237,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
1,1267,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 90 a 94 años,1980,5600,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
2,36997,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 25 a 29 años,1980,101,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
3,1501,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 65 a 69 años,1980,4698,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
4,9198,053-061 IX.Enfermedades del sistema circulatorio,Hombres,De 40 a 44 años,1980,714,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio


In [19]:
#Creo un nuevo df solo con los campos que necesito: sexo, edad y total de muertes por enfermedad del sist. circulatorio
#Agrupo el total de muertes por año y por sexo

sist_circulatorio_hist = sist_circulatorio[['Sexo', 'Periodo', 'Total']].copy()
sis_circ_total = sist_circulatorio_hist.groupby(['Periodo','Sexo'])[['Total']].sum().reset_index()
sis_circ_total


Unnamed: 0,Periodo,Sexo,Total
0,1980,Hombres,59121
1,1980,Mujeres,66766
2,1981,Hombres,59668
3,1981,Mujeres,67918
4,1982,Hombres,57932
...,...,...,...
73,2016,Mujeres,64471
74,2017,Hombres,56179
75,2017,Mujeres,66286
76,2018,Hombres,55962


In [20]:
#Creo una gráfica de lineas separando por sexo

fig_sc = px.line(sis_circ_total, x="Periodo", y="Total", color='Sexo')
fig_sc.update_yaxes(range=[0, max(sis_circ_total['Total'])])
fig_sc.show()

In [21]:
sist_circulatorio
sist_circulatorio_hist = sist_circulatorio.groupby('Periodo')[['Total']].sum().reset_index()
sist_circulatorio_hist

Unnamed: 0,Periodo,Total
0,1980,125887
1,1981,127586
2,1982,123986
3,1983,130531
4,1984,126804
5,1985,131198
6,1986,127617
7,1987,126282
8,1988,128873
9,1989,128672


In [22]:
fig_sis = go.Figure(data=go.Scatter(x=sist_circulatorio_hist['Periodo'].astype(dtype=str), 
                        y=sist_circulatorio_hist['Total'],
                        marker_color='indianred', text="counts"))

fig_sis.update_layout(title='Enfermedades Sistema Circulatorio',  # Use string for title
                      xaxis_title='Años',  # Use string for xaxis title
                      yaxis=dict(range=[0, max(sist_circulatorio_hist['Total'])], autorange=False),  
                      showlegend=False)

fig_sis.show()

In [42]:
#Aprovecho el dataframe filtrado por total de muertes de la historia (sin tener en cuenta el año)
#De las 10 últimas ya veo que la que menos me debería preocupar es la muerte subita infantil
#Y en segundo lugar la Enfermedad meningocócica
min_muertes = max_muertes.loc[max_muertes['Total'] <= 5000]
min_muertes

Unnamed: 0,Causa de muerte,Total
107,003 Enfermedad meningocócica,3985
108,043 Ciertos trastornos que afectan al mecanism...,3490
109,088 Muerte súbita infantil,3221
110,048 Trastornos mentales debidos al uso de dro...,2332
111,079 Enfermedades de los órganos genitales fem...,1835
112,"007 VIH+ (portador, evidencias de laboratorio...",1571
113,102 Otras causas externas y sus efectos tardíos,1423
114,"081 XV.Embarazo, parto y puerperio",754
115,038 Tumores in situ,178


## ...and finally, show me some insights with Plotly!!!

In [None]:
# Cufflinks histogram
'''
dataset_column.iplot(kind='hist',
                     title='VIZ TITLE',
                     yTitle='AXIS TITLE',
                     xTitle='AXIS TITLE')
'''

In [None]:
# Cufflinks bar plot
'''
dataset_bar.iplot(kind='bar',
                  x='VARIABLE',
                  xTitle='AXIS TITLE',
                  yTitle='AXIS TITLE',
                  title='VIZ TITLE')
'''

In [None]:
# Cufflinks line plot
'''
dataset_line.iplot(kind='line',
                   x='VARIABLE',
                   xTitle='AXIS TITLE',
                   yTitle='AXIS TITLE',
                   title='VIZ TITLE')
'''

In [None]:
# Cufflinks scatter plot
'''
dataset_scatter.iplot(x='VARIABLE', 
                      y='VARIABLE', 
                      categories='VARIABLE',
                      xTitle='AXIS TITLE', 
                      yTitle='AXIS TITLE',
                      title='VIZ TITLE')
'''