# Deadly Visualizations!!!

![Image](../images/viz_types_portada.png)

## Setup

First we need to create a basic setup which includes:

- Importing the libraries.

- Reading the dataset file (source [Instituto Nacional de Estadística](https://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259942408928&p=1259942408928&pagename=ProductosYServicios%2FPYSLayout)).

- Create a couple of columns and tables for the analysis.

__NOTE:__ some functions were already created in order to help you go through the challenge. However, feel free to perform any code you might need.

In [1]:
# imports

import sys
import re
sys.path.insert(0, "../modules")

import numpy as np
import pandas as pd

import plotly.express as px
import cufflinks as cf
cf.go_offline()

import module as mod     # functions are include in module.py
import matplotlib.pyplot as plt
import seaborn as snsç


In [2]:
# read dataset

deaths = pd.read_csv('../data/7947.csv', sep=';', thousands='.')

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 5 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 11.5+ MB


In [3]:
# add some columns...you'll need them later

deaths['cause_code'] = deaths['Causa de muerte'].apply(mod.cause_code)
deaths['cause_group'] = deaths['Causa de muerte'].apply(mod.cause_types)
deaths['cause_name'] = deaths['Causa de muerte'].apply(mod.cause_name)

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
 5   cause_code       301158 non-null  object
 6   cause_group      301158 non-null  object
 7   cause_name       301158 non-null  object
dtypes: int64(2), object(6)
memory usage: 18.4+ MB


In [4]:
deaths['Causa de muerte'].unique()


array(['001-102  I-XXII.Todas las causas',
       '001-008  I.Enfermedades infecciosas y parasitarias',
       '001  Enfermedades infecciosas intestinales',
       '002  Tuberculosis y sus efectos tardíos',
       '003  Enfermedad meningocócica', '004  Septicemia',
       '005  Hepatitis vírica', '006  SIDA',
       '007  VIH+ (portador, evidencias de laboratorio del VIH, ...)',
       '008  Resto de enfermedades infecciosas y parasitarias y sus efectos tardíos',
       '009-041  II.Tumores',
       '009  Tumor maligno del labio, de la cavidad bucal y de la faringe',
       '010  Tumor maligno del esófago',
       '011  Tumor maligno del estómago', '012  Tumor maligno del colon',
       '013  Tumor maligno del recto, de la porción rectosigmoide y del ano',
       '014  Tumor maligno del hígado y vías biliares intrahepáticas',
       '015  Tumor maligno del páncreas',
       '016  Otros tumores malignos digestivos',
       '017  Tumor maligno de la laringe',
       '018  Tumor maligno d

In [5]:
deaths_df = mod.row_filter(deaths,'cause_name',['Muerte súbita infantil'])
deaths_df

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,088 Muerte súbita infantil,Total,Todas las edades,1991,163,088,Single cause,Muerte súbita infantil
1,088 Muerte súbita infantil,Total,Menos de 1 año,1991,163,088,Single cause,Muerte súbita infantil
2,088 Muerte súbita infantil,Total,Todas las edades,1993,146,088,Single cause,Muerte súbita infantil
3,088 Muerte súbita infantil,Total,Menos de 1 año,1993,146,088,Single cause,Muerte súbita infantil
4,088 Muerte súbita infantil,Total,Todas las edades,1990,134,088,Single cause,Muerte súbita infantil
...,...,...,...,...,...,...,...,...
2569,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2002,0,088,Single cause,Muerte súbita infantil
2570,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2003,0,088,Single cause,Muerte súbita infantil
2571,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2004,0,088,Single cause,Muerte súbita infantil
2572,088 Muerte súbita infantil,Mujeres,95 y más años,1980,0,088,Single cause,Muerte súbita infantil


In [6]:
deaths_hombres = deaths[deaths['Sexo'] == 'Hombres']

# Filtra las filas para mujeres
deaths_mujeres = deaths[deaths['Sexo'] == 'Mujeres']
deaths_df


Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,088 Muerte súbita infantil,Total,Todas las edades,1991,163,088,Single cause,Muerte súbita infantil
1,088 Muerte súbita infantil,Total,Menos de 1 año,1991,163,088,Single cause,Muerte súbita infantil
2,088 Muerte súbita infantil,Total,Todas las edades,1993,146,088,Single cause,Muerte súbita infantil
3,088 Muerte súbita infantil,Total,Menos de 1 año,1993,146,088,Single cause,Muerte súbita infantil
4,088 Muerte súbita infantil,Total,Todas las edades,1990,134,088,Single cause,Muerte súbita infantil
...,...,...,...,...,...,...,...,...
2569,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2002,0,088,Single cause,Muerte súbita infantil
2570,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2003,0,088,Single cause,Muerte súbita infantil
2571,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2004,0,088,Single cause,Muerte súbita infantil
2572,088 Muerte súbita infantil,Mujeres,95 y más años,1980,0,088,Single cause,Muerte súbita infantil


In [7]:
deaths_inf = deaths_df[['Causa de muerte', 'Sexo', 'Edad', 'Periodo', 'Total']]
deaths_inf

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
0,088 Muerte súbita infantil,Total,Todas las edades,1991,163
1,088 Muerte súbita infantil,Total,Menos de 1 año,1991,163
2,088 Muerte súbita infantil,Total,Todas las edades,1993,146
3,088 Muerte súbita infantil,Total,Menos de 1 año,1993,146
4,088 Muerte súbita infantil,Total,Todas las edades,1990,134
...,...,...,...,...,...
2569,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2002,0
2570,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2003,0
2571,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2004,0
2572,088 Muerte súbita infantil,Mujeres,95 y más años,1980,0


In [8]:
deaths_inf['Edad'].unique()

array(['Todas las edades', 'Menos de 1 año', 'De 1 a 4 años',
       'De 20 a 24 años', 'De 25 a 29 años', 'De 30 a 34 años',
       'De 35 a 39 años', 'De 40 a 44 años', 'De 45 a 49 años',
       'De 50 a 54 años', 'De 55 a 59 años', 'De 60 a 64 años',
       'De 65 a 69 años', 'De 70 a 74 años  ', 'De 75 a 79 años  ',
       'De 80 a 84 años  ', 'De 85 a 89 años  ', 'De 90 a 94 años  ',
       '95 y más años', 'De 15 a 19 años  ', 'De 10 a 14 años  ',
       'De 5 a 9 años'], dtype=object)

In [9]:
edades = ['Menos de 1 año', 'De 1 a 4 años']
deaths_edades = deaths_inf[deaths_inf['Edad'].isin(edades)]


deaths_edades


Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
1,088 Muerte súbita infantil,Total,Menos de 1 año,1991,163
3,088 Muerte súbita infantil,Total,Menos de 1 año,1993,146
5,088 Muerte súbita infantil,Total,Menos de 1 año,1990,134
7,088 Muerte súbita infantil,Total,Menos de 1 año,1992,133
9,088 Muerte súbita infantil,Total,Menos de 1 año,1983,115
...,...,...,...,...,...
1828,088 Muerte súbita infantil,Mujeres,De 1 a 4 años,1984,0
1829,088 Muerte súbita infantil,Total,De 1 a 4 años,2016,0
1830,088 Muerte súbita infantil,Total,De 1 a 4 años,2017,0
1831,088 Muerte súbita infantil,Total,De 1 a 4 años,2018,0


In [10]:
deaths_edades = deaths_edades.sort_values(by='Periodo')

deaths_edades


Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
196,088 Muerte súbita infantil,Mujeres,Menos de 1 año,1980,27
55,088 Muerte súbita infantil,Total,Menos de 1 año,1980,73
251,088 Muerte súbita infantil,Hombres,De 1 a 4 años,1980,2
246,088 Muerte súbita infantil,Total,De 1 a 4 años,1980,2
1832,088 Muerte súbita infantil,Mujeres,De 1 a 4 años,1980,0
...,...,...,...,...,...
1794,088 Muerte súbita infantil,Mujeres,De 1 a 4 años,2018,0
226,088 Muerte súbita infantil,Mujeres,Menos de 1 año,2018,18
147,088 Muerte súbita infantil,Total,Menos de 1 año,2018,39
218,088 Muerte súbita infantil,Hombres,Menos de 1 año,2018,21


In [11]:
deaths_edades = mod.row_filter(deaths_edades, 'Sexo', ['Total'])
deaths_edades

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
0,088 Muerte súbita infantil,Total,Menos de 1 año,1991,163
1,088 Muerte súbita infantil,Total,Menos de 1 año,1993,146
2,088 Muerte súbita infantil,Total,Menos de 1 año,1990,134
3,088 Muerte súbita infantil,Total,Menos de 1 año,1992,133
4,088 Muerte súbita infantil,Total,Menos de 1 año,1983,115
...,...,...,...,...,...
73,088 Muerte súbita infantil,Total,De 1 a 4 años,1989,0
74,088 Muerte súbita infantil,Total,De 1 a 4 años,2012,0
75,088 Muerte súbita infantil,Total,De 1 a 4 años,2013,0
76,088 Muerte súbita infantil,Total,De 1 a 4 años,2014,0


In [12]:
px.bar(deaths_edades, 
       x = 'Periodo', 
       y = 'Total',
       color = 'Edad',
       title='Muerte Súbita',
       )




In [15]:
px.line(deaths_edades.sort_values('Periodo'), 
       x = 'Periodo', 
       y = 'Total',
       color = 'Edad',
       title='Muerte Súbita',
       )

In [16]:
px.scatter(deaths_edades, 
       x = 'Periodo', 
       y = 'Total',
       color = 'Edad',
       title='Muerte Súbita',
       )

In [17]:
px.box(deaths_edades, 
       x = 'Periodo', 
       y = 'Total',
       color = 'Edad',
       title='Muerte Súbita',
       )

In [21]:
deaths_gen = mod.row_filter(deaths,'cause_name',['Muerte súbita infantil'])
deaths_gen




Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,088 Muerte súbita infantil,Total,Todas las edades,1991,163,088,Single cause,Muerte súbita infantil
1,088 Muerte súbita infantil,Total,Menos de 1 año,1991,163,088,Single cause,Muerte súbita infantil
2,088 Muerte súbita infantil,Total,Todas las edades,1993,146,088,Single cause,Muerte súbita infantil
3,088 Muerte súbita infantil,Total,Menos de 1 año,1993,146,088,Single cause,Muerte súbita infantil
4,088 Muerte súbita infantil,Total,Todas las edades,1990,134,088,Single cause,Muerte súbita infantil
...,...,...,...,...,...,...,...,...
2569,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2002,0,088,Single cause,Muerte súbita infantil
2570,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2003,0,088,Single cause,Muerte súbita infantil
2571,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2004,0,088,Single cause,Muerte súbita infantil
2572,088 Muerte súbita infantil,Mujeres,95 y más años,1980,0,088,Single cause,Muerte súbita infantil


In [22]:
deaths_gen = deaths_gen[['Causa de muerte', 'Sexo', 'Edad', 'Periodo', 'Total']]
deaths_gen


Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
0,088 Muerte súbita infantil,Total,Todas las edades,1991,163
1,088 Muerte súbita infantil,Total,Menos de 1 año,1991,163
2,088 Muerte súbita infantil,Total,Todas las edades,1993,146
3,088 Muerte súbita infantil,Total,Menos de 1 año,1993,146
4,088 Muerte súbita infantil,Total,Todas las edades,1990,134
...,...,...,...,...,...
2569,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2002,0
2570,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2003,0
2571,088 Muerte súbita infantil,Mujeres,De 90 a 94 años,2004,0
2572,088 Muerte súbita infantil,Mujeres,95 y más años,1980,0


In [23]:
deaths_gen = mod.row_filter(deaths_gen, 'Sexo', ['Hombres','Mujeres'])
deaths_gen

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
0,088 Muerte súbita infantil,Hombres,Todas las edades,1991,103
1,088 Muerte súbita infantil,Hombres,Menos de 1 año,1991,103
2,088 Muerte súbita infantil,Hombres,Todas las edades,1993,93
3,088 Muerte súbita infantil,Hombres,Todas las edades,1992,93
4,088 Muerte súbita infantil,Hombres,Menos de 1 año,1993,93
...,...,...,...,...,...
1711,088 Muerte súbita infantil,Mujeres,95 y más años,1984,0
1712,088 Muerte súbita infantil,Mujeres,95 y más años,1983,0
1713,088 Muerte súbita infantil,Mujeres,95 y más años,1982,0
1714,088 Muerte súbita infantil,Mujeres,95 y más años,1981,0


In [28]:
rango_edades = ['Menos de 1 año']
deaths_gen = deaths_gen[deaths_gen['Edad'].isin(rango_edades)]


deaths_gen


Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
1,088 Muerte súbita infantil,Hombres,Menos de 1 año,1991,103
4,088 Muerte súbita infantil,Hombres,Menos de 1 año,1993,93
5,088 Muerte súbita infantil,Hombres,Menos de 1 año,1992,93
6,088 Muerte súbita infantil,Hombres,Menos de 1 año,1990,82
9,088 Muerte súbita infantil,Hombres,Menos de 1 año,1983,71
...,...,...,...,...,...
147,088 Muerte súbita infantil,Mujeres,Menos de 1 año,2011,19
148,088 Muerte súbita infantil,Mujeres,Menos de 1 año,2018,18
149,088 Muerte súbita infantil,Mujeres,Menos de 1 año,2017,18
150,088 Muerte súbita infantil,Mujeres,Menos de 1 año,2015,18


In [29]:
px.bar(deaths_gen, 
       x = 'Periodo', 
       y = 'Total',
       color = 'Sexo',
       title='Muerte Súbita',
       )

In [30]:
px.line(deaths_gen.sort_values('Periodo'), 
       x = 'Periodo', 
       y = 'Total',
       color = 'Sexo',
       title='Muerte Súbita',
       )

## Lets make some transformations

Eventhough the dataset is pretty clean, the information is completely denormalized as you could see. For that matter a collection of methods (functions) are available in order to generate the tables you might need:

- `row_filter(df, cat_var, cat_values)` => Filter rows by any value or group of values in a categorical variable.

- `nrow_filter(df, cat_var, cat_values)` => The same but backwards. 

- `groupby_sum(df, group_vars, agg_var='Total', sort_var='Total')` => Add deaths by a certain variable.

- `pivot_table(df, col, x_axis, value='Total')`=> Make some pivot tables, you might need them...

__NOTE:__ be aware that the filtering methods can perform a filter at a time. Feel free to perform the filter you need in any way you want or feel confortable with.