# Deadly Visualizations!!!

![Image](../images/viz_types_portada.png)

## Setup

First we need to create a basic setup which includes:

- Importing the libraries.

- Reading the dataset file (source [Instituto Nacional de Estadística](https://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259942408928&p=1259942408928&pagename=ProductosYServicios%2FPYSLayout)).

- Create a couple of columns and tables for the analysis.

__NOTE:__ some functions were already created in order to help you go through the challenge. However, feel free to perform any code you might need.

In [1]:
# imports

import sys
import re
sys.path.insert(0, "../modules")

import numpy as np
import pandas as pd

import plotly.express as px
import cufflinks as cf
cf.go_offline()

import module as mod     # functions are include in module.py

In [2]:
# read dataset

deaths = pd.read_csv('../data/7947.csv', sep=';', thousands='.')

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 5 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 11.5+ MB


In [3]:
# add some columns...you'll need them later

deaths['cause_code'] = deaths['Causa de muerte'].apply(mod.cause_code)
deaths['cause_group'] = deaths['Causa de muerte'].apply(mod.cause_types)
deaths['cause_name'] = deaths['Causa de muerte'].apply(mod.cause_name)

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
 5   cause_code       301158 non-null  object
 6   cause_group      301158 non-null  object
 7   cause_name       301158 non-null  object
dtypes: int64(2), object(6)
memory usage: 18.4+ MB


In [4]:
# lets check the categorical variables

var_list = ['Sexo', 'Edad', 'Periodo', 'cause_code', 'cause_name', 'cause_group']

categories = mod.cat_var(deaths, var_list)
categories

Unnamed: 0,categorical_variable,number_of_possible_values,values
0,cause_code,117,"[001-102, 001-008, 001, 002, 003, 004, 005, 00..."
1,cause_name,117,"[I-XXII.Todas las causas, I.Enfermedades infec..."
2,Periodo,39,"[2018, 2017, 2016, 2015, 2014, 2013, 2012, 201..."
3,Edad,22,"[Todas las edades, Menos de 1 año, De 1 a 4 añ..."
4,Sexo,3,"[Total, Hombres, Mujeres]"
5,cause_group,2,"[Multiple causes, Single cause]"


In [5]:
# we need also to create a causes table for the analysis

causes_table = deaths[['cause_code', 'cause_name']].drop_duplicates().sort_values(by='cause_code').reset_index(drop=True)

causes_table

Unnamed: 0,cause_code,cause_name
0,001,Enfermedades infecciosas intestinales
1,001-008,I.Enfermedades infecciosas y parasitarias
2,001-102,I-XXII.Todas las causas
3,002,Tuberculosis y sus efectos tardíos
4,003,Enfermedad meningocócica
...,...,...
112,098,Suicidio y lesiones autoinfligidas
113,099,Agresiones (homicidio)
114,100,Eventos de intención no determinada
115,101,Complicaciones de la atención médica y quirúrgica


In [6]:
# And some space for free-style Pandas!!! (e.g.: df['column_name'].unique())

deaths['Causa de muerte'].unique()
#deaths['Sexo'].unique()
#deaths['Edad'].unique()
#deaths['Periodo'].unique()
#deaths['Total'].unique()

array(['001-102  I-XXII.Todas las causas',
       '001-008  I.Enfermedades infecciosas y parasitarias',
       '001  Enfermedades infecciosas intestinales',
       '002  Tuberculosis y sus efectos tardíos',
       '003  Enfermedad meningocócica', '004  Septicemia',
       '005  Hepatitis vírica', '006  SIDA',
       '007  VIH+ (portador, evidencias de laboratorio del VIH, ...)',
       '008  Resto de enfermedades infecciosas y parasitarias y sus efectos tardíos',
       '009-041  II.Tumores',
       '009  Tumor maligno del labio, de la cavidad bucal y de la faringe',
       '010  Tumor maligno del esófago',
       '011  Tumor maligno del estómago', '012  Tumor maligno del colon',
       '013  Tumor maligno del recto, de la porción rectosigmoide y del ano',
       '014  Tumor maligno del hígado y vías biliares intrahepáticas',
       '015  Tumor maligno del páncreas',
       '016  Otros tumores malignos digestivos',
       '017  Tumor maligno de la laringe',
       '018  Tumor maligno d

In [7]:
deaths['Causa de muerte'].unique()

array(['001-102  I-XXII.Todas las causas',
       '001-008  I.Enfermedades infecciosas y parasitarias',
       '001  Enfermedades infecciosas intestinales',
       '002  Tuberculosis y sus efectos tardíos',
       '003  Enfermedad meningocócica', '004  Septicemia',
       '005  Hepatitis vírica', '006  SIDA',
       '007  VIH+ (portador, evidencias de laboratorio del VIH, ...)',
       '008  Resto de enfermedades infecciosas y parasitarias y sus efectos tardíos',
       '009-041  II.Tumores',
       '009  Tumor maligno del labio, de la cavidad bucal y de la faringe',
       '010  Tumor maligno del esófago',
       '011  Tumor maligno del estómago', '012  Tumor maligno del colon',
       '013  Tumor maligno del recto, de la porción rectosigmoide y del ano',
       '014  Tumor maligno del hígado y vías biliares intrahepáticas',
       '015  Tumor maligno del páncreas',
       '016  Otros tumores malignos digestivos',
       '017  Tumor maligno de la laringe',
       '018  Tumor maligno d

## Lets make some transformations

Eventhough the dataset is pretty clean, the information is completely denormalized as you could see. For that matter a collection of methods (functions) are available in order to generate the tables you might need:

- `row_filter(df, cat_var, cat_values)` => Filter rows by any value or group of values in a categorical variable.

- `nrow_filter(df, cat_var, cat_values)` => The same but backwards. 

- `groupby_sum(df, group_vars, agg_var='Total', sort_var='Total')` => Add deaths by a certain variable.

- `pivot_table(df, col, x_axis, value='Total')`=> Make some pivot tables, you might need them...

__NOTE:__ be aware that the filtering methods can perform a filter at a time. Feel free to perform the filter you need in any way you want or feel confortable with.

In [8]:
# Example 1

deaths = deaths.drop(['Causa de muerte'], axis=1)
deaths = mod.row_filter(deaths, 'cause_code', ['098'])
deaths = deaths.drop(['cause_code','cause_group'], axis=1)
deaths = mod.nrow_filter(deaths, 'Sexo', ['Total'])
deaths = mod.nrow_filter(deaths, 'Edad', ['Todas las edades'])
deaths = mod.nrow_filter(deaths, 'Total', [0])

deaths

Unnamed: 0,Sexo,Edad,Periodo,Total,cause_name
0,Hombres,De 50 a 54 años,2014,344,Suicidio y lesiones autoinfligidas
1,Hombres,De 50 a 54 años,2013,340,Suicidio y lesiones autoinfligidas
2,Hombres,De 45 a 49 años,2014,337,Suicidio y lesiones autoinfligidas
3,Hombres,De 45 a 49 años,2013,319,Suicidio y lesiones autoinfligidas
4,Hombres,De 50 a 54 años,2017,305,Suicidio y lesiones autoinfligidas
...,...,...,...,...,...
1397,Mujeres,De 10 a 14 años,1980,1,Suicidio y lesiones autoinfligidas
1398,Mujeres,De 90 a 94 años,1980,1,Suicidio y lesiones autoinfligidas
1399,Hombres,95 y más años,1986,1,Suicidio y lesiones autoinfligidas
1400,Mujeres,95 y más años,1988,1,Suicidio y lesiones autoinfligidas


In [9]:
deaths_year = deaths.groupby('Periodo')['Total'].sum().reset_index()
deaths_year

Unnamed: 0,Periodo,Total
0,1980,1652
1,1981,1718
2,1982,1851
3,1983,2181
4,1984,2493
5,1985,2514
6,1986,2755
7,1987,2804
8,1988,2960
9,1989,2987


In [30]:
deaths_year_sex = deaths.groupby(['Periodo', 'Sexo'])['Total'].sum().reset_index()
deaths_year_sex

Unnamed: 0,Periodo,Sexo,Total
0,1980,Hombres,1237
1,1980,Mujeres,415
2,1981,Hombres,1268
3,1981,Mujeres,450
4,1982,Hombres,1336
...,...,...,...
73,2016,Mujeres,907
74,2017,Hombres,2718
75,2017,Mujeres,961
76,2018,Hombres,2619


In [42]:
deaths_cause = deaths.groupby(['Edad'])['Total'].sum().reset_index().sort_values(by='Total')
deaths_cause

Unnamed: 0,Edad,Total
9,De 5 a 9 años,11
0,95 y más años,282
1,De 10 a 14 años,449
18,De 90 a 94 años,1440
2,De 15 a 19 años,2878
17,De 85 a 89 años,4340
3,De 20 a 24 años,6131
16,De 80 a 84 años,7325
4,De 25 a 29 años,7335
5,De 30 a 34 años,8003


In [49]:
deaths_sex = deaths.groupby('Sexo')['Total'].sum().reset_index().sort_values(by='Total')
deaths_sex

Unnamed: 0,Sexo,Total
1,Mujeres,30075
0,Hombres,90796


## ...and finally, show me some insights with Plotly!!!

In [35]:
fig1 = px.line(deaths_year, x="Periodo", y="Total")
fig1.show()

In [51]:
fig5 = px.bar(deaths_sex, x='Total', y='Sexo', orientation='h', title='Total de Muertes por Sexo')
fig5.show()

In [36]:
fig2 = px.bar(deaths, x="Edad", y="Total", color="Sexo", barmode="group", \
              title='Número de Muertes por Edad y Sexo')
fig2.show()

In [37]:
fig3 = px.line(deaths_year_sex, x='Periodo', y='Total', color='Sexo', title='Total de Muertes por Sexo y Año')
fig3.show()

In [46]:
fig4 = px.bar(deaths_cause, x="Edad", y="Total", title='Número de Muertes por Edad')
fig4.show()