# Deadly Visualizations!!!

![Image](../images/viz_types_portada.png)

## Setup

First we need to create a basic setup which includes:

- Importing the libraries.

- Reading the dataset file (source [Instituto Nacional de Estadística](https://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259942408928&p=1259942408928&pagename=ProductosYServicios%2FPYSLayout)).

- Create a couple of columns and tables for the analysis.

__NOTE:__ some functions were already created in order to help you go through the challenge. However, feel free to perform any code you might need.

In [2]:
# some imports

import sys
sys.path.insert(0, "../modules")
import pandas as pd
import cufflinks as cf
import plotly.express as px
import re
import module as mod # functions are include in module.py.
cf.go_offline()

In [76]:
# read dataset

deaths = pd.read_csv('../data/7947.csv', sep=';', thousands='.')

deaths.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830


In [77]:
# add some columns...you'll need them later

deaths['cause_code'] = deaths['Causa de muerte'].apply(mod.cause_code)
deaths['cause_group'] = deaths['Causa de muerte'].apply(mod.cause_types)
deaths['cause_name'] = deaths['Causa de muerte'].apply(mod.cause_name)

deaths.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830,001-102,Multiple causes,I-XXII.Todas las causas


In [30]:
# lets check the categorical variables

var_list = ['Sexo', 'Edad', 'Periodo', 'cause_code', 'cause_name', 'cause_group']

categories = mod.cat_var(deaths, var_list)
categories

Unnamed: 0,categorical_variable,number_of_possible_values,values
0,cause_code,117,"[001-102, 001-008, 001, 002, 003, 004, 005, 00..."
1,cause_name,117,"[I-XXII.Todas las causas, I.Enfermedades infec..."
2,Periodo,39,"[2018, 2017, 2016, 2015, 2014, 2013, 2012, 201..."
3,Edad,22,"[Todas las edades, Menos de 1 año, De 1 a 4 añ..."
4,Sexo,3,"[Total, Hombres, Mujeres]"
5,cause_group,2,"[Multiple causes, Single cause]"


In [78]:
# we need also to create a causes table for the analysis

causes_table = deaths[['cause_code', 'cause_name']].drop_duplicates().sort_values(by='cause_code').reset_index(drop=True)
causes_table

Unnamed: 0,cause_code,cause_name
0,001,Enfermedades infecciosas intestinales
1,001-008,I.Enfermedades infecciosas y parasitarias
2,001-102,I-XXII.Todas las causas
3,002,Tuberculosis y sus efectos tardíos
4,003,Enfermedad meningocócica
...,...,...
112,098,Suicidio y lesiones autoinfligidas
113,099,Agresiones (homicidio)
114,100,Eventos de intención no determinada
115,101,Complicaciones de la atención médica y quirúrgica


In [32]:
#To know the evolution of the cnacers, we need causes from 09 to 41:


causes_table = causes_table[causes_table["cause_code"].str.contains("-") == False]
causes_table = causes_table.astype({"cause_code": int})
cancer_type = causes_table[causes_table["cause_code"].between(9,41,inclusive=True)]
cancers=cancer_type['cause_name']


In [39]:
# Example 1

df_cancer = mod.row_filter(deaths, 'Sexo', ['Hombres','Mujeres']) #Nos qudamos con hombres y mujeres, quitando el total
df_cancer= mod.row_filter(dataset_sexo, 'Edad', ['Todas las edades']) #Nos quedamos con todas las edades.
df_cancer = mod.row_filter(dataset_sexo, 'cause_name', cancers) 
df_cancer


Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2012,17683,018,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
1,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2016,17624,018,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
2,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2013,17577,018,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
3,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2011,17512,018,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
4,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2010,17303,018,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
...,...,...,...,...,...,...,...,...
2569,024 Tumor maligno del cuello del útero,Hombres,Todas las edades,2015,0,024,Single cause,Tumor maligno del cuello del útero
2570,024 Tumor maligno del cuello del útero,Hombres,Todas las edades,2014,0,024,Single cause,Tumor maligno del cuello del útero
2571,024 Tumor maligno del cuello del útero,Hombres,Todas las edades,2012,0,024,Single cause,Tumor maligno del cuello del útero
2572,024 Tumor maligno del cuello del útero,Hombres,Todas las edades,2011,0,024,Single cause,Tumor maligno del cuello del útero


In [43]:
dataset_sexo_sorted=dataset_sexo.sort_values('Total').groupby(['Periodo','Sexo']).tail(1) #Nos quedamos con la linea con el total mas grande (la última)
dataset_sexo_periodo=dataset_sexo_sorted.sort_values('Periodo', ascending=True)#Ordenamos la tabla por período
dataset_sexo_periodo.to_csv('../data/cancer_deaths_evolution.csv', index=False)

In [90]:
dataset_sexo_periodo

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
215,023 Tumor maligno de la mama,Mujeres,Todas las edades,1980,3629,023,Single cause,Tumor maligno de la mama
38,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,1980,7597,018,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
37,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,1981,8329,018,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
214,023 Tumor maligno de la mama,Mujeres,Todas las edades,1981,3644,023,Single cause,Tumor maligno de la mama
36,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,1982,8664,018,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
...,...,...,...,...,...,...,...,...
1,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2016,17624,018,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
49,023 Tumor maligno de la mama,Mujeres,Todas las edades,2017,6489,023,Single cause,Tumor maligno de la mama
6,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2017,17268,018,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
9,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2018,17194,018,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."


In [79]:
deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
 5   cause_code       301158 non-null  object
 6   cause_group      301158 non-null  object
 7   cause_name       301158 non-null  object
dtypes: int64(2), object(6)
memory usage: 18.4+ MB


In [88]:
total_deaths_period = mod.row_filter(deaths, 'Sexo', ['Hombres','Mujeres'])
total_deaths_period= mod.row_filter(total_deaths_period, 'Edad', ['Todas las edades'])
total_deaths_period = total_deaths_period[total_deaths_period["cause_code"].str.contains("-") == False]
total_deaths_period=total_deaths_period.groupby(['Periodo','Sexo']).sum()
total_deaths_period.to_csv('../data/total_deaths_period.csv')

In [89]:
total_deaths_period

Unnamed: 0_level_0,Unnamed: 1_level_0,Total
Periodo,Sexo,Unnamed: 2_level_1
1980,Hombres,152225
1980,Mujeres,137119
1981,Hombres,154437
1981,Mujeres,138949
1982,Hombres,151048
...,...,...
2016,Mujeres,201618
2017,Hombres,214236
2017,Mujeres,210287
2018,Hombres,216442
