# Deadly Visualizations!!!

![Image](../images/viz_types_portada.png)

## Setup

First we need to create a basic setup which includes:

- Importing the libraries.

- Reading the dataset file (source [Instituto Nacional de Estadística](https://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259942408928&p=1259942408928&pagename=ProductosYServicios%2FPYSLayout)).

- Create a couple of columns and tables for the analysis.

__NOTE:__ some functions were already created in order to help you go through the challenge. However, feel free to perform any code you might need.

In [2]:
# imports

import sys
import re
sys.path.insert(0, "../modules")

import numpy as np
import pandas as pd

import plotly.express as px
import cufflinks as cf
cf.go_offline()

import module as mod     # functions are include in module.py

In [3]:
# read dataset

deaths = pd.read_csv('../data/7947.csv', sep=';', thousands='.')

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 5 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 11.5+ MB


In [4]:
# add some columns...you'll need them later

deaths['cause_code'] = deaths['Causa de muerte'].apply(mod.cause_code)
deaths['cause_group'] = deaths['Causa de muerte'].apply(mod.cause_types)
deaths['cause_name'] = deaths['Causa de muerte'].apply(mod.cause_name)

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
 5   cause_code       301158 non-null  object
 6   cause_group      301158 non-null  object
 7   cause_name       301158 non-null  object
dtypes: int64(2), object(6)
memory usage: 18.4+ MB


In [5]:
# lets check the categorical variables

var_list = ['Sexo', 'Edad', 'Periodo', 'cause_code', 'cause_name', 'cause_group']

categories = mod.cat_var(deaths, var_list)
categories

Unnamed: 0,categorical_variable,number_of_possible_values,values
0,cause_code,117,"[001-102, 001-008, 001, 002, 003, 004, 005, 00..."
1,cause_name,117,"[I-XXII.Todas las causas, I.Enfermedades infec..."
2,Periodo,39,"[2018, 2017, 2016, 2015, 2014, 2013, 2012, 201..."
3,Edad,22,"[Todas las edades, Menos de 1 año, De 1 a 4 añ..."
4,Sexo,3,"[Total, Hombres, Mujeres]"
5,cause_group,2,"[Multiple causes, Single cause]"


In [6]:
# we need also to create a causes table for the analysis

causes_table = deaths[['cause_code', 'cause_name']].drop_duplicates().sort_values(by='cause_code').reset_index(drop=True)

causes_table

Unnamed: 0,cause_code,cause_name
0,001,Enfermedades infecciosas intestinales
1,001-008,I.Enfermedades infecciosas y parasitarias
2,001-102,I-XXII.Todas las causas
3,002,Tuberculosis y sus efectos tardíos
4,003,Enfermedad meningocócica
...,...,...
112,098,Suicidio y lesiones autoinfligidas
113,099,Agresiones (homicidio)
114,100,Eventos de intención no determinada
115,101,Complicaciones de la atención médica y quirúrgica


In [7]:
# And some space for free-style Pandas!!! (e.g.: df['column_name'].unique())


death_df = deaths[(deaths.cause_group == "Multiple causes") & (deaths.cause_name != "I-XXII.Todas las causas")]
death_df["cause_name"].unique()

death = death_df[death_df.Periodo < 1996]


death = death[death.Periodo < 1987]

In [90]:
poblacion_df = pd.read_csv("/Users/guillaumedieude/Desktop/ironhack/curso/Los_Challenges/challenge_deaths/deadly_viz_challenge/data/31304bsc.csv",
                           sep = ";", thousands='.')

In [91]:
poblacion_df = pd.DataFrame(poblacion_df)
poblacion_df

Unnamed: 0,Sexo,Edad,Provincias,Periodo,Total
0,Ambos sexos,Total,Total Nacional,1 de enero de 2022,47432805
1,Ambos sexos,Total,Total Nacional,1 de julio de 2021,47331545
2,Ambos sexos,Total,Total Nacional,1 de enero de 2021,47398695
3,Ambos sexos,Total,Total Nacional,1 de julio de 2020,47355685
4,Ambos sexos,Total,Total Nacional,1 de enero de 2020,47332614
...,...,...,...,...,...
98,Ambos sexos,Total,Total Nacional,1 de enero de 1973,34800600
99,Ambos sexos,Total,Total Nacional,1 de julio de 1972,34595886
100,Ambos sexos,Total,Total Nacional,1 de enero de 1972,34408338
101,Ambos sexos,Total,Total Nacional,1 de julio de 1971,34216856


In [92]:
poblacion_df["año"] = poblacion_df["Periodo"].str[-4:]
poblacion_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103 entries, 0 to 102
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Sexo        103 non-null    object
 1   Edad        103 non-null    object
 2   Provincias  103 non-null    object
 3   Periodo     103 non-null    object
 4   Total       103 non-null    int64 
 5   año         103 non-null    object
dtypes: int64(1), object(5)
memory usage: 5.0+ KB


In [105]:
poblacion_year = poblacion_df.groupby(['año'])[['Total']].mean().reset_index()
poblacion = poblacion_year.rename(columns={"año":"Periodo"})
poblacion = poblacion.astype('int64')
poblacion.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   Periodo  52 non-null     int64
 1   Total    52 non-null     int64
dtypes: int64(2)
memory usage: 960.0 bytes


In [115]:
df = deaths.merge(poblacion, how = "inner", on = "Periodo")
df

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total_x,cause_code,cause_group,cause_name,Total_y
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas,46693630
1,001-102 I-XXII.Todas las causas,Total,Menos de 1 año,2018,1027,001-102,Multiple causes,I-XXII.Todas las causas,46693630
2,001-102 I-XXII.Todas las causas,Total,De 1 a 4 años,2018,240,001-102,Multiple causes,I-XXII.Todas las causas,46693630
3,001-102 I-XXII.Todas las causas,Total,De 5 a 9 años,2018,179,001-102,Multiple causes,I-XXII.Todas las causas,46693630
4,001-102 I-XXII.Todas las causas,Total,De 10 a 14 años,2018,198,001-102,Multiple causes,I-XXII.Todas las causas,46693630
...,...,...,...,...,...,...,...,...,...
301153,102 Otras causas externas y sus efectos tardíos,Mujeres,De 75 a 79 años,1980,1,102,Single cause,Otras causas externas y sus efectos tardíos,37420006
301154,102 Otras causas externas y sus efectos tardíos,Mujeres,De 80 a 84 años,1980,1,102,Single cause,Otras causas externas y sus efectos tardíos,37420006
301155,102 Otras causas externas y sus efectos tardíos,Mujeres,De 85 a 89 años,1980,1,102,Single cause,Otras causas externas y sus efectos tardíos,37420006
301156,102 Otras causas externas y sus efectos tardíos,Mujeres,De 90 a 94 años,1980,0,102,Single cause,Otras causas externas y sus efectos tardíos,37420006


In [119]:
deaths_hombres = df[(df['Sexo'] == 'Hombres') & (df['cause_name'] != 'I-XXII.Todas las causas')]
deaths_hombres["ratio"] = deaths_hombres["Total_x"]/deaths_hombres["Total_y"]
deaths_hombres_2529 = deaths_hombres[deaths_hombres['Edad'] == 'De 25 a 29 años']
deaths_hombres_2529

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total_x,cause_code,cause_group,cause_name,Total_y,ratio
29,001-102 I-XXII.Todas las causas,Hombres,De 25 a 29 años,2018,599,001-102,Multiple causes,I-XXII.Todas las causas,46693630,1.3e-05
7751,001-102 I-XXII.Todas las causas,Hombres,De 25 a 29 años,2017,585,001-102,Multiple causes,I-XXII.Todas las causas,46529954,1.3e-05
15473,001-102 I-XXII.Todas las causas,Hombres,De 25 a 29 años,2016,530,001-102,Multiple causes,I-XXII.Todas las causas,46444986,1.1e-05
23195,001-102 I-XXII.Todas las causas,Hombres,De 25 a 29 años,2015,578,001-102,Multiple causes,I-XXII.Todas las causas,46429857,1.2e-05
30917,001-102 I-XXII.Todas las causas,Hombres,De 25 a 29 años,2014,533,001-102,Multiple causes,I-XXII.Todas las causas,46483661,1.1e-05
38639,001-102 I-XXII.Todas las causas,Hombres,De 25 a 29 años,2013,598,001-102,Multiple causes,I-XXII.Todas las causas,46660563,1.3e-05
46361,001-102 I-XXII.Todas las causas,Hombres,De 25 a 29 años,2012,663,001-102,Multiple causes,I-XXII.Todas las causas,46792309,1.4e-05
54083,001-102 I-XXII.Todas las causas,Hombres,De 25 a 29 años,2011,739,001-102,Multiple causes,I-XXII.Todas las causas,46701716,1.6e-05
61805,001-102 I-XXII.Todas las causas,Hombres,De 25 a 29 años,2010,820,001-102,Multiple causes,I-XXII.Todas las causas,46524552,1.8e-05
69527,001-102 I-XXII.Todas las causas,Hombres,De 25 a 29 años,2009,1038,001-102,Multiple causes,I-XXII.Todas las causas,46303410,2.2e-05


In [134]:
deaths_hombres_grupos = df[(df['Sexo'] == 'Hombres') & (df['cause_name'] != 'XX.Causas externas de mortalidad') & (df['cause_group'] == 'Single cause') & (df['Periodo'] < 1996) &  (df['Periodo'] > 1987)]
deaths_hombres_grupos["ratio"] = deaths_hombres_grupos["Total_x"]/deaths_hombres_grupos["Total_y"]
deaths_hombres_2529_grupos = deaths_hombres_grupos[deaths_hombres_grupos['Edad'] == 'De 25 a 29 años']
deaths_hombres_2529_grupos

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total_x,cause_code,cause_group,cause_name,Total_y,ratio
177767,001 Enfermedades infecciosas intestinales,Hombres,De 25 a 29 años,1995,0,001,Single cause,Enfermedades infecciosas intestinales,39679310,0.000000e+00
177833,002 Tuberculosis y sus efectos tardíos,Hombres,De 25 a 29 años,1995,9,002,Single cause,Tuberculosis y sus efectos tardíos,39679310,2.268185e-07
177899,003 Enfermedad meningocócica,Hombres,De 25 a 29 años,1995,0,003,Single cause,Enfermedad meningocócica,39679310,0.000000e+00
177965,004 Septicemia,Hombres,De 25 a 29 años,1995,6,004,Single cause,Septicemia,39679310,1.512123e-07
178031,005 Hepatitis vírica,Hombres,De 25 a 29 años,1995,7,005,Single cause,Hepatitis vírica,39679310,1.764144e-07
...,...,...,...,...,...,...,...,...,...,...
239081,098 Suicidio y lesiones autoinfligidas,Hombres,De 25 a 29 años,1988,183,098,Single cause,Suicidio y lesiones autoinfligidas,38747942,4.722831e-06
239147,099 Agresiones (homicidio),Hombres,De 25 a 29 años,1988,34,099,Single cause,Agresiones (homicidio),38747942,8.774660e-07
239213,100 Eventos de intención no determinada,Hombres,De 25 a 29 años,1988,11,100,Single cause,Eventos de intención no determinada,38747942,2.838860e-07
239279,101 Complicaciones de la atención médica y qu...,Hombres,De 25 a 29 años,1988,3,101,Single cause,Complicaciones de la atención médica y quirúrgica,38747942,7.742347e-08


## Lets make some transformations

Eventhough the dataset is pretty clean, the information is completely denormalized as you could see. For that matter a collection of methods (functions) are available in order to generate the tables you might need:

- `row_filter(df, cat_var, cat_values)` => Filter rows by any value or group of values in a categorical variable.

- `nrow_filter(df, cat_var, cat_values)` => The same but backwards. 

- `groupby_sum(df, group_vars, agg_var='Total', sort_var='Total')` => Add deaths by a certain variable.

- `pivot_table(df, col, x_axis, value='Total')`=> Make some pivot tables, you might need them...

__NOTE:__ be aware that the filtering methods can perform a filter at a time. Feel free to perform the filter you need in any way you want or feel confortable with.

In [None]:
# Example 1
'''
dataset = mod.row_filter(deaths, 'Sexo', ['Total'])
dataset = mod.row_filter(dataset, 'Edad', ['Todas las edades'])
dataset.head()
'''

In [None]:
# Example 2
'''
group = ['cause_code','Periodo']
dataset = mod.groupby_sum(deaths, group)
dataset.head()
'''

In [None]:
# Example 3
'''
dataset = mod.pivot_table(dataset, 'cause_code', 'Periodo')
dataset.head()
'''

## ...and finally, show me some insights with Plotly!!!

In [None]:
# Cufflinks histogram
'''
dataset_column.iplot(kind='hist',
                     title='VIZ TITLE',
                     yTitle='AXIS TITLE',
                     xTitle='AXIS TITLE')
'''

In [None]:
# Cufflinks bar plot
'''
dataset_bar.iplot(kind='bar',
                  x='VARIABLE',
                  xTitle='AXIS TITLE',
                  yTitle='AXIS TITLE',
                  title='VIZ TITLE')
'''

In [118]:
deaths_hombres.iplot(kind='bar',
                  x='Periodo',
               y = 'ratio',
                  xTitle='año',
                  yTitle='ratio muertes',
                  title='muertes en el tiempo')

In [120]:
deaths_hombres_2529.iplot(kind='bar',
                  x='Periodo',
               y = 'ratio',
                  xTitle='año',
                  yTitle='ratio muertes',
                  title='muertes en el tiempo')

In [135]:
deaths_hombres_2529_grupos.iplot(kind='bar',
                  x='cause_name',
               y = 'ratio',
                  xTitle='año',
                  yTitle='ratio muertes',
                  title='muertes en el tiempo')

In [None]:
death_l20y.iplot(kind='bar',
                  x='cause_name',
               y = 'Total',
                  xTitle='causa',
                  yTitle='muertes',
                  title='muertes por cause después de 1996')

In [None]:
death_f20y.iplot(kind='bar',
                  x='cause_name',
               y = 'Total',
                  xTitle='causa',
                  yTitle='muertes',
                  title='muertes por cause antes 1996')

In [8]:
death_l20y_Mujeres = death[death.Sexo == 'Mujeres']
death_l20y_Hombres = death[death.Sexo == 'Hombres']

In [9]:
death_l20y_Mujeres.iplot(kind='bar',
                  x='cause_name',
               y = 'Total',
                  xTitle='causa',
                  yTitle='muertes',
                  title='muertes por cause después 1996 Mujeres')

In [10]:
death_l20y_Hombres.iplot(kind='bar',
                  x='cause_name',
               y = 'Total',
                  xTitle='causa',
                  yTitle='muertes',
                  title='muertes por cause después 1996 hombres')

In [None]:
# Cufflinks line plot
'''
dataset_line.iplot(kind='line',
                   x='VARIABLE',
                   xTitle='AXIS TITLE',
                   yTitle='AXIS TITLE',
                   title='VIZ TITLE')
'''

In [None]:
# Cufflinks scatter plot
'''
dataset_scatter.iplot(x='VARIABLE', 
                      y='VARIABLE', 
                      categories='VARIABLE',
                      xTitle='AXIS TITLE', 
                      yTitle='AXIS TITLE',
                      title='VIZ TITLE')
'''