# Deadly Visualizations!!!

![Image](../images/viz_types_portada.png)

## Setup

First we need to create a basic setup which includes:

- Importing the libraries.

- Reading the dataset file (source [Instituto Nacional de Estadística](https://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259942408928&p=1259942408928&pagename=ProductosYServicios%2FPYSLayout)).

- Create a couple of columns and tables for the analysis.

__NOTE:__ some functions were already created in order to help you go through the challenge. However, feel free to perform any code you might need.

In [1]:
# imports

import sys
import re
sys.path.insert(0, "../modules")

import numpy as np
import pandas as pd

import plotly.express as px
import cufflinks as cf
cf.go_offline()

import module as mod     # functions are include in module.py

In [2]:
# read dataset

deaths = pd.read_csv('../data/7947.csv', sep=';', thousands='.')

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 5 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 11.5+ MB


In [3]:
print(deaths)


                                         Causa de muerte     Sexo  \
0                       001-102  I-XXII.Todas las causas    Total   
1                       001-102  I-XXII.Todas las causas    Total   
2                       001-102  I-XXII.Todas las causas    Total   
3                       001-102  I-XXII.Todas las causas    Total   
4                       001-102  I-XXII.Todas las causas    Total   
...                                                  ...      ...   
301153  102  Otras causas externas y sus efectos tardíos  Mujeres   
301154  102  Otras causas externas y sus efectos tardíos  Mujeres   
301155  102  Otras causas externas y sus efectos tardíos  Mujeres   
301156  102  Otras causas externas y sus efectos tardíos  Mujeres   
301157  102  Otras causas externas y sus efectos tardíos  Mujeres   

                    Edad  Periodo   Total  
0       Todas las edades     2018  427721  
1       Todas las edades     2017  424523  
2       Todas las edades     2016  4106

In [4]:
# add some columns...you'll need them later

deaths['cause_code'] = deaths['Causa de muerte'].apply(mod.cause_code)
deaths['cause_group'] = deaths['Causa de muerte'].apply(mod.cause_types)
deaths['cause_name'] = deaths['Causa de muerte'].apply(mod.cause_name)

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
 5   cause_code       301158 non-null  object
 6   cause_group      301158 non-null  object
 7   cause_name       301158 non-null  object
dtypes: int64(2), object(6)
memory usage: 18.4+ MB


In [5]:
# lets check the categorical variables

var_list = ['Sexo', 'Edad', 'Periodo', 'cause_code', 'cause_name', 'cause_group']

categories = mod.cat_var(deaths, var_list)
categories

Unnamed: 0,categorical_variable,number_of_possible_values,values
0,cause_code,117,"[001-102, 001-008, 001, 002, 003, 004, 005, 00..."
1,cause_name,117,"[I-XXII.Todas las causas, I.Enfermedades infec..."
2,Periodo,39,"[2018, 2017, 2016, 2015, 2014, 2013, 2012, 201..."
3,Edad,22,"[Todas las edades, Menos de 1 año, De 1 a 4 añ..."
4,Sexo,3,"[Total, Hombres, Mujeres]"
5,cause_group,2,"[Multiple causes, Single cause]"


In [6]:
# we need also to create a causes table for the analysis

causes_table = deaths[['cause_code', 'cause_name']].drop_duplicates().sort_values(by='cause_code').reset_index(drop=True)

causes_table

Unnamed: 0,cause_code,cause_name
0,001,Enfermedades infecciosas intestinales
1,001-008,I.Enfermedades infecciosas y parasitarias
2,001-102,I-XXII.Todas las causas
3,002,Tuberculosis y sus efectos tardíos
4,003,Enfermedad meningocócica
...,...,...
112,098,Suicidio y lesiones autoinfligidas
113,099,Agresiones (homicidio)
114,100,Eventos de intención no determinada
115,101,Complicaciones de la atención médica y quirúrgica


In [7]:
# And some space for free-style Pandas!!! (e.g.: df['column_name'].unique())

In [8]:
deaths['cause_name'].unique()

array(['I-XXII.Todas las causas',
       'I.Enfermedades infecciosas y parasitarias',
       'Enfermedades infecciosas intestinales',
       'Tuberculosis y sus efectos tardíos', 'Enfermedad meningocócica',
       'Septicemia', 'Hepatitis vírica', 'SIDA',
       'VIH+ (portador, evidencias de laboratorio del VIH, ...)',
       'Resto de enfermedades infecciosas y parasitarias y sus efectos tardíos',
       'II.Tumores',
       'Tumor maligno del labio, de la cavidad bucal y de la faringe',
       'Tumor maligno del esófago', 'Tumor maligno del estómago',
       'Tumor maligno del colon',
       'Tumor maligno del recto, de la porción rectosigmoide y del ano',
       'Tumor maligno del hígado y vías biliares intrahepáticas',
       'Tumor maligno del páncreas', 'Otros tumores malignos digestivos',
       'Tumor maligno de la laringe',
       'Tumor maligno de la tráquea, de los bronquios y del pulmón',
       'Otros tumores malignos respiratorios e intratorácicos',
       'Tumores malig

## Lets make some transformations

Eventhough the dataset is pretty clean, the information is completely denormalized as you could see. For that matter a collection of methods (functions) are available in order to generate the tables you might need:

- `row_filter(df, cat_var, cat_values)` => Filter rows by any value or group of values in a categorical variable.

- `nrow_filter(df, cat_var, cat_values)` => The same but backwards. 

- `groupby_sum(df, group_vars, agg_var='Total', sort_var='Total')` => Add deaths by a certain variable.

- `pivot_table(df, col, x_axis, value='Total')`=> Make some pivot tables, you might need them...

__NOTE:__ be aware that the filtering methods can perform a filter at a time. Feel free to perform the filter you need in any way you want or feel confortable with.

In [9]:
# Example 1

dataset = mod.row_filter(deaths, 'Sexo', ['Total'])
dataset = mod.row_filter(dataset, 'Edad', ['Todas las edades'])
dataset.head()


Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2012,402950,001-102,Multiple causes,I-XXII.Todas las causas


In [10]:
# Example 2
group = ['cause_code','Periodo']
dataset = mod.groupby_sum(deaths, group)
dataset.head()


Unnamed: 0,cause_code,Periodo,Total
0,001-102,2018,1710884
1,001-102,2017,1698092
2,001-102,2015,1690272
3,001-102,2016,1642444
4,001-102,2012,1611800


In [11]:
# Example 3

dataset = mod.pivot_table(dataset, 'cause_code', 'Periodo')
dataset.head()


cause_code,Periodo,001,001-008,001-102,002,003,004,005,006,007,...,093,094,095,096,097,098,099,100,101,102
0,1980,1620,15768,1157376,5904,2008,3448,436,0,0,...,4956,1432,184,692,16748,6608,1496,28,968,96
1,1981,1404,15124,1173544,6332,1656,3344,348,0,0,...,4700,1200,156,1396,17472,6872,1284,336,908,208
2,1982,1308,13488,1146620,5352,1240,3104,316,0,0,...,4864,956,200,1000,18616,7404,1228,440,1132,52
3,1983,1212,13100,1210276,5152,1072,3152,336,0,0,...,4788,1464,148,884,18392,8724,1560,1276,1500,56
4,1984,1228,12928,1197636,4564,964,3704,424,0,0,...,4716,1244,164,1020,14696,9972,1812,1144,1636,76


In [12]:
#hacer una gráfica de los puntos que me quiero saber.
#Causas de muerte mas frecuentes 
#las causas tienen 12 grupos
#puedo pintar causas x periodo
#muertes de ccidentes otros en mujeres 


#Cual es el planeamiento, cual es el visual 

#para entregar: algo que te sirva para sacar drivers 

## ...and finally, show me some insights with Plotly!!!

In [13]:
deaths.head()


Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830,001-102,Multiple causes,I-XXII.Todas las causas


In [14]:
dataset_column = deaths['cause_name']
dataset_column

0                             I-XXII.Todas las causas
1                             I-XXII.Todas las causas
2                             I-XXII.Todas las causas
3                             I-XXII.Todas las causas
4                             I-XXII.Todas las causas
                             ...                     
301153    Otras causas externas y sus efectos tardíos
301154    Otras causas externas y sus efectos tardíos
301155    Otras causas externas y sus efectos tardíos
301156    Otras causas externas y sus efectos tardíos
301157    Otras causas externas y sus efectos tardíos
Name: cause_name, Length: 301158, dtype: object

In [15]:
deaths['Edad'].unique()

array(['Todas las edades', 'Menos de 1 año', 'De 1 a 4 años',
       'De 5 a 9 años', 'De 10 a 14 años  ', 'De 15 a 19 años  ',
       'De 20 a 24 años', 'De 25 a 29 años', 'De 30 a 34 años',
       'De 35 a 39 años', 'De 40 a 44 años', 'De 45 a 49 años',
       'De 50 a 54 años', 'De 55 a 59 años', 'De 60 a 64 años',
       'De 65 a 69 años', 'De 70 a 74 años  ', 'De 75 a 79 años  ',
       'De 80 a 84 años  ', 'De 85 a 89 años  ', 'De 90 a 94 años  ',
       '95 y más años'], dtype=object)

In [176]:
prueba_alana = mod.row_filter(deaths, 'Sexo', ['Mujeres'])
prueba_alana = mod.row_filter(prueba_alana, 'cause_name', ['Agresiones (homicidio)'])
prueba_alana = mod.row_filter(prueba_alana, 'Edad', ['De 40 a 44 años'])
prueba_alana.head(n=10)

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,099 Agresiones (homicidio),Mujeres,De 40 a 44 años,2004,17,99,Single cause,Agresiones (homicidio)
1,099 Agresiones (homicidio),Mujeres,De 40 a 44 años,2006,15,99,Single cause,Agresiones (homicidio)
2,099 Agresiones (homicidio),Mujeres,De 40 a 44 años,2015,15,99,Single cause,Agresiones (homicidio)
3,099 Agresiones (homicidio),Mujeres,De 40 a 44 años,2018,14,99,Single cause,Agresiones (homicidio)
4,099 Agresiones (homicidio),Mujeres,De 40 a 44 años,1987,13,99,Single cause,Agresiones (homicidio)
5,099 Agresiones (homicidio),Mujeres,De 40 a 44 años,2008,13,99,Single cause,Agresiones (homicidio)
6,099 Agresiones (homicidio),Mujeres,De 40 a 44 años,2014,13,99,Single cause,Agresiones (homicidio)
7,099 Agresiones (homicidio),Mujeres,De 40 a 44 años,2000,12,99,Single cause,Agresiones (homicidio)
8,099 Agresiones (homicidio),Mujeres,De 40 a 44 años,2009,11,99,Single cause,Agresiones (homicidio)
9,099 Agresiones (homicidio),Mujeres,De 40 a 44 años,2007,11,99,Single cause,Agresiones (homicidio)


In [17]:
# Cufflinks histogram
'''
dataset_column.iplot(kind='hist',
                     title='AXIS TITLE',
                     yTitle='AXIS TITLE',
                     xTitle='VIZ TITLE')
'''


"\ndataset_column.iplot(kind='hist',\n                     title='AXIS TITLE',\n                     yTitle='AXIS TITLE',\n                     xTitle='VIZ TITLE')\n"

In [18]:
# Cufflinks bar plot
'''
dataset_bar.iplot(kind='bar',
                  x='VARIABLE',
                  xTitle='AXIS TITLE',
                  yTitle='AXIS TITLE',
                  title='VIZ TITLE')
'''

"\ndataset_bar.iplot(kind='bar',\n                  x='VARIABLE',\n                  xTitle='AXIS TITLE',\n                  yTitle='AXIS TITLE',\n                  title='VIZ TITLE')\n"

In [19]:
# Cufflinks line plot
'''
dataset_line.iplot(kind='line',
                   x='VARIABLE',
                   xTitle='AXIS TITLE',
                   yTitle='AXIS TITLE',
                   title='VIZ TITLE')
'''

"\ndataset_line.iplot(kind='line',\n                   x='VARIABLE',\n                   xTitle='AXIS TITLE',\n                   yTitle='AXIS TITLE',\n                   title='VIZ TITLE')\n"

In [20]:
# Cufflinks scatter plot
'''
dataset_scatter.iplot(x='VARIABLE', 
                      y='VARIABLE', 
                      categories='VARIABLE',
                      xTitle='AXIS TITLE', 
                      yTitle='AXIS TITLE',
                      title='VIZ TITLE')
'''

"\ndataset_scatter.iplot(x='VARIABLE', \n                      y='VARIABLE', \n                      categories='VARIABLE',\n                      xTitle='AXIS TITLE', \n                      yTitle='AXIS TITLE',\n                      title='VIZ TITLE')\n"

In [21]:
prueba_alana.iplot(kind='bar',
                  x='Periodo',
                  y='Total',
                  xTitle='Años',
                  yTitle='Homicios',
                  title='Homicidio de Mujeres')


In [22]:
#hacer uno con los totales de la cause
#hacer uno de las causas con mujeres 
#ver video de iplot  and cufflinks

In [23]:
import cufflinks as cf
cf.set_config_file(sharing='public',theme='ggplot', offline=True)

In [24]:
prueba_alana.iplot(kind='bar',  x='Periodo', y='Total',xTitle='Años', yTitle='Homicidios', title='Homicidio de Mujeres', color= 'violet')

In [55]:
prueba_alana2 = mod.row_filter(deaths, 'Sexo', ['Mujeres', 'Hombres'])
prueba_alana2 = mod.row_filter(prueba_alana2, 'cause_name', ['Suicidio y lesiones autoinfligidas'])
prueba_alana2 = mod.row_filter(prueba_alana2, 'Periodo', ['Suicidio y lesiones autoinfligidas'])
prueba_alana2


Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,098 Suicidio y lesiones autoinfligidas,Hombres,Todas las edades,2014,2938,098,Single cause,Suicidio y lesiones autoinfligidas
1,098 Suicidio y lesiones autoinfligidas,Hombres,Todas las edades,2013,2911,098,Single cause,Suicidio y lesiones autoinfligidas
2,098 Suicidio y lesiones autoinfligidas,Hombres,Todas las edades,2012,2724,098,Single cause,Suicidio y lesiones autoinfligidas
3,098 Suicidio y lesiones autoinfligidas,Hombres,Todas las edades,2017,2718,098,Single cause,Suicidio y lesiones autoinfligidas
4,098 Suicidio y lesiones autoinfligidas,Hombres,Todas las edades,2015,2680,098,Single cause,Suicidio y lesiones autoinfligidas
...,...,...,...,...,...,...,...,...
1711,098 Suicidio y lesiones autoinfligidas,Mujeres,De 1 a 4 años,2003,0,098,Single cause,Suicidio y lesiones autoinfligidas
1712,098 Suicidio y lesiones autoinfligidas,Mujeres,De 1 a 4 años,2004,0,098,Single cause,Suicidio y lesiones autoinfligidas
1713,098 Suicidio y lesiones autoinfligidas,Mujeres,De 1 a 4 años,2005,0,098,Single cause,Suicidio y lesiones autoinfligidas
1714,098 Suicidio y lesiones autoinfligidas,Mujeres,De 1 a 4 años,2006,0,098,Single cause,Suicidio y lesiones autoinfligidas


In [58]:
prueba_alana2 .iplot(kind='bar',
                   x='Sexo', y='Total',
                   xTitle='Sexo',
                   yTitle='Periodo',
                   title='Suicidio Hombres vs Mujeres')

In [175]:
df_drogas = mod.row_filter(deaths, 'Sexo', ['Hombres'])
df_drogas = mod.row_filter(df_drogas, 'Edad', ['De 15 a 19 años  ',
       'De 20 a 24 años', 'De 25 a 29 años', 'De 30 a 34 años',
       'De 35 a 39 años','De 40 a 44 años', 'De 45 a 49 años',
       'De 50 a 54 años', 'De 55 a 59 años',])
df_drogas = df_drogas[df_drogas['cause_name'].str.contains('uso de drogas')]
df_drogas = df_drogas[df_drogas['Periodo'].isin([1980,1990,2000,2010,2020])]
df_drogas.head(n=10)

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
13145,048 Trastornos mentales debidos al uso de dro...,Hombres,De 25 a 29 años,1990,23,48,Single cause,Trastornos mentales debidos al uso de drogas (...
16913,048 Trastornos mentales debidos al uso de dro...,Hombres,De 30 a 34 años,1990,13,48,Single cause,Trastornos mentales debidos al uso de drogas (...
17734,048 Trastornos mentales debidos al uso de dro...,Hombres,De 20 a 24 años,1990,11,48,Single cause,Trastornos mentales debidos al uso de drogas (...
19159,048 Trastornos mentales debidos al uso de dro...,Hombres,De 40 a 44 años,2010,9,48,Single cause,Trastornos mentales debidos al uso de drogas (...
20767,048 Trastornos mentales debidos al uso de dro...,Hombres,De 25 a 29 años,2000,7,48,Single cause,Trastornos mentales debidos al uso de drogas (...
20788,048 Trastornos mentales debidos al uso de dro...,Hombres,De 35 a 39 años,2010,7,48,Single cause,Trastornos mentales debidos al uso de drogas (...
20903,048 Trastornos mentales debidos al uso de dro...,Hombres,De 35 a 39 años,1990,7,48,Single cause,Trastornos mentales debidos al uso de drogas (...
21765,048 Trastornos mentales debidos al uso de dro...,Hombres,De 30 a 34 años,2000,6,48,Single cause,Trastornos mentales debidos al uso de drogas (...
21874,048 Trastornos mentales debidos al uso de dro...,Hombres,De 30 a 34 años,2010,6,48,Single cause,Trastornos mentales debidos al uso de drogas (...
22745,048 Trastornos mentales debidos al uso de dro...,Hombres,De 40 a 44 años,2000,5,48,Single cause,Trastornos mentales debidos al uso de drogas (...


In [163]:
df_drogas = df_drogas.pivot(index='Periodo', columns='Edad', values='Total')
df_drogas

Edad,De 15 a 19 años,De 20 a 24 años,De 25 a 29 años,De 30 a 34 años,De 35 a 39 años,De 40 a 44 años,De 45 a 49 años,De 50 a 54 años,De 55 a 59 años
Periodo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1980,0,2,2,2,2,0,1,1,1
1990,2,11,23,13,7,3,3,1,2
2000,0,2,7,6,5,5,2,2,0
2010,0,1,3,6,7,9,5,3,3


In [170]:
df_drogas.iplot(kind='line', xTitle='Años',
                   yTitle='Edades',
                   title='Hombres que mueren por uso de droga')