# Deadly Visualizations!!!

![Image](../images/viz_types_portada.png)

## Setup

First we need to create a basic setup which includes:

- Importing the libraries.

- Reading the dataset file (source [Instituto Nacional de Estadística](https://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259942408928&p=1259942408928&pagename=ProductosYServicios%2FPYSLayout)).

- Create a couple of columns and tables for the analysis.

__NOTE:__ some functions were already created in order to help you go through the challenge. However, feel free to perform any code you might need.

In [1]:
# imports

import sys
import re
sys.path.insert(0, "../modules")

import numpy as np
import pandas as pd

import plotly.express as px
import cufflinks as cf
cf.go_offline()

import module as mod     # functions are include in module.py

In [2]:
# read dataset

deaths = pd.read_csv('../data/7947.csv', sep=';', thousands='.')

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 5 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 11.5+ MB


In [14]:
print(deaths)

                                         Causa de muerte     Sexo  \
0                       001-102  I-XXII.Todas las causas    Total   
1                       001-102  I-XXII.Todas las causas    Total   
2                       001-102  I-XXII.Todas las causas    Total   
3                       001-102  I-XXII.Todas las causas    Total   
4                       001-102  I-XXII.Todas las causas    Total   
...                                                  ...      ...   
301153  102  Otras causas externas y sus efectos tardíos  Mujeres   
301154  102  Otras causas externas y sus efectos tardíos  Mujeres   
301155  102  Otras causas externas y sus efectos tardíos  Mujeres   
301156  102  Otras causas externas y sus efectos tardíos  Mujeres   
301157  102  Otras causas externas y sus efectos tardíos  Mujeres   

                    Edad  Periodo   Total cause_code      cause_group  \
0       Todas las edades     2018  427721    001-102  Multiple causes   
1       Todas las edades 

In [3]:
# add some columns...you'll need them later

deaths['cause_code'] = deaths['Causa de muerte'].apply(mod.cause_code)
deaths['cause_group'] = deaths['Causa de muerte'].apply(mod.cause_types)
deaths['cause_name'] = deaths['Causa de muerte'].apply(mod.cause_name)

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
 5   cause_code       301158 non-null  object
 6   cause_group      301158 non-null  object
 7   cause_name       301158 non-null  object
dtypes: int64(2), object(6)
memory usage: 18.4+ MB


In [4]:
# lets check the categorical variables

var_list = ['Sexo', 'Edad', 'Periodo', 'cause_code', 'cause_name', 'cause_group']

categories = mod.cat_var(deaths, var_list)
categories

Unnamed: 0,categorical_variable,number_of_possible_values,values
0,cause_code,117,"[001-102, 001-008, 001, 002, 003, 004, 005, 00..."
1,cause_name,117,"[I-XXII.Todas las causas, I.Enfermedades infec..."
2,Periodo,39,"[2018, 2017, 2016, 2015, 2014, 2013, 2012, 201..."
3,Edad,22,"[Todas las edades, Menos de 1 año, De 1 a 4 añ..."
4,Sexo,3,"[Total, Hombres, Mujeres]"
5,cause_group,2,"[Multiple causes, Single cause]"


In [4]:
# we need also to create a causes table for the analysis

causes_table = deaths[['cause_code', 'cause_name']].drop_duplicates().sort_values(by='cause_code').reset_index(drop=True)

causes_table

Unnamed: 0,cause_code,cause_name
0,001,Enfermedades infecciosas intestinales
1,001-008,I.Enfermedades infecciosas y parasitarias
2,001-102,I-XXII.Todas las causas
3,002,Tuberculosis y sus efectos tardíos
4,003,Enfermedad meningocócica
...,...,...
112,098,Suicidio y lesiones autoinfligidas
113,099,Agresiones (homicidio)
114,100,Eventos de intención no determinada
115,101,Complicaciones de la atención médica y quirúrgica


In [5]:
# And some space for free-style Pandas!!! (e.g.: df['column_name'].unique())

deaths['Edad'].unique()

array(['Todas las edades', 'Menos de 1 año', 'De 1 a 4 años',
       'De 5 a 9 años', 'De 10 a 14 años  ', 'De 15 a 19 años  ',
       'De 20 a 24 años', 'De 25 a 29 años', 'De 30 a 34 años',
       'De 35 a 39 años', 'De 40 a 44 años', 'De 45 a 49 años',
       'De 50 a 54 años', 'De 55 a 59 años', 'De 60 a 64 años',
       'De 65 a 69 años', 'De 70 a 74 años  ', 'De 75 a 79 años  ',
       'De 80 a 84 años  ', 'De 85 a 89 años  ', 'De 90 a 94 años  ',
       '95 y más años'], dtype=object)

In [6]:
deaths['Periodo'].unique()

array([2018, 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008,
       2007, 2006, 2005, 2004, 2003, 2002, 2001, 2000, 1999, 1998, 1997,
       1996, 1995, 1994, 1993, 1992, 1991, 1990, 1989, 1988, 1987, 1986,
       1985, 1984, 1983, 1982, 1981, 1980])

## Lets make some transformations

Eventhough the dataset is pretty clean, the information is completely denormalized as you could see. For that matter a collection of methods (functions) are available in order to generate the tables you might need:

- `row_filter(df, cat_var, cat_values)` => Filter rows by any value or group of values in a categorical variable.

- `nrow_filter(df, cat_var, cat_values)` => The same but backwards. 

- `groupby_sum(df, group_vars, agg_var='Total', sort_var='Total')` => Add deaths by a certain variable.

- `pivot_table(df, col, x_axis, value='Total')`=> Make some pivot tables, you might need them...

__NOTE:__ be aware that the filtering methods can perform a filter at a time. Feel free to perform the filter you need in any way you want or feel confortable with.

In [7]:
# Example 1

dataset = mod.row_filter(deaths, 'Sexo', ['Total'])
dataset = mod.row_filter(dataset, 'Edad', ['Todas las edades'])
dataset.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2012,402950,001-102,Multiple causes,I-XXII.Todas las causas


In [8]:
# Example 2

group = ['cause_code','Periodo']
dataset2 = mod.groupby_sum(deaths, group)
dataset2.head()


Unnamed: 0,cause_code,Periodo,Total
0,001-102,2018,1710884
1,001-102,2017,1698092
2,001-102,2015,1690272
3,001-102,2016,1642444
4,001-102,2012,1611800


In [9]:
# Example 3

dataset3 = mod.pivot_table(dataset, 'cause_code', 'Periodo')
dataset3.head()

cause_code,Periodo,001,001-008,001-102,002,003,004,005,006,007,...,093,094,095,096,097,098,099,100,101,102
0,1980,405,3942,289344,1476,502,862,109,0,0,...,1239,358,46,173,4187,1652,374,7,242,24
1,1981,351,3781,293386,1583,414,836,87,0,0,...,1175,300,39,349,4368,1718,321,84,227,52
2,1982,327,3372,286655,1338,310,776,79,0,0,...,1216,239,50,250,4654,1851,307,110,283,13
3,1983,303,3275,302569,1288,268,788,84,0,0,...,1197,366,37,221,4598,2181,390,319,375,14
4,1984,307,3232,299409,1141,241,926,106,0,0,...,1179,311,41,255,3674,2493,453,286,409,19


## ...and finally, show me some insights with Plotly!!!

In [15]:
dataset_column = deaths['cause_name']
dataset_column

0                             I-XXII.Todas las causas
1                             I-XXII.Todas las causas
2                             I-XXII.Todas las causas
3                             I-XXII.Todas las causas
4                             I-XXII.Todas las causas
                             ...                     
301153    Otras causas externas y sus efectos tardíos
301154    Otras causas externas y sus efectos tardíos
301155    Otras causas externas y sus efectos tardíos
301156    Otras causas externas y sus efectos tardíos
301157    Otras causas externas y sus efectos tardíos
Name: cause_name, Length: 301158, dtype: object

In [16]:
deaths['Edad'].unique()

array(['Todas las edades', 'Menos de 1 año', 'De 1 a 4 años',
       'De 5 a 9 años', 'De 10 a 14 años  ', 'De 15 a 19 años  ',
       'De 20 a 24 años', 'De 25 a 29 años', 'De 30 a 34 años',
       'De 35 a 39 años', 'De 40 a 44 años', 'De 45 a 49 años',
       'De 50 a 54 años', 'De 55 a 59 años', 'De 60 a 64 años',
       'De 65 a 69 años', 'De 70 a 74 años  ', 'De 75 a 79 años  ',
       'De 80 a 84 años  ', 'De 85 a 89 años  ', 'De 90 a 94 años  ',
       '95 y más años'], dtype=object)

In [17]:
deaths = deaths[['Causa de muerte', 'Sexo', 'Edad', 'Periodo', 'Total']]
deaths

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830
...,...,...,...,...,...
301153,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1984,0
301154,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1983,0
301155,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1982,0
301156,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1981,0


In [18]:
rango_edades = ['95 y más años']
deaths = deaths[deaths['Edad'].isin(rango_edades)]

deaths

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
819,001-102 I-XXII.Todas las causas,Total,95 y más años,2018,33933
820,001-102 I-XXII.Todas las causas,Total,95 y más años,2017,32302
821,001-102 I-XXII.Todas las causas,Total,95 y más años,2016,28485
822,001-102 I-XXII.Todas las causas,Total,95 y más años,2015,28716
823,001-102 I-XXII.Todas las causas,Total,95 y más años,2014,24763
...,...,...,...,...,...
301153,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1984,0
301154,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1983,0
301155,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1982,0
301156,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1981,0


In [None]:
# Cufflinks histogram
'''
dataset_column.iplot(kind='hist',
                     title='VIZ TITLE',
                     yTitle='AXIS TITLE',
                     xTitle='AXIS TITLE')
'''

In [20]:
dataset3.iplot(kind='bar',
               x='Periodo',
               y ='001',
               title='Muertes por enfermedades infecciosas intestinales',
               yTitle='Nº víctimas',
               xTitle='Periodo')

In [12]:
# Cufflinks bar plot
'''
dataset.iplot(kind='VARIABLE',
                  x='VARIABLE',
                  xTitle='AXIS TITLE',
                  yTitle='AXIS TITLE',
                  title='VIZ TITLE')
'''

"\ndataset.iplot(kind='VARIABLE',\n                  x='VARIABLE',\n                  xTitle='AXIS TITLE',\n                  yTitle='AXIS TITLE',\n                  title='VIZ TITLE')\n"

In [None]:
# Cufflinks line plot
'''
dataset.iplot(kind='line',
                   x='Periodo',
                   xTitle='AXIS TITLE',
                   yTitle='AXIS TITLE',
                   title='VIZ TITLE')
'''

In [None]:
# Cufflinks scatter plot
'''
dataset3.iplot(x='Periodo', 
              y='cause_code', 
              categories='001-008',
              xTitle='AXIS TITLE', 
              yTitle='AXIS TITLE',
              title='VIZ TITLE')
'''