# Deadly Visualizations!!!

![Image](../images/viz_types_portada.png)

## Setup

First we need to create a basic setup which includes:

- Importing the libraries.

- Reading the dataset file (source [Instituto Nacional de Estadística](https://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259942408928&p=1259942408928&pagename=ProductosYServicios%2FPYSLayout)).

- Create a couple of columns and tables for the analysis.

__NOTE:__ some functions were already created in order to help you go through the challenge. However, feel free to perform any code you might need.

In [160]:
# some imports
import sys
sys.path.insert(0, "../modules")
import pandas as pd
import cufflinks as cf
import plotly.express as px
import re
import module as mod # functions are include in module.py.
cf.go_offline()

In [161]:
# read dataset
deaths = pd.read_csv('./data/7947.csv', sep=';', thousands='.')
deaths.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830


In [162]:
deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 5 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 11.5+ MB


In [163]:
# add some columns...you'll need them later
deaths['cause_code'] = deaths['Causa de muerte'].apply(mod.cause_code)
deaths['cause_group'] = deaths['Causa de muerte'].apply(mod.cause_types)
deaths['cause_name'] = deaths['Causa de muerte'].apply(mod.cause_name)
deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
 5   cause_code       301158 non-null  object
 6   cause_group      301158 non-null  object
 7   cause_name       301158 non-null  object
dtypes: int64(2), object(6)
memory usage: 18.4+ MB


In [166]:
deaths

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830,001-102,Multiple causes,I-XXII.Todas las causas
...,...,...,...,...,...,...,...,...
301153,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1984,0,102,Single cause,Otras causas externas y sus efectos tardíos
301154,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1983,0,102,Single cause,Otras causas externas y sus efectos tardíos
301155,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1982,0,102,Single cause,Otras causas externas y sus efectos tardíos
301156,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1981,0,102,Single cause,Otras causas externas y sus efectos tardíos


In [168]:
deaths['cause_name'][deaths['cause_group']=='Multiple causes'].unique()

array(['I-XXII.Todas las causas',
       'I.Enfermedades infecciosas y parasitarias', 'II.Tumores',
       'III.Enfermedades de la sangre y de los órganos hematopoyéticos, y ciertos trastornos que afectan al mecanismo de la inmunidad',
       'IV.Enfermedades endocrinas, nutricionales y metabólicas',
       'V.Trastornos mentales y del comportamiento',
       'VI-VIII.Enfermedades del sistema nervioso y de los órganos de los sentidos',
       'IX.Enfermedades del sistema circulatorio',
       'X.Enfermedades del sistema respiratorio',
       'XI.Enfermedades del sistema digestivo',
       'XIII.Enfermedades del sistema osteomuscular y del tejido conjuntivo',
       'XIV.Enfermedades del sistema genitourinario',
       'XVII.Malformaciones congénitas, deformidades y anomalías cromosómicas',
       'XVIII.Síntomas, signos y hallazgos anormales clínicos y de laboratorio, no clasificados en otra parte',
       'XX.Causas externas de mortalidad'], dtype=object)

In [169]:
# lets check the categorical variables
var_list = ['Sexo', 'Edad', 'Periodo', 'cause_code', 'cause_name', 'cause_group']
categories = mod.cat_var(deaths, var_list)
categories

Unnamed: 0,categorical_variable,number_of_possible_values,values
0,cause_code,117,"[001-102, 001-008, 001, 002, 003, 004, 005, 00..."
1,cause_name,117,"[I-XXII.Todas las causas, I.Enfermedades infec..."
2,Periodo,39,"[2018, 2017, 2016, 2015, 2014, 2013, 2012, 201..."
3,Edad,22,"[Todas las edades, Menos de 1 año, De 1 a 4 añ..."
4,Sexo,3,"[Total, Hombres, Mujeres]"
5,cause_group,2,"[Multiple causes, Single cause]"


In [145]:
# we need also to create a causes table for the analysis
causes_table = deaths[['cause_code', 'cause_name']].drop_duplicates().sort_values(by='cause_code').reset_index(drop=True)
causes_table

Unnamed: 0,cause_code,cause_name
0,001,Enfermedades infecciosas intestinales
1,001-008,I.Enfermedades infecciosas y parasitarias
2,001-102,I-XXII.Todas las causas
3,002,Tuberculosis y sus efectos tardíos
4,003,Enfermedad meningocócica
...,...,...
112,098,Suicidio y lesiones autoinfligidas
113,099,Agresiones (homicidio)
114,100,Eventos de intención no determinada
115,101,Complicaciones de la atención médica y quirúrgica


In [146]:
# And some space for free-style Pandas!!! (e.g.: df['column_name'].unique())
deaths['cause_name'].unique()

array(['I-XXII.Todas las causas',
       'I.Enfermedades infecciosas y parasitarias',
       'Enfermedades infecciosas intestinales',
       'Tuberculosis y sus efectos tardíos', 'Enfermedad meningocócica',
       'Septicemia', 'Hepatitis vírica', 'SIDA',
       'VIH+ (portador, evidencias de laboratorio del VIH, ...)',
       'Resto de enfermedades infecciosas y parasitarias y sus efectos tardíos',
       'II.Tumores',
       'Tumor maligno del labio, de la cavidad bucal y de la faringe',
       'Tumor maligno del esófago', 'Tumor maligno del estómago',
       'Tumor maligno del colon',
       'Tumor maligno del recto, de la porción rectosigmoide y del ano',
       'Tumor maligno del hígado y vías biliares intrahepáticas',
       'Tumor maligno del páncreas', 'Otros tumores malignos digestivos',
       'Tumor maligno de la laringe',
       'Tumor maligno de la tráquea, de los bronquios y del pulmón',
       'Otros tumores malignos respiratorios e intratorácicos',
       'Tumores malig

In [147]:
deaths['Sexo'].unique()

array(['Total', 'Hombres', 'Mujeres'], dtype=object)

In [148]:
deaths['Edad'].unique()
deaths['Periodo'].unique()

array([2018, 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008,
       2007, 2006, 2005, 2004, 2003, 2002, 2001, 2000, 1999, 1998, 1997,
       1996, 1995, 1994, 1993, 1992, 1991, 1990, 1989, 1988, 1987, 1986,
       1985, 1984, 1983, 1982, 1981, 1980])

In [149]:
deaths['Periodo'].unique()

array([2018, 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008,
       2007, 2006, 2005, 2004, 2003, 2002, 2001, 2000, 1999, 1998, 1997,
       1996, 1995, 1994, 1993, 1992, 1991, 1990, 1989, 1988, 1987, 1986,
       1985, 1984, 1983, 1982, 1981, 1980])

## Lets make some transformations

Eventhough the dataset is pretty clean, the information is completely denormalized as you could see. For that matter a collection of methods (functions) are available in order to generate the tables you might need:

- `row_filter(df, cat_var, cat_values)` => Filter rows by any value or group of values in a categorical variable.

- `nrow_filter(df, cat_var, cat_values)` => The same but backwards. 

- `groupby_sum(df, group_vars, agg_var='Total', sort_var='Total')` => Add deaths by a certain variable.

- `pivot_table(df, col, x_axis, value='Total')`=> Make some pivot tables, you might need them...

__NOTE:__ be aware that the filtering methods can perform a filter at a time. Feel free to perform the filter you need in any way you want or feel confortable with.

In [19]:
# Example 1
dataset = mod.row_filter(deaths, 'Sexo', ['Total'])
dataset = mod.row_filter(dataset, 'Edad', ['Todas las edades'])
dataset.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2012,402950,001-102,Multiple causes,I-XXII.Todas las causas


In [27]:
# Example 2
group = ['cause_code','Periodo']
dataset = mod.groupby_sum(deaths, group)
dataset.head()

Unnamed: 0,cause_code,Periodo,Total
0,001-102,2018,1710884
1,001-102,2017,1698092
2,001-102,2015,1690272
3,001-102,2016,1642444
4,001-102,2012,1611800


In [28]:
# Example 3
dataset = mod.pivot_table(dataset, 'cause_code', 'Periodo')
dataset.head()

cause_code,Periodo,001,001-008,001-102,002,003,004,005,006,007,...,093,094,095,096,097,098,099,100,101,102
0,1980,1620,15768,1157376,5904,2008,3448,436,0,0,...,4956,1432,184,692,16748,6608,1496,28,968,96
1,1981,1404,15124,1173544,6332,1656,3344,348,0,0,...,4700,1200,156,1396,17472,6872,1284,336,908,208
2,1982,1308,13488,1146620,5352,1240,3104,316,0,0,...,4864,956,200,1000,18616,7404,1228,440,1132,52
3,1983,1212,13100,1210276,5152,1072,3152,336,0,0,...,4788,1464,148,884,18392,8724,1560,1276,1500,56
4,1984,1228,12928,1197636,4564,964,3704,424,0,0,...,4716,1244,164,1020,14696,9972,1812,1144,1636,76


In [150]:
group = ['Periodo']
dataset = mod.groupby_sum(deaths, group)
dataset.head()

Unnamed: 0,Periodo,Total
0,2018,5122800
1,2017,5084944
2,2015,5061808
3,2016,4918632
4,2012,4826820


## ...and finally, show me some insights with Plotly!!!

Of course, you can always check the [class notes](https://github.com/ih-datapt-mad/dataptmad1121_lessons/tree/main/module-2) for further info. 

In [33]:
dataset_column=deaths['Periodo']

In [44]:
# Cufflinks histogram
'''
dataset_column.iplot(kind='hist',
                     title='VIZ TITLE',
                     yTitle='AXIS TITLE',
                     xTitle='AXIS TITLE')
'''

"\ndataset_column.iplot(kind='hist',\n                     title='VIZ TITLE',\n                     yTitle='AXIS TITLE',\n                     xTitle='AXIS TITLE')\n"

In [45]:
# Cufflinks bar plot
'''
dataset_bar.iplot(kind='bar',
                  x='VARIABLE',
                  xTitle='AXIS TITLE',
                  yTitle='AXIS TITLE',
                  title='VIZ TITLE')
'''

"\ndataset_bar.iplot(kind='bar',\n                  x='VARIABLE',\n                  xTitle='AXIS TITLE',\n                  yTitle='AXIS TITLE',\n                  title='VIZ TITLE')\n"

In [None]:
# Cufflinks line plot
'''
dataset_line.iplot(kind='line',
                   x='VARIABLE',
                   xTitle='AXIS TITLE',
                   yTitle='AXIS TITLE',
                   title='VIZ TITLE')
'''

In [None]:
# Cufflinks scatter plot
'''
dataset_scatter.iplot(x='VARIABLE', 
                      y='VARIABLE', 
                      categories='VARIABLE',
                      xTitle='AXIS TITLE', 
                      yTitle='AXIS TITLE',
                      title='VIZ TITLE')
'''

## Results

In [88]:
deaths.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830


In [89]:
group = ['Causa de muerte']
dataset = mod.groupby_sum(deaths, group)
dataset.head()

Unnamed: 0,Causa de muerte,Total
0,001-102 I-XXII.Todas las causas,55654432
1,053-061 IX.Enfermedades del sistema circulatorio,19605948
2,009-041 II.Tumores,14237728
3,062-067 X.Enfermedades del sistema respiratorio,5943228
4,059 Enfermedades cerebrovasculares,5871364


In [90]:
dataset_bar=dataset[1:]

In [99]:
dataset_bar=dataset_bar.sort_values(['Total'],ascending=False)[:10]
dataset_bar

Unnamed: 0,Causa de muerte,Total
1,053-061 IX.Enfermedades del sistema circulatorio,19605948
2,009-041 II.Tumores,14237728
3,062-067 X.Enfermedades del sistema respiratorio,5943228
4,059 Enfermedades cerebrovasculares,5871364
5,055 Infarto agudo de miocardio,3420648
6,057 Insuficiencia cardíaca,3033372
7,068-072 XI.Enfermedades del sistema digestivo,2946224
8,"018 Tumor maligno de la tráquea, de los bronq...",2624368
9,058 Otras enfermedades del corazón,2579668
10,090-102 XX.Causas externas de mortalidad,2516624


In [101]:
dataset_bar.iplot(kind='bar',
                  x='Causa de muerte',
                  xTitle='Top 10 Causas de la muerte en España',
                  yTitle='Muertes',
                  title='Causas')

## Ejemplo de tumores 

In [102]:
group = ['Causa de muerte','Periodo']
dataset = mod.groupby_sum(deaths, group)
dataset.head()

Unnamed: 0,Causa de muerte,Periodo,Total
0,001-102 I-XXII.Todas las causas,2018,1710884
1,001-102 I-XXII.Todas las causas,2017,1698092
2,001-102 I-XXII.Todas las causas,2015,1690272
3,001-102 I-XXII.Todas las causas,2016,1642444
4,001-102 I-XXII.Todas las causas,2012,1611800


In [105]:
dataset_bar_2=dataset[dataset['Causa de muerte'].str.contains("Tumor") | dataset['Causa de muerte'].str.contains("tumor")  ]

In [106]:
dataset_bar_2

Unnamed: 0,Causa de muerte,Periodo,Total
78,009-041 II.Tumores,2017,453064
79,009-041 II.Tumores,2016,451756
80,009-041 II.Tumores,2018,450856
81,009-041 II.Tumores,2015,445524
82,009-041 II.Tumores,2013,444084
...,...,...,...
4534,038 Tumores in situ,1991,4
4535,038 Tumores in situ,2001,4
4546,038 Tumores in situ,1988,0
4549,038 Tumores in situ,1995,0


In [113]:
group = ['Periodo']
dataset_bar_tumor = mod.groupby_sum(dataset_bar_2, group).sort_values(['Periodo'],ascending=True)
dataset_bar_tumor.head()

Unnamed: 0,Periodo,Total
38,1980,459876
37,1981,468816
36,1982,483268
35,1983,498368
34,1984,523016


In [116]:
dataset_bar_tumor.iplot(kind='bar',
                  x='Periodo',
                  xTitle='Evolución de muertes por tumor en España',
                  yTitle='Muertes',
                  title='Año')

In [119]:
dataset_bar_tumor.iplot(kind='line',
                  x='Periodo',
                  xTitle='Evolución de muertes por tumor en España',
                  yTitle='Muertes',
                  title='Año')

## Análisis demográfico

In [None]:
##más hombres o mujeres??

In [123]:
group = ['Causa de muerte','Sexo']
dataset = mod.groupby_sum(deaths, group)
dataset.head()

Unnamed: 0,Causa de muerte,Sexo,Total
0,001-102 I-XXII.Todas las causas,Total,27827216
1,001-102 I-XXII.Todas las causas,Hombres,14528688
2,001-102 I-XXII.Todas las causas,Mujeres,13298528
3,053-061 IX.Enfermedades del sistema circulatorio,Total,9802974
4,009-041 II.Tumores,Total,7118864


In [124]:
dataset_tumor=dataset[dataset['Causa de muerte'].str.contains("Tumor") | dataset['Causa de muerte'].str.contains("tumor") ]

In [129]:
dataset_tumor=dataset_tumor[dataset_tumor['Sexo']!='Total']
dataset_tumor

Unnamed: 0,Causa de muerte,Sexo,Total
7,009-041 II.Tumores,Hombres,4371186
10,009-041 II.Tumores,Mujeres,2747678
21,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,1131650
65,023 Tumor maligno de la mama,Mujeres,434002
68,028 Tumor maligno de la próstata,Hombres,390814
...,...,...,...
346,029 Tumores malignos de otros órganos genital...,Mujeres,0
347,028 Tumor maligno de la próstata,Mujeres,0
348,024 Tumor maligno del cuello del útero,Hombres,0
349,025 Tumor maligno de otras partes del útero,Hombres,0


In [133]:
group = ['Sexo']
dataset_tumor_vis = mod.groupby_sum(dataset_tumor, group)
dataset.head()

Unnamed: 0,Sexo,Total
0,Hombres,8568644
1,Mujeres,5358530


In [136]:
dataset_tumor_vis.iplot(kind='bar',
                  x='Sexo',
                  xTitle='Muertes por tumor en España por sexo',
                  yTitle='Muertes',
                  title='Sexo')

In [None]:
cat_var(df, cols)
cause_types(cause)

In [153]:
# Setup methods
mod.cause_types(deaths['Causa de muerte'])

TypeError: expected string or bytes-like object

## Deaths by year

In [172]:
deaths

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830,001-102,Multiple causes,I-XXII.Todas las causas
...,...,...,...,...,...,...,...,...
301153,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1984,0,102,Single cause,Otras causas externas y sus efectos tardíos
301154,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1983,0,102,Single cause,Otras causas externas y sus efectos tardíos
301155,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1982,0,102,Single cause,Otras causas externas y sus efectos tardíos
301156,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1981,0,102,Single cause,Otras causas externas y sus efectos tardíos


In [179]:
#taking only totals
dataset_deathts_year = mod.row_filter(deaths, 'cause_name', ['I-XXII.Todas las causas'])
dataset_deathts_year = mod.row_filter(dataset_deathts_year, 'Sexo', ['Total'])
dataset_deathts_year = mod.row_filter(dataset_deathts_year, 'Edad', ['Todas las edades'])
dataset_deathts_year

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2012,402950,001-102,Multiple causes,I-XXII.Todas las causas
5,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830,001-102,Multiple causes,I-XXII.Todas las causas
6,001-102 I-XXII.Todas las causas,Total,Todas las edades,2013,390419,001-102,Multiple causes,I-XXII.Todas las causas
7,001-102 I-XXII.Todas las causas,Total,Todas las edades,2011,387911,001-102,Multiple causes,I-XXII.Todas las causas
8,001-102 I-XXII.Todas las causas,Total,Todas las edades,2005,387355,001-102,Multiple causes,I-XXII.Todas las causas
9,001-102 I-XXII.Todas las causas,Total,Todas las edades,2008,386324,001-102,Multiple causes,I-XXII.Todas las causas


In [182]:
#check year is unique
len(dataset_deathts_year['Periodo'].unique())

39

In [186]:
#group by 
group = ['Periodo']
dataset_deathts_year_count = mod.groupby_sum(dataset_deathts_year, group)
dataset_deathts_year_count

Unnamed: 0,Periodo,Total
0,2018,427721
1,2017,424523
2,2015,422568
3,2016,410611
4,2012,402950
5,2014,395830
6,2013,390419
7,2011,387911
8,2005,387355
9,2008,386324


In [196]:
# vis
dataset_deathts_year_count.iplot(kind='line',
                  x='Periodo',
                  xTitle='Evolución de muertes en España',
                  yTitle='Muertes',
                  title='Año')

In [197]:
dataset_deathts_year_count.iplot(kind='bar',
                  x='Periodo',
                  xTitle='Evolución de muertes en España',
                  yTitle='Muertes',
                  title='Año')

In [199]:
dataset_deathts_year_count['Total'].sum()

13913608

## Top ten causes

In [191]:
deaths

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830,001-102,Multiple causes,I-XXII.Todas las causas
...,...,...,...,...,...,...,...,...
301153,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1984,0,102,Single cause,Otras causas externas y sus efectos tardíos
301154,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1983,0,102,Single cause,Otras causas externas y sus efectos tardíos
301155,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1982,0,102,Single cause,Otras causas externas y sus efectos tardíos
301156,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1981,0,102,Single cause,Otras causas externas y sus efectos tardíos


In [192]:
deaths['cause_group'].unique()

array(['Multiple causes', 'Single cause'], dtype=object)

In [193]:
#taking only totals
dataset_causes = mod.row_filter(deaths, 'cause_group', ['Multiple causes'])
dataset_causes = mod.row_filter(dataset_causes, 'Sexo', ['Total'])
dataset_causes = mod.row_filter(dataset_causes, 'Edad', ['Todas las edades'])
dataset_causes

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2012,402950,001-102,Multiple causes,I-XXII.Todas las causas
...,...,...,...,...,...,...,...,...
580,042-043 III.Enfermedades de la sangre y de lo...,Total,Todas las edades,1982,659,042-043,Multiple causes,III.Enfermedades de la sangre y de los órganos...
581,074-076 XIII.Enfermedades del sistema osteomu...,Total,Todas las edades,1980,611,074-076,Multiple causes,XIII.Enfermedades del sistema osteomuscular y ...
582,074-076 XIII.Enfermedades del sistema osteomu...,Total,Todas las edades,1983,587,074-076,Multiple causes,XIII.Enfermedades del sistema osteomuscular y ...
583,074-076 XIII.Enfermedades del sistema osteomu...,Total,Todas las edades,1982,538,074-076,Multiple causes,XIII.Enfermedades del sistema osteomuscular y ...


In [195]:
#group by 
group = ['Causa de muerte']
dataset_deathts_causa = mod.groupby_sum(dataset_causes, group)[1:]
dataset_deathts_causa

Unnamed: 0,Causa de muerte,Total
1,053-061 IX.Enfermedades del sistema circulatorio,4901487
2,009-041 II.Tumores,3559432
3,062-067 X.Enfermedades del sistema respiratorio,1485807
4,068-072 XI.Enfermedades del sistema digestivo,736556
5,090-102 XX.Causas externas de mortalidad,629156
6,050-052 VI-VIII.Enfermedades del sistema nerv...,458060
7,"044-045 IV.Enfermedades endocrinas, nutricion...",433540
8,"086-089 XVIII.Síntomas, signos y hallazgos an...",431829
9,046-049 V.Trastornos mentales y del comportam...,402868
10,077-080 XIV.Enfermedades del sistema genitour...,334786


In [198]:
dataset_deathts_causa.iplot(kind='bar',
                  x='Causa de muerte',
                  xTitle='Muertes totales por Causa',
                  yTitle='Muertes',
                  title='Año')

In [200]:
dataset_deathts_causa['Total'].sum()

13833170