# Deadly Visualizations!!!

![Image](../images/viz_types_portada.png)

## Setup

First we need to create a basic setup which includes:

- Importing the libraries.

- Reading the dataset file (source [Instituto Nacional de Estadística](https://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259942408928&p=1259942408928&pagename=ProductosYServicios%2FPYSLayout)).

- Create a couple of columns and tables for the analysis.

__NOTE:__ some functions were already created in order to help you go through the challenge. However, feel free to perform any code you might need.

In [120]:
# some imports
import sys
sys.path.insert(0, "../modules")
import pandas as pd
import cufflinks as cf
import plotly.express as px
import re
import module as mod # functions are include in module.py.
cf.go_offline()

In [121]:
# read dataset
deaths = pd.read_csv('./data/7947.csv', sep=';', thousands='.')
deaths

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830
...,...,...,...,...,...
301153,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1984,0
301154,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1983,0
301155,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1982,0
301156,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1981,0


In [122]:
deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 5 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 11.5+ MB


In [123]:
# add some columns...you'll need them later
deaths['cause_code'] = deaths['Causa de muerte'].apply(mod.cause_code)
deaths['cause_group'] = deaths['Causa de muerte'].apply(mod.cause_types)
deaths['cause_name'] = deaths['Causa de muerte'].apply(mod.cause_name)
deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
 5   cause_code       301158 non-null  object
 6   cause_group      301158 non-null  object
 7   cause_name       301158 non-null  object
dtypes: int64(2), object(6)
memory usage: 18.4+ MB


In [124]:
deaths.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830,001-102,Multiple causes,I-XXII.Todas las causas


In [65]:
deaths['cause_name'][deaths['cause_group']=='Multiple causes'].unique()

array(['I-XXII.Todas las causas',
       'I.Enfermedades infecciosas y parasitarias', 'II.Tumores',
       'III.Enfermedades de la sangre y de los órganos hematopoyéticos, y ciertos trastornos que afectan al mecanismo de la inmunidad',
       'IV.Enfermedades endocrinas, nutricionales y metabólicas',
       'V.Trastornos mentales y del comportamiento',
       'VI-VIII.Enfermedades del sistema nervioso y de los órganos de los sentidos',
       'IX.Enfermedades del sistema circulatorio',
       'X.Enfermedades del sistema respiratorio',
       'XI.Enfermedades del sistema digestivo',
       'XIII.Enfermedades del sistema osteomuscular y del tejido conjuntivo',
       'XIV.Enfermedades del sistema genitourinario',
       'XVII.Malformaciones congénitas, deformidades y anomalías cromosómicas',
       'XVIII.Síntomas, signos y hallazgos anormales clínicos y de laboratorio, no clasificados en otra parte',
       'XX.Causas externas de mortalidad'], dtype=object)

In [66]:
# lets check the categorical variables
var_list = ['Sexo', 'Edad', 'Periodo', 'cause_code', 'cause_name', 'cause_group']
categories = mod.cat_var(deaths, var_list)
categories

Unnamed: 0,categorical_variable,number_of_possible_values,values
0,cause_code,117,"[001-102, 001-008, 001, 002, 003, 004, 005, 00..."
1,cause_name,117,"[I-XXII.Todas las causas, I.Enfermedades infec..."
2,Periodo,39,"[2018, 2017, 2016, 2015, 2014, 2013, 2012, 201..."
3,Edad,22,"[Todas las edades, Menos de 1 año, De 1 a 4 añ..."
4,Sexo,3,"[Total, Hombres, Mujeres]"
5,cause_group,2,"[Multiple causes, Single cause]"


In [67]:
# we need also to create a causes table for the analysis
causes_table = deaths[['cause_code', 'cause_name']].drop_duplicates().sort_values(by='cause_code').reset_index(drop=True)
causes_table

Unnamed: 0,cause_code,cause_name
0,001,Enfermedades infecciosas intestinales
1,001-008,I.Enfermedades infecciosas y parasitarias
2,001-102,I-XXII.Todas las causas
3,002,Tuberculosis y sus efectos tardíos
4,003,Enfermedad meningocócica
...,...,...
112,098,Suicidio y lesiones autoinfligidas
113,099,Agresiones (homicidio)
114,100,Eventos de intención no determinada
115,101,Complicaciones de la atención médica y quirúrgica


In [68]:
# And some space for free-style Pandas!!! (e.g.: df['column_name'].unique())
deaths['cause_name'].unique()

array(['I-XXII.Todas las causas',
       'I.Enfermedades infecciosas y parasitarias',
       'Enfermedades infecciosas intestinales',
       'Tuberculosis y sus efectos tardíos', 'Enfermedad meningocócica',
       'Septicemia', 'Hepatitis vírica', 'SIDA',
       'VIH+ (portador, evidencias de laboratorio del VIH, ...)',
       'Resto de enfermedades infecciosas y parasitarias y sus efectos tardíos',
       'II.Tumores',
       'Tumor maligno del labio, de la cavidad bucal y de la faringe',
       'Tumor maligno del esófago', 'Tumor maligno del estómago',
       'Tumor maligno del colon',
       'Tumor maligno del recto, de la porción rectosigmoide y del ano',
       'Tumor maligno del hígado y vías biliares intrahepáticas',
       'Tumor maligno del páncreas', 'Otros tumores malignos digestivos',
       'Tumor maligno de la laringe',
       'Tumor maligno de la tráquea, de los bronquios y del pulmón',
       'Otros tumores malignos respiratorios e intratorácicos',
       'Tumores malig

In [69]:
deaths['Sexo'].unique()

array(['Total', 'Hombres', 'Mujeres'], dtype=object)

In [70]:
deaths['Edad'].unique()

array(['Todas las edades', 'Menos de 1 año', 'De 1 a 4 años',
       'De 5 a 9 años', 'De 10 a 14 años  ', 'De 15 a 19 años  ',
       'De 20 a 24 años', 'De 25 a 29 años', 'De 30 a 34 años',
       'De 35 a 39 años', 'De 40 a 44 años', 'De 45 a 49 años',
       'De 50 a 54 años', 'De 55 a 59 años', 'De 60 a 64 años',
       'De 65 a 69 años', 'De 70 a 74 años  ', 'De 75 a 79 años  ',
       'De 80 a 84 años  ', 'De 85 a 89 años  ', 'De 90 a 94 años  ',
       '95 y más años'], dtype=object)

In [71]:
deaths['Periodo'].unique()

array([2018, 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008,
       2007, 2006, 2005, 2004, 2003, 2002, 2001, 2000, 1999, 1998, 1997,
       1996, 1995, 1994, 1993, 1992, 1991, 1990, 1989, 1988, 1987, 1986,
       1985, 1984, 1983, 1982, 1981, 1980])

## Lets make some transformations

Eventhough the dataset is pretty clean, the information is completely denormalized as you could see. For that matter a collection of methods (functions) are available in order to generate the tables you might need:

- `row_filter(df, cat_var, cat_values)` => Filter rows by any value or group of values in a categorical variable.

- `nrow_filter(df, cat_var, cat_values)` => The same but backwards. 

- `groupby_sum(df, group_vars, agg_var='Total', sort_var='Total')` => Add deaths by a certain variable.

- `pivot_table(df, col, x_axis, value='Total')`=> Make some pivot tables, you might need them...

__NOTE:__ be aware that the filtering methods can perform a filter at a time. Feel free to perform the filter you need in any way you want or feel confortable with.

In [72]:
# Example 1
dataset = mod.row_filter(deaths, 'Sexo', ['Total'])
dataset = mod.row_filter(dataset, 'Edad', ['Todas las edades'])
dataset.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2012,402950,001-102,Multiple causes,I-XXII.Todas las causas


In [73]:
# Example 2
group = ['cause_code','Periodo']
dataset = mod.groupby_sum(deaths, group)
dataset.head()

Unnamed: 0,cause_code,Periodo,Total
0,001-102,2018,1710884
1,001-102,2017,1698092
2,001-102,2015,1690272
3,001-102,2016,1642444
4,001-102,2012,1611800


In [74]:
# Example 3
dataset = mod.pivot_table(dataset, 'cause_code', 'Periodo')
dataset.head()

cause_code,Periodo,001,001-008,001-102,002,003,004,005,006,007,...,093,094,095,096,097,098,099,100,101,102
0,1980,1620,15768,1157376,5904,2008,3448,436,0,0,...,4956,1432,184,692,16748,6608,1496,28,968,96
1,1981,1404,15124,1173544,6332,1656,3344,348,0,0,...,4700,1200,156,1396,17472,6872,1284,336,908,208
2,1982,1308,13488,1146620,5352,1240,3104,316,0,0,...,4864,956,200,1000,18616,7404,1228,440,1132,52
3,1983,1212,13100,1210276,5152,1072,3152,336,0,0,...,4788,1464,148,884,18392,8724,1560,1276,1500,56
4,1984,1228,12928,1197636,4564,964,3704,424,0,0,...,4716,1244,164,1020,14696,9972,1812,1144,1636,76


In [75]:
group = ['Periodo']
dataset = mod.groupby_sum(deaths, group)
dataset.head()

Unnamed: 0,Periodo,Total
0,2018,5122800
1,2017,5084944
2,2015,5061808
3,2016,4918632
4,2012,4826820


## ...and finally, show me some insights with Plotly!!!

Of course, you can always check the [class notes](https://github.com/ih-datapt-mad/dataptmad1121_lessons/tree/main/module-2) for further info. 

In [76]:
dataset_column=deaths['Periodo']

In [77]:
# Cufflinks histogram
'''
dataset_column.iplot(kind='hist',
                     title='VIZ TITLE',
                     yTitle='AXIS TITLE',
                     xTitle='AXIS TITLE')
'''

"\ndataset_column.iplot(kind='hist',\n                     title='VIZ TITLE',\n                     yTitle='AXIS TITLE',\n                     xTitle='AXIS TITLE')\n"

In [78]:
# Cufflinks bar plot
'''
dataset_bar.iplot(kind='bar',
                  x='VARIABLE',
                  xTitle='AXIS TITLE',
                  yTitle='AXIS TITLE',
                  title='VIZ TITLE')
'''

"\ndataset_bar.iplot(kind='bar',\n                  x='VARIABLE',\n                  xTitle='AXIS TITLE',\n                  yTitle='AXIS TITLE',\n                  title='VIZ TITLE')\n"

In [79]:
# Cufflinks line plot
'''
dataset_line.iplot(kind='line',
                   x='VARIABLE',
                   xTitle='AXIS TITLE',
                   yTitle='AXIS TITLE',
                   title='VIZ TITLE')
'''

"\ndataset_line.iplot(kind='line',\n                   x='VARIABLE',\n                   xTitle='AXIS TITLE',\n                   yTitle='AXIS TITLE',\n                   title='VIZ TITLE')\n"

In [80]:
# Cufflinks scatter plot
'''
dataset_scatter.iplot(x='VARIABLE', 
                      y='VARIABLE', 
                      categories='VARIABLE',
                      xTitle='AXIS TITLE', 
                      yTitle='AXIS TITLE',
                      title='VIZ TITLE')
'''

"\ndataset_scatter.iplot(x='VARIABLE', \n                      y='VARIABLE', \n                      categories='VARIABLE',\n                      xTitle='AXIS TITLE', \n                      yTitle='AXIS TITLE',\n                      title='VIZ TITLE')\n"

## Results

The causes of death in Spain - number of detahs by cause

In [102]:
#taking only totals and excluding all deaths
dataset_deathts_causes = mod.row_filter(deaths, 'Sexo', ['Total'])
dataset_deathts_causes = mod.row_filter(dataset_deathts_causes, 'Edad', ['Todas las edades'])
dataset_deathts_causes = dataset_deathts_causes[~dataset_deathts_causes['cause_name'].isin(['I-XXII.Todas las causas'])]
dataset_deathts_causes = mod.row_filter(dataset_deathts_causes, 'cause_group', ['Multiple causes'])
dataset_deathts_causes.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,053-061 IX.Enfermedades del sistema circulatorio,Total,Todas las edades,1991,132439,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
1,053-061 IX.Enfermedades del sistema circulatorio,Total,Todas las edades,1999,131774,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
2,053-061 IX.Enfermedades del sistema circulatorio,Total,Todas las edades,1998,131628,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
3,053-061 IX.Enfermedades del sistema circulatorio,Total,Todas las edades,1985,131198,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
4,053-061 IX.Enfermedades del sistema circulatorio,Total,Todas las edades,1983,130531,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio


In [103]:
#group by 
group = ['cause_name']
dataset_deathts_causes_count = mod.groupby_sum(dataset_deathts_causes, group)
dataset_deathts_causes_count

Unnamed: 0,cause_name,Total
0,IX.Enfermedades del sistema circulatorio,4901487
1,II.Tumores,3559432
2,X.Enfermedades del sistema respiratorio,1485807
3,XI.Enfermedades del sistema digestivo,736556
4,XX.Causas externas de mortalidad,629156
5,VI-VIII.Enfermedades del sistema nervioso y de...,458060
6,"IV.Enfermedades endocrinas, nutricionales y me...",433540
7,"XVIII.Síntomas, signos y hallazgos anormales c...",431829
8,V.Trastornos mentales y del comportamiento,402868
9,XIV.Enfermedades del sistema genitourinario,334786


In [104]:
dataset_deathts_causes_count.iplot(kind='bar',
                  x='cause_name',
                  xTitle='Number of deaths by cause',
                  yTitle='deaths',
                  title='cause')

## Deaths by year

https://github.com/ih-datapt-mad/deadly_viz_challenge

In [87]:
deaths.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830,001-102,Multiple causes,I-XXII.Todas las causas


In [89]:
#taking only totals
dataset_deathts_year = mod.row_filter(deaths, 'cause_name', ['I-XXII.Todas las causas'])
dataset_deathts_year = mod.row_filter(dataset_deathts_year, 'Sexo', ['Total'])
dataset_deathts_year = mod.row_filter(dataset_deathts_year, 'Edad', ['Todas las edades'])
dataset_deathts_year.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2012,402950,001-102,Multiple causes,I-XXII.Todas las causas


In [90]:
#check year is unique
len(dataset_deathts_year['Periodo'].unique())

39

In [91]:
#group by 
group = ['Periodo']
dataset_deathts_year_count = mod.groupby_sum(dataset_deathts_year, group)
dataset_deathts_year_count

Unnamed: 0,Periodo,Total
0,2018,427721
1,2017,424523
2,2015,422568
3,2016,410611
4,2012,402950
5,2014,395830
6,2013,390419
7,2011,387911
8,2005,387355
9,2008,386324


In [92]:
# vis
dataset_deathts_year_count.iplot(kind='line',
                  x='Periodo',
                  xTitle='Evolución de muertes en España',
                  yTitle='Muertes',
                  title='Año')

In [93]:
dataset_deathts_year_count.iplot(kind='bar',
                  x='Periodo',
                  xTitle='Evolución de muertes en España',
                  yTitle='Muertes',
                  title='Año')

In [94]:
dataset_deathts_year_count['Total'].sum()

13913608

## ¿Cuál es el % de muertes para hombre y mujeres a causa del cancer que más personas ha matado cada año?

In [196]:
#total de muertes por año
deaths.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Total,Todas las edades,2018,427721,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Total,Todas las edades,2017,424523,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Total,Todas las edades,2016,410611,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Total,Todas las edades,2015,422568,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Total,Todas las edades,2014,395830,001-102,Multiple causes,I-XXII.Todas las causas


In [197]:
#taking only totals
dataset_deathts_year_sex = mod.row_filter(deaths, 'cause_name', ['I-XXII.Todas las causas'])
dataset_deathts_year_sex = mod.row_filter(dataset_deathts_year_sex, 'Edad', ['Todas las edades'])
dataset_deathts_year_sex = dataset_deathts_year_sex[dataset_deathts_year_sex['Sexo']!='Total']
dataset_deathts_year_sex.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
39,001-102 I-XXII.Todas las causas,Hombres,Todas las edades,2018,216442,001-102,Multiple causes,I-XXII.Todas las causas
40,001-102 I-XXII.Todas las causas,Hombres,Todas las edades,2017,214236,001-102,Multiple causes,I-XXII.Todas las causas
41,001-102 I-XXII.Todas las causas,Hombres,Todas las edades,2015,213309,001-102,Multiple causes,I-XXII.Todas las causas
42,001-102 I-XXII.Todas las causas,Mujeres,Todas las edades,2018,211279,001-102,Multiple causes,I-XXII.Todas las causas
43,001-102 I-XXII.Todas las causas,Mujeres,Todas las edades,2017,210287,001-102,Multiple causes,I-XXII.Todas las causas


In [198]:
#group by 
group = ['Periodo','Sexo']
dataset_deathts_year_sex_count = mod.groupby_sum(dataset_deathts_year_sex, group)
dataset_deathts_year_sex_count

Unnamed: 0,Periodo,Sexo,Total
0,2018,Hombres,216442
1,2017,Hombres,214236
2,2015,Hombres,213309
3,2018,Mujeres,211279
4,2017,Mujeres,210287
...,...,...,...
73,1983,Mujeres,144194
74,1984,Mujeres,140894
75,1981,Mujeres,138949
76,1980,Mujeres,137119


In [199]:
#filtrando solo por cancer
deaths_cancer=mod.row_filter(deaths, 'cause_group', ['Single cause']) 
deaths_cancer=deaths_cancer[deaths_cancer['cause_name'].str.contains("Tumores malignos")|deaths_cancer['cause_name'].str.contains("Tumor maligno")|deaths_cancer['cause_name'].str.contains("Otros tumores malignos")]

In [200]:
#taking only totals and excluding all deaths
deaths_cancer = mod.row_filter(deaths_cancer, 'Edad', ['Todas las edades'])
deaths_cancer = deaths_cancer[deaths_cancer['Sexo']!='Total']
deaths_cancer.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
18,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2012,17683,18,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
19,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2016,17624,18,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
20,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2013,17577,18,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
21,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2011,17512,18,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."
24,"018 Tumor maligno de la tráquea, de los bronq...",Hombres,Todas las edades,2010,17303,18,Single cause,"Tumor maligno de la tráquea, de los bronquios ..."


In [201]:
#group by 
deaths_cancer_count=deaths_cancer.groupby(['Periodo','Sexo'], as_index=False).agg({'Total':'max'})
deaths_cancer_count=deaths_cancer_count.rename(columns = {'Total': 'Total by max cause'})
deaths_cancer_count

Unnamed: 0,Periodo,Sexo,Total by max cause
0,1980,Hombres,7597
1,1980,Mujeres,3629
2,1981,Hombres,8329
3,1981,Mujeres,3644
4,1982,Hombres,8664
...,...,...,...
73,2016,Mujeres,6385
74,2017,Hombres,17268
75,2017,Mujeres,6489
76,2018,Hombres,17194


In [202]:
#mergeing bot dataframes
final_deaths_cancer=deaths_cancer_count.merge(dataset_deathts_year_sex_count, on=['Periodo','Sexo'], how='inner')
final_deaths_cancer

Unnamed: 0,Periodo,Sexo,Total by max cause,Total
0,1980,Hombres,7597,152225
1,1980,Mujeres,3629,137119
2,1981,Hombres,8329,154437
3,1981,Mujeres,3644,138949
4,1982,Hombres,8664,151048
...,...,...,...,...
73,2016,Mujeres,6385,201618
74,2017,Hombres,17268,214236
75,2017,Mujeres,6489,210287
76,2018,Hombres,17194,216442


In [204]:
final_deaths_cancer['Percentage']=final_deaths_cancer['Total by max cause']/final_deaths_cancer['Total']*100
final_deaths_cancer

Unnamed: 0,Periodo,Sexo,Total by max cause,Total,Percentage
0,1980,Hombres,7597,152225,4.990639
1,1980,Mujeres,3629,137119,2.646606
2,1981,Hombres,8329,154437,5.393138
3,1981,Mujeres,3644,138949,2.622545
4,1982,Hombres,8664,151048,5.735925
...,...,...,...,...,...
73,2016,Mujeres,6385,201618,3.166880
74,2017,Hombres,17268,214236,8.060270
75,2017,Mujeres,6489,210287,3.085783
76,2018,Hombres,17194,216442,7.943930


In [207]:
final_deaths_cancer_women=final_deaths_cancer[final_deaths_cancer['Sexo']=='Mujeres']
final_deaths_cancer_women=final_deaths_cancer_women[['Periodo','Percentage']]
final_deaths_cancer_women.head()

Unnamed: 0,Periodo,Percentage
1,1980,2.646606
3,1981,2.622545
5,1982,2.878907
7,1983,2.756703
9,1984,3.002967


In [206]:
final_deaths_cancer_women.iplot(kind='bar',
                  x='Periodo',
                  xTitle='Women',
                  yTitle='Muertes',
                  title='Año')

In [209]:
final_deaths_cancer_men=final_deaths_cancer[final_deaths_cancer['Sexo']=='Hombres']
final_deaths_cancer_men=final_deaths_cancer_men[['Periodo','Percentage']]
final_deaths_cancer_men.head()

Unnamed: 0,Periodo,Percentage
0,1980,4.990639
2,1981,5.393138
4,1982,5.735925
6,1983,5.72944
8,1984,6.164085


In [210]:
final_deaths_cancer_women.iplot(kind='bar',
                  x='Periodo',
                  xTitle='Men',
                  yTitle='Muertes',
                  title='Año')