# Deadly Visualizations!!!

![Image](../images/viz_types_portada.png)

## Setup

First we need to create a basic setup which includes:

- Importing the libraries.

- Reading the dataset file (source [Instituto Nacional de Estadística](https://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259942408928&p=1259942408928&pagename=ProductosYServicios%2FPYSLayout)).

- Create a couple of columns and tables for the analysis.

__NOTE:__ some functions were already created in order to help you go through the challenge. However, feel free to perform any code you might need.

In [1]:
# imports

import sys
import re
sys.path.insert(0, "../modules")

import numpy as np
import pandas as pd

import plotly.express as px
import cufflinks as cf
cf.go_offline()
import plotly.graph_objs as go

import module as mod     # functions are include in module.py

In [2]:
#!pip install plotly

In [3]:
#!pip install cufflinks

In [4]:
# read dataset

deaths = pd.read_csv('../data/7947.csv', sep=';', thousands='.')

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 5 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
dtypes: int64(2), object(3)
memory usage: 11.5+ MB


In [5]:
# add some columns...you'll need them later

deaths['cause_code'] = deaths['Causa de muerte'].apply(mod.cause_code)
deaths['cause_group'] = deaths['Causa de muerte'].apply(mod.cause_types)
deaths['cause_name'] = deaths['Causa de muerte'].apply(mod.cause_name)

deaths.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301158 entries, 0 to 301157
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Causa de muerte  301158 non-null  object
 1   Sexo             301158 non-null  object
 2   Edad             301158 non-null  object
 3   Periodo          301158 non-null  int64 
 4   Total            301158 non-null  int64 
 5   cause_code       301158 non-null  object
 6   cause_group      301158 non-null  object
 7   cause_name       301158 non-null  object
dtypes: int64(2), object(6)
memory usage: 18.4+ MB


In [6]:
# lets check the categorical variables

var_list = ['Sexo', 'Edad', 'Periodo', 'cause_code', 'cause_name', 'cause_group']

categories = mod.cat_var(deaths, var_list)
categories

Unnamed: 0,categorical_variable,number_of_possible_values,values
0,cause_code,117,"[001-102, 001-008, 001, 002, 003, 004, 005, 00..."
1,cause_name,117,"[I-XXII.Todas las causas, I.Enfermedades infec..."
2,Periodo,39,"[2018, 2017, 2016, 2015, 2014, 2013, 2012, 201..."
3,Edad,22,"[Todas las edades, Menos de 1 año, De 1 a 4 añ..."
4,Sexo,3,"[Total, Hombres, Mujeres]"
5,cause_group,2,"[Multiple causes, Single cause]"


In [7]:
# we need also to create a causes table for the analysis

causes_table = deaths[['cause_code', 'cause_name']].drop_duplicates().sort_values(by='cause_code').reset_index(drop=True)

causes_table

Unnamed: 0,cause_code,cause_name
0,001,Enfermedades infecciosas intestinales
1,001-008,I.Enfermedades infecciosas y parasitarias
2,001-102,I-XXII.Todas las causas
3,002,Tuberculosis y sus efectos tardíos
4,003,Enfermedad meningocócica
...,...,...
112,098,Suicidio y lesiones autoinfligidas
113,099,Agresiones (homicidio)
114,100,Eventos de intención no determinada
115,101,Complicaciones de la atención médica y quirúrgica


In [8]:
deaths.tail(5)

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
301153,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1984,0,102,Single cause,Otras causas externas y sus efectos tardíos
301154,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1983,0,102,Single cause,Otras causas externas y sus efectos tardíos
301155,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1982,0,102,Single cause,Otras causas externas y sus efectos tardíos
301156,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1981,0,102,Single cause,Otras causas externas y sus efectos tardíos
301157,102 Otras causas externas y sus efectos tardíos,Mujeres,95 y más años,1980,0,102,Single cause,Otras causas externas y sus efectos tardíos


In [9]:
# And some space for free-style Pandas!!! (e.g.: df['column_name'].unique())

len(deaths['Edad'].unique())

22

In [10]:
deaths['Edad'].unique()


array(['Todas las edades', 'Menos de 1 año', 'De 1 a 4 años',
       'De 5 a 9 años', 'De 10 a 14 años  ', 'De 15 a 19 años  ',
       'De 20 a 24 años', 'De 25 a 29 años', 'De 30 a 34 años',
       'De 35 a 39 años', 'De 40 a 44 años', 'De 45 a 49 años',
       'De 50 a 54 años', 'De 55 a 59 años', 'De 60 a 64 años',
       'De 65 a 69 años', 'De 70 a 74 años  ', 'De 75 a 79 años  ',
       'De 80 a 84 años  ', 'De 85 a 89 años  ', 'De 90 a 94 años  ',
       '95 y más años'], dtype=object)

In [11]:
deaths['Total'].unique()

array([427721, 424523, 410611, ...,   3037,   2666,   2676])

In [12]:
deaths['Causa de muerte'].unique()

array(['001-102  I-XXII.Todas las causas',
       '001-008  I.Enfermedades infecciosas y parasitarias',
       '001  Enfermedades infecciosas intestinales',
       '002  Tuberculosis y sus efectos tardíos',
       '003  Enfermedad meningocócica', '004  Septicemia',
       '005  Hepatitis vírica', '006  SIDA',
       '007  VIH+ (portador, evidencias de laboratorio del VIH, ...)',
       '008  Resto de enfermedades infecciosas y parasitarias y sus efectos tardíos',
       '009-041  II.Tumores',
       '009  Tumor maligno del labio, de la cavidad bucal y de la faringe',
       '010  Tumor maligno del esófago',
       '011  Tumor maligno del estómago', '012  Tumor maligno del colon',
       '013  Tumor maligno del recto, de la porción rectosigmoide y del ano',
       '014  Tumor maligno del hígado y vías biliares intrahepáticas',
       '015  Tumor maligno del páncreas',
       '016  Otros tumores malignos digestivos',
       '017  Tumor maligno de la laringe',
       '018  Tumor maligno d

In [13]:
len(deaths['Total'].unique())

9002

## Lets make some transformations

Eventhough the dataset is pretty clean, the information is completely denormalized as you could see. For that matter a collection of methods (functions) are available in order to generate the tables you might need:

- `row_filter(df, cat_var, cat_values)` => Filter rows by any value or group of values in a categorical variable.

- `nrow_filter(df, cat_var, cat_values)` => The same but backwards. 

- `groupby_sum(df, group_vars, agg_var='Total', sort_var='Total')` => Add deaths by a certain variable.

- `pivot_table(df, col, x_axis, value='Total')`=> Make some pivot tables, you might need them...

__NOTE:__ be aware that the filtering methods can perform a filter at a time. Feel free to perform the filter you need in any way you want or feel confortable with.

In [14]:
# Example 1
'''
dataset = mod.row_filter(deaths, 'Sexo', ['Total'])
dataset = mod.row_filter(dataset, 'Edad', ['Todas las edades'])
dataset.head()
'''

"\ndataset = mod.row_filter(deaths, 'Sexo', ['Total'])\ndataset = mod.row_filter(dataset, 'Edad', ['Todas las edades'])\ndataset.head()\n"

In [15]:
#LIMPIO DATA SET: filtro género(solo hombres y mujeres) y edad(suprimo todas las edades)
#DF QUE TENEMOS:
#dataset = CON EDAD Y SEXO FILTRADOS
#dataset_causes_fil2 = EDAD, SEXO Y CAUSAS DE MUERTE
dataset = mod.row_filter(deaths, 'Sexo', ['Hombres', 'Mujeres'])
dataset = mod.nrow_filter(dataset, 'Edad', ['Todas las edades'])
#dataset = mod.nrow_filter(dataset, 'Total', [0])
dataset

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
0,001-102 I-XXII.Todas las causas,Mujeres,De 85 a 89 años,2018,51373,001-102,Multiple causes,I-XXII.Todas las causas
1,001-102 I-XXII.Todas las causas,Mujeres,De 85 a 89 años,2017,50929,001-102,Multiple causes,I-XXII.Todas las causas
2,001-102 I-XXII.Todas las causas,Mujeres,De 85 a 89 años,2015,50832,001-102,Multiple causes,I-XXII.Todas las causas
3,001-102 I-XXII.Todas las causas,Mujeres,De 85 a 89 años,2016,48674,001-102,Multiple causes,I-XXII.Todas las causas
4,001-102 I-XXII.Todas las causas,Mujeres,De 85 a 89 años,2012,47761,001-102,Multiple causes,I-XXII.Todas las causas
...,...,...,...,...,...,...,...,...
191641,069 Enteritis y colitis no infecciosas,Mujeres,Menos de 1 año,1992,0,069,Single cause,Enteritis y colitis no infecciosas
191642,069 Enteritis y colitis no infecciosas,Mujeres,Menos de 1 año,2007,0,069,Single cause,Enteritis y colitis no infecciosas
191643,069 Enteritis y colitis no infecciosas,Mujeres,Menos de 1 año,2006,0,069,Single cause,Enteritis y colitis no infecciosas
191644,069 Enteritis y colitis no infecciosas,Mujeres,Menos de 1 año,2005,0,069,Single cause,Enteritis y colitis no infecciosas


In [16]:
dataset['Edad'].unique()

array(['De 85 a 89 años  ', 'De 90 a 94 años  ', 'De 80 a 84 años  ',
       'De 75 a 79 años  ', 'De 70 a 74 años  ', '95 y más años',
       'De 65 a 69 años', 'De 60 a 64 años', 'De 55 a 59 años',
       'De 50 a 54 años', 'De 45 a 49 años', 'Menos de 1 año',
       'De 30 a 34 años', 'De 40 a 44 años', 'De 35 a 39 años',
       'De 25 a 29 años', 'De 20 a 24 años', 'De 15 a 19 años  ',
       'De 1 a 4 años', 'De 5 a 9 años', 'De 10 a 14 años  '],
      dtype=object)

In [17]:
deaths['Causa de muerte'].unique()

array(['001-102  I-XXII.Todas las causas',
       '001-008  I.Enfermedades infecciosas y parasitarias',
       '001  Enfermedades infecciosas intestinales',
       '002  Tuberculosis y sus efectos tardíos',
       '003  Enfermedad meningocócica', '004  Septicemia',
       '005  Hepatitis vírica', '006  SIDA',
       '007  VIH+ (portador, evidencias de laboratorio del VIH, ...)',
       '008  Resto de enfermedades infecciosas y parasitarias y sus efectos tardíos',
       '009-041  II.Tumores',
       '009  Tumor maligno del labio, de la cavidad bucal y de la faringe',
       '010  Tumor maligno del esófago',
       '011  Tumor maligno del estómago', '012  Tumor maligno del colon',
       '013  Tumor maligno del recto, de la porción rectosigmoide y del ano',
       '014  Tumor maligno del hígado y vías biliares intrahepáticas',
       '015  Tumor maligno del páncreas',
       '016  Otros tumores malignos digestivos',
       '017  Tumor maligno de la laringe',
       '018  Tumor maligno d

In [18]:
#2º DATA SET CON CAUSAS DE MUERTE FILTRADAS

dataset_causes_fil= dataset[dataset['Causa de muerte'].str.contains('-|081|082')]

In [19]:
dataset_causes_fil.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 27846 entries, 0 to 184913
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Causa de muerte  27846 non-null  object
 1   Sexo             27846 non-null  object
 2   Edad             27846 non-null  object
 3   Periodo          27846 non-null  int64 
 4   Total            27846 non-null  int64 
 5   cause_code       27846 non-null  object
 6   cause_group      27846 non-null  object
 7   cause_name       27846 non-null  object
dtypes: int64(2), object(6)
memory usage: 1.9+ MB


In [20]:
dataset_causes_fil.tail()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
184360,074-076 XIII.Enfermedades del sistema osteomu...,Mujeres,De 10 a 14 años,2014,0,074-076,Multiple causes,XIII.Enfermedades del sistema osteomuscular y ...
184361,074-076 XIII.Enfermedades del sistema osteomu...,Mujeres,De 10 a 14 años,2011,0,074-076,Multiple causes,XIII.Enfermedades del sistema osteomuscular y ...
184362,074-076 XIII.Enfermedades del sistema osteomu...,Mujeres,De 10 a 14 años,2010,0,074-076,Multiple causes,XIII.Enfermedades del sistema osteomuscular y ...
184364,074-076 XIII.Enfermedades del sistema osteomu...,Mujeres,De 25 a 29 años,1993,0,074-076,Multiple causes,XIII.Enfermedades del sistema osteomuscular y ...
184913,074-076 XIII.Enfermedades del sistema osteomu...,Mujeres,De 1 a 4 años,1981,0,074-076,Multiple causes,XIII.Enfermedades del sistema osteomuscular y ...


In [21]:
len(dataset_causes_fil['Causa de muerte'].unique())

17

In [22]:
dataset_causes_fil['Causa de muerte'].unique()

array(['001-102  I-XXII.Todas las causas',
       '053-061 IX.Enfermedades del sistema circulatorio',
       '009-041  II.Tumores',
       '062-067  X.Enfermedades del sistema respiratorio',
       '050-052  VI-VIII.Enfermedades del sistema nervioso y de los órganos de los sentidos',
       '046-049  V.Trastornos mentales y del comportamiento',
       '068-072  XI.Enfermedades del sistema digestivo',
       '077-080  XIV.Enfermedades del sistema genitourinario',
       '044-045  IV.Enfermedades endocrinas, nutricionales y metabólicas',
       '086-089  XVIII.Síntomas, signos y hallazgos anormales clínicos y de laboratorio, no clasificados en otra parte',
       '090-102  XX.Causas externas de mortalidad',
       '082  XVI.Afecciones originadas en el periodo perinatal',
       '001-008  I.Enfermedades infecciosas y parasitarias',
       '083-085  XVII.Malformaciones congénitas, deformidades y anomalías cromosómicas',
       '074-076  XIII.Enfermedades del sistema osteomuscular y del tej

In [23]:
#DF QUE TENEMOS:
#dataset = CON EDAD Y SEXO FILTRADOS
#dataset_causes_fil2 = EDAD, SEXO Y CAUSAS DE MUERTE

In [24]:
#2º DATA SET CON CAUSAS DE MUERTE FILTRADAS
#dataset_causes_fil2
dataset_causes_fil2= dataset_causes_fil[~dataset_causes_fil['Causa de muerte'].str.contains('Todas las causas')]

In [25]:
dataset_causes_fil2['Causa de muerte'].unique()

array(['053-061 IX.Enfermedades del sistema circulatorio',
       '009-041  II.Tumores',
       '062-067  X.Enfermedades del sistema respiratorio',
       '050-052  VI-VIII.Enfermedades del sistema nervioso y de los órganos de los sentidos',
       '046-049  V.Trastornos mentales y del comportamiento',
       '068-072  XI.Enfermedades del sistema digestivo',
       '077-080  XIV.Enfermedades del sistema genitourinario',
       '044-045  IV.Enfermedades endocrinas, nutricionales y metabólicas',
       '086-089  XVIII.Síntomas, signos y hallazgos anormales clínicos y de laboratorio, no clasificados en otra parte',
       '090-102  XX.Causas externas de mortalidad',
       '082  XVI.Afecciones originadas en el periodo perinatal',
       '001-008  I.Enfermedades infecciosas y parasitarias',
       '083-085  XVII.Malformaciones congénitas, deformidades y anomalías cromosómicas',
       '074-076  XIII.Enfermedades del sistema osteomuscular y del tejido conjuntivo',
       '042-043  III.Enfer

In [26]:
dataset_causes_fil2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 26208 entries, 308 to 184913
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Causa de muerte  26208 non-null  object
 1   Sexo             26208 non-null  object
 2   Edad             26208 non-null  object
 3   Periodo          26208 non-null  int64 
 4   Total            26208 non-null  int64 
 5   cause_code       26208 non-null  object
 6   cause_group      26208 non-null  object
 7   cause_name       26208 non-null  object
dtypes: int64(2), object(6)
memory usage: 1.8+ MB


In [27]:
dataset_causes_fil2.head(2)

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
308,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,1998,18466,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
309,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,1999,18432,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio


In [28]:
len(dataset_causes_fil2['Periodo'].unique())

39

In [29]:
#DF QUE TENEMOS:
#dataset = CON EDAD Y SEXO FILTRADOS
#dataset_causes_fil2 = EDAD, SEXO Y CAUSAS DE MUERTE
#chart_causesm = DF SOLO CON CAUSA DE MUERTE Y TOTAL DE MUERTES
#chart_causesgener= DF DEL TOTAL DE MUERTES POR GÉNERO Y CAUSA

In [30]:
causasm = ['Causa de muerte']
chart_causesm = mod.groupby_sum(dataset_causes_fil2, causasm).sort_values('Total')
chart_causesm.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 16 entries, 15 to 0
Data columns (total 2 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Causa de muerte  16 non-null     object
 1   Total            16 non-null     int64 
dtypes: int64(1), object(1)
memory usage: 384.0+ bytes


In [31]:
##1. DIFERENTES CAUSAS DE MUERTE

#El siguiente gráfico muestra las diferentes causas de muerte agrupadas en función del sistema al que afecta.
#También nos aporta información acerca del nº de muertes según la causa.
#Podemos observar por qué motivo mueren más personas.

In [32]:
fig= px.bar(data_frame=chart_causesm,
           x='Causa de muerte',
           y='Total',
           labels={'Causa de muerte':'Causa de muerte','Total':'Total muertes según causa'},
           title='Total de muertes según tipo de causa',
           text='Total')
fig.update_layout(width=1000, height=900) #tamaño del gráfico
fig.update_traces(textposition='outside')

#fig.update_traces(marker_color=['orange', 'green', 'red', 'blue', 'purple', 'yellow','pink'])
#la línea anterior pone cada barra de un color
#Con el parámetro total se añade la etiqueta

In [33]:
dataset_causes_fil2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 26208 entries, 308 to 184913
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Causa de muerte  26208 non-null  object
 1   Sexo             26208 non-null  object
 2   Edad             26208 non-null  object
 3   Periodo          26208 non-null  int64 
 4   Total            26208 non-null  int64 
 5   cause_code       26208 non-null  object
 6   cause_group      26208 non-null  object
 7   cause_name       26208 non-null  object
dtypes: int64(2), object(6)
memory usage: 1.8+ MB


In [34]:
dataset_causes_fil2['Edad']= dataset_causes_fil2['Edad'].replace({"95 y más años": "De 95 y más años", "Menos de 1 año":"De 0 años"})

In [35]:
dataset_causes_fil2.head()

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
308,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,1998,18466,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
309,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,1999,18432,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
310,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,2012,18373,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
311,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,2015,18371,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
319,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,1997,18018,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio


In [36]:
#muertes por genero/causa
causasm = ['Causa de muerte']
genero = ['Sexo']
chart_causesgener = dataset_causes_fil2.groupby(causasm + genero).agg({'Total': 'sum'}).sort_values('Total').reset_index()


In [37]:
chart_causesgener.head(6)

Unnamed: 0,Causa de muerte,Sexo,Total
0,"081 XV.Embarazo, parto y puerperio",Hombres,0
1,"081 XV.Embarazo, parto y puerperio",Mujeres,754
2,082 XVI.Afecciones originadas en el periodo p...,Mujeres,19819
3,042-043 III.Enfermedades de la sangre y de lo...,Hombres,21856
4,"083-085 XVII.Malformaciones congénitas, defor...",Mujeres,22347
5,"083-085 XVII.Malformaciones congénitas, defor...",Hombres,25713


In [38]:
#DF QUE TENEMOS:
#dataset = CON EDAD Y SEXO FILTRADOS
#dataset_causes_fil2 = filtrados EDAD, SEXO Y CAUSAS DE MUERTE
#chart_causesm = DF SOLO CON CAUSA DE MUERTE Y TOTAL DE MUERTES
#chart_causesgener= DF DEL TOTAL DE MUERTES POR GÉNERO Y CAUSA

In [39]:
len(dataset_causes_fil2['Edad'].unique())

21

In [70]:
## RESPUESTA.       2.PROPORCIÓN DE MUERTES POR GENERO Y CAUSA

#MAYOR CAUSA DE MUERTE: enfermedades del sistema crculatorio
#MENOR CAUSA DE MUERTE: enfermedades de la sangre y malformaciones
#En hombres, es muy similar las muertes por tumores que por enfermedades del sistema circulatorio
#En mujerres la principal causa son enfermedades del sistema crculatorio
#PLOTLY
fig = px.bar(chart_causesgener, x='Causa de muerte', y='Total', color='Sexo', color_discrete_sequence=['blue', 'white'], barmode='group',
             title='Total de muertes por causa y género', 
             labels={'Causa de muerte':'Distribución causa/género','Total':'Total muertes según causa'},
             )
fig.update_layout(width=1000, height=1500)
fig.show()

In [41]:
#distribución muertes por edades
edad = dataset_causes_fil2['Edad']
genero = dataset_causes_fil2['Sexo']


In [42]:
#fig = px.histogram(x = edad)
#fig

In [43]:
chart_edadgener = dataset_causes_fil2.groupby([edad, genero]).agg({'Total': 'sum'}).sort_values('Edad').reset_index()

In [44]:
chart_edadgener.head(6)

Unnamed: 0,Edad,Sexo,Total
0,De 0 años,Hombres,56402
1,De 0 años,Mujeres,42797
2,De 1 a 4 años,Hombres,13072
3,De 1 a 4 años,Mujeres,10047
4,De 10 a 14 años,Hombres,11320
5,De 10 a 14 años,Mujeres,7257


In [45]:
chart_edadgener = chart_edadgener['Edad'].replace({"95 y más años": "De 95 y más años"})

In [92]:
chart_edad= chart_edadgener[['Edad','Total']]


In [93]:
type(chart_edad)

pandas.core.frame.DataFrame

In [94]:
##binchart_edadgener.head(5)

In [102]:
#chart_edad.iplot(kind='histogram', x='Edad',y='Total', theme='white', title='Muertes por edades', xTitle='Ages', yTitle='Count Total')

In [50]:
#DISTRIBUCIÓN DE MUERTES POR EDADES CON PLOTLY
fig = px.bar(chart_edadgener, x='Edad', y='Total', color='Sexo', labels={'Total': 'Total de muertes'}, barmode='group')
fig.update_layout(title='Muertes por edades', xaxis_title='Edades', yaxis_title='Total de muertes')


In [103]:
##RESPUESTA.    3.MAYOR CAUSA DE MUERTE HISTÓRICA & 4. CAUSA DE MUERTE QUE MENOS DEBE PREOCUPAR

#Realizo:
    #Gráfico de dispersión
    #Gráfico de área
    #Gráfico lineal
    
#Se deduce que la mayor causa de muerte histórica han sido y siguen siendo las enfermedades del sistema circulatorio. 
#he partido de un Data Frame que he agrupado por causa de muerte y año, después he aplicado la media a la columna total.
#Donde mejor se ven los datos es en el gráfico lineal y en el de dispersión. 
#El gráfico de área se ve muy bien la enfermedad con más muertes y con menos por el tamaño del área,
#pero no representa bien el total.

#Lo que menos debe preocupar son las malformaciones congénitas así como los embarazos en mujeres.
#Aunque las malformaciones están más o menos en la misma media que las enfermedades de la sangre, en ésta última, 
#ha habido un ligero ascendso respecto a la anterior y sería lo que determinaría una u otra. 

In [104]:
dataset_causes_fil3 = dataset_causes_fil2.groupby(['Causa de muerte','Periodo'])


In [105]:
dataset_causes_fil3.head(2)

Unnamed: 0,Causa de muerte,Sexo,Edad,Periodo,Total,cause_code,cause_group,cause_name
308,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,1998,18466,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
309,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,1999,18432,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
310,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,2012,18373,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
311,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,2015,18371,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
319,053-061 IX.Enfermedades del sistema circulatorio,Mujeres,De 85 a 89 años,1997,18018,053-061,Multiple causes,IX.Enfermedades del sistema circulatorio
...,...,...,...,...,...,...,...,...
124976,"081 XV.Embarazo, parto y puerperio",Mujeres,De 20 a 24 años,1997,2,081,Single cause,"XV.Embarazo, parto y puerperio"
125028,"081 XV.Embarazo, parto y puerperio",Mujeres,De 20 a 24 años,1996,2,081,Single cause,"XV.Embarazo, parto y puerperio"
125210,"081 XV.Embarazo, parto y puerperio",Mujeres,De 25 a 29 años,1998,2,081,Single cause,"XV.Embarazo, parto y puerperio"
127088,"081 XV.Embarazo, parto y puerperio",Mujeres,De 30 a 34 años,2012,2,081,Single cause,"XV.Embarazo, parto y puerperio"


In [106]:
mean_df = dataset_causes_fil3['Total'].mean().reset_index()
mean_df = mean_df.sort_values('Total', ascending=False)


In [55]:
mean_df.head(3)

Unnamed: 0,Causa de muerte,Periodo,Total
245,053-061 IX.Enfermedades del sistema circulatorio,1991,3153.309524
253,053-061 IX.Enfermedades del sistema circulatorio,1999,3137.47619
252,053-061 IX.Enfermedades del sistema circulatorio,1998,3134.0


In [56]:
type(mean_df)

pandas.core.frame.DataFrame

In [57]:
## 4.MAYOR CAUSA DE MUERTE HISTÓRICA & 3.CAUSA MENOS PREOUCPANTE
fig = px.scatter(mean_df, x = 'Causa de muerte', y = 'Total', color="Periodo", width=1300, height=1000)
fig.update_layout(autosize=True, legend=dict(y=3))
fig.update_layout(title='MAYOR CAUSA DE MUERTE HISTÓRICA', xaxis_title='Causas de muerte', yaxis_title='Media de muertes')

#fig.update_xaxes(range=[mean_df['Periodo'].min(), mean_df['Periodo'].max()])
#fig.show(scale=0.8)
#x_values = mean_df['Periodo'].unique()
#fig.update_xaxes(tickvals=x_values)

In [58]:
## 3.MAYOR CAUSA DE MUERTE HISTÓRICA & 4. CAUSA MENOS PREOUCPANTE - plotly gráfico de área


fig = px.area(mean_df, x = 'Periodo', y = 'Total', color="Causa de muerte", width=1000, height=1500)
fig.update_layout(
    legend=dict(
        yanchor="top",
        y=1.2,
        xanchor="left",
        x=0))
fig.update_layout(title='MAYOR CAUSA DE MUERTE HISTÓRICA', title_x=0.5,title_y=1, xaxis_title='Periodo', yaxis_title='Media de muertes')

#fig.update_xaxes(range=[mean_df['Periodo'].min(), mean_df['Periodo'].max()], dtick=2)
#fig.update_yaxes(range=[0, 10000], dtick=1000)

fig.show(scale=0.8)

In [59]:
## 3.MAYOR CAUSA DE MUERTE HISTÓRICA & 4.CAUSA MENOS PREOUCPANTE pltly gráfico lineal

fig = px.line(mean_df, x = 'Periodo', y = 'Total', color="Causa de muerte", width=1200, height=1200)
fig.update_layout(
    legend=dict(
        yanchor="top",
        y=1.5,
        xanchor="left",
        x=0))
fig.update_xaxes(range=[mean_df['Periodo'].min(), mean_df['Periodo'].max()], dtick=2)
fig.update_yaxes(range=[0, 3250], dtick=250)

In [60]:
##5. Analisis de la evolución de muertes por embarazo
#El nº de muertes por embarazo ha bajado bastante de los 80 hasta hoy. 
#No obstante, me resulta llamativo el nº tan bajo de muertes.

In [107]:
#chart_analisis_emb = dataset_causes_fil2.groupby(['Causa de muerte']).agg({'Total': 'sum'}).sort_values('Periodo').reset_index()
causasm = ['Causa de muerte']
año =['Periodo']
chart_analisis_emb = mod.groupby_sum(dataset_causes_fil2, causasm + año).sort_values('Total')
chart_analisis_emb.head(5)

Unnamed: 0,Causa de muerte,Periodo,Total
623,"081 XV.Embarazo, parto y puerperio",2018,7
622,"081 XV.Embarazo, parto y puerperio",1997,8
621,"081 XV.Embarazo, parto y puerperio",2014,9
620,"081 XV.Embarazo, parto y puerperio",2012,10
619,"081 XV.Embarazo, parto y puerperio",1998,10


In [108]:
chart_analisis_emb = chart_analisis_emb[chart_analisis_emb['Causa de muerte'] == '081  XV.Embarazo, parto y puerperio']
chart_analisis_emb.head(10)

Unnamed: 0,Causa de muerte,Periodo,Total
623,"081 XV.Embarazo, parto y puerperio",2018,7
622,"081 XV.Embarazo, parto y puerperio",1997,8
621,"081 XV.Embarazo, parto y puerperio",2014,9
620,"081 XV.Embarazo, parto y puerperio",2012,10
619,"081 XV.Embarazo, parto y puerperio",1998,10
618,"081 XV.Embarazo, parto y puerperio",1996,11
617,"081 XV.Embarazo, parto y puerperio",1995,11
616,"081 XV.Embarazo, parto y puerperio",1989,12
615,"081 XV.Embarazo, parto y puerperio",1993,12
614,"081 XV.Embarazo, parto y puerperio",2007,13


In [109]:
len(chart_analisis_emb['Periodo'])

39

In [110]:
layout = go.Layout(yaxis=dict(range=[0, 80]), xaxis=dict(range=[1980, 2018], tickmode='linear', dtick=1))
#layout = go.Layout(yaxis=dict(range=[0, 100]))
#layout = go.Layout(xaxis=dict(range=[1980, 2018]))
chart_analisis_emb.iplot(kind='bar',
                         x= 'Periodo',
                         y= 'Total',
                         title='EVOLUCIÓN MUERTES POR EMBARAZO',
                         yTitle='Total de muertes',
                         xTitle='Año',
                         layout=layout)

In [111]:
chart_edadgener["male_age"]=chart_edadgener[chart_edadgener["Sexo"]=="Hombres"]["Edad"]
chart_edadgener["female_age"]=chart_edadgener[chart_edadgener["Sexo"]=="Mujeres"]["Edad"]
#chart_edadgener[["male_age","female_age"]].iplot(kind="histogram", bins=8, theme="white", title="Muertes por edades",
        # xTitle='Ages', yTitle='Count')


In [122]:
chart_edadgener.head(4)

Unnamed: 0,Edad,Sexo,Total,male_age,female_age
0,De 0 años,Hombres,56402,De 0 años,
1,De 0 años,Mujeres,42797,,De 0 años
2,De 1 a 4 años,Hombres,13072,De 1 a 4 años,
3,De 1 a 4 años,Mujeres,10047,,De 1 a 4 años


In [121]:
chart_edadgener["male_age"]=chart_edadgener[chart_edadgener["Sexo"]=="Hombres"]["Edad"].pivot_table(index='Sexo',values='Total', columns='Edad')

# Agregar la columna Total al dataframe

chart_edadgener_total = chart_edadgener.pivot_table(index='Sexo',values='Total', columns='Edad')

chart_edadgener.iplot(kind='histogram', barmode='group', theme='white', title='Muertes por edades',
                      xTitle='Ages', yTitle='Count Total')
# Crear el histograma con la columna Total en el eje y
'''''fig = px.histogram(chart_edadgener_total, x='Edad', y='Total', nbins=8, color_discrete_sequence=['blue'], labels={'Total': 'Total de muertes'})
fig.update_layout(title='Muertes por edades', xaxis_title='Edades', yaxis_title='Total de muertes')
fig.show()'''


AttributeError: 'med' is not a valid function for 'Series' object

In [None]:
# Example 2
'''
group = ['cause_code','Periodo']
dataset = mod.groupby_sum(deaths, group)
dataset.head()
'''

In [None]:
#ANÁLISIS MUJERES
data_mujeres = mod.groupby_sum(deaths, group)

In [None]:
data_mujeres= groupby_sum(data_mujeres, causa de muerte, agg_var='Total', sort_var='Total')


In [None]:
# Example 3
'''
dataset = mod.pivot_table(dataset, 'cause_code', 'Periodo')
dataset.head()
'''

## ...and finally, show me some insights with Plotly!!!

In [None]:
# Cufflinks histogram
'''
dataset_column.iplot(kind='hist',
                     title='VIZ TITLE',
                     yTitle='AXIS TITLE',
                     xTitle='AXIS TITLE')
'''

In [None]:
# Cufflinks bar plot
'''
dataset_bar.iplot(kind='bar',
                  x='VARIABLE',
                  xTitle='AXIS TITLE',
                  yTitle='AXIS TITLE',
                  title='VIZ TITLE')
'''

In [None]:
# Cufflinks line plot
'''
dataset_line.iplot(kind='line',
                   x='VARIABLE',
                   xTitle='AXIS TITLE',
                   yTitle='AXIS TITLE',
                   title='VIZ TITLE')
'''

In [None]:
# Cufflinks scatter plot
'''
dataset_scatter.iplot(x='VARIABLE', 
                      y='VARIABLE', 
                      categories='VARIABLE',
                      xTitle='AXIS TITLE', 
                      yTitle='AXIS TITLE',
                      title='VIZ TITLE')
'''