# ***Análisis de las principales causas de mortalidad de los jóvenes en España en los últimos diez años (2012 - 2021)***

#### **Obtención y transformación de datos de las principales causas de mortalidad en 2021 de personas entre 20 y 34 años en España** 
##### Se explican únicamente los pasos efectuados en el dataset del año 2021, ya que en el resto de años se ha seguido el mismo procedimiento para la obtención de los datos

In [2]:
import pandas as pd

In [3]:
pip install openpyxl

Note: you may need to restart the kernel to use updated packages.


In [4]:
"""En primer lugar, abrimos el archivo excel descargado de la página web del Instituto Nacional de Estadística 
https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176780&menu=ultiDatos&idp=1254735573175"""

mortalidad2021 = pd.read_excel("C:\\Users\\beama\\Desktop\\Repositorio_DataScience\\MORTALIDAD_ESPAÑA\\muertes2021.xlsx")

"""En segundo lugar, renombramos el título vacío de la columna donde aparecen recopiladas todas las enfermedades 
por la palabra 2021 para identificar el año objeto de estudio."""

mortalidad2021 = mortalidad2021.rename(columns= {" " : "2021"})

"""En tercer lugar, creamos un filtro en el que la condición del número de fallecidos por enfermedad sea diferente 
a cero para manipular los diferentes datos correctamente."""

mortalidad_condicion = mortalidad2021['De 20 a 24 años'] != 0
mortalidad_condicion2 = mortalidad2021['De 25 a 29 años'] != 0
mortalidad_condicion3 = mortalidad2021['De 30 a 34 años'] != 0

"""En cuarto lugar, aplicamos el filtro mencionado al dataset que vamos a utilizar para el análisis de los datos."""

mortalidad2021_20 = mortalidad2021[mortalidad_condicion]
mortalidad2021_20 = mortalidad2021[mortalidad_condicion2]
mortalidad2021_20 = mortalidad2021[mortalidad_condicion3]

"""En quinto lugar, añadimos una columna en la que aparezca la suma del total de fallecidos por tipo de enfermedad."""

mortalidad2021_20['Total'] = mortalidad2021_20.sum(axis=1)
mortalidad2021_20

"""En sexto lugar, obtenemos el total de fallecidos por año y divididimos el número de fallecidos por tipo de enfermedad 
entre el total, para conocer la representatividad de cada causa sobre el total de defunciones."""

total2021 = mortalidad2021_20['Total'].sum()

mortalidad2021_20['Porcentaje'] = (mortalidad2021_20['Total']/total2021)*100
mortalidad2021_20

"""En séptimo lugar, ordenamos de mayor a menor las enfermedades por el total de personas fallecidas."""

mortalidad2021_20 = mortalidad2021_20.sort_values(by='Total', ascending = False)

"""En octavo lugar, obtenemos las diez enfermedades que han causado más defunciones en el año en cuestión."""

top10_2021 = mortalidad2021_20.head(10)

"""En noveno lugar, reseteamos el índice para que nos aparezcan las diez enfermedades ordenadas del 1 al 10."""

top10_2021 = top10_2021.reset_index()
top10_2021.index += 1

"""En décimo lugar, nos quedamos con últimas cinco columnas y descartamos la que contiene los índices iniciales por defecto."""

top10_2021 = top10_2021.iloc[:, [1, 5]]

"""En undécimo lugar, eliminamos los 4 primeros carácteres de las celdas de la columna donde aparecen las enfermedades para 
eliminar los dígitos que aparecían por defecto en el dataset del INE."""

top10_2021['2021'] = top10_2021['2021'].str.slice(start=4)

  mortalidad2021_20['Total'] = mortalidad2021_20.sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  mortalidad2021_20['Total'] = mortalidad2021_20.sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  mortalidad2021_20['Porcentaje'] = (mortalidad2021_20['Total']/total2021)*100


#### **Comprobaciones realizadas** 

##### Se muestran únicamente las comprobaciones de los datos correspondientes al año 2021, ya que en el resto de años se ha seguido el mismo procedimiento para la limpieza y manipulación de los datos

1) Lectura del archivo xlsx

In [5]:
mortalidad2021 = pd.read_excel("muertes2021.xlsx")
mortalidad2021

Unnamed: 0,Unnamed: 1,De 20 a 24 años,De 25 a 29 años,De 30 a 34 años
0,00A Covid-19 Virus identificado,16,30,63
1,00B Covid-19 Virus no identificado (sospechoso),0,2,0
2,00C Síndrome inflamatorio multisistémico asoci...,0,0,0
3,001 Enfermedades infecciosas intestinales,0,0,0
4,002 Tuberculosis y sus efectos tardíos,0,2,2
...,...,...,...,...
101,098 Suicidio y lesiones autoinfligidas,126,137,185
102,099 Agresiones (Homicidio),16,14,21
103,100 Eventos de intención no determinada,0,2,2
104,101 Complicaciones de la atención médica y qui...,0,1,1


2) Renombre de columnas

In [6]:
mortalidad2021 = mortalidad2021.rename(columns= {" " : "2021"})
mortalidad2021

Unnamed: 0,2021,De 20 a 24 años,De 25 a 29 años,De 30 a 34 años
0,00A Covid-19 Virus identificado,16,30,63
1,00B Covid-19 Virus no identificado (sospechoso),0,2,0
2,00C Síndrome inflamatorio multisistémico asoci...,0,0,0
3,001 Enfermedades infecciosas intestinales,0,0,0
4,002 Tuberculosis y sus efectos tardíos,0,2,2
...,...,...,...,...
101,098 Suicidio y lesiones autoinfligidas,126,137,185
102,099 Agresiones (Homicidio),16,14,21
103,100 Eventos de intención no determinada,0,2,2
104,101 Complicaciones de la atención médica y qui...,0,1,1


3) Creación de un filtro que contabilice las celdas en las que el número de fallecidos sea diferente a 0

In [7]:
mortalidad_condicion = mortalidad2021['De 20 a 24 años'] != 0
mortalidad_condicion2 = mortalidad2021['De 25 a 29 años'] != 0
mortalidad_condicion3 = mortalidad2021['De 30 a 34 años'] != 0

4) Aplicación del filtro definido

In [8]:
mortalidad2021_20 = mortalidad2021[mortalidad_condicion]
mortalidad2021_20 = mortalidad2021[mortalidad_condicion2]
mortalidad2021_20 = mortalidad2021[mortalidad_condicion3]

5) Contabilización del total de fallecidos por causa

In [9]:
mortalidad2021_20['Total'] = mortalidad2021_20.sum(axis=1)
mortalidad2021_20

  mortalidad2021_20['Total'] = mortalidad2021_20.sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  mortalidad2021_20['Total'] = mortalidad2021_20.sum(axis=1)


Unnamed: 0,2021,De 20 a 24 años,De 25 a 29 años,De 30 a 34 años,Total
0,00A Covid-19 Virus identificado,16,30,63,109
4,002 Tuberculosis y sus efectos tardíos,0,2,2,4
6,004 Septicemia,1,1,4,6
7,005 Hepatitis vírica,0,0,3,3
8,006 SIDA,3,1,7,11
...,...,...,...,...,...
101,098 Suicidio y lesiones autoinfligidas,126,137,185,448
102,099 Agresiones (Homicidio),16,14,21,51
103,100 Eventos de intención no determinada,0,2,2,4
104,101 Complicaciones de la atención médica y qui...,0,1,1,2


6) Contabilización del total de fallecidos y representatividad de cada causa sobre el total de defunciones

In [10]:
total2021 = mortalidad2021_20['Total'].sum()

mortalidad2021_20['Porcentaje'] = (mortalidad2021_20['Total']/total2021)*100
mortalidad2021_20

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  mortalidad2021_20['Porcentaje'] = (mortalidad2021_20['Total']/total2021)*100


Unnamed: 0,2021,De 20 a 24 años,De 25 a 29 años,De 30 a 34 años,Total,Porcentaje
0,00A Covid-19 Virus identificado,16,30,63,109,3.963636
4,002 Tuberculosis y sus efectos tardíos,0,2,2,4,0.145455
6,004 Septicemia,1,1,4,6,0.218182
7,005 Hepatitis vírica,0,0,3,3,0.109091
8,006 SIDA,3,1,7,11,0.400000
...,...,...,...,...,...,...
101,098 Suicidio y lesiones autoinfligidas,126,137,185,448,16.290909
102,099 Agresiones (Homicidio),16,14,21,51,1.854545
103,100 Eventos de intención no determinada,0,2,2,4,0.145455
104,101 Complicaciones de la atención médica y qui...,0,1,1,2,0.072727


7) Ordenación de las causas por el total de fallecidos por las mismas

In [11]:
mortalidad2021_20 = mortalidad2021_20.sort_values(by='Total', ascending = False)
mortalidad2021_20

Unnamed: 0,2021,De 20 a 24 años,De 25 a 29 años,De 30 a 34 años,Total,Porcentaje
101,098 Suicidio y lesiones autoinfligidas,126,137,185,448,16.290909
93,090 Accidentes de tráfico,134,89,106,329,11.963636
98,095 Envenenamiento accidental por psicofármaco...,25,37,76,138,5.018182
96,"093 Ahogamiento, sumersión y sofocación accide...",48,46,41,135,4.909091
0,00A Covid-19 Virus identificado,16,30,63,109,3.963636
...,...,...,...,...,...,...
27,025 Tumor maligno de otras partes del útero,0,1,1,2,0.072727
62,060 Aterosclerosis,0,0,1,1,0.036364
49,047 Trastornos mentales debidos al uso de alcohol,0,0,1,1,0.036364
42,040 Síndrome mielodisplásico,0,0,1,1,0.036364


8) Obtención de las 10 principales causas de mortalidad

In [12]:
top10_2021 = mortalidad2021_20.head(10)
top10_2021

Unnamed: 0,2021,De 20 a 24 años,De 25 a 29 años,De 30 a 34 años,Total,Porcentaje
101,098 Suicidio y lesiones autoinfligidas,126,137,185,448,16.290909
93,090 Accidentes de tráfico,134,89,106,329,11.963636
98,095 Envenenamiento accidental por psicofármaco...,25,37,76,138,5.018182
96,"093 Ahogamiento, sumersión y sofocación accide...",48,46,41,135,4.909091
0,00A Covid-19 Virus identificado,16,30,63,109,3.963636
54,052 Otras enfermedades del sistema nervioso y ...,32,36,39,107,3.890909
60,058 Otras enfermedades del corazón,26,34,37,97,3.527273
94,091 Otros accidentes de transporte,35,30,30,95,3.454545
95,092 Caídas accidentales,25,23,20,68,2.472727
39,037 Leucemia,21,17,30,68,2.472727


9) Reseteo del índice para que aparezca el ranking de las 10 enfermedades ordenado de mayor a menor

In [13]:
top10_2021 = top10_2021.reset_index()
top10_2021.index += 1

top10_2021

Unnamed: 0,index,2021,De 20 a 24 años,De 25 a 29 años,De 30 a 34 años,Total,Porcentaje
1,101,098 Suicidio y lesiones autoinfligidas,126,137,185,448,16.290909
2,93,090 Accidentes de tráfico,134,89,106,329,11.963636
3,98,095 Envenenamiento accidental por psicofármaco...,25,37,76,138,5.018182
4,96,"093 Ahogamiento, sumersión y sofocación accide...",48,46,41,135,4.909091
5,0,00A Covid-19 Virus identificado,16,30,63,109,3.963636
6,54,052 Otras enfermedades del sistema nervioso y ...,32,36,39,107,3.890909
7,60,058 Otras enfermedades del corazón,26,34,37,97,3.527273
8,94,091 Otros accidentes de transporte,35,30,30,95,3.454545
9,95,092 Caídas accidentales,25,23,20,68,2.472727
10,39,037 Leucemia,21,17,30,68,2.472727


10. Eliminación de la columna del índice por defecto

In [14]:
top10_2021 = top10_2021.iloc[:, [1, 5, 6]]
top10_2021

Unnamed: 0,2021,Total,Porcentaje
1,098 Suicidio y lesiones autoinfligidas,448,16.290909
2,090 Accidentes de tráfico,329,11.963636
3,095 Envenenamiento accidental por psicofármaco...,138,5.018182
4,"093 Ahogamiento, sumersión y sofocación accide...",135,4.909091
5,00A Covid-19 Virus identificado,109,3.963636
6,052 Otras enfermedades del sistema nervioso y ...,107,3.890909
7,058 Otras enfermedades del corazón,97,3.527273
8,091 Otros accidentes de transporte,95,3.454545
9,092 Caídas accidentales,68,2.472727
10,037 Leucemia,68,2.472727


11. Eliminación de los cuatro primeros carácter de la columnas donde se encuentran las enfermedades

In [42]:
top10_2021['2021'] = top10_2021['2021'].str.slice(start=4)
top10_2021.to_excel("top2021.xlsx")



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



**Obtención de las principales causas de mortalidad en 2020 de personas entre 20 y 34 años en España**

In [41]:
mortalidad2020 = pd.read_excel("muertes2020.xlsx")

mortalidad2020 = mortalidad2020.rename(columns= {" " : "2020"})

mortalidad_condicion = mortalidad2020['De 20 a 24 años'] != 0
mortalidad_condicion2 = mortalidad2020['De 25 a 29 años'] != 0
mortalidad_condicion3 = mortalidad2020['De 30 a 34 años'] != 0

mortalidad2020_20 = mortalidad2020[mortalidad_condicion]
mortalidad2020_20 = mortalidad2020[mortalidad_condicion2]
mortalidad2020_20 = mortalidad2020[mortalidad_condicion3]

mortalidad2020_20['Total'] = mortalidad2020_20.sum(axis=1)
mortalidad2020_20

total2020 = mortalidad2020_20['Total'].sum()

mortalidad2020_20['Porcentaje'] = (mortalidad2020_20['Total']/total2020)*100

mortalidad2020_20 = mortalidad2020_20.sort_values(by='Total', ascending = False)

top10_2020 = mortalidad2020_20.head(10)
top10_2020 = top10_2020.reset_index()
top10_2020.index += 1

top10_2020 = top10_2020.iloc[:, [1, 5, 6]]
top10_2020['2020'] = top10_2020['2020'].str.slice(start=4)

top10_2020.to_excel("top2020.xlsx")


Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



**Obtención de las principales causas de mortalidad en 2019 de personas entre 20 y 34 años en España**

In [43]:
mortalidad2019 = pd.read_excel("muertes2019.xlsx")

mortalidad2019 = mortalidad2019.rename(columns= {" " : "2019"})

mortalidad_condicion = mortalidad2019['De 20 a 24 años'] != 0
mortalidad_condicion2 = mortalidad2019['De 25 a 29 años'] != 0
mortalidad_condicion3 = mortalidad2019['De 30 a 34 años'] != 0

mortalidad2019_20 = mortalidad2019[mortalidad_condicion]
mortalidad2019_20 = mortalidad2019[mortalidad_condicion2]
mortalidad2019_20 = mortalidad2019[mortalidad_condicion3]

mortalidad2019_20['Total'] = mortalidad2019_20.sum(axis=1)
mortalidad2019_20

total2019 = mortalidad2019_20['Total'].sum()

mortalidad2019_20['Porcentaje'] = (mortalidad2019_20['Total']/total2019)*100

mortalidad2019_20 = mortalidad2019_20.sort_values(by='Total', ascending = False)

top10_2019 = mortalidad2019_20.head(10)
top10_2019 = top10_2019.reset_index()
top10_2019.index += 1

top10_2019 = top10_2019.iloc[:, [1, 5, 6]]
top10_2019['2019'] = top10_2019['2019'].str.slice(start=4)

top10_2019.to_excel("top2019.xlsx")


Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



**Obtención de las principales causas de mortalidad en 2018 de personas entre 20 y 34 años en España**

In [44]:
mortalidad2018 = pd.read_excel("muertes2018.xlsx")

mortalidad2018 = mortalidad2018.rename(columns= {" " : "2018"})

mortalidad_condicion = mortalidad2018['De 20 a 24 años'] != 0
mortalidad_condicion2 = mortalidad2018['De 25 a 29 años'] != 0
mortalidad_condicion3 = mortalidad2018['De 30 a 34 años'] != 0

mortalidad2018_20 = mortalidad2018[mortalidad_condicion]
mortalidad2018_20 = mortalidad2018[mortalidad_condicion2]
mortalidad2018_20 = mortalidad2018[mortalidad_condicion3]

mortalidad2018_20['Total'] = mortalidad2018_20.sum(axis=1)
mortalidad2018_20

total2018 = mortalidad2018_20['Total'].sum()

mortalidad2018_20['Porcentaje'] = (mortalidad2018_20['Total']/total2018)*100

mortalidad2018_20 = mortalidad2018_20.sort_values(by='Total', ascending = False)

top10_2018 = mortalidad2018_20.head(10)
top10_2018 = top10_2018.reset_index()
top10_2018.index += 1

top10_2018 = top10_2018.iloc[:, [1, 5, 6]]
top10_2018['2018'] = top10_2018['2018'].str.slice(start=4)

top10_2018.to_excel("top2018.xlsx")


Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



**Obtención de las principales causas de mortalidad en 2017 de personas entre 20 y 34 años en España**

In [45]:
mortalidad2017 = pd.read_excel("muertes2017.xlsx")

mortalidad2017 = mortalidad2017.rename(columns= {" " : "2017"})

mortalidad_condicion = mortalidad2017['De 20 a 24 años'] != 0
mortalidad_condicion2 = mortalidad2017['De 25 a 29 años'] != 0
mortalidad_condicion3 = mortalidad2017['De 30 a 34 años'] != 0

mortalidad2017_20 = mortalidad2017[mortalidad_condicion]
mortalidad2017_20 = mortalidad2017[mortalidad_condicion2]
mortalidad2017_20 = mortalidad2017[mortalidad_condicion3]

mortalidad2017_20['Total'] = mortalidad2017_20.sum(axis=1)
mortalidad2017_20

total2017 = mortalidad2017_20['Total'].sum()

mortalidad2017_20['Porcentaje'] = (mortalidad2017_20['Total']/total2017)*100

mortalidad2017_20 = mortalidad2017_20.sort_values(by='Total', ascending = False)

top10_2017 = mortalidad2017_20.head(10)
top10_2017 = top10_2017.reset_index()
top10_2017.index += 1

top10_2017 = top10_2017.iloc[:, [1, 5, 6]]
top10_2017['2017'] = top10_2017['2017'].str.slice(start=4)

top10_2017.to_excel("top2017.xlsx")


Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



**Obtención de las principales causas de mortalidad en 2016 de personas entre 20 y 34 años en España**

In [46]:
mortalidad2016 = pd.read_excel("muertes2016.xlsx")

mortalidad2016 = mortalidad2016.rename(columns= {" " : "2016"})

mortalidad_condicion = mortalidad2016['De 20 a 24 años'] != 0
mortalidad_condicion2 = mortalidad2016['De 25 a 29 años'] != 0
mortalidad_condicion3 = mortalidad2016['De 30 a 34 años'] != 0

mortalidad2016_20 = mortalidad2016[mortalidad_condicion]
mortalidad2016_20 = mortalidad2016[mortalidad_condicion2]
mortalidad2016_20 = mortalidad2016[mortalidad_condicion3]

mortalidad2016_20['Total'] = mortalidad2016_20.sum(axis=1)
mortalidad2016_20

total2016 = mortalidad2016_20['Total'].sum()

mortalidad2016_20['Porcentaje'] = (mortalidad2016_20['Total']/total2016)*100

mortalidad2016_20 = mortalidad2016_20.sort_values(by='Total', ascending = False)

top10_2016 = mortalidad2016_20.head(10)
top10_2016 = top10_2016.reset_index()
top10_2016.index += 1

top10_2016 = top10_2016.iloc[:, [1, 5, 6]]
top10_2016['2016'] = top10_2016['2016'].str.slice(start=4)

top10_2016.to_excel("top2016.xlsx")


Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



**Obtención de las principales causas de mortalidad en 2015 de personas entre 20 y 34 años en España**

In [47]:
mortalidad2015 = pd.read_excel("muertes2015.xlsx")

mortalidad2015 = mortalidad2015.rename(columns= {" " : "2015"})

mortalidad_condicion = mortalidad2015['De 20 a 24 años'] != 0
mortalidad_condicion2 = mortalidad2015['De 25 a 29 años'] != 0
mortalidad_condicion3 = mortalidad2015['De 30 a 34 años'] != 0

mortalidad2015_20 = mortalidad2015[mortalidad_condicion]
mortalidad2015_20 = mortalidad2015[mortalidad_condicion2]
mortalidad2015_20 = mortalidad2015[mortalidad_condicion3]

mortalidad2015_20['Total'] = mortalidad2015_20.sum(axis=1)
mortalidad2015_20

total2015 = mortalidad2015_20['Total'].sum()

mortalidad2015_20['Porcentaje'] = (mortalidad2015_20['Total']/total2015)*100

mortalidad2015_20 = mortalidad2015_20.sort_values(by='Total', ascending = False)

top10_2015 = mortalidad2015_20.head(10)
top10_2015 = top10_2015.reset_index()
top10_2015.index += 1

top10_2015 = top10_2015.iloc[:, [1, 5, 6]]
top10_2015['2015'] = top10_2015['2015'].str.slice(start=4)

top10_2015.to_excel("top2015.xlsx")


Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



**Obtención de las principales causas de mortalidad en 2014 de personas entre 20 y 34 años en España**

In [48]:
mortalidad2014 = pd.read_excel("muertes2014.xlsx")

mortalidad2014 = mortalidad2014.rename(columns= {" " : "2014"})

mortalidad_condicion = mortalidad2014['De 20 a 24 años'] != 0
mortalidad_condicion2 = mortalidad2014['De 25 a 29 años'] != 0
mortalidad_condicion3 = mortalidad2014['De 30 a 34 años'] != 0

mortalidad2014_20 = mortalidad2014[mortalidad_condicion]
mortalidad2014_20 = mortalidad2014[mortalidad_condicion2]
mortalidad2014_20 = mortalidad2014[mortalidad_condicion3]

mortalidad2014_20['Total'] = mortalidad2014_20.sum(axis=1)
mortalidad2014_20

total2014 = mortalidad2014_20['Total'].sum()

mortalidad2014_20['Porcentaje'] = (mortalidad2014_20['Total']/total2014)*100

mortalidad2014_20 = mortalidad2014_20.sort_values(by='Total', ascending = False)

top10_2014 = mortalidad2014_20.head(10)
top10_2014 = top10_2014.reset_index()
top10_2014.index += 1

top10_2014 = top10_2014.iloc[:, [1, 5, 6]]
top10_2014['2014'] = top10_2014['2014'].str.slice(start=4)


top10_2014.to_excel("top2014.xlsx")


Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



**Obtención de las principales causas de mortalidad en 2013 de personas entre 20 y 34 años en España**

In [49]:
mortalidad2013 = pd.read_excel("muertes2013.xlsx")

mortalidad2013 = mortalidad2013.rename(columns= {" " : "2013"})

mortalidad_condicion = mortalidad2013['De 20 a 24 años'] != 0
mortalidad_condicion2 = mortalidad2013['De 25 a 29 años'] != 0
mortalidad_condicion3 = mortalidad2013['De 30 a 34 años'] != 0

mortalidad2013_20 = mortalidad2013[mortalidad_condicion]
mortalidad2013_20 = mortalidad2013[mortalidad_condicion2]
mortalidad2013_20 = mortalidad2013[mortalidad_condicion3]

mortalidad2013_20['Total'] = mortalidad2013_20.sum(axis=1)
mortalidad2013_20

total2013 = mortalidad2013_20['Total'].sum()

mortalidad2013_20['Porcentaje'] = (mortalidad2013_20['Total']/total2013)*100

mortalidad2013_20 = mortalidad2013_20.sort_values(by='Total', ascending = False)

top10_2013 = mortalidad2013_20.head(10)
top10_2013 = top10_2013.reset_index()
top10_2013.index += 1

top10_2013 = top10_2013.iloc[:, [1, 5, 6]]
top10_2013['2013'] = top10_2013['2013'].str.slice(start=4)


top10_2013.to_excel("top2013.xlsx")


Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



**Obtención de las principales causas de mortalidad en 2012 de personas entre 20 y 34 años en España**

In [50]:
mortalidad2012 = pd.read_excel("muertes2012.xlsx")

mortalidad2012 = mortalidad2012.rename(columns= {" " : "2012"})

mortalidad_condicion = mortalidad2012['De 20 a 24 años'] != 0
mortalidad_condicion2 = mortalidad2012['De 25 a 29 años'] != 0
mortalidad_condicion3 = mortalidad2012['De 30 a 34 años'] != 0

mortalidad2012_20 = mortalidad2012[mortalidad_condicion]
mortalidad2012_20 = mortalidad2012[mortalidad_condicion2]
mortalidad2012_20 = mortalidad2012[mortalidad_condicion3]

mortalidad2012_20['Total'] = mortalidad2012_20.sum(axis=1)
mortalidad2012_20

total2012 = mortalidad2012_20['Total'].sum()

mortalidad2012_20['Porcentaje'] = (mortalidad2012_20['Total']/total2012)*100

mortalidad2012_20 = mortalidad2012_20.sort_values(by='Total', ascending = False)

top10_2012 = mortalidad2012_20.head(10)
top10_2012 = top10_2012.reset_index()
top10_2012.index += 1

top10_2012 = top10_2012.iloc[:, [1, 5, 6]]
top10_2012['2012'] = top10_2012['2012'].str.slice(start=4)

top10_2012.to_excel("top2012.xlsx")


Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



#### **Visualizaciones**

- Suicidios

In [25]:
porcentaje_suicidios2021 = top10_2021.loc[top10_2021['2021'] == 'Suicidio y lesiones autoinfligidas', 'Porcentaje']
porcentaje_suicidios2021 = float(porcentaje_suicidios2021)
total_suicidios2021 = top10_2021.loc[top10_2021['2021'] == 'Suicidio y lesiones autoinfligidas', 'Total']
total_suicidios2021 = int(total_suicidios2021)

porcentaje_suicidios2020 = top10_2020.loc[top10_2020['2020'] == 'Suicidio y lesiones autoinfligidas', 'Porcentaje']
porcentaje_suicidios2020 = float(porcentaje_suicidios2020)
total_suicidios2020 = top10_2020.loc[top10_2020['2020'] == 'Suicidio y lesiones autoinfligidas', 'Total']
total_suicidios2020 = int(total_suicidios2020)

porcentaje_suicidios2019 = top10_2019.loc[top10_2019['2019'] == 'Suicidio y lesiones autoinfligidas', 'Porcentaje']
porcentaje_suicidios2019 = float(porcentaje_suicidios2019)
total_suicidios2019 = top10_2019.loc[top10_2019['2019'] == 'Suicidio y lesiones autoinfligidas', 'Total']
total_suicidios2019 = int(total_suicidios2019)

porcentaje_suicidios2018 = top10_2018.loc[top10_2018['2018'] == 'Suicidio y lesiones autoinfligidas', 'Porcentaje']
porcentaje_suicidios2018 = float(porcentaje_suicidios2018)
total_suicidios2018 = top10_2018.loc[top10_2018['2018'] == 'Suicidio y lesiones autoinfligidas', 'Total']
total_suicidios2018 = int(total_suicidios2018)

porcentaje_suicidios2017 = top10_2017.loc[top10_2017['2017'] == 'Suicidio y lesiones autoinfligidas', 'Porcentaje']
porcentaje_suicidios2017 = float(porcentaje_suicidios2017)
total_suicidios2017 = top10_2017.loc[top10_2017['2017'] == 'Suicidio y lesiones autoinfligidas', 'Total']
total_suicidios2017 = int(total_suicidios2017)

porcentaje_suicidios2016 = top10_2016.loc[top10_2016['2016'] == 'Suicidio y lesiones autoinfligidas', 'Porcentaje']
porcentaje_suicidios2016 = float(porcentaje_suicidios2016)
total_suicidios2016 = top10_2016.loc[top10_2016['2016'] == 'Suicidio y lesiones autoinfligidas', 'Total']
total_suicidios2016 = int(total_suicidios2016)

porcentaje_suicidios2015 = top10_2015.loc[top10_2015['2015'] == 'Suicidio y lesiones autoinfligidas', 'Porcentaje']
porcentaje_suicidios2015 = float(porcentaje_suicidios2015)
total_suicidios2015 = top10_2015.loc[top10_2015['2015'] == 'Suicidio y lesiones autoinfligidas', 'Total']
total_suicidios2015 = int(total_suicidios2015)

porcentaje_suicidios2014 = top10_2014.loc[top10_2014['2014'] == 'Suicidio y lesiones autoinfligidas', 'Porcentaje']
porcentaje_suicidios2014 = float(porcentaje_suicidios2014)
total_suicidios2014 = top10_2014.loc[top10_2014['2014'] == 'Suicidio y lesiones autoinfligidas', 'Total']
total_suicidios2014 = int(total_suicidios2014)

porcentaje_suicidios2013 = top10_2013.loc[top10_2013['2013'] == 'Suicidio y lesiones autoinfligidas', 'Porcentaje']
porcentaje_suicidios2013 = float(porcentaje_suicidios2013)
total_suicidios2013 = top10_2013.loc[top10_2013['2013'] == 'Suicidio y lesiones autoinfligidas', 'Total']
total_suicidios2013 = int(total_suicidios2013)

porcentaje_suicidios2012 = top10_2012.loc[top10_2012['2012'] == 'Suicidio y lesiones autoinfligidas', 'Porcentaje']
porcentaje_suicidios2012 = float(porcentaje_suicidios2012)
total_suicidios2012 = top10_2012.loc[top10_2012['2012'] == 'Suicidio y lesiones autoinfligidas', 'Total']
total_suicidios2012 = int(total_suicidios2012)

In [26]:
import pandas as pd
import plotly as py
import plotly.graph_objects as go
import plotly.express as px
import plotly.io as pio
from plotly.subplots import make_subplots

py.offline.init_notebook_mode(connected=True) 

In [27]:
Año1 = [2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021]
Porcentajes1 = [porcentaje_suicidios2012, porcentaje_suicidios2013, porcentaje_suicidios2014, porcentaje_suicidios2015, porcentaje_suicidios2016, porcentaje_suicidios2017, porcentaje_suicidios2018, porcentaje_suicidios2019, porcentaje_suicidios2020, porcentaje_suicidios2021]

In [28]:
porcentaje_suicidios = pd.DataFrame({"Año" : Año1, "Porcentaje" : Porcentajes1})
porcentaje_suicidios

Unnamed: 0,Año,Porcentaje
0,2012,14.919964
1,2013,16.047652
2,2014,17.370892
3,2015,15.857478
4,2016,14.601421
5,2017,15.607843
6,2018,14.152411
7,2019,16.721582
8,2020,15.923567
9,2021,16.290909


In [29]:
Año = [2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021]
Totales = [total_suicidios2012, total_suicidios2013, total_suicidios2014, total_suicidios2015, total_suicidios2016, total_suicidios2017, total_suicidios2018, total_suicidios2019,total_suicidios2020, total_suicidios2021]

In [30]:
totales_suicidios = pd.DataFrame({"Año" : Año, "Defunciones por suicidio" : Totales})
totales_suicidios

Unnamed: 0,Año,Defunciones por suicidio
0,2012,494
1,2013,458
2,2014,481
3,2015,405
4,2016,370
5,2017,398
6,2018,364
7,2019,406
8,2020,425
9,2021,448


In [31]:
fig_barras = go.Figure(go.Bar(
    x=totales_suicidios['Año'],
    y=totales_suicidios['Defunciones por suicidio'],
    marker=dict(
        color='red'),
    name='Número de fallecidos por sucidio'
))

fig_lineal = go.Figure(go.Scatter(
    x=porcentaje_suicidios['Año'],
    y=porcentaje_suicidios['Porcentaje'],
    name='Porcentaje de fallecidos por suicidio',
    line=dict(color='firebrick', width=4)
))

fig_barras.update_layout(
    yaxis=dict(
        title='Número de fallecidos por sucidio',
        tickformat='$,.0f',
        showgrid=False
    ),
    legend=dict(
        x=0.8,
        y=1.1,
        orientation='h'
    )
)

fig_lineal.update_layout(
    yaxis=dict(
        title='Porcentaje defunciones',
        tickformat='$,.0f',
        showgrid=False
    ),
    legend=dict(
        x=0.8,
        y=1.1,
        orientation='h'
    )
)

fig = make_subplots(rows=1, cols=2)

fig.add_trace(fig_barras.data[0], row=1, col=1)
fig.add_trace(fig_lineal.data[0], row=1, col=2)

fig.update_layout(title_text="Evolución de suicidios de personas jóvenes en España")

fig.show()

In [32]:
Año = [2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021]
Totales = [total_suicidios2012, total_suicidios2013, total_suicidios2014, total_suicidios2015, total_suicidios2016, total_suicidios2017, total_suicidios2018, total_suicidios2019,total_suicidios2020, total_suicidios2021]
Porcentajes1 = [porcentaje_suicidios2012, porcentaje_suicidios2013, porcentaje_suicidios2014, porcentaje_suicidios2015, porcentaje_suicidios2016, porcentaje_suicidios2017, porcentaje_suicidios2018, porcentaje_suicidios2019, porcentaje_suicidios2020, porcentaje_suicidios2021]

BI_suicidios = pd.DataFrame({"Año" : Año, "Defunciones por suicidio" : Totales, "Porcentaje sobre el total de defunciones": Porcentajes1})
BI_suicidios.to_excel('BI_suicidios.xlsx')

- Accidentes de tráfico

In [33]:
porcentaje_accidentes2021 = top10_2021.loc[top10_2021['2021'] == 'Accidentes de tráfico', 'Porcentaje']
porcentaje_accidentes2021 = float(porcentaje_accidentes2021)

total_accidentes2021 = top10_2021.loc[top10_2021['2021'] == 'Accidentes de tráfico', 'Total']
total_accidentes2021 = int(total_accidentes2021)

porcentaje_accidentes2020 = top10_2020.loc[top10_2020['2020'] == 'Accidentes de tráfico', 'Porcentaje']
porcentaje_accidentes2020 = float(porcentaje_accidentes2020)
total_accidentes2020 = top10_2020.loc[top10_2020['2020'] == 'Accidentes de tráfico', 'Total']
total_accidentes2020 = int(total_accidentes2020)

porcentaje_accidentes2019 = top10_2019.loc[top10_2019['2019'] == 'Accidentes de tráfico', 'Porcentaje']
porcentaje_accidentes2019 = float(porcentaje_accidentes2019)
total_accidentes2019 = top10_2019.loc[top10_2019['2019'] == 'Accidentes de tráfico', 'Total']
total_accidentes2019 = int(total_accidentes2019)

porcentaje_accidentes2018 = top10_2018.loc[top10_2018['2018'] == 'Accidentes de tráfico', 'Porcentaje']
porcentaje_accidentes2018 = float(porcentaje_accidentes2018)
total_accidentes2018 = top10_2018.loc[top10_2018['2018'] == 'Accidentes de tráfico', 'Total']
total_accidentes2018 = int(total_accidentes2018)

porcentaje_accidentes2017 = top10_2017.loc[top10_2017['2017'] == 'Accidentes de tráfico', 'Porcentaje']
porcentaje_accidentes2017 = float(porcentaje_accidentes2017)
total_accidentes2017 = top10_2017.loc[top10_2017['2017'] == 'Accidentes de tráfico', 'Total']
total_accidentes2017 = int(total_accidentes2017)

porcentaje_accidentes2016 = top10_2016.loc[top10_2016['2016'] == 'Accidentes de tráfico', 'Porcentaje']
porcentaje_accidentes2016 = float(porcentaje_accidentes2016)
total_accidentes2016 = top10_2016.loc[top10_2016['2016'] == 'Accidentes de tráfico', 'Total']
total_accidentes2016 = int(total_accidentes2016)

porcentaje_accidentes2015 = top10_2015.loc[top10_2015['2015'] == 'Accidentes de tráfico de vehículos de motor', 'Porcentaje']
porcentaje_accidentes2015 = float(porcentaje_accidentes2015)
total_accidentes2015 = top10_2015.loc[top10_2015['2015'] == 'Accidentes de tráfico de vehículos de motor', 'Total']
total_accidentes2015 = int(total_accidentes2015)

porcentaje_accidentes2014 = top10_2014.loc[top10_2014['2014'] == 'Accidentes de tráfico de vehículos de motor', 'Porcentaje']
porcentaje_accidentes2014 = float(porcentaje_accidentes2014)
total_accidentes2014 = top10_2014.loc[top10_2014['2014'] == 'Accidentes de tráfico de vehículos de motor', 'Total']
total_accidentes2014 = int(total_accidentes2014)

porcentaje_accidentes2013 = top10_2013.loc[top10_2013['2013'] == 'Accidentes de tráfico de vehículos de motor', 'Porcentaje']
porcentaje_accidentes2013 = float(porcentaje_accidentes2013)
total_accidentes2013 = top10_2013.loc[top10_2013['2013'] == 'Accidentes de tráfico de vehículos de motor', 'Total']
total_accidentes2013 = int(total_accidentes2013)

porcentaje_accidentes2012 = top10_2012.loc[top10_2012['2012'] == 'Accidentes de tráfico de vehículos de motor', 'Porcentaje']
porcentaje_accidentes2012 = float(porcentaje_accidentes2012)
total_accidentes2012 = top10_2012.loc[top10_2012['2012'] == 'Accidentes de tráfico de vehículos de motor', 'Total']
total_accidentes2012 = int(total_accidentes2012)

In [34]:
Año2 = [2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021]
Porcentajes2 = [porcentaje_accidentes2012, porcentaje_accidentes2013, porcentaje_accidentes2014, porcentaje_accidentes2015, porcentaje_accidentes2016, porcentaje_accidentes2017, porcentaje_accidentes2018, porcentaje_accidentes2019, porcentaje_accidentes2020, porcentaje_accidentes2021]

In [35]:
porcentaje_accidentes = pd.DataFrame({"Año" : Año2, "Porcentaje" : Porcentajes2})
porcentaje_accidentes

Unnamed: 0,Año,Porcentaje
0,2012,12.443371
1,2013,12.718991
2,2014,11.989888
3,2015,14.761159
4,2016,14.246251
5,2017,16.509804
6,2018,15.085537
7,2019,14.126853
8,2020,10.790558
9,2021,11.963636


In [36]:
Año = [2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021]
Totales = [total_accidentes2012, total_accidentes2013, total_accidentes2014, total_accidentes2015, total_accidentes2016, total_accidentes2017, total_accidentes2018, total_accidentes2019,total_accidentes2020, total_accidentes2021]

In [37]:
totales_accidentes = pd.DataFrame({"Año" : Año, "Defunciones por accidente de tráfico" : Totales})
totales_accidentes

Unnamed: 0,Año,Defunciones por accidente de tráfico
0,2012,412
1,2013,363
2,2014,332
3,2015,377
4,2016,361
5,2017,421
6,2018,388
7,2019,343
8,2020,288
9,2021,329


In [38]:
fig_barras = go.Figure(go.Bar(
    x=totales_accidentes['Año'],
    y=totales_accidentes['Defunciones por accidente de tráfico'],
    marker=dict(
        color='blue'),
    name='Número de fallecidos por accidente de tráfico'
))

fig_lineal = go.Figure(go.Scatter(
    x=porcentaje_accidentes['Año'],
    y=porcentaje_accidentes['Porcentaje'],
    name='Porcentaje de fallecidos por suicidio',
    line=dict(color='darkblue', width=4)
))

fig_barras.update_layout(
    yaxis=dict(
        title='Número de fallecidos por accidente de tráfico',
        tickformat='$,.0f',
        showgrid=False
    ),
    legend=dict(
        x=0.8,
        y=1.1,
        orientation='h'
    )
)

fig_lineal.update_layout(
    yaxis=dict(
        title='Porcentaje defunciones',
        tickformat='$,.0f',
        showgrid=False
    ),
    legend=dict(
        x=0.8,
        y=1.1,
        orientation='h'
    )
)

fig = make_subplots(rows=1, cols=2)

fig.add_trace(fig_barras.data[0], row=1, col=1)
fig.add_trace(fig_lineal.data[0], row=1, col=2)

fig.update_layout(title_text="Evolución de defunciones por accidente de tráfico de personas jóvenes en España")

fig.show()

In [39]:
Año2 = [2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021]
Porcentajes2 = [porcentaje_accidentes2012, porcentaje_accidentes2013, porcentaje_accidentes2014, porcentaje_accidentes2015, porcentaje_accidentes2016, porcentaje_accidentes2017, porcentaje_accidentes2018, porcentaje_accidentes2019, porcentaje_accidentes2020, porcentaje_accidentes2021]
Totales = [total_accidentes2012, total_accidentes2013, total_accidentes2014, total_accidentes2015, total_accidentes2016, total_accidentes2017, total_accidentes2018, total_accidentes2019,total_accidentes2020, total_accidentes2021]

BI_accidentes = pd.DataFrame({"Año" : Año, "Defunciones por accidentes de tráfico" : Totales, "Porcentaje sobre el total de defunciones": Porcentajes2})
BI_accidentes.to_excel('BI_accidentes.xlsx')