In [1]:
import pandas as pd

### SALUD MENTAL EN ESPAÑA


El objetivo principal del proyecto es demostrar si existe una relación entre la realidad que día a día observamos vs la realidad de los datos estadísticos que cada Comunidad Autónoma presenta. Para ello utilizaré los informes publicados por el Ministerio de Salud Pública de España e intentaré establecer el aumento de casos en los siguientes ámbitos:
- Población adulta en riesgo de mala salud mental
- Prevalencia declarada de trastornos mentales en población adulta
- DHD antidepresivos
- Mortalidad por suicidio
- Reingresos urgentes psiquiátricos


Una vez terminado el análisis de datos antes indicado, cruzaré la información con las cifras de psicólogos colegiados por Comunidad Autónoma e intentaré ver si existe relación entre el número total de colegiados vs la incidencia de problemas de salud mental por Comunidad. Dado que en el día a día vemos un aumento considerable de problemas de salud mental, los resultados esperados para este último punto, son que no exista una adecuada asignación de profesionales en cada comunidad. 

Cada dataframe tendrá 3 o 4 columnas como máximo, la gran mayoría presenta los siguientes datos:
- Comunidad Autónoma
- Sexo
- Año
- Valores

Cabe recalcar que los datos que se presentan en la columna  años, no presentan las mismas dimensiones; es decir, algunos contienen información de un número menor de años (no consecutivos). Aún así, espero demostrar el incremento de cada uno de los puntos antes mencionados. 

Todos los dataframes, tendrán el mismo criterio para creación de columnas y manipulación de datos. Empezaré por leer los datos de los archivos descargados del Ministerio de Sanidad y continuaré con la creación de columnas y una agrupación del dataframe entero para poder leerlo mejor en Power BI. 

En Power BI, modificaré el excel para que lea la primera fila y la tome como nombre de columna. 

### Número de Psicólogos por Comunidad Autónoma

In [2]:
file_name = 'Nº de Psicologos por Comunidades.xlsx'
Psicologos = pd.read_excel(file_name)
Psicologos

# los datos representan el número de colegiados en España a 31 de diciembre 2021


Unnamed: 0,COMUNIDAD AUTÓNOMA,Hombres,Mujeres,Total
0,Andalucía,975,4098,5073
1,Aragón,140,604,744
2,Principado de Asturias,172,791,963
3,"Balears, Illes",192,790,982
4,Canarias,427,1572,1999
5,Cantabria,62,297,359
6,Castilla y León,241,1032,1273
7,Castilla - La Mancha,79,436,515
8,Cataluña,727,3490,4217
9,Comunitad Valenciana,494,2200,2694


In [4]:
# me quedo con 3 columnas para poder visualizarlo mejor 
# elimino la columna totales ya que si después quiero obtener ese dato, únicamento tengo que sumar los valores de hombres y mujeres
Psicologos= Psicologos.melt(id_vars=['COMUNIDAD AUTÓNOMA'], value_vars=['Hombres','Mujeres'], var_name='SEXO', value_name='VALORES')


In [5]:
#ordeno el índice para que prevalezca la CCAA
Psicologos.sort_values(by='COMUNIDAD AUTÓNOMA', inplace=True, ignore_index=True)

#hago un groupby de las 3 columnas y con eso dejo preparado el CSV con el que voy a trabajar en Power BI
Psicologos = Psicologos.groupby(by = ['COMUNIDAD AUTÓNOMA','SEXO', 'VALORES']).mean()
Psicologos


COMUNIDAD AUTÓNOMA,SEXO,VALORES
Andalucía,Hombres,975
Andalucía,Mujeres,4098
Aragón,Hombres,140
Aragón,Mujeres,604
"Balears, Illes",Hombres,192
"Balears, Illes",Mujeres,790
Canarias,Hombres,427
Canarias,Mujeres,1572
Cantabria,Hombres,62
Cantabria,Mujeres,297


In [41]:
# voy a pasar a excel los datos
file_name = 'Psicologos por comunidad autonoma.xlsx'
  
# guardo el dataframe
Psicologos.to_excel(file_name)
print('Successfully exported')


Successfully exported


### Población adulta en riesgo de mala salud mental

In [31]:
file_name = 'población adulta en riesgo de mala salud mental.xlsx'
Riesgo_mala_salud = pd.read_excel(file_name)
Riesgo_mala_salud


Unnamed: 0,COMUNIDAD AUTÓNOMA,2006,2006.1,2006.2,2011,2011.1,2011.2,2017,2017.1,2017.2
0,,Hombres,Mujeres,Total,Hombres,Mujeres,Total,Hombres,Mujeres,Total
1,Andalucía,14.61,25.37,20.14,16.49,25.21,20.92,19.7,33.03,26.5
2,Aragón,11.39,23.83,17.68,11.5,15.76,13.65,9.57,15.41,12.54
3,Principado de Asturias,15.07,31.34,23.57,18.2,21.04,19.69,13.59,20.5,17.23
4,"Balears, Illes",18.8,31.46,25.14,13,20.29,16.64,10.23,14.16,12.2
5,Canarias,19.5,36.77,28.17,26.88,29.47,28.18,11.48,17.09,14.33
6,Cantabria,9.15,15.94,12.68,,,,7.84,13.6,10.8
7,Castilla y León,10.89,17.6,14.3,15.46,20.15,17.84,15.55,20.12,17.86
8,Castilla - La Mancha,11.17,22.11,16.62,9.1,20.34,14.63,10.73,17.9,14.3
9,Cataluña,18.94,27.85,23.43,14.57,22.51,18.66,11.64,20.82,16.36


In [32]:
#elimino las columnas de totales usando un drop
Riesgo_mala_salud=Riesgo_mala_salud.drop(['2006.2','2011.2','2017.2'],axis=1)
Riesgo_mala_salud


Unnamed: 0,COMUNIDAD AUTÓNOMA,2006,2006.1,2011,2011.1,2017,2017.1
0,,Hombres,Mujeres,Hombres,Mujeres,Hombres,Mujeres
1,Andalucía,14.61,25.37,16.49,25.21,19.7,33.03
2,Aragón,11.39,23.83,11.5,15.76,9.57,15.41
3,Principado de Asturias,15.07,31.34,18.2,21.04,13.59,20.5
4,"Balears, Illes",18.8,31.46,13,20.29,10.23,14.16
5,Canarias,19.5,36.77,26.88,29.47,11.48,17.09
6,Cantabria,9.15,15.94,,,7.84,13.6
7,Castilla y León,10.89,17.6,15.46,20.15,15.55,20.12
8,Castilla - La Mancha,11.17,22.11,9.1,20.34,10.73,17.9
9,Cataluña,18.94,27.85,14.57,22.51,11.64,20.82


In [33]:
#cambio el nombre de las columnas para poder agruparlas mejor posteriormente
Riesgo_mala_salud.columns = ['COMUNIDAD AUTÓNOMA'] + [f'{a}.{b}' for a, b in zip(['2006', '2006', '2011', '2011', '2017', '2017'], ['Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres'])]

#al modificar las columnas, los datos que tengo en la fila con índice 0, ya no son necesarios.
Riesgo_mala_salud.drop(0, inplace=True)

# reduzco a 3 columnas 
Riesgo_mala_salud= Riesgo_mala_salud.melt(id_vars=['COMUNIDAD AUTÓNOMA'], value_vars=['2006.Hombres','2006.Mujeres','2011.Hombres','2011.Mujeres','2017.Hombres','2017.Mujeres'], var_name='SEXO', value_name='VALORES')

# hago un split de la columna 'sexo' para que quede separado año y sexo
Riesgo_mala_salud[['AÑO','SEXO']]=Riesgo_mala_salud.SEXO.str.split('.',expand=True)
Riesgo_mala_salud = Riesgo_mala_salud[['COMUNIDAD AUTÓNOMA','SEXO','AÑO','VALORES']]

#ordeno el índice
Riesgo_mala_salud.sort_values(by='COMUNIDAD AUTÓNOMA', inplace=True, ignore_index=True)

#hago un groupby de todo el dataframe
Riesgo_mala_salud = Riesgo_mala_salud.groupby(by = ['COMUNIDAD AUTÓNOMA','SEXO','AÑO','VALORES']).mean()

# en este caso el df me queda con un columna más ya que presentó datos de 3 años (no consecutivos)
Riesgo_mala_salud


COMUNIDAD AUTÓNOMA,SEXO,AÑO,VALORES
Andalucía,Hombres,2006,14.61
Andalucía,Hombres,2011,16.49
Andalucía,Hombres,2017,19.70
Andalucía,Mujeres,2006,25.37
Andalucía,Mujeres,2011,25.21
...,...,...,...
Principado de Asturias,Hombres,2011,18.20
Principado de Asturias,Hombres,2017,13.59
Principado de Asturias,Mujeres,2006,31.34
Principado de Asturias,Mujeres,2011,21.04


In [42]:
# paso a excel los datos 
file_name = 'Riesgo de mala salud mental.xlsx'
  
# guardo el dataframe
Riesgo_mala_salud.to_excel(file_name)
print('Successfully exported')


Successfully exported


###  Prevalencia de trastornos mentales 

In [18]:
file_name = 'PREVALENCIA TRASTORNOS MENTALES.xlsx'
Prevalencia_trastornos = pd.read_excel(file_name)
Prevalencia_trastornos


Unnamed: 0,COMUNIDAD AUTÓNOMA,2006,2006.1,2006.2,2009,2009.1,2009.2,2011,2011.1,2011.2,2014,2014.1,2014.2,2017,2017.1,2017.2,2020,2020.1,2020.2
0,,Hombres,Mujeres,Total,Hombres,Mujeres,Total,Hombres,Mujeres,Total,Hombres,Mujeres,Total,Hombres,Mujeres,Total,Hombres,Mujeres,Total
1,Andalucía,7.32,18.1,12.8,6.19,12.22,9.25,5.64,13.19,9.48,7.62,16.96,12.38,8.14,15.7,12,5.57,10.1,7.88
2,Aragón,5.01,13.19,9.13,5.52,9.01,7.28,4.46,11.31,7.93,5.69,11.29,8.53,4.93,12.18,8.62,4.42,9.56,7.04
3,Principado de Asturias,9.27,25.19,17.63,5.37,13.94,9.88,12.09,18.98,15.71,7.73,19.34,13.82,12.61,24.17,18.68,7.86,17.14,12.69
4,"Balears, Illes",10.27,19.15,14.72,6.72,14.69,10.71,4.97,12.69,8.85,6.04,14.98,10.54,5.47,10.61,8.07,7.38,14.86,11.15
5,Canarias,6.21,13.29,9.77,8.67,15.92,12.31,7.58,16.12,11.89,8.96,17.77,13.41,6.87,12.36,9.66,8.13,15.06,11.65
6,Cantabria,5.22,13.38,9.42,6.46,13.67,10.17,6.62,8.73,7.71,5.76,14.37,10.18,8.69,15.46,12.18,6.06,7.47,6.79
7,Castilla y León,6.2,12.2,9.25,4.18,11.19,7.73,4.65,12.22,8.5,4.35,14.18,9.35,8.86,11.72,10.31,7.32,13.61,10.51
8,Castilla - La Mancha,6.3,14.73,10.51,6.05,14.39,10.19,4.23,17.97,11.07,6.08,10.28,8.17,5.77,16.58,11.16,6.6,11.65,9.12
9,Cataluña,5.96,15.22,10.68,5.77,12.06,8.98,6.83,14.92,10.99,7.95,14.1,11.1,6.38,14.15,10.38,5.25,11.96,8.7


In [19]:
#elimino las columnas de totales
Prevalencia_trastornos=Prevalencia_trastornos.drop(['2006.2','2009.2','2011.2','2014.2','2017.2','2020.2'],axis=1)
Prevalencia_trastornos


Unnamed: 0,COMUNIDAD AUTÓNOMA,2006,2006.1,2009,2009.1,2011,2011.1,2014,2014.1,2017,2017.1,2020,2020.1
0,,Hombres,Mujeres,Hombres,Mujeres,Hombres,Mujeres,Hombres,Mujeres,Hombres,Mujeres,Hombres,Mujeres
1,Andalucía,7.32,18.1,6.19,12.22,5.64,13.19,7.62,16.96,8.14,15.7,5.57,10.1
2,Aragón,5.01,13.19,5.52,9.01,4.46,11.31,5.69,11.29,4.93,12.18,4.42,9.56
3,Principado de Asturias,9.27,25.19,5.37,13.94,12.09,18.98,7.73,19.34,12.61,24.17,7.86,17.14
4,"Balears, Illes",10.27,19.15,6.72,14.69,4.97,12.69,6.04,14.98,5.47,10.61,7.38,14.86
5,Canarias,6.21,13.29,8.67,15.92,7.58,16.12,8.96,17.77,6.87,12.36,8.13,15.06
6,Cantabria,5.22,13.38,6.46,13.67,6.62,8.73,5.76,14.37,8.69,15.46,6.06,7.47
7,Castilla y León,6.2,12.2,4.18,11.19,4.65,12.22,4.35,14.18,8.86,11.72,7.32,13.61
8,Castilla - La Mancha,6.3,14.73,6.05,14.39,4.23,17.97,6.08,10.28,5.77,16.58,6.6,11.65
9,Cataluña,5.96,15.22,5.77,12.06,6.83,14.92,7.95,14.1,6.38,14.15,5.25,11.96


In [25]:
#cambio el nombre de las columnas 
Prevalencia_trastornos.columns = ['COMUNIDAD AUTÓNOMA'] + [f'{a}.{b}' for a, b in zip(['2006', '2006','2009','2009','2011', '2011','2014','2014','2017', '2017','2020','2020'], ['Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres'])]

#elimino la fila 0
Prevalencia_trastornos.drop(0, inplace=True)

# reduzco a 3 columnas 
Prevalencia_trastornos = Prevalencia_trastornos.melt(id_vars=['COMUNIDAD AUTÓNOMA'], value_vars=['2006.Hombres','2006.Mujeres','2009.Hombres','2009.Mujeres','2011.Hombres','2011.Mujeres','2014.Hombres','2014.Mujeres','2017.Hombres','2017.Mujeres','2020.Hombres','2020.Mujeres'], var_name='SEXO', value_name='VALORES')


# hago un split de la columna 'sexo'  y creo la columna 'año'
Prevalencia_trastornos[['AÑO','SEXO']]=Prevalencia_trastornos.SEXO.str.split('.',expand=True)
Prevalencia_trastornos = Prevalencia_trastornos[['COMUNIDAD AUTÓNOMA','SEXO','AÑO','VALORES']]

#ordeno el índice
Prevalencia_trastornos.sort_values(by='COMUNIDAD AUTÓNOMA', inplace=True, ignore_index=True)

#hago un groupby de todo el dataframe
Prevalencia_trastornos = Prevalencia_trastornos.groupby(by = ['COMUNIDAD AUTÓNOMA','SEXO','AÑO','VALORES']).mean()

# los datos presentados son desde 2006 hasta 2020 (no consecutivos)
Prevalencia_trastornos


COMUNIDAD AUTÓNOMA,SEXO,AÑO,VALORES
Andalucía,Hombres,2006,7.32
Andalucía,Hombres,2009,6.19
Andalucía,Hombres,2011,5.64
Andalucía,Hombres,2014,7.62
Andalucía,Hombres,2017,8.14
...,...,...,...
Principado de Asturias,Mujeres,2009,13.94
Principado de Asturias,Mujeres,2011,18.98
Principado de Asturias,Mujeres,2014,19.34
Principado de Asturias,Mujeres,2017,24.17


In [43]:
# paso a excel los datos 
file_name = 'Prevalencia trastornos mentales.xlsx'
  
# guardo el dataframe
Prevalencia_trastornos.to_excel(file_name)
print('Successfully exported')


Successfully exported


### DHD antidepresivos

In [2]:
file_name = 'DHD antidepresivos.xlsx'
DHD_antidepresivos = pd.read_excel(file_name)
DHD_antidepresivos


Unnamed: 0,COMUNIDAD AUTÓNOMA,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
0,Andalucía,55.01,57.19,58.41,61.16,64.21,65.75,67.96,69.81,72.91,76.45,80.44,85.99
1,Aragón,67.37,70.92,70.79,71.62,75.56,77.41,81.9,83.11,85.89,88.74,91.26,96.16
2,Principado de Asturias,92.55,97.79,97.15,100.59,105.58,109.7,113.81,116.56,120.03,124.95,129.75,136.08
3,"Balears, Illes",67.13,70.31,69.05,71.0,73.1,73.79,75.92,76.67,78.59,81.63,84.59,90.15
4,Canarias,56.59,57.7,58.02,61.63,65.01,67.25,70.51,73.33,76.51,80.03,85.74,92.72
5,Cantabria,64.29,67.97,68.92,71.6,74.25,77.07,80.83,82.86,87.63,92.29,98.18,104.68
6,Castilla y León,66.31,70.07,67.75,70.34,73.0,74.63,77.28,79.72,83.09,87.36,91.9,97.23
7,Castilla - La Mancha,65.91,67.7,69.07,71.89,75.21,77.13,81.12,83.06,86.31,90.05,95.39,99.68
8,Cataluña,74.31,77.91,74.72,75.06,76.92,77.59,78.2,79.11,80.53,83.19,85.59,91.58
9,Comunitad Valenciana,58.24,60.54,59.04,60.4,64.6,66.93,71.59,73.92,77.25,80.67,82.42,88.52


In [3]:
# dejo mi df en 3 columnas
DHD_antidepresivos= DHD_antidepresivos.melt(id_vars=['COMUNIDAD AUTÓNOMA'], value_vars=['2010','2011','2012','2013','2014','2015','2016','2017','2018','2019','2020'], var_name='AÑO', value_name='VALORES')

#ordeno el índice por CCAA
DHD_antidepresivos.sort_values(by='COMUNIDAD AUTÓNOMA', inplace=True, ignore_index=True)

# agrupo todo el df
DHD_antidepresivos.groupby(by = ['COMUNIDAD AUTÓNOMA','AÑO','VALORES']).mean()

# el df presenta datos desde 2010 hasta 2021 (no consecutivos)

COMUNIDAD AUTÓNOMA,AÑO,VALORES
Andalucía,2010,55.01
Andalucía,2011,57.19
Andalucía,2012,58.41
Andalucía,2013,61.16
Andalucía,2014,64.21
...,...,...
Principado de Asturias,2016,113.81
Principado de Asturias,2017,116.56
Principado de Asturias,2018,120.03
Principado de Asturias,2019,124.95


In [4]:
# paso a excel los datos 
file_name = 'DHD_antidepresivos.xlsx'
  
# guardo el dataframe
DHD_antidepresivos.to_excel(file_name)
print('Successfully exported')


Successfully exported


### Mortalidad por suicidio

In [36]:
file_name = 'Mortalidad por suicidio.xlsx'
Mortalidad = pd.read_excel(file_name)
Mortalidad


Unnamed: 0,COMUNIDAD AUTÓNOMA,2010,2010.1,2010.2,2011,2011.1,2011.2,2012,2012.1,2012.2,...,2017.2,2018,2018.1,2018.2,2019,2019.1,2019.2,2020,2020.1,2020.2
0,,Hombres,Mujeres,Total,Hombres,Mujeres,Total,Hombres,Mujeres,Total,...,Total,Hombres,Mujeres,Total,Hombres,Mujeres,Total,Hombres,Mujeres,Total
1,Andalucía,15.12,3.65,8.84,14.34,3.24,8.3,16.47,3.97,9.78,...,8.29,12.67,3.37,7.71,11.81,3.7,7.52,14.4,4.89,9.3
2,Aragón,11.18,2.91,6.75,8.86,3.79,6.16,10.88,3.56,7.04,...,7.1,13.85,3.54,8.46,11.86,3.96,7.75,10.06,4.56,7.07
3,Principado de Asturias,20.33,5.46,12.15,14.72,6.06,9.87,15.11,7.56,10.74,...,11.29,17.45,6.28,11.05,17.79,4.94,10.67,15.79,5.79,10.12
4,"Balears, Illes",14.81,3.97,9.22,11.9,5.41,8.54,13.29,3.44,8.3,...,8.81,9.41,2.96,6.1,11.83,4.46,8.06,11.94,2.55,7.03
5,Canarias,12.86,3.05,7.87,10.78,3.36,6.88,14.7,3.53,8.97,...,9.04,13.51,3.55,8.44,14.98,2.64,8.56,13.87,4.2,8.85
6,Cantabria,6.59,0.3,3.34,7.86,4.23,6.02,8.72,3.68,6.14,...,4.42,7.71,1.55,4.58,8.37,3.74,5.92,10.94,3.73,7
7,Castilla y León,12.82,3.14,7.68,10.35,2.96,6.49,11.62,3.38,7.32,...,7.97,11.89,3.99,7.76,12.24,4.04,7.92,13.08,3.75,8.19
8,Castilla - La Mancha,11.8,2.45,6.83,11.98,2.24,6.91,12.85,2.73,7.53,...,7.47,9.1,3.3,6.1,11.23,3.52,7.24,14.18,3.24,8.43
9,Cataluña,9.46,2.46,5.69,10.02,3.18,6.36,11.59,3.44,7.16,...,6.62,10.47,3.51,6.75,10.22,3.82,6.81,11.2,3.49,7.05


In [37]:
#elimino las columnas de totales
Mortalidad=Mortalidad.drop(['2010.2','2011.2','2012.2','2013.2','2014.2','2015.2','2016.2','2017.2','2018.2','2019.2','2020.2'],axis=1)
Mortalidad

#cambio el nombre de las columnas 
Mortalidad.columns = ['COMUNIDAD AUTÓNOMA'] + [f'{a}.{b}' for a, b in zip(['2010','2010','2011','2011','2012','2012','2013','2013','2014','2014','2015','2015','2016','2016','2017','2017','2018','2018','2019','2019','2020','2020'], ['Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres'])]

#elimino la fila 0
Mortalidad.drop(0, inplace=True)

# reduzco a 3 columnas 
Mortalidad = Mortalidad.melt(id_vars=['COMUNIDAD AUTÓNOMA'], value_vars=['2010.Hombres','2010.Mujeres','2011.Hombres','2011.Mujeres','2012.Hombres','2012.Mujeres','2013.Hombres','2013.Mujeres','2014.Hombres','2014.Mujeres','2015.Hombres','2015.Mujeres','2016.Hombres','2016.Mujeres','2017.Hombres','2017.Mujeres','2018.Hombres','2018.Mujeres','2019.Hombres','2019.Mujeres','2020.Hombres','2020.Mujeres'], var_name='SEXO', value_name='VALORES')


# hago un split de la columna 'sexo' y creo la columna 'año'
Mortalidad[['AÑO','SEXO']]=Mortalidad.SEXO.str.split('.',expand=True)
Mortalidad = Mortalidad[['COMUNIDAD AUTÓNOMA','SEXO','AÑO','VALORES']]

#ordeno el índice
Mortalidad.sort_values(by='COMUNIDAD AUTÓNOMA', inplace=True, ignore_index=True)

#hago un groupby de todo el dataframe
Mortalidad = Mortalidad.groupby(by = ['COMUNIDAD AUTÓNOMA','SEXO','AÑO','VALORES']).mean()

# los datos presentados son desde 2010 hasta 2020 (consecutivos)
Mortalidad


COMUNIDAD AUTÓNOMA,SEXO,AÑO,VALORES
Andalucía,Hombres,2010,15.12
Andalucía,Hombres,2011,14.34
Andalucía,Hombres,2012,16.47
Andalucía,Hombres,2013,16.47
Andalucía,Hombres,2014,16.64
...,...,...,...
Principado de Asturias,Mujeres,2016,5.95
Principado de Asturias,Mujeres,2017,6.52
Principado de Asturias,Mujeres,2018,6.28
Principado de Asturias,Mujeres,2019,4.94


In [45]:
# paso a excel los datos 
file_name = 'Mortalidad.xlsx'
  
# guardo el dataframe
Mortalidad.to_excel(file_name)
print('Successfully exported')


Successfully exported


### Reingresos en urgencias psiquiátricas

In [39]:
file_name = 'reingresos urgencias.xlsx'
Reingresos_urgencias = pd.read_excel(file_name)
Reingresos_urgencias


Unnamed: 0,COMUNIDAD AUTÓNOMA,2005,2005.1,2006,2006.1,2007,2007.1,2008,2008.1,2009,...,2016,2016.1,2017,2017.1,2018,2018.1,2019,2019.1,2020,2020.1
0,,Hombres,Mujeres,Hombres,Mujeres,Hombres,Mujeres,Hombres,Mujeres,Hombres,...,Hombres,Mujeres,Hombres,Mujeres,Hombres,Mujeres,Hombres,Mujeres,Hombres,Mujeres
1,Andalucía,12.38,12.12,12.5,12.6,14.39,13.23,13.58,13.03,14.01,...,13.09,13.12,13.8,12.67,12.79,13.68,12.43,14.08,13.88,16.81
2,Aragón,12.68,11.36,11.29,11.14,11.69,10.72,11.64,10.68,9.75,...,7.56,8.49,7.31,9.71,8.68,9.36,9.52,7.49,9.41,8.84
3,Principado de Asturias,11.38,8.99,12.67,12.94,11.98,14.09,12.55,14.25,10.06,...,11.18,11.17,,,11.86,12.57,10.96,12.04,15.54,16
4,"Balears, Illes",10.14,11.18,11.46,12.58,11.98,9.01,12.94,12.58,9.93,...,7.41,9.14,9.93,9.68,9.97,12.26,8.25,10.45,10.13,9.18
5,Canarias,5.84,8.19,6.25,8.8,5.59,7.56,5.91,6.86,5.96,...,9.17,10.4,7.26,7.63,9.04,10.99,8.8,10.01,10.01,12.46
6,Cantabria,5.88,6.25,7.27,7.76,6.02,7.56,7.9,7.64,11.39,...,7.92,5.33,8.83,8.33,7.3,9.85,7.11,8.33,7.16,7.32
7,Castilla y León,10.76,10.74,9.89,12.47,11.48,11.29,9.96,10.02,13.57,...,10.6,17.15,10.57,13.16,11.7,13.71,11.1,11.67,10.3,11.19
8,Castilla - La Mancha,14.26,18.48,14.46,18.58,15.26,18.95,14.81,18.61,12.32,...,12.75,15.07,12.27,12.61,11.6,12.57,13.22,12.34,14.52,14.95
9,Cataluña,4.71,5.86,4.73,6.54,6.1,6.62,4.76,5.49,5.49,...,6.41,8.14,6.4,5.3,7.07,6.43,7.19,7.29,8.12,8.34


In [40]:
#cambio el nombre de las columnas 
Reingresos_urgencias.columns = ['COMUNIDAD AUTÓNOMA'] + [f'{a}.{b}' for a, b in zip(['2005','2005','2006','2006','2007','2007','2008','2008','2009','2009','2010','2010','2011','2011','2012','2012','2013','2013','2014','2014','2015','2015','2016','2016','2017','2017','2018','2018','2019','2019','2020','2020'], ['Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres','Hombres','Mujeres'])]

#elimino la fila 0
Reingresos_urgencias.drop(0, inplace=True)

# reduzco a 3 columnas 
Reingresos_urgencias = Reingresos_urgencias.melt(id_vars=['COMUNIDAD AUTÓNOMA'], value_vars=['2005.Hombres','2005.Mujeres','2006.Hombres','2006.Mujeres','2007.Hombres','2007.Mujeres','2008.Hombres','2008.Mujeres','2009.Hombres','2009.Mujeres','2010.Hombres','2010.Mujeres','2011.Hombres','2011.Mujeres','2012.Hombres','2012.Mujeres','2013.Hombres','2013.Mujeres','2014.Hombres','2014.Mujeres','2015.Hombres','2015.Mujeres','2016.Hombres','2016.Mujeres','2017.Hombres','2017.Mujeres','2018.Hombres','2018.Mujeres','2019.Hombres','2019.Mujeres','2020.Hombres','2020.Mujeres'], var_name='SEXO', value_name='VALORES')


# hago un split de la columna 'sexo' y creo la columna 'año'
Reingresos_urgencias[['AÑO','SEXO']]=Reingresos_urgencias.SEXO.str.split('.',expand=True)
Reingresos_urgencias = Reingresos_urgencias[['COMUNIDAD AUTÓNOMA','SEXO','AÑO','VALORES']]

#ordeno el índice
Reingresos_urgencias.sort_values(by='COMUNIDAD AUTÓNOMA', inplace=True, ignore_index=True)

#hago un groupby de todo el dataframe
Reingresos_urgencias = Reingresos_urgencias.groupby(by = ['COMUNIDAD AUTÓNOMA','SEXO','AÑO','VALORES']).mean()

# los datos presentados son desde 2005 hasta 2020 (consecutivos)
Reingresos_urgencias


COMUNIDAD AUTÓNOMA,SEXO,AÑO,VALORES
Andalucía,Hombres,2005,12.38
Andalucía,Hombres,2006,12.50
Andalucía,Hombres,2007,14.39
Andalucía,Hombres,2008,13.58
Andalucía,Hombres,2009,14.01
...,...,...,...
Principado de Asturias,Mujeres,2015,12.69
Principado de Asturias,Mujeres,2016,11.17
Principado de Asturias,Mujeres,2018,12.57
Principado de Asturias,Mujeres,2019,12.04


In [46]:
# paso a excel los datos 
file_name = 'Reingresos urgencias psiquiatricas.xlsx'
  
# guardo el dataframe
Reingresos_urgencias.to_excel(file_name)
print('Successfully exported')


Successfully exported
