In [8]:
%matplotlib notebook
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import scipy.stats

In [9]:
df_suicidios = pd.read_csv('suicidios_limpio.csv', sep=',', encoding='UTF-8')

In [10]:
df_poblacion = pd.read_csv('poblacion_limpia_columnas.csv', sep=',', encoding='UTF-8')

In [11]:
df_suicidios['Edad'] = df_suicidios['Edad'].map(str.strip)

In [12]:
df = pd.merge(df_suicidios, df_poblacion, how='inner', left_on=['Sexo', 'Edad', 'Año'], right_on=['in_sexo', 'gr_edad', 'año'])

In [13]:
df_poblacion.columns

Index(['Unnamed: 0', 'in_sexo', 'gr_edad', 'año', 'poblacion'], dtype='object')

In [14]:
df

Unnamed: 0,Unnamed: 0_x,Sexo,Edad,Año,Suicidios,Unnamed: 0_y,in_sexo,gr_edad,año,poblacion
0,0,Total,Todas las edades,2018,3539,819,Total,Todas las edades,2018,46658447.0
1,1,Total,Todas las edades,2017,3679,820,Total,Todas las edades,2017,46527039.0
2,2,Total,Todas las edades,2016,3569,821,Total,Todas las edades,2016,46440099.0
3,3,Total,Todas las edades,2015,3602,822,Total,Todas las edades,2015,46449565.0
4,4,Total,Todas las edades,2014,3910,823,Total,Todas las edades,2014,46512199.0
5,5,Total,Todas las edades,2013,3870,824,Total,Todas las edades,2013,46727890.0
6,6,Total,Todas las edades,2012,3539,825,Total,Todas las edades,2012,46818216.0
7,7,Total,Todas las edades,2011,3180,826,Total,Todas las edades,2011,46667175.0
8,8,Total,Todas las edades,2010,3158,827,Total,Todas las edades,2010,46486621.0
9,9,Total,Todas las edades,2009,3429,828,Total,Todas las edades,2009,46239271.0


In [15]:
df.columns

Index(['Unnamed: 0_x', 'Sexo', 'Edad', 'Año', 'Suicidios', 'Unnamed: 0_y',
       'in_sexo', 'gr_edad', 'año', 'poblacion'],
      dtype='object')

In [16]:
df = df[['Sexo', 'Edad', 'Año', 'Suicidios', 'poblacion']]

#### Copiamos el df en otro 'df_n' para mantener el original por si ocurre algún problema

In [17]:
dfn = df.copy()

#### Existen en este dataframe valores 0 para la población. Esto viene del mismo INE que si que tiene valores para '85 años y más' pero no los tiene desglosados para el resto de las edades en 1980. 
#### Hay que tomar una decisión. O hacemos grupos hasta 85 años, o mantenemos todos los grupos hasta '95 años y más' pero eliminamos el año 1980.  La riqueza que aporta tener tres grupos más de población para el resto de los años hace que merezca la pena perder un año. 

#### Eliminamos 1980.

In [18]:
dfn = dfn[dfn['Año'] != 1980]

#### Hallamos los suicidios por cada 100.000 personas. 

Para ello multiplicamos los suicidios por 100.000 y los dividimos entre el total de la población. 

#### (Suicidios x 100.000) / Población

In [19]:
dfn['Ratio'] = (dfn['Suicidios']*100000)/dfn['poblacion']

In [20]:
dfn

Unnamed: 0,Sexo,Edad,Año,Suicidios,poblacion,Ratio
0,Total,Todas las edades,2018,3539,46658447.0,7.584907
1,Total,Todas las edades,2017,3679,46527039.0,7.907230
2,Total,Todas las edades,2016,3569,46440099.0,7.685169
3,Total,Todas las edades,2015,3602,46449565.0,7.754647
4,Total,Todas las edades,2014,3910,46512199.0,8.406397
5,Total,Todas las edades,2013,3870,46727890.0,8.281992
6,Total,Todas las edades,2012,3539,46818216.0,7.559024
7,Total,Todas las edades,2011,3180,46667175.0,6.814211
8,Total,Todas las edades,2010,3158,46486621.0,6.793352
9,Total,Todas las edades,2009,3429,46239271.0,7.415774


In [21]:
dfn = dfn.sort_values('Ratio', ascending=False)

In [22]:
# dfn.to_csv('Ratio Suicidios Poblacion.csv')

In [23]:
df_plot = dfn[(dfn['Sexo'] == 'Total') & (df['Edad'] == 'Todas las edades')]

In [24]:
df_plot = df_plot.sort_values('Año')

In [25]:
df_plot

Unnamed: 0,Sexo,Edad,Año,Suicidios,poblacion,Ratio
37,Total,Todas las edades,1981,1718,37635389.0,4.564853
36,Total,Todas las edades,1982,1851,37881873.0,4.886242
35,Total,Todas las edades,1983,2181,38090151.0,5.72589
34,Total,Todas las edades,1984,2493,38252899.0,6.517153
33,Total,Todas las edades,1985,2514,38407829.0,6.54554
32,Total,Todas las edades,1986,2755,38531195.0,7.150051
31,Total,Todas las edades,1987,2804,38638052.0,7.257095
30,Total,Todas las edades,1988,2960,38731578.0,7.642343
29,Total,Todas las edades,1989,2987,38802300.0,7.697997
28,Total,Todas las edades,1990,2939,38853227.0,7.564365


In [26]:
plt.figure()

plt.plot(df_plot['Año'], df_plot['Ratio'])
plt.xlabel('Año')
plt.ylabel('Suicidios cada 100.000 habitantes')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Suicidios cada 100.000 habitantes')

In [27]:
df[(df['Sexo'] == 'Total') & (df['Edad'] == 'Todas las edades')].sum()

Sexo         TotalTotalTotalTotalTotalTotalTotalTotalTotalT...
Edad         Todas las edadesTodas las edadesTodas las edad...
Año                                                      77961
Suicidios                                               120871
poblacion                                          1.62753e+09
dtype: object

In [28]:
df[(df['Edad'] == 'Todas las edades') & (df['Sexo'] == 'Total')]['Suicidios'].sum()

120871

In [29]:
dfn[(dfn['Edad'] == 'Todas las edades') & (dfn['Año'] == 2018)]

Unnamed: 0,Sexo,Edad,Año,Suicidios,poblacion,Ratio
858,Hombres,Todas las edades,2018,2619,22881882.0,11.445737
0,Total,Todas las edades,2018,3539,46658447.0,7.584907
1716,Mujeres,Todas las edades,2018,920,23776565.0,3.869356


In [30]:
dfn.groupby(['Sexo', 'Edad'])['Ratio'].mean()

Sexo     Edad            
Hombres  95 y más años       55.878678
         De 1 a 4 años        0.000000
         De 10 a 14 años      0.610278
         De 15 a 19 años      3.876280
         De 20 a 24 años      8.281001
         De 25 a 29 años      9.533648
         De 30 a 34 años     10.115830
         De 35 a 39 años     10.719945
         De 40 a 44 años     11.757641
         De 45 a 49 años     13.298492
         De 5 a 9 años        0.015624
         De 50 a 54 años     14.835856
         De 55 a 59 años     15.721678
         De 60 a 64 años     16.488033
         De 65 a 69 años     18.049387
         De 70 a 74 años     23.285386
         De 75 a 79 años     32.508692
         De 80 a 84 años     43.367017
         De 85 a 89 años     53.824331
         De 90 a 94 años     58.429004
         Menos de 1 año       0.000000
         Todas las edades    11.423693
Mujeres  95 y más años        7.814769
         De 1 a 4 años        0.000000
         De 10 a 14 años      0.240037

In [31]:
df_prueba = dfn[dfn['Edad'] == 'Todas las edades']

In [32]:
df_prueba.to_csv('prueba_para_fluorish.csv')