# Proceso de obtención de datos

## Importación de librerías

In [1]:
import pandas as pd
import numpy as np

## Funciones comunes

##### * Se crea un diccionario que contiene el nombre de las comunidades de España
##### * Se crea una función que unifica los nombres de las comunidades autónomas de los distintos ficheros

In [2]:
#Diccionario que contiene el nombre de las comunidades de España
comunidades_autonomas = {1:'Andalucia',2:'Aragon',3:'Asturias',4:'Baleares',5:'Canarias',6:'Cantabria',
            7:'Castilla_Leon',8:'Castilla_Mancha',9:'Catalunia',10:'Valencia',11:'Extremadura',
            12:'Galicia',13:'Madrid',14:'Murcia',15:'Navarra',16:'Pais_vasco',17:'Rioja',18:'Ceuta_Melilla', 19:'Total'};


#Función que unifica los nombres de las comunidades autónomas de los distintos ficheros
def unificar_nombre_comunidad_autonoma(df):
    if not df.empty:
        
        df.loc[(df['Comunidades'].str.contains("Andalucía")),'Comunidades'] = comunidades_autonomas.get(1);
        df.loc[(df['Comunidades'].str.contains("Aragón")),'Comunidades'] = comunidades_autonomas.get(2);
        df.loc[(df['Comunidades'].str.contains("Asturias")),'Comunidades'] = comunidades_autonomas.get(3);
        df.loc[(df['Comunidades'].str.contains("Balear")),'Comunidades'] = comunidades_autonomas.get(4);
        df.loc[(df['Comunidades'].str.contains("Canarias")),'Comunidades'] = comunidades_autonomas.get(5);
        df.loc[(df['Comunidades'].str.contains("Cantabria")),'Comunidades'] = comunidades_autonomas.get(6);
        df.loc[(df['Comunidades'].str.contains("Castilla y León")),'Comunidades'] = comunidades_autonomas.get(7);
        df.loc[(df['Comunidades'].str.contains("La Mancha")),'Comunidades'] = comunidades_autonomas.get(8);
        df.loc[(df['Comunidades'].str.contains("Cataluña")),'Comunidades'] = comunidades_autonomas.get(9);
        df.loc[(df['Comunidades'].str.contains("Valenciana")),'Comunidades'] = comunidades_autonomas.get(10);
        df.loc[(df['Comunidades'].str.contains("Extremadura")),'Comunidades'] = comunidades_autonomas.get(11);
        df.loc[(df['Comunidades'].str.contains("Galicia")),'Comunidades'] = comunidades_autonomas.get(12);
        df.loc[(df['Comunidades'].str.contains("Madrid")),'Comunidades'] = comunidades_autonomas.get(13);
        df.loc[(df['Comunidades'].str.contains("Murcia")),'Comunidades'] = comunidades_autonomas.get(14);
        df.loc[(df['Comunidades'].str.contains("Navarra")),'Comunidades'] = comunidades_autonomas.get(15);
        df.loc[(df['Comunidades'].str.contains("Vasco")),'Comunidades'] = comunidades_autonomas.get(16);
        df.loc[(df['Comunidades'].str.contains("Rioja")),'Comunidades'] = comunidades_autonomas.get(17);
        df.loc[(df['Comunidades'].str.contains("Ceuta")),'Comunidades'] = comunidades_autonomas.get(18);
        df.loc[(df['Comunidades'].str.contains("Melilla")),'Comunidades'] = comunidades_autonomas.get(18);
        df.loc[(df['Comunidades'].str.upper().str.contains("TOTAL")),'Comunidades'] = comunidades_autonomas.get(19);
        return df
    else:
        print ("No hay datos en el dataFrame")

## Producto Interior Bruto por Comunidades (PIB por habitante)

#####  * Se obtienen los daos del PIB
#####  * Se renombra la columna de las comunidades y se limpia el nombre de las columnas de los años
#####  * Se eliminan las columnas vacías que no nos interesan

In [3]:
#Se obtienen los datos del PIB 
df_pib=pd.read_excel ("./Datos/Informes Originales/PIB - Gastos.xls", sheet_name='Tabla 1', header=2, usecols="A,BO:CS")

#Se renombra la columna de las Comunidades y las columnas de los años
df_pib.rename(columns={ df_pib.columns[0]: "Comunidades" }, inplace = True)
df_pib.columns = df_pib.columns.str.replace(r'.2$', '')

#Se elimian las columnas vacías que no interesan para el estudio
df_pib = df_pib.loc[:, ~df_pib.columns.str.contains('^Unnamed')]
df_pib.dtypes

Comunidades     object
1995           float64
1996           float64
1997           float64
1998           float64
1999           float64
2000           float64
2001           float64
2002           float64
2003           float64
2004           float64
2005           float64
2006           float64
2007           float64
2008           float64
2009           float64
2010           float64
dtype: object

### Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros

In [4]:
#Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros
unificar_nombre_comunidad_autonoma(df_pib)
df_pib

Unnamed: 0,Comunidades,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010
0,Total,11353.845651,12002.661961,12730.620459,13581.692296,14524.976743,15653.200481,16715.466914,17650.328330,18639.136332,19700.339768,20940.781171,22335.448628,23477.897355,23857.605659,22813.911485,22819.130249
1,Andalucia,8465.183801,8928.435036,9455.612309,9976.193901,10596.022167,11528.568957,12352.873280,13196.664843,14198.404264,15170.816972,16249.933330,17306.052330,18143.543639,18368.609116,17486.271962,17428.177942
2,Almería,9466.654654,10852.258735,11991.381866,12580.188117,14100.549273,14971.627956,15707.275475,16869.470635,17811.514927,18333.189821,19454.671222,20386.361898,21303.573335,0.000000,0.000000,0.000000
3,Cádiz,8237.249657,9034.872563,9423.440368,9896.419496,10523.568155,11729.101179,12563.212092,13390.905610,14189.449286,15451.124627,16536.190401,17756.912971,18562.741943,0.000000,0.000000,0.000000
4,Córdoba,8178.487712,8227.488618,8619.526954,9201.250137,9733.795649,10400.555645,10867.228788,11408.567597,12365.650645,13323.299915,14039.046607,15239.272936,16252.538480,0.000000,0.000000,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
58,Bizkaia,12896.024406,13300.884494,14215.705836,15376.661821,16823.434283,18332.129967,19234.879732,20499.618276,22114.990828,23638.837964,25706.491714,27361.062946,29085.206456,0.000000,0.000000,0.000000
59,Gipuzkoa,13921.295708,14817.737042,15762.283544,16979.338552,18085.061582,19534.500100,21470.600305,22417.107291,23325.953572,25022.743166,26732.997455,29488.827333,31558.726539,0.000000,0.000000,0.000000
60,Rioja,12982.489918,13671.803493,14608.976375,15551.777931,16485.435692,17810.942283,18696.809598,19389.727913,20571.302857,21363.029473,22497.916429,23894.202679,25093.690199,26407.381793,24984.763278,25327.792234
61,Ceuta_Melilla,9577.291676,9838.093609,10432.438568,11375.289663,12314.347655,13319.401184,14056.915913,15101.449478,16462.206290,17662.488621,18895.143101,20337.046925,21667.590568,20972.689453,20736.225895,20176.140658


### Se eliminan los registros que no corresponden a las comunidades autónomas, como son los registros correspondientes a las provincias.

In [5]:
#Se elimnan los registros que no corresponden a las comunidades autónomas, como los registros correspondientes a las
#provincias.
df_pib.drop(df_pib.loc[~df_pib['Comunidades'].isin(comunidades_autonomas.values())].index, inplace = True)

#Se formatea la columna Comunidades como una variable categórica
df_pib = df_pib.astype({"Comunidades": "category"})

print(df_pib.dtypes)
df_pib

Comunidades    category
1995            float64
1996            float64
1997            float64
1998            float64
1999            float64
2000            float64
2001            float64
2002            float64
2003            float64
2004            float64
2005            float64
2006            float64
2007            float64
2008            float64
2009            float64
2010            float64
dtype: object


Unnamed: 0,Comunidades,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010
0,Total,11353.845651,12002.661961,12730.620459,13581.692296,14524.976743,15653.200481,16715.466914,17650.32833,18639.136332,19700.339768,20940.781171,22335.448628,23477.897355,23857.605659,22813.911485,22819.130249
1,Andalucia,8465.183801,8928.435036,9455.612309,9976.193901,10596.022167,11528.568957,12352.87328,13196.664843,14198.404264,15170.816972,16249.93333,17306.05233,18143.543639,18368.609116,17486.271962,17428.177942
10,Aragon,12221.81229,12975.019605,13794.583254,14424.835891,15140.657797,16351.130615,17454.401942,18751.59023,19871.917781,20998.029416,22343.850905,23931.811844,25582.740994,26525.86767,25097.837402,25322.264808
14,Asturias,10002.834304,10400.835857,10775.210747,11552.849421,11945.331152,13069.56947,14075.562432,14968.23678,15895.755984,16990.003662,18482.642998,20195.920775,21664.241464,22358.245624,21186.448406,21477.171209
15,Baleares,13754.801625,14496.579831,15710.869991,16679.476107,17958.569444,19265.449431,20284.859594,20889.278977,21336.296185,22236.257072,23318.909958,24521.15116,25415.101567,25602.200123,24219.629955,24110.588617
16,Canarias,10950.362548,11465.202844,12106.344214,12980.214809,14157.576086,14832.819329,15751.191714,16537.889424,17413.189619,18108.422522,18975.407629,19909.096024,20667.828291,20420.637604,19314.56246,19280.682764
19,Cantabria,10551.693823,11032.295766,11622.906106,12504.126984,13432.416992,14621.093031,15883.341948,17027.789928,17960.15613,19141.238588,20616.248728,22063.117871,23537.343411,23121.141666,22104.226619,22309.199926
20,Castilla_Leon,10897.836434,11397.761092,11838.125387,12427.252987,13243.058128,14151.642801,15128.83494,16183.471207,17302.325591,18502.491547,19808.720039,21231.203321,22720.538323,22533.930405,21852.237545,22355.033086
30,Castilla_Mancha,9314.335492,9858.205102,10328.601265,11009.314935,11513.245106,12296.238073,13127.793965,13842.355153,14712.243962,15392.188162,16347.803151,17345.357009,18309.600141,19497.232024,18458.727374,18337.640617
36,Catalunia,13783.160205,14754.643779,15606.144074,16487.520147,17742.176546,19056.085942,20371.848951,21392.963684,22433.860805,23572.51428,24779.986884,26333.050186,27514.114019,27626.948774,26547.323702,26674.524866


### Se redimensiona el dataframe para pasar los años a una única columna llamada Anio. 
##### Se formatea la nueva columna del año y la columna que contiene los datos del PIB para redondear los datos a 2 decimales

In [6]:
#Redimensión del dataframe: Se pivota la tabla para colocar los distintos años en filas en vez de en columnas
df_pib_transform = pd.melt(df_pib, id_vars=['Comunidades'], var_name='Anio', value_name='PIB')

#Se formate la nueva columna de años
df_pib_transform = df_pib_transform.astype({"Anio": int})

#Se redondea los datos del PIB a 2 decimales
df_pib_transform["PIB"] = df_pib_transform["PIB"].round(2)

df_pib_transform

Unnamed: 0,Comunidades,Anio,PIB
0,Total,1995,11353.85
1,Andalucia,1995,8465.18
2,Aragon,1995,12221.81
3,Asturias,1995,10002.83
4,Baleares,1995,13754.80
...,...,...,...
315,Navarra,2010,29197.00
316,Pais_vasco,2010,30152.42
317,Rioja,2010,25327.79
318,Ceuta_Melilla,2010,20176.14


## Gasto Anual por Comunidades (Gasto por habitante)

#####  * Se obtienen los datos del gasto por habitante 
#####  * Se renombra la columna de las comunidades y se limpia el nombre de las columnas de los años
#####  * Se eliminan las columnas vacías que no nos interesan

In [7]:
#Se obtienen los datos del gasto por habitante 
df_gasto=pd.read_excel ("./Datos/Informes Originales/PIB - Gastos.xls", sheet_name='Tabla 4', header=2, usecols="A,AC:BA")

#Se renombra la columna de las Comunidades y las columnas de los años
df_gasto.rename(columns={ df_gasto.columns[0]: "Comunidades" }, inplace = True)
df_gasto.columns = df_gasto.columns.str.replace(r'.1$', '')

#Se elimian las columnas vacías que no interesan para el estudio
df_gasto = df_gasto.loc[:, ~df_gasto.columns.str.contains('^Unnamed')]
df_gasto


Unnamed: 0,Comunidades,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010
0,Total,5481.01,5797.91,6425.38,6885.2,7159.54,7501.83,8002.84,8651.108764,11054.52,11673.44,11801.37,11365.19,11160.85
1,Andalucía,4537.24,4985.71,5386.42,6053.16,6270.85,6509.96,6961.48,7533.708617,9829.81,10383.91,10724.76,10207.65,10050.59
2,Aragón,5714.0,6006.11,6892.2,7361.03,7780.57,8021.36,8804.26,9041.333857,11111.15,11593.96,11821.4,11276.72,10965.94
3,Asturias (Principado de),5646.7,5760.75,6209.08,7070.28,6988.65,7216.76,7936.83,8160.484773,10824.78,11317.95,12055.94,12086.2,12393.08
4,Balears (Illes),5950.38,6201.37,7142.2,7274.27,8020.34,8398.29,9182.39,9739.243584,12156.13,13231.45,12750.1,11481.59,11430.55
5,Canarias,4874.4,5065.01,5508.92,6158.28,6287.7,6529.09,6966.28,7491.300014,9792.28,10394.25,10046.51,9473.69,8977.31
6,Cantabria,5194.89,6021.29,6824.82,7466.31,7773.46,7834.84,7741.27,8420.470726,10589.05,11637.32,11488.46,11753.54,11633.35
7,Castilla y León,5121.95,5460.32,5767.76,6179.97,6882.91,7064.75,7688.25,8104.380776,10412.87,11165.23,11436.32,10690.5,10533.5
8,Castilla-La Mancha,4317.35,4627.27,5297.5,5647.67,5794.22,5974.83,6475.09,7277.131188,9281.47,9976.01,9890.11,9635.92,9861.84
9,Cataluña,6271.19,6689.23,7303.26,7715.96,7879.33,8269.89,8803.4,9296.696531,12466.43,12860.96,13152.04,12798.42,12164.53


### Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros

In [8]:
#Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros
unificar_nombre_comunidad_autonoma(df_gasto)

#Se formatea la columna Comunidades como una variable categórica
df_gasto = df_gasto.astype({"Comunidades": "category"})

df_gasto

Unnamed: 0,Comunidades,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010
0,Total,5481.01,5797.91,6425.38,6885.2,7159.54,7501.83,8002.84,8651.108764,11054.52,11673.44,11801.37,11365.19,11160.85
1,Andalucia,4537.24,4985.71,5386.42,6053.16,6270.85,6509.96,6961.48,7533.708617,9829.81,10383.91,10724.76,10207.65,10050.59
2,Aragon,5714.0,6006.11,6892.2,7361.03,7780.57,8021.36,8804.26,9041.333857,11111.15,11593.96,11821.4,11276.72,10965.94
3,Asturias,5646.7,5760.75,6209.08,7070.28,6988.65,7216.76,7936.83,8160.484773,10824.78,11317.95,12055.94,12086.2,12393.08
4,Baleares,5950.38,6201.37,7142.2,7274.27,8020.34,8398.29,9182.39,9739.243584,12156.13,13231.45,12750.1,11481.59,11430.55
5,Canarias,4874.4,5065.01,5508.92,6158.28,6287.7,6529.09,6966.28,7491.300014,9792.28,10394.25,10046.51,9473.69,8977.31
6,Cantabria,5194.89,6021.29,6824.82,7466.31,7773.46,7834.84,7741.27,8420.470726,10589.05,11637.32,11488.46,11753.54,11633.35
7,Castilla_Leon,5121.95,5460.32,5767.76,6179.97,6882.91,7064.75,7688.25,8104.380776,10412.87,11165.23,11436.32,10690.5,10533.5
8,Castilla_Mancha,4317.35,4627.27,5297.5,5647.67,5794.22,5974.83,6475.09,7277.131188,9281.47,9976.01,9890.11,9635.92,9861.84
9,Catalunia,6271.19,6689.23,7303.26,7715.96,7879.33,8269.89,8803.4,9296.696531,12466.43,12860.96,13152.04,12798.42,12164.53


### Se redimensiona el dataframe para pasar los años a una única columna llamada Anio. 
##### Se formatea la nueva columna del año

In [9]:
#Redimensión del dataframe: Se pivota la tabla para colocar los distintos años en filas en vez de en columnas
df_gasto_transform = pd.melt(df_gasto, id_vars=['Comunidades'], var_name='Anio', value_name='Gasto')

#Se formate la nueva columna de años
df_gasto_transform = df_gasto_transform.astype({"Anio": int})

df_gasto_transform


Unnamed: 0,Comunidades,Anio,Gasto
0,Total,1998,5481.01
1,Andalucia,1998,4537.24
2,Aragon,1998,5714.00
3,Asturias,1998,5646.70
4,Baleares,1998,5950.38
...,...,...,...
255,Navarra,2010,13263.04
256,Pais_vasco,2010,13634.32
257,Rioja,2010,11208.45
258,Ceuta_Melilla,2010,0.00


## Datos del paro: número de parados

#####  * Se obtienen los datos del paro
#####  * Se renombra la columna de las comunidades y se limpia el nombre de las columnas de los años
#####  * Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros
#####  * Se formatea la columna Comunidades como una variable categórica
#####  * Se eliminan los registros que no corresponden a las comunidades autónomas, como los registros correspondientes a las provincias
#####  * Se eliminan las columnas vacías que no interesan para el estudio

In [10]:
#Se obtienen los datos del paro
df_numero_parados=pd.read_excel ("./Datos/Informes Originales/Trabajo.xls", sheet_name='Tabla 8', header=2, usecols="A,C:AO")

#Se renombra la columna de las Comunidades y las columnas de los años
df_numero_parados.rename(columns={ df_numero_parados.columns[0]: "Comunidades" }, inplace = True)

#Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros
unificar_nombre_comunidad_autonoma(df_numero_parados)

#Se formatea la columna Comunidades como una variable categórica
df_numero_parados = df_numero_parados.astype({"Comunidades": "category"})

#Se eliminan los registros que no corresponden a las comunidades autónomas, como los registros correspondientes a las
#provincias.
df_numero_parados.drop(df_numero_parados.loc[~df_numero_parados['Comunidades'].isin(comunidades_autonomas.values())].index, inplace = True)

#Se eliminan las columnas vacías que no interesan para el estudio
df_numero_parados.drop(df_numero_parados.loc[:, df_numero_parados.columns.str.contains('^Unnamed*', na=False, regex=True)], axis='columns', inplace = True)
df_numero_parados

Unnamed: 0,Comunidades,1991,1992,1993,1994,1995,1996,1997,1998,1999,...,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010
0,Total,2545.175,2883.4,3598.775,3880.075,3715.575,3646.275,3464.075,3176.8,2722.225,...,1904.4,2155.325,2242.2,2213.625,1912.5,1837.1,1833.9,2590.6,4149.5,4632.375
1,Andalucia,658.325,728.0,859.675,924.2,922.15,900.425,892.85,838.2,776.1,...,554.175,616.075,599.9,568.4,475.575,451.825,470.975,683.625,992.825,1110.5
10,Aragon,48.3,60.025,84.2,91.125,79.125,75.5,70.825,57.75,46.8,...,25.675,30.625,36.5,32.15,35.2,33.875,33.725,47.1,84.45,95.45
14,Asturias,66.25,71.175,87.25,92.65,83.575,86.475,84.85,75.7,74.025,...,30.55,40.15,48.325,45.15,46.225,43.475,40.15,41.625,65.15,76.8
15,Baleares,29.375,32.25,52.1,54.625,45.075,45.225,41.775,41.05,30.5,...,24.675,34.075,45.975,44.95,36.4,34.275,38.1,57.8,105.25,120.3
16,Canarias,151.575,149.55,171.375,167.95,150.075,143.55,136.7,131.625,104.45,...,85.9,93.925,101.3,109.5,110.975,116.425,106.675,181.075,282.2,310.75
19,Cantabria,31.8,34.025,41.1,48.225,46.725,50.025,44.6,38.85,32.325,...,19.725,23.5,25.85,26.475,22.225,17.525,16.2,20.15,33.7,38.375
20,Castilla_Leon,153.025,180.35,209.6,215.975,207.9,197.6,194.425,180.375,154.675,...,100.975,108.0,116.7,114.75,97.725,92.275,83.0,112.275,162.525,186.975
30,Castilla_Mancha,82.825,100.0,125.875,125.45,127.25,124.4,121.2,113.875,102.8,...,66.3,69.475,76.95,75.575,77.025,77.1,69.5,110.525,184.075,206.425
36,Catalunia,317.875,353.55,509.65,570.825,537.725,527.675,489.8,419.75,315.7,...,266.975,321.475,335.625,333.5,245.95,241.55,246.025,345.8,618.7,677.125


### Se redimensiona el dataframe para pasar los años a una única columna llamada Anio. 
##### Se formatea la nueva columna del año

In [11]:
#Redimensión del dataframe: Se pivota la tabla para colocar los distintos años en filas en vez de en columnas
df_numero_parados_transform = pd.melt(df_numero_parados, id_vars=['Comunidades'], var_name='Anio', value_name='Numero_Parados')

#Se formate la nueva columna de años
df_numero_parados_transform = df_numero_parados_transform.astype({"Anio": int})

df_numero_parados_transform

Unnamed: 0,Comunidades,Anio,Numero_Parados
0,Total,1991,2545.175
1,Andalucia,1991,658.325
2,Aragon,1991,48.300
3,Asturias,1991,66.250
4,Baleares,1991,29.375
...,...,...,...
395,Navarra,2010,36.525
396,Pais_vasco,2010,110.650
397,Rioja,2010,22.400
398,Ceuta_Melilla,2010,7.850


### La columna Número de habitantes del fichero refleja el dato en miles de parados, por lo tanto se multiplica el valor por 1000

In [12]:
#La columna Número de parados del fichero refleja el dato en miles de habitantes, por lo tanto se multiplica el valor por 1000
df_numero_parados_transform["Numero_Parados"] = df_numero_parados_transform["Numero_Parados"] * 1000
df_numero_parados_transform = df_numero_parados_transform.astype({"Numero_Parados": int})
df_numero_parados_transform

Unnamed: 0,Comunidades,Anio,Numero_Parados
0,Total,1991,2545175
1,Andalucia,1991,658325
2,Aragon,1991,48300
3,Asturias,1991,66250
4,Baleares,1991,29375
...,...,...,...
395,Navarra,2010,36525
396,Pais_vasco,2010,110650
397,Rioja,2010,22400
398,Ceuta_Melilla,2010,7850


## Datos demográficos: número de habitantes

#####  * Se obtienen los datos demográficos
#####  * Se formatea la columna Total y se reemplazan los valores nulos por -1
#####  * Se renombra la columna de las Comunidades y la columna Total por Numero_habitantes
#####  * Se eliminan todas las columnas que no nos interesan (las referentes al desglose por sexo)

In [13]:
#Se obtienen los datos demográficos
df_poblacion = pd.read_csv ("./Datos/Informes Originales/Población - Comunidades.csv", encoding ='utf8', delimiter=";")

#Se formatea la columna Total
df_poblacion["Total"] = df_poblacion["Total"].str.replace('.', '').astype(float)
df_poblacion = df_poblacion.fillna(-1)
df_poblacion.Total = df_poblacion.Total.astype(int)

#Se renombra la columna de las Comunidades
df_poblacion.rename(columns={ df_poblacion.columns[0]: "Comunidades" }, inplace = True)

#Se renombra la columna Total por Numero_habitantes
df_poblacion.rename(columns={ 'Total': "Numero_habitantes" }, inplace = True)

#Se eliminan todas las columnas que no nos interesan (las referentes al desglose por sexo)
df_poblacion.drop(df_poblacion[(df_poblacion.Sexo == "Hombres") | (df_poblacion.Sexo == "Mujeres")].index, axis='rows', inplace = True)
df_poblacion.drop(["Sexo"], axis='columns', inplace = True)

print(df_poblacion.dtypes)


Comunidades          object
Periodo               int64
Numero_habitantes     int32
dtype: object


###  Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros
#####  * Se formatea la columna Comunidades como una variable categórica

In [14]:
#Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros
unificar_nombre_comunidad_autonoma(df_poblacion)

#Se formatea la columna Comunidades como una variable categórica
df_poblacion = df_poblacion.astype({"Comunidades": "category"})

df_poblacion

Unnamed: 0,Comunidades,Periodo,Numero_habitantes
0,Total,2019,47026208
1,Total,2018,46722980
2,Total,2017,46572132
3,Total,2016,46557008
4,Total,2015,46624382
...,...,...,...
1387,Ceuta_Melilla,2000,66263
1388,Ceuta_Melilla,1999,56929
1389,Ceuta_Melilla,1998,60108
1390,Ceuta_Melilla,1997,-1


## Datos nivel educativo

#####  * Se obtienen los datos del nivel educativo de España
#####  * Se renombra la primera columna de las comunidades
#####  * Se eliminan todas las columnas que no nos interesan (las referentes al desglose por sexo)
#####  * Se elimina la primera fila que no aporta nada de información
#####  * Se eliminan las filas del desglose por rango de eddad

In [15]:
#Se obtienen los datos del nivel educativo de España
df_educacion = pd.read_csv ("./Datos/Informes Originales/Nivel educativo.csv", header=6, encoding ='latin1', delimiter=";")

#Se renombra la primera columna de las comunidades
df_educacion.rename(columns={ df_educacion.columns[0]: "Comunidades" }, inplace = True)

#Se eliminan todas las columnas que no nos interesan (las referentes al desglose por sexo)
df_educacion.drop(df_educacion.iloc[:, 55:], axis='columns', inplace = True)

#Se elimina la primera fila que no aporta nada de información
df_educacion.drop(df_educacion.index[0], inplace = True)

#Se eliminan las filas del desglose por rango de eddad
df_educacion.drop(df_educacion.index[19:], inplace = True)

df_educacion

Unnamed: 0,Comunidades,2002,2003,2004,2005,2006,2007,2008,2009,2010,...,2010.2,2011.2,2012.2,2013.2,2014.2,2015.2,2016.2,2017.2,2018.2,2019.2
1,TOTAL,57.8,56.4,54.6,51.2,50.3,49.4,48.9,48.4,47.1,...,31.0,31.9,32.6,33.7,34.7,35.1,35.7,36.4,37.3,38.6
2,Andalucía,64.7,63.8,62.1,59.4,59.1,58.3,57.5,56.3,55.6,...,25.7,25.8,26.5,27.3,27.6,28.3,29.1,29.6,30.3,31.2
3,Aragón,56.1,52.5,50.1,46.7,46.3,44.7,43.6,41.9,41.2,...,33.3,35.0,35.1,34.8,35.7,35.6,36.3,36.6,38.4,39.3
4,"Asturias, Principado de",57.6,57.6,56.6,49.8,51.3,49.6,47.8,46.6,45.7,...,32.8,35.1,35.9,37.7,38.7,39.6,40.7,41.6,43.1,43.3
5,"Balears, Illes",58.2,56.6,57.7,55.4,52.9,55.1,52.7,51.6,50.4,...,22.6,23.7,24.8,26.8,27.9,27.2,29.2,31.2,29.7,31.9
6,Canarias,59.7,58.4,56.8,54.0,55.1,54.2,54.8,53.2,52.4,...,23.9,24.1,26.0,27.3,27.0,26.6,29.4,29.6,30.5,32.8
7,Cantabria,56.2,51.6,50.1,46.9,48.6,47.9,45.6,45.5,41.1,...,35.7,35.2,36.1,37.2,37.4,38.1,39.1,40.4,40.6,42.0
8,Castilla y León,57.9,55.6,54.6,52.0,50.8,50.0,49.3,48.5,47.4,...,31.5,33.3,34.0,33.7,34.5,34.7,34.3,35.3,36.2,38.4
9,Castilla-La Mancha,66.3,65.5,65.1,62.5,61.0,58.2,58.9,57.3,55.8,...,24.0,25.3,25.3,26.2,27.2,27.5,27.4,27.6,28.4,30.0
10,Cataluña,55.7,54.0,52.1,48.7,47.2,46.9,46.9,47.3,46.7,...,31.4,32.2,32.8,34.8,37.0,37.5,38.6,39.3,40.8,42.4


###  Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros
#####  * Se formatea la columna Comunidades como una variable categórica

In [16]:
#Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros
unificar_nombre_comunidad_autonoma(df_educacion)

#Se formatea la columna Comunidades como una variable categórica
df_educacion = df_educacion.astype({"Comunidades": "category"})

df_educacion

Unnamed: 0,Comunidades,2002,2003,2004,2005,2006,2007,2008,2009,2010,...,2010.2,2011.2,2012.2,2013.2,2014.2,2015.2,2016.2,2017.2,2018.2,2019.2
1,Total,57.8,56.4,54.6,51.2,50.3,49.4,48.9,48.4,47.1,...,31.0,31.9,32.6,33.7,34.7,35.1,35.7,36.4,37.3,38.6
2,Andalucia,64.7,63.8,62.1,59.4,59.1,58.3,57.5,56.3,55.6,...,25.7,25.8,26.5,27.3,27.6,28.3,29.1,29.6,30.3,31.2
3,Aragon,56.1,52.5,50.1,46.7,46.3,44.7,43.6,41.9,41.2,...,33.3,35.0,35.1,34.8,35.7,35.6,36.3,36.6,38.4,39.3
4,Asturias,57.6,57.6,56.6,49.8,51.3,49.6,47.8,46.6,45.7,...,32.8,35.1,35.9,37.7,38.7,39.6,40.7,41.6,43.1,43.3
5,Baleares,58.2,56.6,57.7,55.4,52.9,55.1,52.7,51.6,50.4,...,22.6,23.7,24.8,26.8,27.9,27.2,29.2,31.2,29.7,31.9
6,Canarias,59.7,58.4,56.8,54.0,55.1,54.2,54.8,53.2,52.4,...,23.9,24.1,26.0,27.3,27.0,26.6,29.4,29.6,30.5,32.8
7,Cantabria,56.2,51.6,50.1,46.9,48.6,47.9,45.6,45.5,41.1,...,35.7,35.2,36.1,37.2,37.4,38.1,39.1,40.4,40.6,42.0
8,Castilla_Leon,57.9,55.6,54.6,52.0,50.8,50.0,49.3,48.5,47.4,...,31.5,33.3,34.0,33.7,34.5,34.7,34.3,35.3,36.2,38.4
9,Castilla_Mancha,66.3,65.5,65.1,62.5,61.0,58.2,58.9,57.3,55.8,...,24.0,25.3,25.3,26.2,27.2,27.5,27.4,27.6,28.4,30.0
10,Catalunia,55.7,54.0,52.1,48.7,47.2,46.9,46.9,47.3,46.7,...,31.4,32.2,32.8,34.8,37.0,37.5,38.6,39.3,40.8,42.4


### Se separan los distintos niveles de educación en distintos dataframes: Educación inferior a la 2º etapa de secundaria, Educación 2º etapa de secundaria y Educación Superior.

### Educación inferior a la 2º etapa de secundaria

In [17]:
#Se selecciona el nivel de educación inferior a la 2º etapa de secundaria y se guarda en un dataframe 
seleccion= np.r_[df_educacion.columns.get_indexer(['Comunidades']),df_educacion.columns.get_loc('2002'):df_educacion.columns.get_loc('2019')+ 1] 
df_educacion_inferior_2_etapa_Secundaria = df_educacion.iloc[:, seleccion]

df_educacion_inferior_2_etapa_Secundaria = pd.melt(df_educacion_inferior_2_etapa_Secundaria, id_vars=['Comunidades'], 
        var_name='Anio', value_name='Inferior_2_etapa_Secundaria')
df_educacion_inferior_2_etapa_Secundaria = df_educacion_inferior_2_etapa_Secundaria.astype({"Anio": int})

df_educacion_inferior_2_etapa_Secundaria

Unnamed: 0,Comunidades,Anio,Inferior_2_etapa_Secundaria
0,Total,2002,57.8
1,Andalucia,2002,64.7
2,Aragon,2002,56.1
3,Asturias,2002,57.6
4,Baleares,2002,58.2
...,...,...,...
337,Murcia,2019,47.5
338,Navarra,2019,29.2
339,Pais_vasco,2019,27.9
340,Rioja,2019,38.4


### Educación de la 2º etapa de secundaria

In [18]:
#Se selecciona el nivel de educación de la 2º etapa de secundaria y se guarda en un dataframe 
seleccion= np.r_[df_educacion.columns.get_indexer(['Comunidades']),df_educacion.columns.get_loc('2002.1'):df_educacion.columns.get_loc('2019.1')+ 1] 
df_educacion_2_etapa_Secundaria = df_educacion.iloc[:, seleccion]
df_educacion_2_etapa_Secundaria.columns = df_educacion_2_etapa_Secundaria.columns.str.replace(r'.1$', '')

df_educacion_2_etapa_Secundaria = pd.melt(df_educacion_2_etapa_Secundaria, id_vars=['Comunidades'], 
        var_name='Anio', value_name='2_etapa_Secundaria')
df_educacion_2_etapa_Secundaria = df_educacion_2_etapa_Secundaria.astype({"Anio": int})

df_educacion_2_etapa_Secundaria

Unnamed: 0,Comunidades,Anio,2_etapa_Secundaria
0,Total,2002,17.3
1,Andalucia,2002,15.1
2,Aragon,2002,18.1
3,Asturias,2002,19.3
4,Baleares,2002,22.6
...,...,...,...
337,Murcia,2019,20.9
338,Navarra,2019,23.7
339,Pais_vasco,2019,21.3
340,Rioja,2019,23.3


### Educación superior

In [19]:
#Se selecciona el nivel de educación de educación superior y se guarda en un dataframe 
seleccion= np.r_[df_educacion.columns.get_indexer(['Comunidades']),df_educacion.columns.get_loc('2002.2'):df_educacion.columns.get_loc('2019.2')+ 1] 
df_educacion_superior = df_educacion.iloc[:, seleccion]
df_educacion_superior.columns = df_educacion_superior.columns.str.replace(r'.2$', '')

df_educacion_superior = pd.melt(df_educacion_superior, id_vars=['Comunidades'], 
        var_name='Anio', value_name='Educacion_Superior')
df_educacion_superior = df_educacion_superior.astype({"Anio": int})

df_educacion_superior

Unnamed: 0,Comunidades,Anio,Educacion_Superior
0,Total,2002,24.9
1,Andalucia,2002,20.1
2,Aragon,2002,25.8
3,Asturias,2002,23.1
4,Baleares,2002,19.3
...,...,...,...
337,Murcia,2019,31.5
338,Navarra,2019,47.1
339,Pais_vasco,2019,50.8
340,Rioja,2019,38.3


### Se unifican los 3 dataframes de educación

In [20]:
#Se unifican los 3 dataframes de educación

df_datos_educacion = df_educacion_inferior_2_etapa_Secundaria.merge(df_educacion_2_etapa_Secundaria,
                       how='left', left_on=['Comunidades','Anio'], right_on = ['Comunidades','Anio']).merge(df_educacion_superior,
                       how='left', left_on=['Comunidades','Anio'], right_on = ['Comunidades','Anio'])

df_datos_educacion

Unnamed: 0,Comunidades,Anio,Inferior_2_etapa_Secundaria,2_etapa_Secundaria,Educacion_Superior
0,Total,2002,57.8,17.3,24.9
1,Andalucia,2002,64.7,15.1,20.1
2,Aragon,2002,56.1,18.1,25.8
3,Asturias,2002,57.6,19.3,23.1
4,Baleares,2002,58.2,22.6,19.3
...,...,...,...,...,...
337,Murcia,2019,47.5,20.9,31.5
338,Navarra,2019,29.2,23.7,47.1
339,Pais_vasco,2019,27.9,21.3,50.8
340,Rioja,2019,38.4,23.3,38.3


## Datos de los delitos

### Delitos a partir del 2012

#####  * Se obtienen los datos de los delitos a partir del 2012
#####  * Se renombran y ordenan las distintas columnas
#####  * Se formatea la columna Numero_Delitos y se actualiza los nulos por -1

In [21]:
#Se obtienen los datos de los delitos a partir del 2012
df_delitos = pd.read_csv ("./Datos/Informes Originales/Delitos - comunidades_mayor_2012.csv", encoding ='utf8', delimiter=";", decimal=",")

#Se renombran y ordenan las distintas columnas
df_delitos.rename(columns={ 'Tipo de Delito': "Tipo_Delito", 'Lugar de condena': "Comunidades",
                      'Unnamed: 3': "Numero_Delitos", "Periodo": "Anio"}, inplace = True)
df_delitos = df_delitos.reindex(columns=['Comunidades','Anio','Tipo_Delito','Numero_Delitos'])

#Se formatea la columna Numero_Delitos
df_delitos.Numero_Delitos = df_delitos.Numero_Delitos.str.replace('.', '').astype(float)
df_delitos = df_delitos.fillna(-1)
df_delitos.Numero_Delitos = df_delitos.Numero_Delitos.astype(int)


df_delitos

Unnamed: 0,Comunidades,Anio,Tipo_Delito,Numero_Delitos
0,Total Nacional,2019,A Total Delitos,412571
1,Total Nacional,2018,A Total Delitos,406327
2,Total Nacional,2017,A Total Delitos,394301
3,Total Nacional,2016,A Total Delitos,365202
4,Total Nacional,2015,A Total Delitos,288756
...,...,...,...,...
8535,19 Melilla,2017,R Resto de delitos,107
8536,19 Melilla,2016,R Resto de delitos,95
8537,19 Melilla,2015,R Resto de delitos,89
8538,19 Melilla,2014,R Resto de delitos,55


### Delitos 2012, 2011, 2010, 2009, 2008, 2007

#####  * Se obtienen los datos de los delitos desde el 2007 al 2012
#####  * Se renombran y ordenan las distintas columnas
#####  * Se formatea la columna Numero_Delitos y se actualiza los nulos por -1
#####  * Sólo obtenemos los datos totales sin el desglose por sexo

In [22]:
#Por cambio de formato en los ficheros de carga, se obtienen los datos en el mismo dataframe df_delitos de los delitos del 2007 al 2012 por separado.
for x in range(2007, 2013):
    df = pd.read_csv ("./Datos/Informes Originales/Delitos - comunidades_" + str(x) +".csv", encoding ='utf8', delimiter=";", decimal=",")
    df["Anio"] = x
    df.rename(columns={ 'Tipo de delito': "Tipo_Delito", 'Sexo del infractor': "Sexo",'Lugar de condena': "Comunidades",
                      'Total': "Numero_Delitos"}, inplace = True)
    
    #Se formatea la columna Numero_Delitos
    df.Numero_Delitos = df.Numero_Delitos.str.replace('.', '').astype(float)
    df = df.fillna(-1)
    df.Numero_Delitos = df.Numero_Delitos.astype(int)

    
    df_delitos = df_delitos.append(df[(df.Sexo == "Total")])
    
df_delitos.drop(["Sexo"], axis='columns', inplace = True)

df_delitos

Unnamed: 0,Comunidades,Anio,Tipo_Delito,Numero_Delitos
0,Total Nacional,2019,A Total Delitos,412571
1,Total Nacional,2018,A Total Delitos,406327
2,Total Nacional,2017,A Total Delitos,394301
3,Total Nacional,2016,A Total Delitos,365202
4,Total Nacional,2015,A Total Delitos,288756
...,...,...,...,...
6015,"Navarra, Comunidad Foral de",2012,Ley Orgánica del Régimen Electoral General,0
6016,País Vasco,2012,Ley Orgánica del Régimen Electoral General,10
6017,"Rioja, La",2012,Ley Orgánica del Régimen Electoral General,0
6018,Ceuta,2012,Ley Orgánica del Régimen Electoral General,1


### Delitos Anteriores a 2007

#####  * Se obtienen los datos de los delitos desde el 1998 al 2006
#####  * Se renombran y ordenan las distintas columnas
#####  * Se formatea la columna Numero_Delitos y se actualiza los nulos por -1

In [23]:
#Por cambio de formato en los ficheros de carga, se obtienen los datos en el mismo dataframe df_delitos de los delitos anteriores al 2007 por separado.
for x in range(1998, 2007):
    df = pd.read_csv ("./Datos/Informes Originales/Delitos - comunidades_" + str(x) +".csv", encoding ='utf8', delimiter=";", decimal=",")
    df["Anio"] = x
    df.rename(columns={ 'Tipo de delito': "Tipo_Delito", 'Comunidades autónomas': "Comunidades", 'Comunidad autónoma': "Comunidades",
                      'Total': "Numero_Delitos"}, inplace = True)
    
    #Se formatea la columna Numero_Delitos
    df.Numero_Delitos = df.Numero_Delitos.str.replace('.', '').astype(float)
    df = df.fillna(-1)
    df.Numero_Delitos = df.Numero_Delitos.astype(int)
    
    df_delitos = df_delitos.append(df)
    
df_delitos

Unnamed: 0,Comunidades,Anio,Tipo_Delito,Numero_Delitos
0,Total Nacional,2019,A Total Delitos,412571
1,Total Nacional,2018,A Total Delitos,406327
2,Total Nacional,2017,A Total Delitos,394301
3,Total Nacional,2016,A Total Delitos,365202
4,Total Nacional,2015,A Total Delitos,288756
...,...,...,...,...
515,Total,2006,Contra la Constitución,75
516,Total,2006,Contra el orden público,6391
517,Total,2006,delitos de traición y contra la paz o independ...,10
518,Total,2006,Contra la comunidad internacional,1


###  Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros
#####  * Se formatea la columna Comunidades como una variable categórica

In [24]:
#Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros
unificar_nombre_comunidad_autonoma(df_delitos)

#Se formatea la columna Comunidades como una variable categórica
df_delitos = df_delitos.astype({"Comunidades": "category"})

df_delitos

Unnamed: 0,Comunidades,Anio,Tipo_Delito,Numero_Delitos
0,Total,2019,A Total Delitos,412571
1,Total,2018,A Total Delitos,406327
2,Total,2017,A Total Delitos,394301
3,Total,2016,A Total Delitos,365202
4,Total,2015,A Total Delitos,288756
...,...,...,...,...
515,Total,2006,Contra la Constitución,75
516,Total,2006,Contra el orden público,6391
517,Total,2006,delitos de traición y contra la paz o independ...,10
518,Total,2006,Contra la comunidad internacional,1


## Se unifica toda la información en un único dataframe para su posterior análisis

#####  * Se crea un dataframe llamado df_datos_economicos_educacion_delitos que contiene toda la información que se añadirá a continuación uno a uno
#####  * Se unifican los dataframe del producto interior bruto y del gasto por habitante
#####  * Se incluyen los datos de parados
#####  * Se incluyen los datos de la población
#####  * Se elimina la columna del Periodo, no es necesaria porque ya tenemos el año
#####  * La información de parados, pib y gastos para las comunidades de Ceuta y Melilla vienen por separado, en cambio los datos sobre el nivel de educación y de delitos nos llegan unificados para las 2 comunidades, con lo cual se analizarán los datos conjuntos. Para ello, se unifican las 2 comunidades calculando la media y el sumatorio
#####  * Se eliminan las etiquetas "mean" de las columnas calculadas y se redondean a 2 decimales las columnas de PIB y Gasto
#####  * Se calcula la tasa del paro
#####  * Se añade la información del nivel educativo
#####  * Se añade la información de los delitos
#####  * La información de número de delitos para las comunidades de Ceuta y Melilla vienen por separado, con lo que se unifican las 2 comunidades calculando el sumatorio.
#####  * Se eliminan las etiquetas "mean" de las columnas calculadas
#####  * Se calcula la tasa del delito
#####  * Se ordenan las columnas del dataframe

In [25]:
#Se crea un dataframe llamado df_datos_economicos_educacion_delitos que contiene toda la información que se añadirá a continuación uno a uno.

#Se unifican los dataframe del producto interior bruto y del gasto por habitante
df_datos_economicos_educacion_delitos = pd.merge(df_pib_transform, df_gasto_transform,  how='left', 
                               left_on=['Comunidades','Anio'], 
                               right_on = ['Comunidades','Anio'])

#Se formatea la columna Comunidades como una variable categórica
df_datos_economicos_educacion_delitos = df_datos_economicos_educacion_delitos.astype({"Comunidades": "category"})

#Se incluyen los datos de parados
df_datos_economicos_educacion_delitos = df_datos_economicos_educacion_delitos.merge(df_numero_parados_transform,
                       how='left', left_on=['Comunidades','Anio'], right_on = ['Comunidades','Anio'])

#Se incluyen los datos de la población
df_datos_economicos_educacion_delitos = df_datos_economicos_educacion_delitos.merge(df_poblacion,
                       how='left', left_on=['Comunidades','Anio'], right_on = ['Comunidades','Periodo'])

#Se elimina la columna del Periodo, no es necesaria porque ya tenemos el año
df_datos_economicos_educacion_delitos.drop(["Periodo"], axis='columns', inplace = True)


#La información de parados, pib y gastos para las comunidades de Ceuta y Melilla vienen por separado, en cambio
#los datos sobre el nivel de educación y de delitos nos llegan unificados para las 2 comunidades, con lo cual se analizarán los 
#datos conjuntos. Para ello, se unifican las 2 comunidades calculando la media y el sumatorio.
df_datos_economicos_educacion_delitos = df_datos_economicos_educacion_delitos.groupby(['Comunidades', 'Anio'], as_index=False).agg(
                         {'PIB':['mean'],'Gasto':['mean'], 'Numero_Parados':['sum'], 'Numero_habitantes':['sum']})

#Se eliminan las etiquetas "mean" de las columnas calculadas y se redondean a 2 decimales las columnas de PIB y Gasto
df_datos_economicos_educacion_delitos.columns = df_datos_economicos_educacion_delitos.columns.droplevel(1)
df_datos_economicos_educacion_delitos["PIB"] = df_datos_economicos_educacion_delitos["PIB"].round(2)
df_datos_economicos_educacion_delitos["Gasto"] = df_datos_economicos_educacion_delitos["Gasto"].round(2)

#Se calcula la tasa del paro
df_datos_economicos_educacion_delitos["Tasa_Paro"] = ((df_datos_economicos_educacion_delitos["Numero_Parados"] / df_datos_economicos_educacion_delitos["Numero_habitantes"] ) * 100).round(2)

#Se añade la información del nivel educativo
df_datos_economicos_educacion_delitos = df_datos_economicos_educacion_delitos.merge(df_datos_educacion,
                       how='left', left_on=['Comunidades','Anio'], right_on = ['Comunidades','Anio'])

#Se añade la información de los delitos
df_datos_economicos_educacion_delitos = df_datos_economicos_educacion_delitos.merge(df_delitos,
                       how='left', left_on=['Comunidades','Anio'], right_on = ['Comunidades','Anio'])


#La información de número de delitos para las comunidades de Ceuta y Melilla vienen por separado, con lo que se unifican 
#las 2 comunidades calculando el sumatorio.
df_datos_economicos_educacion_delitos = df_datos_economicos_educacion_delitos.groupby(['Comunidades', 'Anio', 'Tipo_Delito'], as_index=False).agg(
                         {'PIB':['min'],'Gasto':['min'], 'Numero_Parados':['min'], 'Tasa_Paro':['min'], 'Numero_habitantes':['min'],
                          'Inferior_2_etapa_Secundaria': ['min'], '2_etapa_Secundaria': ['min'], 'Educacion_Superior':['min'],
                          'Numero_Delitos':['sum']})

#Se eliminan las etiquetas "mean" de las columnas calculadas
df_datos_economicos_educacion_delitos.columns = df_datos_economicos_educacion_delitos.columns.droplevel(1)

#Se calcula la tasa del delito
df_datos_economicos_educacion_delitos["Tasa_Delitos"] = ((df_datos_economicos_educacion_delitos["Numero_Delitos"] / df_datos_economicos_educacion_delitos["Numero_habitantes"] ) * 100).round(6)

#Se ordenan las columnas del dataframe
df_datos_economicos_educacion_delitos = df_datos_economicos_educacion_delitos.reindex(columns=['Comunidades','Anio','PIB','Gasto',
                           'Numero_Parados', 'Numero_habitantes','Tasa_Paro','Inferior_2_etapa_Secundaria',
                            '2_etapa_Secundaria', 'Educacion_Superior', 'Tipo_Delito', 'Numero_Delitos', 'Tasa_Delitos'])

df_datos_economicos_educacion_delitos




Unnamed: 0,Comunidades,Anio,PIB,Gasto,Numero_Parados,Numero_habitantes,Tasa_Paro,Inferior_2_etapa_Secundaria,2_etapa_Secundaria,Educacion_Superior,Tipo_Delito,Numero_Delitos,Tasa_Delitos
0,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Concurso de delitos,1401.0,0.019360
1,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra el honor,13.0,0.000180
2,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra el orden público,791.0,0.010931
3,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra el patrimonio y el orden socioeconomico,9768.0,0.134983
4,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra la Administración Pública,46.0,0.000636
...,...,...,...,...,...,...,...,...,...,...,...,...,...
10654,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,8.5. Prostitución y corrupción menores,63.0,0.001232
10655,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,9. Omisión del deber de socorro,17.0,0.000333
10656,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,Ley Orgánica de Represión del Contrabando,3.0,0.000059
10657,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,Ley Orgánica del Régimen Electoral General,0.0,0.000000


### Se simplifica el listado de tipos de delitos para facilitar el análisis

#####  * Se mira cuántos tipos distintos de delitos existen
#####  * Hacer un análisis por tipo de delito es inviable por lo que se buscan los delitos más frecuentes entre los registros con mayor tasa de delitos

In [26]:
#Se mira cuántos tipos distintos de delitos existen
df_datos_economicos_educacion_delitos.Tipo_Delito.unique().size

134

In [27]:
#Hacer un análisis por tipo de delito es inviable por lo que se buscan los delitos más frecuentes entre los registros 
#con mayor tasa de delitos

df_datos_economicos_educacion_delitos_tipos_delito = df_datos_economicos_educacion_delitos[df_datos_economicos_educacion_delitos.Tipo_Delito != "Total"].sort_values(by=['Tasa_Delitos']).tail(1000)
df_datos_economicos_educacion_delitos_tipos_delito.Tipo_Delito.unique()

array(['22. Contra el orden público',
       'Contra el patrimonio y el orden socioeconomico',
       '6. Contra la libertad', '13.1. De los hurtos',
       '20. Contra la Administración de Justicia',
       '20.8. Quebrantamiento de condena', 'Contra el orden público',
       '6.2. De las amenazas', 'Concurso de delitos',
       '22.2. Atentados contra la autoridad', 'De las lesiones',
       '17.3. Contra la salud pública', 'Contra la seguridad colectiva',
       '13.2. De los robos',
       '13. Contra el patrimonio y orden socioeconómico',
       '17.4 .Contra la seguridad vial', '3. Lesiones',
       '17. Contra la seguridad colectiva'], dtype=object)

#####  * Se crea un diccionario que contiene el nombre de los tipos de delitos
#####  * Se crea una función llamada agrupar_tipos_delitos que renombra el nombre de los tipos de delitos

In [28]:
#Diccionario que contiene el nombre de los tipos de delitos
tipos_delitos = {1:'Contra el orden público',2:'Contra el patrimonio y el orden socioeconomico',3:'Contra la libertad',
            4:'Hurtos',5:'Contra la Administración de Justicia',6:'Quebrantamiento de condena',
            7:'Amenazas',8:'Concurso de delitos',9:'Atentados contra la autoridad',10:'Lesiones',
            11:'Contra la salud pública',12:'Contra la seguridad colectiva',13:'Contra la seguridad vial',
            14:'Otros delitos', 15: 'Total'};

#Función que renombra el nombre de los tipos de delitos
def agrupar_tipos_delitos(df):
    if not df.empty:
        
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("ORDEN PÚBLICO")),'Tipo_Delito'] = tipos_delitos.get(1);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("CONTRA EL PATRIMONIO")),'Tipo_Delito'] = tipos_delitos.get(2);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("LIBERTAD")),'Tipo_Delito'] = tipos_delitos.get(3);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("HURTOS")),'Tipo_Delito'] = tipos_delitos.get(4);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("ROBOS")),'Tipo_Delito'] = tipos_delitos.get(4);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("ADMINISTRACIÓN DE JUSTICIA")),'Tipo_Delito'] = tipos_delitos.get(5);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("QUEBRANTAMIENTO DE CONDENA")),'Tipo_Delito'] = tipos_delitos.get(6);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("AMENAZAS")),'Tipo_Delito'] = tipos_delitos.get(7);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("CONCURSO DE DELITOS")),'Tipo_Delito'] = tipos_delitos.get(8);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("CONTRA LA AUTORIDAD")),'Tipo_Delito'] = tipos_delitos.get(9);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("LESIONES")),'Tipo_Delito'] = tipos_delitos.get(10);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("SALUD PÚBLICA")),'Tipo_Delito'] = tipos_delitos.get(11);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("SEGURIDAD COLECTIVA")),'Tipo_Delito'] = tipos_delitos.get(12);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("SEGURIDAD VIAL")),'Tipo_Delito'] = tipos_delitos.get(13);
        df.loc[(df['Tipo_Delito'].str.upper().str.contains("TOTAL")),'Tipo_Delito'] = tipos_delitos.get(15);
        
        #Los tipos de delitos que no se encuentran en tipos_delitos se clasifican en Otros delitos
        (df.loc[~df['Tipo_Delito'].isin(tipos_delitos.values()), 'Tipo_Delito']) = tipos_delitos.get(14);

        
        return df
    else:
        print ("No hay datos en el dataFrame")

In [29]:
#Se agrupan los tipos de delitos
agrupar_tipos_delitos(df_datos_economicos_educacion_delitos)

df_datos_economicos_educacion_delitos

Unnamed: 0,Comunidades,Anio,PIB,Gasto,Numero_Parados,Numero_habitantes,Tasa_Paro,Inferior_2_etapa_Secundaria,2_etapa_Secundaria,Educacion_Superior,Tipo_Delito,Numero_Delitos,Tasa_Delitos
0,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Concurso de delitos,1401.0,0.019360
1,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Otros delitos,13.0,0.000180
2,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra el orden público,791.0,0.010931
3,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra el patrimonio y el orden socioeconomico,9768.0,0.134983
4,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Otros delitos,46.0,0.000636
...,...,...,...,...,...,...,...,...,...,...,...,...,...
10654,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,Otros delitos,63.0,0.001232
10655,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,Otros delitos,17.0,0.000333
10656,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,Otros delitos,3.0,0.000059
10657,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,Otros delitos,0.0,0.000000


In [30]:
#La información de número de delitos para las comunidades de Ceuta y Melilla vienen por separado, con lo que se unifican 
#las 2 comunidades calculando el sumatorio.
df_datos_economicos_educacion_delitos = df_datos_economicos_educacion_delitos.groupby(['Comunidades', 'Anio', 'Tipo_Delito'], as_index=False).agg(
                         {'PIB':['min'],'Gasto':['min'], 'Numero_Parados':['min'], 'Tasa_Paro':['min'], 'Numero_habitantes':['min'],
                          'Inferior_2_etapa_Secundaria': ['min'], '2_etapa_Secundaria': ['min'], 'Educacion_Superior':['min'],
                          'Numero_Delitos':['sum']})

#Se eliminan las etiquetas "mean" de las columnas calculadas
df_datos_economicos_educacion_delitos.columns = df_datos_economicos_educacion_delitos.columns.droplevel(1)

#Se calcula la tasa del delito
df_datos_economicos_educacion_delitos["Tasa_Delitos"] = ((df_datos_economicos_educacion_delitos["Numero_Delitos"] / df_datos_economicos_educacion_delitos["Numero_habitantes"] ) * 100).round(6)

#Se ordenan las columnas del dataframe
df_datos_economicos_educacion_delitos = df_datos_economicos_educacion_delitos.reindex(columns=['Comunidades','Anio','PIB','Gasto',
                           'Numero_Parados', 'Numero_habitantes','Tasa_Paro','Inferior_2_etapa_Secundaria',
                            '2_etapa_Secundaria', 'Educacion_Superior', 'Tipo_Delito', 'Numero_Delitos', 'Tasa_Delitos'])

df_datos_economicos_educacion_delitos

Unnamed: 0,Comunidades,Anio,PIB,Gasto,Numero_Parados,Numero_habitantes,Tasa_Paro,Inferior_2_etapa_Secundaria,2_etapa_Secundaria,Educacion_Superior,Tipo_Delito,Numero_Delitos,Tasa_Delitos
0,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Concurso de delitos,1401.0,0.019360
1,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra el orden público,791.0,0.010931
2,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra el patrimonio y el orden socioeconomico,9768.0,0.134983
3,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra la Administración de Justicia,823.0,0.011373
4,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra la libertad,266.0,0.003676
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2484,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,Hurtos,4399.0,0.086057
2485,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,Lesiones,4295.0,0.084023
2486,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,Otros delitos,6632.0,0.129741
2487,Valencia,2010,20260.21,10431.90,587350,5111706.0,11.49,49.4,22.2,28.4,Quebrantamiento de condena,1635.0,0.031985


## Se guarda la información en un fichero para tratar la información más tarde

In [31]:
#Se guarda la información en un fichero para tratar la información más tarde
df_datos_economicos_educacion_delitos.to_csv("./Datos/Datos Procesados/datos_delitos.csv",index=False,sep=";",encoding="utf8")

In [32]:
#Se comprueba si el fichero se ha guardado correctamente
df_datos_economicos_educacion_delitos=pd.read_csv("./Datos/Datos Procesados/datos_delitos.csv",delimiter=";",encoding="utf8")

df_datos_economicos_educacion_delitos.info()
df_datos_economicos_educacion_delitos.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2489 entries, 0 to 2488
Data columns (total 13 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Comunidades                  2489 non-null   object 
 1   Anio                         2489 non-null   int64  
 2   PIB                          2489 non-null   float64
 3   Gasto                        2489 non-null   float64
 4   Numero_Parados               2489 non-null   int64  
 5   Numero_habitantes            2489 non-null   float64
 6   Tasa_Paro                    2489 non-null   float64
 7   Inferior_2_etapa_Secundaria  1805 non-null   float64
 8   2_etapa_Secundaria           1805 non-null   float64
 9   Educacion_Superior           1805 non-null   float64
 10  Tipo_Delito                  2489 non-null   object 
 11  Numero_Delitos               2489 non-null   float64
 12  Tasa_Delitos                 2489 non-null   float64
dtypes: float64(9), int

Unnamed: 0,Comunidades,Anio,PIB,Gasto,Numero_Parados,Numero_habitantes,Tasa_Paro,Inferior_2_etapa_Secundaria,2_etapa_Secundaria,Educacion_Superior,Tipo_Delito,Numero_Delitos,Tasa_Delitos
0,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Concurso de delitos,1401.0,0.01936
1,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra el orden público,791.0,0.010931
2,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra el patrimonio y el orden socioeconomico,9768.0,0.134983
3,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra la Administración de Justicia,823.0,0.011373
4,Andalucia,1998,9976.19,4537.24,838200,7236459.0,11.58,,,,Contra la libertad,266.0,0.003676


In [33]:
df_datos_economicos_educacion_delitos[df_datos_economicos_educacion_delitos.Comunidades == "Ceuta_Melilla"]

Unnamed: 0,Comunidades,Anio,PIB,Gasto,Numero_Parados,Numero_habitantes,Tasa_Paro,Inferior_2_etapa_Secundaria,2_etapa_Secundaria,Educacion_Superior,Tipo_Delito,Numero_Delitos,Tasa_Delitos
1179,Ceuta_Melilla,1998,11485.73,0.0,0,1057800.0,0.0,,,,Concurso de delitos,64.0,0.006050
1180,Ceuta_Melilla,1998,11485.73,0.0,0,1057800.0,0.0,,,,Contra el orden público,137.0,0.012951
1181,Ceuta_Melilla,1998,11485.73,0.0,0,1057800.0,0.0,,,,Contra el patrimonio y el orden socioeconomico,649.0,0.061354
1182,Ceuta_Melilla,1998,11485.73,0.0,0,1057800.0,0.0,,,,Contra la Administración de Justicia,26.0,0.002458
1183,Ceuta_Melilla,1998,11485.73,0.0,0,1057800.0,0.0,,,,Contra la libertad,9.0,0.000851
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1305,Ceuta_Melilla,2010,19402.00,0.0,117800,1252904.0,9.4,59.5,18.7,21.7,Hurtos,286.0,0.022827
1306,Ceuta_Melilla,2010,19402.00,0.0,117800,1252904.0,9.4,59.5,18.7,21.7,Lesiones,116.0,0.009258
1307,Ceuta_Melilla,2010,19402.00,0.0,117800,1252904.0,9.4,59.5,18.7,21.7,Otros delitos,395.0,0.031527
1308,Ceuta_Melilla,2010,19402.00,0.0,117800,1252904.0,9.4,59.5,18.7,21.7,Quebrantamiento de condena,62.0,0.004949


## Datos de las personas condenadas

#####  * Se obtienen los datos de las personas condenadas según sexo y edad
#####  * Se renombran y ordenan las distintas columnas
#####  * Se formatea la columna Numero_Delitos y se actualiza los nulos por -1

In [34]:
#Se obtienen los datos de las personas condenadas según sexo y edad
df_condenados = pd.read_csv ("./Datos/Informes Originales/Condenados_sexo_edad.csv", encoding ='utf8', delimiter=";", decimal=",")

#Se renombran y ordenan las distintas columnas
df_condenados.rename(columns={ 'Comunidades y ciudades autónomas': "Comunidades", 'Periodo': "Anio",'Unnamed: 4': "Numero_Condenados"}, inplace = True)
df_condenados = df_condenados.reindex(columns=['Comunidades','Anio','Sexo', 'Edad','Numero_Condenados'])

#Se formatea la columna Numero_Delitos
df_condenados.Numero_Condenados = df_condenados.Numero_Condenados.str.replace('.', '').astype(float)
df_condenados = df_condenados.fillna(-1)
df_condenados.Numero_Condenados = df_condenados.Numero_Condenados.astype(int)


df_condenados

Unnamed: 0,Comunidades,Anio,Sexo,Edad,Numero_Condenados
0,Total Nacional,2019,Total,Total,286931
1,Total Nacional,2018,Total,Total,286637
2,Total Nacional,2017,Total,Total,285336
3,Total Nacional,2016,Total,Total,271526
4,Total Nacional,2015,Total,Total,222862
...,...,...,...,...,...
4195,19 Melilla,2017,Mujeres,71 y más años,0
4196,19 Melilla,2016,Mujeres,71 y más años,0
4197,19 Melilla,2015,Mujeres,71 y más años,2
4198,19 Melilla,2014,Mujeres,71 y más años,0


###  Se renombran los nombres de las comunidades para unificarlos con el resto de los ficheros
#####  * Se formatea la columna Comunidades como una variable categórica

In [35]:
#Se renombran los nombres de las comunidades como en el resto de los ficheros
unificar_nombre_comunidad_autonoma(df_condenados)

#df_condenados_2 = df_condenados.pivot_table(
#        values='Numero_Condenados', 
#        index=['Comunidades','Anio','Sexo'], 
#        columns='Edad').reset_index()

#df_condenados_2

#Se guarda la información en un fichero para tratar la información más tarde
df_condenados.to_csv("./Datos/Datos Procesados/datos_condenados.csv",index=False,sep=";",encoding="utf8")


### Se guarda la información en un fichero para tratar la información más tarde

In [36]:
#Se guarda la información en un fichero para tratar la información más tarde
df_condenados.to_csv("./Datos/Datos Procesados/datos_condenados.csv",index=False,sep=";",encoding="utf8")

In [37]:
#Se comprueba si el fichero se ha guardado correctamente
df_condenados=pd.read_csv("./Datos/Datos Procesados/datos_condenados.csv",delimiter=";",encoding="utf8")

df_condenados.info()
df_condenados.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4200 entries, 0 to 4199
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Comunidades        4200 non-null   object
 1   Anio               4200 non-null   int64 
 2   Sexo               4200 non-null   object
 3   Edad               4200 non-null   object
 4   Numero_Condenados  4200 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 164.2+ KB


Unnamed: 0,Comunidades,Anio,Sexo,Edad,Numero_Condenados
0,Total,2019,Total,Total,286931
1,Total,2018,Total,Total,286637
2,Total,2017,Total,Total,285336
3,Total,2016,Total,Total,271526
4,Total,2015,Total,Total,222862
