# Preparación de los datos de los ficheros júridicas
En este notebook vamos a hacer primer análisis de los ficheros jurídicas_1 y 2, disponibles en https://github.com/JaimeObregon/subvenciones/tree/main/files

Parte de este fichero está inspirado en otros contenidos generados desde que se liberó este dataset. En concreto, de las sigueintes referencias:
- https://nbviewer.org/github/astrojuanlu/subvenciones/blob/explorador/explorador/Exploracion%20convocatorias.ipynb 
- https://www.kaggle.com/code/elperitoinformtico/an-lisis-subvenciones-spain/
- https://github.com/dacamposol/subvenciones/blob/main/notebooks/load.ipynb

También ha resultado muy interesante la interacción en el canal de Discord que se ha lanzado!

El objetivo de este cuaderno será generar unos ficheros de salida preparados para el análisis de datos. Comenzamos importando el primer fichero, para ver su estructura.

Nota: Si estás en Linux/MacOS te tocará cambiar las rutas para cargar los ficheros de \ a /


In [17]:
import pandas as pd
import datetime as dt

# Si estás usando Linux o Mac, aquí es donde tienes que cambiar los separadores de directorio para que te funcione
# Formato Mac - Descomenta estas lineas
# juridicas_1_file = '../files/juridicas_1.csv.gz'
# juridicas_2_file = '../files/juridicas_2.csv.gz' 
#
# Formato Windows
juridicas_1_file = '..\\files\\juridicas_1.csv.gz'
juridicas_2_file = '..\\files\\juridicas_2.csv.gz'

juridicas_1_df = pd.read_csv(juridicas_1_file)

juridicas_1_df.head()


Unnamed: 0,65045185,811910,COMARCA COMUNIDAD DE TERUEL,COMARCA DE COMUNIDAD DE TERUEL,Unnamed: 4,CONVOCATORIA DE SUBVENCIONES DESTINADAS A AYUNTAMIENTOS DE LA COMARCA “COMUNIDAD DE TERUEL” PARA FUNCIONAMIENTO DE LAS BIBLIOTECAS COMARCALES DURANTE EL EJERCICIO 2022,https://236ws.dpteruel.es/estatico/boletines/2021/05octubre.pdf,2022-03-3321-46203,24/03/2022,P4407400C AYUNTAMIENTO DE CEDRILLAS,500,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPRESTACIÓN,500.1,0,610350,10413793,1
0,65045222,811910,COMARCA COMUNIDAD DE TERUEL,COMARCA DE COMUNIDAD DE TERUEL,,CONVOCATORIA DE SUBVENCIONES DESTINADAS A AYUN...,https://236ws.dpteruel.es/estatico/boletines/2...,2022-03-3321-46203,24/03/2022,P4427500F AYUNTAMIENTO DE VILLARQUEMADO,500.0,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,500.0,0,610350,10413793,2
1,65045266,811910,COMARCA COMUNIDAD DE TERUEL,COMARCA DE COMUNIDAD DE TERUEL,,CONVOCATORIA DE SUBVENCIONES DESTINADAS A AYUN...,https://236ws.dpteruel.es/estatico/boletines/2...,2022-03-3321-46203,24/03/2022,P4422100J AYUNTAMIENTO DE SANTA EULALIA DEL CAMPO,500.0,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,500.0,0,610350,10413793,3
2,65045280,811910,COMARCA COMUNIDAD DE TERUEL,COMARCA DE COMUNIDAD DE TERUEL,,CONVOCATORIA DE SUBVENCIONES DESTINADAS A AYUN...,https://236ws.dpteruel.es/estatico/boletines/2...,2022-03-3321-46203,24/03/2022,P4407600H AYUNTAMIENTO DE CELLA,500.0,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,500.0,0,610350,10413793,4
3,65042893,818661,DIPUTACIÓN PROV. DE BADAJOZ,DIPUTACIÓN PROVINCIAL DE BADAJOZ,,CONVOCATORIA_SUBV_NOM_2022_EXTREMADURA FEMENIN...,http://economia.dip-badajoz.es/presupuestos,2022-111/34100/48041,24/03/2022,G06330500 CLUB DEPORTIVO EXTREMADURA FEMENINO CF,10000.0,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,10000.0,0,617101,10413793,5
4,65042591,818652,DIPUTACIÓN PROV. DE BADAJOZ,DIPUTACIÓN PROVINCIAL DE BADAJOZ,,CONVOCATORIA_SUBV_NOM_2022_AYTO_ALMENDRALEJO_L...,http://economia.dip-badajoz.es/presupuestos,2022-162/94248/46205,24/03/2022,"P0601100A ALMENDRALEJO, AYUNTAMIENTO",5000.0,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,5000.0,0,617092,10413793,6


In [2]:
juridicas_1_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1995834 entries, 0 to 1995833
Data columns (total 17 columns):
 #   Column                                                                                                                                                                   Dtype  
---  ------                                                                                                                                                                   -----  
 0   65045185                                                                                                                                                                 int64  
 1   811910                                                                                                                                                                   int64  
 2   COMARCA COMUNIDAD DE TERUEL                                                                                                                               

Parece que el fichero no incluye encabezados, por lo que vamos a tener que localizar esta información.

En base a la información disponible en la web https://www.infosubvenciones.es/bdnstrans/GE/es/concesiones vamos a definir los nombres de las columnas

In [3]:
nombres_columnas = [
  "ID", #0
  "IDConv", #1
  "convocanteN1", #2
  "convocanteN2", #3
  "convocanteN3", #4
  "convocatoria", #5
  "bbreguladoras", #6
  "programa", #7
  "fechaconc", #8
  "beneficiario", #9
  "importe", #10
  "instrumento", #11
  "ayudaequiv", #12
  "detalles", #13
  "proyecto", #14
  "sancion", #15
  "numcov" #16

]
etiquetas_columnas = [
  "ID",
  "IDConvocatoria",
  "Administración",
  "Departamento",
  "Órgano",
  "URL de las BBRR",
  "Aplicación presupuestaria",
  "Fecha de concesión",
  "Beneficiario",
  "Importe",
  "Instrumento",
  "Ayuda Equivalente",
  "Detalles",
  "proyecto",
  "sancion",
  "numcov"
]

En vista a los datos anteriores, parece que el ID es el ID de la concesión concreta y el IDConv, el ID de la convocatoria. Creamos de nuevo el dataframe, empleando los nombres de las columnas.

In [4]:
df1 = pd.read_csv(juridicas_1_file,
names = nombres_columnas,
index_col="ID",
dtype={
    "detalles": object,
},
parse_dates=["fechaconc"],
date_parser=lambda d: dt.datetime.strptime(d, "%d/%m/%Y"),
).sort_values("fechaconc")
df1.head()

Unnamed: 0_level_0,IDConv,convocanteN1,convocanteN2,convocanteN3,convocatoria,bbreguladoras,programa,fechaconc,beneficiario,importe,instrumento,ayudaequiv,detalles,proyecto,sancion,numcov
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
38960284,657064,DIPUTACIÓN PROV. DE CUENCA,DIPUTACIÓN PROVINCIAL DE CUENCA,,CT. CONVOCATORIA CUENCA PARTICIPA,https://www.dipucuenca.es/documents/12423/5606...,2020-305/334/4800012,2019-09-24,G16276230 ASOC. DESARROLLO INTEGRAL DE ZARZUELA,278.52,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,278.52,0,455504,10435022,9427075
38643060,647651,DIPUTACIÓN PROV. DE TARRAGONA,DIPUTACIÓN PROVINCIAL DE TARRAGONA,,2019 Subvenciones para la implantación de mej...,https://www.diputaciodetarragona.cat/ebop/inde...,2019-2019-1200-425-76200-01-SUBVENCIONS AJUNTA...,2019-09-24,P4309900A NOU DE GAIA LA AJUNTAMENT,11632.5,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,11632.5,0,446091,10435022,9425958
38643061,647651,DIPUTACIÓN PROV. DE TARRAGONA,DIPUTACIÓN PROVINCIAL DE TARRAGONA,,2019 Subvenciones para la implantación de mej...,https://www.diputaciodetarragona.cat/ebop/inde...,2019-2019-1200-425-76200-01-SUBVENCIONS AJUNTA...,2019-09-24,P4314300G AJUNTAMENT DE PONTILS,11632.5,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,11632.5,0,446091,10435022,9425959
38643062,647651,DIPUTACIÓN PROV. DE TARRAGONA,DIPUTACIÓN PROVINCIAL DE TARRAGONA,,2019 Subvenciones para la implantación de mej...,https://www.diputaciodetarragona.cat/ebop/inde...,2019-2019-1200-425-76200-01-SUBVENCIONS AJUNTA...,2019-09-24,"P4309700E MORERA DE MONTSANT LA, AJUNTAMENT",11632.5,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,11632.5,0,446091,10435022,9425960
38643063,647651,DIPUTACIÓN PROV. DE TARRAGONA,DIPUTACIÓN PROVINCIAL DE TARRAGONA,,2019 Subvenciones para la implantación de mej...,https://www.diputaciodetarragona.cat/ebop/inde...,2019-2019-1200-425-76200-01-SUBVENCIONS AJUNTA...,2019-09-24,P4311900G PRAT DE COMTE AJUNTAMENT,9589.33,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,9589.33,0,446091,10435022,9425961


In [5]:
df2 = pd.read_csv(juridicas_2_file,
names = nombres_columnas,
index_col="ID",
dtype={
    "detalles": object,
},
parse_dates=["fechaconc"],
date_parser=lambda d: dt.datetime.strptime(d, "%d/%m/%Y"),
).sort_values("fechaconc")
df2.head()

  exec(code_obj, self.user_global_ns, self.user_ns)


Unnamed: 0_level_0,IDConv,convocanteN1,convocanteN2,convocanteN3,convocatoria,bbreguladoras,programa,fechaconc,beneficiario,importe,instrumento,ayudaequiv,detalles,proyecto,sancion,numcov
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
33782917,588690,DIPUTACIÓN PROV. DE TOLEDO,DIPUTACIÓN PROVINCIAL DE TOLEDO,,"Convenio Marco. Programa ""Tu Salud en Marcha""....",http://www.diputoledo.es/global/8/1420/5259,2018-2018-2310-46212-S,2018-01-01,"P4515000J AYTO DE ROMERAL, EL",728.0,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,728.0,0,387140,10435022,10434939
31933725,588690,DIPUTACIÓN PROV. DE TOLEDO,DIPUTACIÓN PROVINCIAL DE TOLEDO,,"Convenio Marco. Programa ""Tu Salud en Marcha""....",http://www.diputoledo.es/global/8/1420/5259,2018-2018-2310-46212-N,2018-01-01,P4514800D AYTO DE RIELVES,728.0,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,728.0,0,387140,10435022,10434796
31933744,588690,DIPUTACIÓN PROV. DE TOLEDO,DIPUTACIÓN PROVINCIAL DE TOLEDO,,"Convenio Marco. Programa ""Tu Salud en Marcha""....",http://www.diputoledo.es/global/8/1420/5259,2018-2018-2310-46212-N,2018-01-01,P4518900H AYTO DE VILLALUENGA,1456.0,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,1456.0,0,387140,10435022,10434797
31933745,588690,DIPUTACIÓN PROV. DE TOLEDO,DIPUTACIÓN PROVINCIAL DE TOLEDO,,"Convenio Marco. Programa ""Tu Salud en Marcha""....",http://www.diputoledo.es/global/8/1420/5259,2018-2018-2310-46212-N,2018-01-01,P4516400A AYTO DE SONSECA,2184.0,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,2184.0,0,387140,10435022,10434798
31933746,588690,DIPUTACIÓN PROV. DE TOLEDO,DIPUTACIÓN PROVINCIAL DE TOLEDO,,"Convenio Marco. Programa ""Tu Salud en Marcha""....",http://www.diputoledo.es/global/8/1420/5259,2018-2018-2310-46212-N,2018-01-01,P4515100H AYTO DE SAN BARTOLOME DE LAS ABIERTAS,2184.0,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,2184.0,0,387140,10435022,10434799


A continuación concatenamos ambos ficheros para conseguir el dataset completo.

In [6]:
df = pd.concat([df1,df2])

Obtenemos información general de nuevo dataframe que combina ambos ficheros:

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3810368 entries, 38960284 to 64758661
Data columns (total 16 columns):
 #   Column         Dtype         
---  ------         -----         
 0   IDConv         int64         
 1   convocanteN1   object        
 2   convocanteN2   object        
 3   convocanteN3   object        
 4   convocatoria   object        
 5   bbreguladoras  object        
 6   programa       object        
 7   fechaconc      datetime64[ns]
 8   beneficiario   object        
 9   importe        float64       
 10  instrumento    object        
 11  ayudaequiv     float64       
 12  detalles       object        
 13  proyecto       object        
 14  sancion        int64         
 15  numcov         int64         
dtypes: datetime64[ns](1), float64(2), int64(3), object(10)
memory usage: 494.2+ MB


La columna beneficiario es un string que incluye en CIF y la descripción dentro del propio campo. Vamos a separarlo en dos columnas.

In [8]:
df[['cif_beneficiario','beneficiario']] = df['beneficiario'].str.split(" ", n=1, expand=True)

In [9]:
df.head()

Unnamed: 0_level_0,IDConv,convocanteN1,convocanteN2,convocanteN3,convocatoria,bbreguladoras,programa,fechaconc,beneficiario,importe,instrumento,ayudaequiv,detalles,proyecto,sancion,numcov,cif_beneficiario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
38960284,657064,DIPUTACIÓN PROV. DE CUENCA,DIPUTACIÓN PROVINCIAL DE CUENCA,,CT. CONVOCATORIA CUENCA PARTICIPA,https://www.dipucuenca.es/documents/12423/5606...,2020-305/334/4800012,2019-09-24,ASOC. DESARROLLO INTEGRAL DE ZARZUELA,278.52,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,278.52,0,455504,10435022,9427075,G16276230
38643060,647651,DIPUTACIÓN PROV. DE TARRAGONA,DIPUTACIÓN PROVINCIAL DE TARRAGONA,,2019 Subvenciones para la implantación de mej...,https://www.diputaciodetarragona.cat/ebop/inde...,2019-2019-1200-425-76200-01-SUBVENCIONS AJUNTA...,2019-09-24,NOU DE GAIA LA AJUNTAMENT,11632.5,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,11632.5,0,446091,10435022,9425958,P4309900A
38643061,647651,DIPUTACIÓN PROV. DE TARRAGONA,DIPUTACIÓN PROVINCIAL DE TARRAGONA,,2019 Subvenciones para la implantación de mej...,https://www.diputaciodetarragona.cat/ebop/inde...,2019-2019-1200-425-76200-01-SUBVENCIONS AJUNTA...,2019-09-24,AJUNTAMENT DE PONTILS,11632.5,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,11632.5,0,446091,10435022,9425959,P4314300G
38643062,647651,DIPUTACIÓN PROV. DE TARRAGONA,DIPUTACIÓN PROVINCIAL DE TARRAGONA,,2019 Subvenciones para la implantación de mej...,https://www.diputaciodetarragona.cat/ebop/inde...,2019-2019-1200-425-76200-01-SUBVENCIONS AJUNTA...,2019-09-24,"MORERA DE MONTSANT LA, AJUNTAMENT",11632.5,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,11632.5,0,446091,10435022,9425960,P4309700E
38643063,647651,DIPUTACIÓN PROV. DE TARRAGONA,DIPUTACIÓN PROVINCIAL DE TARRAGONA,,2019 Subvenciones para la implantación de mej...,https://www.diputaciodetarragona.cat/ebop/inde...,2019-2019-1200-425-76200-01-SUBVENCIONS AJUNTA...,2019-09-24,PRAT DE COMTE AJUNTAMENT,9589.33,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,9589.33,0,446091,10435022,9425961,P4311900G


A continuación, vamos a crear un reporte de los datos completos, empleando la libería pandas_profiling. Esto puede servirnos para caracterizar mejor los datos, detectar anomalías, correlaciones, resumenes de los datos, etc.

Nota: Está sección está comentada puesto que en algunas instalaciones puede fallar la importación de pandas_profiling debido a dependencias de la [librería de pandas ABCIndexClass](https://stackoverflow.com/questions/68704002/importerror-cannot-import-name-abcindexclass-from-pandas-core-dtypes-generic)

In [10]:
# from pandas_profiling import ProfileReport

# report_juridicas = ProfileReport(df)
# report_juridicas.to_file('report_profiling_juridicas.html')

# Exportación de los datasets
Para finalizar vamos a generar los datasets originales, incluyendo los nombres de columnas y la columna de cif separada. Como hay gente que prefería trabajar con ficheros json, vamos a generar también unos ficheros json.

In [15]:
# export a csv
df.to_csv("../files/juridicas_cif.csv.gz", compression="gzip") # Fichero completo con la columna cif_beneficiario separada

# export de los ficheros originales tras separar la columna cif_beneficiario en los dataframe parciales
df1[['cif_beneficiario','beneficiario']] = df1['beneficiario'].str.split(" ", n=1, expand=True)
df2[['cif_beneficiario','beneficiario']] = df2['beneficiario'].str.split(" ", n=1, expand=True)

df1.to_csv("../files/juridicas_1_cif.csv.gz", compression="gzip") # Fichero completo con la columna cif_beneficiario separada
df2.to_csv("../files/juridicas_2_cif.csv.gz", compression="gzip") # Fichero completo con la columna cif_beneficiario separada

# Problema en los datos - Indices duplicados

In [12]:
# La exportación a json falla, porque existen índices duplicados - Se puede comprobar descomentando las siguientes líneas
# export a json
# df.to_json("../files/juridicas_cif.json.gz", compression="gzip") # Fichero completo con la columna cif_beneficiario separada
# df1.to_json("../files/juridicas_1_cif.json.gz", compression="gzip") # Fichero completo con la columna cif_beneficiario separada
# df2.to_json("../files/juridicas_2_cif.json.gz", compression="gzip") # Fichero completo con la columna cif_beneficiario separada

In [13]:
# Comprobación índices duplicados
idx = df.index
df_dup = df[idx.duplicated()]
df_dup.shape

(15894, 17)

## Muestra de registros con índice duplicado
En total hay 15894 registros con índice duplicado. Estos registros están en el fichero juridicas_1. A primera vista parecen la misma subvención, con valores diferentes para los campos numcov y sanción (que hasta donde se, son campos ocultos)

In [14]:
df.loc[[58300439]]

Unnamed: 0_level_0,IDConv,convocanteN1,convocanteN2,convocanteN3,convocatoria,bbreguladoras,programa,fechaconc,beneficiario,importe,instrumento,ayudaequiv,detalles,proyecto,sancion,numcov,cif_beneficiario
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
58300439,720181,COMUNIDAD DE MADRID,"CONSEJERÍA DE FAMILIA, JUVENTUD Y POLÍTICA SOCIAL",,SUBV.A E.S.F.L PROGRAMAS INTERES GENERAL FINES...,http://www.bocm.es/boletin/CM_Orden_BOCM/2020/...,2021-.,2021-01-21,FEDERACION MUJERES PROGRESISTAS,31436.27,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,31436.27,0,518621,10413793,7947114,G78764966
58300439,720181,COMUNIDAD DE MADRID,"CONSEJERÍA DE FAMILIA, JUVENTUD Y POLÍTICA SOCIAL",,SUBV.A E.S.F.L PROGRAMAS INTERES GENERAL FINES...,http://www.bocm.es/boletin/CM_Orden_BOCM/2020/...,2021-.,2021-01-21,FEDERACION MUJERES PROGRESISTAS,31436.27,SUBVENCIÓN Y ENTREGA DINERARIA SIN CONTRAPREST...,31436.27,0,518621,10435022,7968285,G78764966


# Preguntas pendientes
- ¿Qué significan los números 10435022 y 10413793 que ocupan la columna sanción (con un reparto del 72.6% y 27.4%)?
- ¿Qué es la columna numcov?
- ¿Por qué hay registros con el índice duplicado?
- ¿Quién asigna y qué significa la columna proyecto?