# 1. Descripción del Dataset

### ¿Por qué es importante y qué pregunta/problema pretende responder?

El dataset recoge información sobre diferentes ayudas y subvenciones otorgadas en el Reino de España por diferentes organismos públicos para el año 2024. En este ejercicio vamos a estudiar cómo ha sido la concesión de estos fondos públicos y qué variables son las más importantes. Por último, trataremos de modelar los datos para descubrir patrones y poder predecir la concesión de ayudas futuras..

El dataset originalentregado en la práctiCa 1,  consta de 378.958 registros únicos y 18 campos que muestran diferente información referente a cada ayuda o subvención entregad en el año 2024 hasta octubre.

Utilizaremos otro dataset complementario con la misma estructura para añadir los datos de los últimos meses del año que no se encuentran en el dataset original.

#### Descripción campos:

&nbsp;&nbsp;&nbsp;&nbsp;**Convocante:** Entidad o administración pública que ha convocado la ayuda o subvención.  
&nbsp;&nbsp;&nbsp;&nbsp;**Convocatoria:** Nombre o título específico de la convocatoria bajo la cual se ha otorgado la ayuda.  
&nbsp;&nbsp;&nbsp;&nbsp;**Código BDNS:** Identificador único asignado por la Base de Datos Nacional de Subvenciones (BDNS) a cada ayuda o subvención.  
&nbsp;&nbsp;&nbsp;&nbsp;**Reglamento:** Normativa o disposición legal que regula la concesión de la ayuda.  
&nbsp;&nbsp;&nbsp;&nbsp;**Objetivo de la ayuda:** Propósitos o metas que la ayuda pretende alcanzar.  
&nbsp;&nbsp;&nbsp;&nbsp;**Instrumento de la ayuda:** Modalidad o tipo de apoyo proporcionado, como subvenciones directas, préstamos, garantías, etc.  
&nbsp;&nbsp;&nbsp;&nbsp;**Tipo de empresa:** Clasificación de la empresa beneficiaria según su tamaño o características, como microempresa, pyme o gran empresa.  
&nbsp;&nbsp;&nbsp;&nbsp;**Fecha de concesión:** Fecha en la que se aprobó la concesión de la ayuda.  
&nbsp;&nbsp;&nbsp;&nbsp;**Código de concesión:** Número o identificador específico asignado a la concesión individual de la ayuda.  
&nbsp;&nbsp;&nbsp;&nbsp;**Fecha de registro:** Fecha en la que la concesión fue registrada en la BDNS.  
&nbsp;&nbsp;&nbsp;&nbsp;**Beneficiario:** Nombre de la persona física o jurídica que recibe la ayuda.  
&nbsp;&nbsp;&nbsp;&nbsp;**Importe nominal:** Cantidad total de dinero asignada en la concesión de la ayuda.  
&nbsp;&nbsp;&nbsp;&nbsp;**Ayuda equivalente:** Valor de la ayuda expresado en términos de subvención equivalente, especialmente relevante en ayudas que no son subvenciones directas.  
&nbsp;&nbsp;&nbsp;&nbsp;**Región concesión:** Ubicación geográfica donde se aplica o tiene efecto la ayuda concedida.  
&nbsp;&nbsp;&nbsp;&nbsp;**Sector de actividad NACE:** Clasificación del sector económico del beneficiario según la Nomenclatura Estadística de Actividades Económicas de la Comunidad Europea (NACE).  
&nbsp;&nbsp;&nbsp;&nbsp;**Referencia de la medida:** Código o identificador de la medida específica bajo la cual se enmarca la ayuda.  
&nbsp;&nbsp;&nbsp;&nbsp;**Entidad art. 16 GBER:** Entidad relacionada según el artículo 16 del Reglamento General de Exención por Categorías (GBER) de la Unión Europea.  
&nbsp;&nbsp;&nbsp;&nbsp;**Intermediario art. 21 GBER:** Intermediario financiero o entidad que participa en la concesión de la ayuda según el artículo 21 del GBER.  


# 2.  Integración y selección

El dataset original entregado en la práctica 1 contiene datos desde enero hasta octubre del año 2024, por lo que para esta nueva entrega se han extraído por el mimos método de Web Scraping los datos de estos últimos meses del año 2024 Y SE realiza la unión de los dos dataset en uno solo.

In [1]:
# importar las librerías necesarias
import pandas as pd

In [2]:
# carga del dataset original 
datos_practica1 = pd.read_csv('adjudicaciones_2024_dataset.csv')

  datos_practica1 = pd.read_csv('adjudicaciones_2024_dataset.csv')


In [3]:
# comprobar que el dataset se cargó correctamente
datos_practica1.shape

(378958, 18)

In [4]:
# carga de los datos de los últimos meses de 2024
nuevos_datos = pd.read_csv('ultimas_adjudicaciones_dataset.csv')

In [5]:
# comprobar que el dataset se cargó correctamente
nuevos_datos.shape

(30000, 18)

In [6]:
# dar formato de fecha al campo 'Fecha de concesión'
nuevos_datos['Fecha de concesión'] = pd.to_datetime(nuevos_datos['Fecha de concesión'], format='%d/%m/%Y')

In [7]:
# filtrar los datos de los meses Octubre, Noviembe y Diciembre
nuevos_datos = nuevos_datos[nuevos_datos['Fecha de concesión'].dt.month >= 10]

In [8]:
nuevos_datos.shape

(30000, 18)

In [9]:
# unir los dos conjuntos de datos en uno solo y eliminar los posibles duplicados
data = pd.concat([datos_practica1, nuevos_datos], ignore_index=True)

In [10]:
# eliminar los posibles duplicados
data = data.drop_duplicates()

# 3. Limpieza de los datos

## 3.1 Análisis exploratorio

In [11]:
# visualizar la estructura del dataset
data.shape

(408958, 18)

In [12]:
# comprobación de que no hay registros duplicados
duplicados = data.duplicated().sum()
duplicados

0

In [13]:
# información general del dataset
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 408958 entries, 0 to 408957
Data columns (total 18 columns):
 #   Column                      Non-Null Count   Dtype 
---  ------                      --------------   ----- 
 0   Convocante                  408958 non-null  object
 1   Convocatoria                408958 non-null  object
 2   Código BDNS                 408958 non-null  int64 
 3   Reglamento                  408958 non-null  object
 4   Objetivos de la ayuda       40645 non-null   object
 5   Instrumentos de ayuda       408958 non-null  object
 6   Tipo de Empresa             408623 non-null  object
 7   Fecha de concesión          408958 non-null  object
 8   Código de concesión         408958 non-null  object
 9   Fecha de registro           408958 non-null  object
 10  Beneficiario                408958 non-null  object
 11  Importe nominal             408958 non-null  object
 12  Ayuda equivalente           408958 non-null  object
 13  Región concesión            4

Vemos como hay varios campos con valores faltantes que deberemos limpiar.

In [14]:
# previsualizar los primeros registros del dataset
data.head()

Unnamed: 0,Convocante,Convocatoria,Código BDNS,Reglamento,Objetivos de la ayuda,Instrumentos de ayuda,Tipo de Empresa,Fecha de concesión,Código de concesión,Fecha de registro,Beneficiario,Importe nominal,Ayuda equivalente,Región concesión,Sector de actividad NACE,Referencia de la medida,Entidad art. 16 GBER,Intermediario art. 21 GBER
0,CASTILLA-LA MANCHA VICECONSEJERÍA DE MEDIO AMB...,"Resolución de 4 de agosto de 2022, de la Direc...",643127,SIN REGLAMENTO - NOTIFICACIÓN PREVIA,,SUBVENCIÓN y ENTREGA DINERARIA SIN CONTRAPREST...,PERSONAS JURÍDICAS QUE NO DESARROLLAN ACTIVIDA...,26/05/2024,SB106987200,28/05/2024,P1932400C - AYTO. TIERZO,"5.665,79 €","5.665,79 €",ES424 - Guadalajara,,SA.43021,,
1,CASTILLA-LA MANCHA VICECONSEJERÍA DE MEDIO AMB...,"Resolución de 4 de agosto de 2022, de la Direc...",643127,SIN REGLAMENTO - NOTIFICACIÓN PREVIA,,SUBVENCIÓN y ENTREGA DINERARIA SIN CONTRAPREST...,PERSONAS JURÍDICAS QUE NO DESARROLLAN ACTIVIDA...,26/05/2024,SB106987199,28/05/2024,P1932100I - AYUNTAMIENTO DE TENDILLA,"6.179,84 €","6.179,84 €",ES424 - Guadalajara,,SA.43021,,
2,CASTILLA-LA MANCHA VICECONSEJERÍA DE MEDIO AMB...,"Resolución de 4 de agosto de 2022, de la Direc...",643127,SIN REGLAMENTO - NOTIFICACIÓN PREVIA,,SUBVENCIÓN y ENTREGA DINERARIA SIN CONTRAPREST...,PERSONAS JURÍDICAS QUE NO DESARROLLAN ACTIVIDA...,26/05/2024,SB106987198,28/05/2024,P1932000A - AYTO. TARTANEDO,"5.383,85 €","5.383,85 €",ES424 - Guadalajara,,SA.43021,,
3,CASTILLA-LA MANCHA VICECONSEJERÍA DE MEDIO AMB...,"Resolución de 4 de agosto de 2022, de la Direc...",643127,SIN REGLAMENTO - NOTIFICACIÓN PREVIA,,SUBVENCIÓN y ENTREGA DINERARIA SIN CONTRAPREST...,PERSONAS JURÍDICAS QUE NO DESARROLLAN ACTIVIDA...,26/05/2024,SB106987197,28/05/2024,P1931000B - AYTO. SIGUENZA,"2.483,26 €","2.483,26 €",ES424 - Guadalajara,,SA.43021,,
4,CASTILLA-LA MANCHA VICECONSEJERÍA DE MEDIO AMB...,"Resolución de 4 de agosto de 2022, de la Direc...",643127,SIN REGLAMENTO - NOTIFICACIÓN PREVIA,,SUBVENCIÓN y ENTREGA DINERARIA SIN CONTRAPREST...,PERSONAS JURÍDICAS QUE NO DESARROLLAN ACTIVIDA...,26/05/2024,SB106987196,28/05/2024,P1928100E - AYTO. RENERA,"6.742,01 €","6.742,01 €",ES424 - Guadalajara,,SA.43021,,


In [15]:
# eliminar varias columnas que no interesan
data = data.drop(columns=['Objetivos de la ayuda', 'Referencia de la medida', 'Entidad art. 16 GBER', 'Intermediario art. 21 GBER'])

Se eliminan las columnas 'Objetivos de la ayuda', 'Referencia de la medida', 'Entidad art. 16 GBER' e 'Intermediario art. 21 GBER' ya que tienen demasiados valores nulos y los que tenemos no aportan información relevante para nuestro análisis.

In [16]:
# comprobar que la columnas se eliminaron correctamente
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 408958 entries, 0 to 408957
Data columns (total 14 columns):
 #   Column                    Non-Null Count   Dtype 
---  ------                    --------------   ----- 
 0   Convocante                408958 non-null  object
 1   Convocatoria              408958 non-null  object
 2   Código BDNS               408958 non-null  int64 
 3   Reglamento                408958 non-null  object
 4   Instrumentos de ayuda     408958 non-null  object
 5   Tipo de Empresa           408623 non-null  object
 6   Fecha de concesión        408958 non-null  object
 7   Código de concesión       408958 non-null  object
 8   Fecha de registro         408958 non-null  object
 9   Beneficiario              408958 non-null  object
 10  Importe nominal           408958 non-null  object
 11  Ayuda equivalente         408958 non-null  object
 12  Región concesión          408958 non-null  object
 13  Sector de actividad NACE  406272 non-null  object
dtypes: i

In [17]:
# convertir la columna 'Fecha de concesión' a un formato de fecha
data['Fecha de concesión'] = pd.to_datetime(data['Fecha de concesión'], format='%d/%m/%Y')

In [19]:
# filtrar los registros del año 2024
data = data[data['Fecha de concesión'].dt.year == 2024]

Se realiza el filtrado de los registros que no pertenecen a 2024 respecto a la fecha de concesión de la ayuda o subvención ya que durante el proceso de extracción mediante webscraping se obtuvieron registros de finales del año 2023.

In [18]:
# comprobar si se siguen teniendo valores faltantes despues del filtrado
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 408958 entries, 0 to 408957
Data columns (total 14 columns):
 #   Column                    Non-Null Count   Dtype         
---  ------                    --------------   -----         
 0   Convocante                408958 non-null  object        
 1   Convocatoria              408958 non-null  object        
 2   Código BDNS               408958 non-null  int64         
 3   Reglamento                408958 non-null  object        
 4   Instrumentos de ayuda     408958 non-null  object        
 5   Tipo de Empresa           408623 non-null  object        
 6   Fecha de concesión        408958 non-null  datetime64[ns]
 7   Código de concesión       408958 non-null  object        
 8   Fecha de registro         408958 non-null  object        
 9   Beneficiario              408958 non-null  object        
 10  Importe nominal           408958 non-null  object        
 11  Ayuda equivalente         408958 non-null  object        
 12  Re

In [19]:
# manejo de valores faltantes con la creación de la etiqueta 'Desconocido'
data['Tipo de Empresa'] = data['Tipo de Empresa'].fillna('Desconocido')
data['Sector de actividad NACE'] = data['Sector de actividad NACE'].fillna('Desconocido')

Se crea la etiqueta 'Desconocido' para los valores faltantes de los campos 'Tipo de Empresa' y 'Sector de actividad NACE' ya que es complicado imputar valores faltantes con sentido y no se desean eliminar estos registros.
En total se tienen 227 registros con valores faltantes en el campo 'Tipo de Empresa' y 1944 valores en 'Sector de actividad NACE'.

In [20]:
# comprobar que ya no existen valores faltantes en el dataset
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 408958 entries, 0 to 408957
Data columns (total 14 columns):
 #   Column                    Non-Null Count   Dtype         
---  ------                    --------------   -----         
 0   Convocante                408958 non-null  object        
 1   Convocatoria              408958 non-null  object        
 2   Código BDNS               408958 non-null  int64         
 3   Reglamento                408958 non-null  object        
 4   Instrumentos de ayuda     408958 non-null  object        
 5   Tipo de Empresa           408958 non-null  object        
 6   Fecha de concesión        408958 non-null  datetime64[ns]
 7   Código de concesión       408958 non-null  object        
 8   Fecha de registro         408958 non-null  object        
 9   Beneficiario              408958 non-null  object        
 10  Importe nominal           408958 non-null  object        
 11  Ayuda equivalente         408958 non-null  object        
 12  Re

# Acalaraciones Pedro: (eliminar)

- He extraido datos de los últimos meses de este año para que tengamos datos del año completo, de ahí la carga de los dos archivos (original + nuevo) y la unión en uno solo.

- He eleiminado 3 campos ('Objetivos de la ayuda', 'Referencia de la medida', 'Entidad art. 16 GBER' e 'Intermediario art. 21 GBER') ya que tenían muchos valores nulos y no aportaban información relevante.

- El dataset original trae datos de finales del año 2023 por lo que esos registros han sido eliminados

- He creado la etiqueta 'Desconocido' para algunos valores faltantes en los campos 'Tipo de Empresa' y 'Sector de actividad NACE'. Podría haber eliminado estos registros ya que no son muchos, si da problemas en el modelado eliminalos sin problema.

- Supongo que habrá que hacer una reducción de la dimensionalidad porque tenemos 14 campos y unos 400k registros.
