# ✅ Proyecto Final

### Análisis de Datos de Emprendedores en la Provincia de Entre Ríos (2016-2019)

### CoderHouse: Data Science II Machine Learning para ciencia de datos

### Rodrigo Sosa - Cohorte 2024
**LinkedIn: https://www.linkedin.com/in/sosarodrigo/**

![Portada](https://github.com/sosarodrigox/coderhouse_emprendedores_it/blob/main/DataBanner.png?raw=1)

### 📚 Introducción
El dataset que utilizaré proviene de un archivo de Google Sheets asociado a un Google Form 📊. Este formulario fue diseñado para recopilar datos de emprendedores que participaron en la **Línea de Acción "Incorporación de Tecnología"**, un programa gestionado por el Ministerio de Desarrollo Social de Entre Ríos entre marzo de 2016 y agosto de 2019.

### 🚀 Objetivo
El objetivo principal de la etapa final del proyecto es **agilizar los tiempos de selección de proyectos mediante un modelo predictivo basado en técnicas de machine learning que pueda preseleccionar automáticamente los proyectos más prometedores**. Esto permitirá a las autoridades concentrarse en los casos con mayor probabilidad de éxito, reduciendo los tiempos de evaluación y mejorando la eficiencia del programa.

A través del uso de técnicas de machine learning, busco no solo identificar patrones y tendencias en los datos proporcionados por los emprendedores, sino también construir un modelo que permita prever el éxito de los emprendimientos en términos de aprobación de financiamiento. Este modelo será fundamental para optimizar el proceso de selección de beneficiarios, lo cual es crucial para el Ministerio de Desarrollo Humano de Entre Ríos y otras autoridades gubernamentales que buscan mejorar la asignación de recursos.

En este proyecto se aplicarán métodos de **análisis de correlación**, **selección de características**, **clustering** y **modelos de clasificación** para extraer la máxima información útil del dataset y lograr una correcta predicción de aprobación de proyectos. Además, buscaré **indicadores clave de rendimiento (KPIs)** para evaluar la efectividad de las políticas públicas dirigidas a fomentar el autoempleo y el emprendimiento social.

### 🎯 Audiencia y Relevancia
Este proyecto está dirigido principalmente a las autoridades y tomadores de decisiones dentro del ámbito del Ministerio de Desarrollo Humano de la provincia de Entre Ríos. Mediante la implementación de técnicas avanzadas de machine learning, buscamos proporcionar herramientas que puedan **automatizar y mejorar la selección de beneficiarios** en programas públicos, maximizando el impacto positivo de las intervenciones y garantizando una asignación más justa y eficiente de los recursos.

Como Técnico en Gestión y Administración Pública, mi objetivo es profundizar en el análisis de datos mediante la aplicación de técnicas de machine learning para mejorar la toma de decisiones en el ámbito público. Este proyecto representa una oportunidad para aplicar los conocimientos adquiridos en el curso de Data Science II de CoderHouse y contribuir al desarrollo de políticas públicas basadas en datos, que fomenten el emprendimiento en la provincia de Entre Ríos. 📈

### 🔍 Puntos de Análisis

- **Identificación de patrones de éxito**: Determinar qué características de los emprendedores se correlacionan con una mayor probabilidad de ser aprobados, utilizando análisis de correlación y técnicas de selección de características.
- **Segmentación de los emprendedores**: Aplicar técnicas de clustering para identificar diferentes segmentos de emprendedores que comparten características similares, lo cual permitirá personalizar el apoyo brindado a cada grupo.
- **Construcción y evaluación de un modelo predictivo**: Entrenar diferentes modelos de machine learning, como **Regresión Logística**, **Árboles de Decisión** y **Random Forest**, para predecir la aprobación de los emprendedores, y evaluar su rendimiento mediante métricas como **accuracy**, **precision**, **recall** y **AUC-ROC**.
- **Optimización del modelo**: Utilizar técnicas como **Grid Search** para optimizar los hiperparámetros del modelo y obtener el mejor rendimiento posible.
- **Definición de KPIs**: Identificar las principales métricas para considerar como KPIs en el diseño de futuras políticas públicas, basadas en los resultados obtenidos del modelo y su impacto en la toma de decisiones.

Este enfoque permitirá no solo construir un modelo predictivo útil para la evaluación de proyectos, sino también generar **insights valiosos** sobre los factores que influyen en el éxito de los emprendedores, apoyando la creación de políticas públicas más efectivas y mejorando la eficiencia de los programas de financiamiento para el desarrollo económico local.

### 📊 Enfoque del Análisis

El análisis en este proyecto se centrará en los siguientes puntos:

- Realizar un **análisis de correlación** para identificar las relaciones entre las diferentes variables y su impacto en la aprobación de los emprendedores.
- Aplicar **técnicas de clustering** para agrupar a los emprendedores en segmentos homogéneos y entender mejor los patrones dentro de los datos.
- Entrenar y evaluar **modelos de clasificación** para predecir la probabilidad de aprobación de los emprendedores, utilizando técnicas como **Regresión Logística**, **Árboles de Decisión** y **Random Forest**, entre otros modelos de aprendizaje supervisado.
- Realizar una **selección de características** para determinar qué variables son más relevantes para el modelo predictivo, optimizando así su precisión y eficiencia.
- Evaluar el rendimiento del modelo utilizando **métricas de clasificación** como **accuracy**, **recall**, **precision**, y **AUC-ROC**, y optimizar los hiperparámetros para obtener el mejor desempeño posible.
- Utilizar los resultados del análisis para definir **KPIs** que permitan medir la efectividad de futuras políticas públicas en apoyo al emprendimiento.

In [44]:
# Importar librerías:
import os  # Para manejo de archivos
import pandas as pd  # Para manejo de datos
import missingno as msno  # Para visualización de datos faltantes
import re  # Para manejo de expresiones regulares
from nltk.corpus import stopwords  # Para manejo de stopwords
from nltk.tokenize import word_tokenize  # Para tokenización de palabras
from collections import Counter  # Para contar palabras
from wordcloud import WordCloud  # Para visualización de nubes de palabras
import matplotlib.pyplot as plt  # Para visualización de gráficos
import seaborn as sns  # Para visualización de gráficos
import nltk  # Para procesamiento de lenguaje natural
import plotly.express as px  # Para visualización de gráficos interactivos
import plotly.graph_objects as go  # Para visualización de gráficos interactivos
import plotly.figure_factory as ff  # Para visualización de gráficos interactivos
import numpy as np  # Para manejo de arreglos

In [45]:
# Ruta del archivo CSV en GitHub
url = "https://raw.githubusercontent.com/sosarodrigox/coderhouse_emprendedores_it/refs/heads/main/dataset_procesado.csv"

df = pd.read_csv(url)

# Configuración para mostrar todas las columnas
pd.set_option("display.max_columns", None)
pd.set_option("display.expand_frame_repr", False)

df.head(2)

Unnamed: 0,entrevista_estado,fecha_entrevista,equipo_tecnico,localidad,departamento,fecha_nacimiento,sexo,estado_civil,nivel_estudio,situacion_laboral,situacion_habitacional,tipo_vivienda,situacion_iva,ingreso_mensual,descripcion_emprendimiento,capacitacion_previa,tarjeta_credito,ganancia_mensual,ambito_emprendimiento,condiciones_espacio,servicio_electrico,servicio_gas,equipamiento_actual,equipamiento_solicitado,aporte_herramienta,devolucion_gestion,herramientas_aprobadas,rubro,subrubro,actividad,produccion_semanal,espacio_productivo,inversion_fortalecimiento,capacitacion_Capacitación en el Oficio,capacitacion_Capacitación en Costos / Administración,capacitacion_Capacitación en Marketing / Comunicación,otros_capacitacion,donde_prod_serv_casa_sin_espacio,donde_prod_serv_casa_con_espacio,donde_prod_serv_local_aparte,donde_prod_serv_en_casa_clientes,donde_prod_serv_otros,como_ofrece_prod_serv_local,como_ofrece_prod_serv_domicilio,como_ofrece_prod_serv_comercios,como_ofrece_prod_serv_conocidos_a_domicilio,como_ofrece_prod_serv_ferias,como_ofrece_prod_serv_puesto_fijo_feria,como_ofrece_prod_serv_venta_ambulante,como_ofrece_prod_serv_conocidos,como_ofrece_prod_serv_catalogos,como_ofrece_prod_serv_redes_sociales,como_ofrece_prod_serv_clasificados,como_ofrece_prod_serv_online,como_ofrece_prod_serv_otros,habilitacion_ninguna,habilitacion_no_requiere,habilitacion_comercial_municipal,habilitacion_espacio_municipal,habilitacion_carnet_icab,habilitacion_rne_nacion,habilitacion_rnpa_nacion,habilitacion_transporte,habilitacion_otras,participacion_prog_microcreditos,participacion_prog_crecer,participacion_prog_incorporacion_tecnologia,participacion_prog_monotributo_social,participacion_prog_credito_joven,participacion_prog_ferias_emprendedores,participacion_prog_credito_pre_financiamiento,participacion_prog_comercializacion,participacion_prog_no,participacion_prog_otros,meses_emprendimiento,horas_semanales,edad
0,La entrevista se realizó correctamente.,2016-03-17,Gisela,Gualeguaychú,Gualeguaychú,1971-02-09,Femenino,Casada/o,Secundario Completo,Autoempleado,Vivienda Alquilada,TIPO B,Monotributo Social,6000.0,"Pre pizzas, pasta frolas, cremonas, pan sabori...",SI,NO,5321.526656,Urbano,Regular.,Instalación Monofásica.,Gas Envasado.,"Horno 6 moldes pizzero, Heladera familiar, bat...",Amasadora y sobadora de mesa,Para agregar otros productos con hojaldre y ag...,Aprobado,Amasadora y Sobadora,Producción,Panificación,Pastelería,Variable,Deficiente,Equipamiento,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,145,20,45
1,La entrevista se realizó correctamente.,2016-03-18,Rodrigo,Victoria,Victoria,1971-02-10,Masculino,Casada/o,Secundario Incompleto,Empleado,Vivienda Propia,Tipo A,No inscripto,8000.0,Claudio lleva adelante un emprendimiento dedic...,SI,NO,3500.0,Urbano,Bueno.,Instalación Monofásica.,Gas Envasado.,"Moto-esmeriladora de banco, cargador de baterí...",Soldadora autógena.,El emprendedor utilizará esta herramientas par...,Aprobado,Soldadora Autógena,Servicios generales,Servicio mecánico,Mecánica del automotor,Intermedio,Trabajo a Domicilio,Herramientas,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,66,30,45


In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1249 entries, 0 to 1248
Data columns (total 77 columns):
 #   Column                                                 Non-Null Count  Dtype  
---  ------                                                 --------------  -----  
 0   entrevista_estado                                      1249 non-null   object 
 1   fecha_entrevista                                       1249 non-null   object 
 2   equipo_tecnico                                         1249 non-null   object 
 3   localidad                                              1249 non-null   object 
 4   departamento                                           1249 non-null   object 
 5   fecha_nacimiento                                       1249 non-null   object 
 6   sexo                                                   1249 non-null   object 
 7   estado_civil                                           1249 non-null   object 
 8   nivel_estudio                                   

### 📝 Reducción de Dimensionalidad

Haciendo un analisis del dataframe, identifiqué que existen múltiples columnas en el set de datos que representan distintos tipos de caracteristicas de los emprendedores. Estas columnas, tal como están actualmente, no aportan mucho al análisis debido a que su formato de multiples columnas genera un alto número de dimensiones, lo cual incrementa la complejidad del modelo sin aportar un valor significativo adicional. Además, algunos emprendedores tienen múltiples valores (Por ejemplo en "habilitaciones"), lo que hace que cada una esté representada como un valor binario individual (0 o 1) en diferentes columnas.

Para reducir la dimensionalidad y mejorar la eficiencia del modelo, voy a combinar estas columnas en una única columna que contenga las habilitaciones como etiquetas separadas por comas. De esta forma, se mantendrá la información sin necesidad de tener tantas columnas individuales, y además facilitará el proceso de encodeo posterior para el uso de técnicas de machine learning. Esta nueva columna permitirá que el modelo tenga una mejor representación de las habilitaciones y mejore la precisión de las predicciones.

In [47]:
# Creo una función para combinar columnas en una sola:
def combinar_columnas(row, columnas):
    etiquetas = [col for col in columnas if row[col] == 1]
    return ", ".join(etiquetas)

In [48]:
# Lista de columnas  de habilitaciones a combinar:
columnas_habilitaciones = [
    "habilitacion_ninguna",
    "habilitacion_no_requiere",
    "habilitacion_comercial_municipal",
    "habilitacion_espacio_municipal",
    "habilitacion_carnet_icab",
    "habilitacion_rne_nacion",
    "habilitacion_rnpa_nacion",
    "habilitacion_transporte",
    "habilitacion_otras",
]

# Lista de columnas de capacitación a combinar:
columnas_capacitacion = [
    "capacitacion_Capacitación en el Oficio",
    "capacitacion_Capacitación en Costos / Administración",
    "capacitacion_Capacitación en Marketing / Comunicación",
    "otros_capacitacion",
]

# Lista de columnas de dónde se realiza la producción o servicio a combinar:
columnas_donde_produce = [
    "donde_prod_serv_casa_sin_espacio",
    "donde_prod_serv_casa_con_espacio",
    "donde_prod_serv_local_aparte",
    "donde_prod_serv_en_casa_clientes",
    "donde_prod_serv_otros",
]

# Lista de columnas de cómo se ofrece el producto o servicio a combinar:
columnas_como_ofrece = [
    "como_ofrece_prod_serv_local",
    "como_ofrece_prod_serv_domicilio",
    "como_ofrece_prod_serv_comercios",
    "como_ofrece_prod_serv_conocidos_a_domicilio",
    "como_ofrece_prod_serv_ferias",
    "como_ofrece_prod_serv_puesto_fijo_feria",
    "como_ofrece_prod_serv_venta_ambulante",
    "como_ofrece_prod_serv_conocidos",
    "como_ofrece_prod_serv_catalogos",
    "como_ofrece_prod_serv_redes_sociales",
    "como_ofrece_prod_serv_clasificados",
    "como_ofrece_prod_serv_online",
    "como_ofrece_prod_serv_otros",
]

# Lista de columnas de participación en programas a combinar:
columnas_participacion_prog = [
    "participacion_prog_microcreditos",
    "participacion_prog_crecer",
    "participacion_prog_incorporacion_tecnologia",
    "participacion_prog_monotributo_social",
    "participacion_prog_credito_joven",
    "participacion_prog_ferias_emprendedores",
    "participacion_prog_credito_pre_financiamiento",
    "participacion_prog_comercializacion",
    "participacion_prog_no",
    "participacion_prog_otros",
]

In [49]:
# Ejecuto la funcion para combinar las columnas:

df["habilitaciones"] = df.apply(
    combinar_columnas, columnas=columnas_habilitaciones, axis=1
)
df["capacitacion"] = df.apply(combinar_columnas, columnas=columnas_capacitacion, axis=1)
df["donde_produce"] = df.apply(
    combinar_columnas, columnas=columnas_donde_produce, axis=1
)
df["como_ofrece"] = df.apply(combinar_columnas, columnas=columnas_como_ofrece, axis=1)
df["participacion_prog"] = df.apply(
    combinar_columnas, columnas=columnas_participacion_prog, axis=1
)

# Borrar columnas de habilitaciones individuales
df.drop(columnas_habilitaciones, axis=1, inplace=True)
df.drop(columnas_capacitacion, axis=1, inplace=True)
df.drop(columnas_donde_produce, axis=1, inplace=True)
df.drop(columnas_como_ofrece, axis=1, inplace=True)
df.drop(columnas_participacion_prog, axis=1, inplace=True)

# Mostrar las primeras filas del DataFrame
df.head(2)

Unnamed: 0,entrevista_estado,fecha_entrevista,equipo_tecnico,localidad,departamento,fecha_nacimiento,sexo,estado_civil,nivel_estudio,situacion_laboral,situacion_habitacional,tipo_vivienda,situacion_iva,ingreso_mensual,descripcion_emprendimiento,capacitacion_previa,tarjeta_credito,ganancia_mensual,ambito_emprendimiento,condiciones_espacio,servicio_electrico,servicio_gas,equipamiento_actual,equipamiento_solicitado,aporte_herramienta,devolucion_gestion,herramientas_aprobadas,rubro,subrubro,actividad,produccion_semanal,espacio_productivo,inversion_fortalecimiento,meses_emprendimiento,horas_semanales,edad,habilitaciones,capacitacion,donde_produce,como_ofrece,participacion_prog
0,La entrevista se realizó correctamente.,2016-03-17,Gisela,Gualeguaychú,Gualeguaychú,1971-02-09,Femenino,Casada/o,Secundario Completo,Autoempleado,Vivienda Alquilada,TIPO B,Monotributo Social,6000.0,"Pre pizzas, pasta frolas, cremonas, pan sabori...",SI,NO,5321.526656,Urbano,Regular.,Instalación Monofásica.,Gas Envasado.,"Horno 6 moldes pizzero, Heladera familiar, bat...",Amasadora y sobadora de mesa,Para agregar otros productos con hojaldre y ag...,Aprobado,Amasadora y Sobadora,Producción,Panificación,Pastelería,Variable,Deficiente,Equipamiento,145,20,45,habilitacion_ninguna,capacitacion_Capacitación en el Oficio,donde_prod_serv_casa_sin_espacio,"como_ofrece_prod_serv_puesto_fijo_feria, como_...","participacion_prog_microcreditos, participacio..."
1,La entrevista se realizó correctamente.,2016-03-18,Rodrigo,Victoria,Victoria,1971-02-10,Masculino,Casada/o,Secundario Incompleto,Empleado,Vivienda Propia,Tipo A,No inscripto,8000.0,Claudio lleva adelante un emprendimiento dedic...,SI,NO,3500.0,Urbano,Bueno.,Instalación Monofásica.,Gas Envasado.,"Moto-esmeriladora de banco, cargador de baterí...",Soldadora autógena.,El emprendedor utilizará esta herramientas par...,Aprobado,Soldadora Autógena,Servicios generales,Servicio mecánico,Mecánica del automotor,Intermedio,Trabajo a Domicilio,Herramientas,66,30,45,habilitacion_ninguna,capacitacion_Capacitación en el Oficio,donde_prod_serv_casa_con_espacio,como_ofrece_prod_serv_otros,participacion_prog_microcreditos


In [50]:
df["habilitaciones"].value_counts()

habilitaciones
habilitacion_ninguna                                                                          1019
habilitacion_otras                                                                              82
habilitacion_comercial_municipal                                                                44
habilitacion_no_requiere                                                                        29
habilitacion_carnet_icab                                                                        26
habilitacion_espacio_municipal                                                                  17
habilitacion_espacio_municipal, habilitacion_carnet_icab                                        10
habilitacion_comercial_municipal, habilitacion_espacio_municipal                                10
habilitacion_comercial_municipal, habilitacion_espacio_municipal, habilitacion_carnet_icab       5
habilitacion_comercial_municipal, habilitacion_carnet_icab                                    

In [51]:
df["capacitacion"].value_counts()

capacitacion
otros_capacitacion                                                                                                                                     653
capacitacion_Capacitación en el Oficio                                                                                                                 504
capacitacion_Capacitación en el Oficio, capacitacion_Capacitación en Costos / Administración, capacitacion_Capacitación en Marketing / Comunicación     40
capacitacion_Capacitación en el Oficio, capacitacion_Capacitación en Costos / Administración                                                            30
capacitacion_Capacitación en Costos / Administración, capacitacion_Capacitación en Marketing / Comunicación                                              9
capacitacion_Capacitación en el Oficio, capacitacion_Capacitación en Marketing / Comunicación                                                            8
capacitacion_Capacitación en Costos / Administración     

In [52]:
df["donde_produce"].value_counts()

donde_produce
donde_prod_serv_casa_sin_espacio                                      453
donde_prod_serv_casa_con_espacio                                      332
donde_prod_serv_en_casa_clientes                                      158
donde_prod_serv_otros                                                 150
donde_prod_serv_local_aparte                                          110
donde_prod_serv_casa_con_espacio, donde_prod_serv_en_casa_clientes     16
donde_prod_serv_casa_sin_espacio, donde_prod_serv_en_casa_clientes     13
donde_prod_serv_casa_con_espacio, donde_prod_serv_local_aparte          6
donde_prod_serv_casa_sin_espacio, donde_prod_serv_local_aparte          4
donde_prod_serv_local_aparte, donde_prod_serv_en_casa_clientes          4
donde_prod_serv_casa_sin_espacio, donde_prod_serv_casa_con_espacio      3
Name: count, dtype: int64

In [53]:
df["como_ofrece"].value_counts()

como_ofrece
como_ofrece_prod_serv_otros                                                                                                             356
como_ofrece_prod_serv_domicilio                                                                                                         156
como_ofrece_prod_serv_redes_sociales                                                                                                    144
como_ofrece_prod_serv_local                                                                                                              92
como_ofrece_prod_serv_domicilio, como_ofrece_prod_serv_redes_sociales                                                                    49
                                                                                                                                       ... 
como_ofrece_prod_serv_domicilio, como_ofrece_prod_serv_comercios, como_ofrece_prod_serv_ferias, como_ofrece_prod_serv_redes_sociales      1
como_ofr

In [54]:
df["participacion_prog"].value_counts()

participacion_prog
participacion_prog_no                                                                                                     790
participacion_prog_microcreditos                                                                                          200
participacion_prog_otros                                                                                                   54
participacion_prog_ferias_emprendedores                                                                                    39
participacion_prog_monotributo_social                                                                                      34
participacion_prog_microcreditos, participacion_prog_monotributo_social                                                    32
participacion_prog_microcreditos, participacion_prog_monotributo_social, participacion_prog_ferias_emprendedores           27
participacion_prog_crecer                                                                          

In [55]:
# Hago un describe de todas las variables
df.describe(include="all").T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
entrevista_estado,1249.0,1.0,La entrevista se realizó correctamente.,1249.0,,,,,,,
fecha_entrevista,1249.0,223.0,2016-08-04,37.0,,,,,,,
equipo_tecnico,1249.0,10.0,Alejandra,311.0,,,,,,,
localidad,1249.0,78.0,Paraná,235.0,,,,,,,
departamento,1249.0,17.0,Paraná,388.0,,,,,,,
fecha_nacimiento,1249.0,1167.0,1976-06-24,5.0,,,,,,,
sexo,1249.0,2.0,Femenino,645.0,,,,,,,
estado_civil,1249.0,7.0,Casada/o,389.0,,,,,,,
nivel_estudio,1249.0,13.0,Secundario Completo,367.0,,,,,,,
situacion_laboral,1249.0,5.0,Autoempleado,1042.0,,,,,,,


In [56]:
# Guardar el DataFrame procesado en un archivo CSV si no existe:

if not os.path.exists("dataset_prueba.csv"):
    df.to_csv("dataset_prueba.csv", index=False)
    print("El archivo 'dataset_procesado.csv' ha sido guardado correctamente.")
else:
    print("El archivo 'dataset_procesado.csv' ya existe.")

El archivo 'dataset_procesado.csv' ya existe.
