# ✅ Proyecto Final

### Análisis de Datos de Emprendedores en la Provincia de Entre Ríos (2016-2019)

### CoderHouse: Data Science II Machine Learning para ciencia de datos

### Rodrigo Sosa - Cohorte 2024
**LinkedIn: https://www.linkedin.com/in/sosarodrigo/**

![Portada](https://github.com/sosarodrigox/coderhouse_emprendedores_it/blob/main/DataBanner.png?raw=1)

### 📚 Introducción
El dataset que utilizaré proviene de un archivo de Google Sheets asociado a un Google Form 📊. Este formulario fue diseñado para recopilar datos de emprendedores que participaron en la **Línea de Acción "Incorporación de Tecnología"**, un programa gestionado por el Ministerio de Desarrollo Social de Entre Ríos entre marzo de 2016 y agosto de 2019.

### 🚀 Objetivo
El objetivo principal de la etapa final del proyecto es **agilizar los tiempos de selección de proyectos mediante un modelo predictivo basado en técnicas de machine learning que pueda preseleccionar automáticamente los proyectos más prometedores**. Esto permitirá a las autoridades concentrarse en los casos con mayor probabilidad de éxito, reduciendo los tiempos de evaluación y mejorando la eficiencia del programa.

A través del uso de técnicas de machine learning, busco no solo identificar patrones y tendencias en los datos proporcionados por los emprendedores, sino también construir un modelo que permita prever el éxito de los emprendimientos en términos de aprobación de financiamiento. Este modelo será fundamental para optimizar el proceso de selección de beneficiarios, lo cual es crucial para el Ministerio de Desarrollo Humano de Entre Ríos y otras autoridades gubernamentales que buscan mejorar la asignación de recursos.

En este proyecto se aplicarán métodos de **análisis de correlación**, **selección de características**, **clustering** y **modelos de clasificación** para extraer la máxima información útil del dataset y lograr una correcta predicción de aprobación de proyectos. Además, buscaré **indicadores clave de rendimiento (KPIs)** para evaluar la efectividad de las políticas públicas dirigidas a fomentar el autoempleo y el emprendimiento social.

### 🎯 Audiencia y Relevancia
Este proyecto está dirigido principalmente a las autoridades y tomadores de decisiones dentro del ámbito del Ministerio de Desarrollo Humano de la provincia de Entre Ríos. Mediante la implementación de técnicas avanzadas de machine learning, buscamos proporcionar herramientas que puedan **automatizar y mejorar la selección de beneficiarios** en programas públicos, maximizando el impacto positivo de las intervenciones y garantizando una asignación más justa y eficiente de los recursos.

Como Técnico en Gestión y Administración Pública, mi objetivo es profundizar en el análisis de datos mediante la aplicación de técnicas de machine learning para mejorar la toma de decisiones en el ámbito público. Este proyecto representa una oportunidad para aplicar los conocimientos adquiridos en el curso de Data Science II de CoderHouse y contribuir al desarrollo de políticas públicas basadas en datos, que fomenten el emprendimiento en la provincia de Entre Ríos. 📈

### 🔍 Puntos de Análisis

- **Identificación de patrones de éxito**: Determinar qué características de los emprendedores se correlacionan con una mayor probabilidad de ser aprobados, utilizando análisis de correlación y técnicas de selección de características.
- **Segmentación de los emprendedores**: Aplicar técnicas de clustering para identificar diferentes segmentos de emprendedores que comparten características similares, lo cual permitirá personalizar el apoyo brindado a cada grupo.
- **Construcción y evaluación de un modelo predictivo**: Entrenar diferentes modelos de machine learning, como **Regresión Logística**, **Árboles de Decisión** y **Random Forest**, para predecir la aprobación de los emprendedores, y evaluar su rendimiento mediante métricas como **accuracy**, **precision**, **recall** y **AUC-ROC**.
- **Optimización del modelo**: Utilizar técnicas como **Grid Search** para optimizar los hiperparámetros del modelo y obtener el mejor rendimiento posible.
- **Definición de KPIs**: Identificar las principales métricas para considerar como KPIs en el diseño de futuras políticas públicas, basadas en los resultados obtenidos del modelo y su impacto en la toma de decisiones.

Este enfoque permitirá no solo construir un modelo predictivo útil para la evaluación de proyectos, sino también generar **insights valiosos** sobre los factores que influyen en el éxito de los emprendedores, apoyando la creación de políticas públicas más efectivas y mejorando la eficiencia de los programas de financiamiento para el desarrollo económico local.

### 📊 Enfoque del Análisis

El análisis en este proyecto se centrará en los siguientes puntos:

- Realizar un **análisis de correlación** para identificar las relaciones entre las diferentes variables y su impacto en la aprobación de los emprendedores.
- Aplicar **técnicas de clustering** para agrupar a los emprendedores en segmentos homogéneos y entender mejor los patrones dentro de los datos.
- Entrenar y evaluar **modelos de clasificación** para predecir la probabilidad de aprobación de los emprendedores, utilizando técnicas como **Regresión Logística**, **Árboles de Decisión** y **Random Forest**, entre otros modelos de aprendizaje supervisado.
- Realizar una **selección de características** para determinar qué variables son más relevantes para el modelo predictivo, optimizando así su precisión y eficiencia.
- Evaluar el rendimiento del modelo utilizando **métricas de clasificación** como **accuracy**, **recall**, **precision**, y **AUC-ROC**, y optimizar los hiperparámetros para obtener el mejor desempeño posible.
- Utilizar los resultados del análisis para definir **KPIs** que permitan medir la efectividad de futuras políticas públicas en apoyo al emprendimiento.

In [2]:
# Importar librerías:
import os  # Para manejo de archivos
import pandas as pd  # Para manejo de datos
import missingno as msno  # Para visualización de datos faltantes
import re  # Para manejo de expresiones regulares
from nltk.corpus import stopwords  # Para manejo de stopwords
from nltk.tokenize import word_tokenize  # Para tokenización de palabras
from collections import Counter  # Para contar palabras
from wordcloud import WordCloud  # Para visualización de nubes de palabras
import matplotlib.pyplot as plt  # Para visualización de gráficos
import seaborn as sns  # Para visualización de gráficos
import nltk  # Para procesamiento de lenguaje natural
import plotly.express as px  # Para visualización de gráficos interactivos
import plotly.graph_objects as go  # Para visualización de gráficos interactivos
import plotly.figure_factory as ff  # Para visualización de gráficos interactivos
import numpy as np  # Para manejo de arreglos

In [3]:
# Ruta del archivo Excel en GitHub
url = "https://github.com/sosarodrigox/coderhouse_emprendedores_it/raw/main/emprendedores%20_it.xlsx"

df = pd.read_excel(url)

# Configuración para mostrar todas las columnas
pd.set_option("display.max_columns", None)  # Muestra todas las columnas sin cortes
pd.set_option(
    "display.expand_frame_repr", False
)  # Evita el salto de línea entre las columnas

# Mostrar las primeras filas
df.head(2)

Unnamed: 0,Marca temporal,Marcar entrevista como:,Fecha de la entrevista:,Fecha de la entrevista-Final:,Equipo Técnico:,Referencia a Expediente:,Localidad:,Departamento:,Fecha de Nacimiento-Final:,Sexo:,Estado Civil:,Nivel de Estudio Actual:,Situación Laboral PRINCIPAL:,Situación Habitacional:,Tipo de vivienda:,Situación Familiar:,Situación ante el IVA:,Observaciones Respecto al IVA:,Tramitó la Exención Impositiva en ATER?:,Ingreso MENSUAL de su Economía Familiar:,Nombre del emprendimiento:,Facebook del emprendimiento:,E-mail (Del Emprendimiento):,Descripción del Emprendimiento:,Antigüedad del Emprendimiento (Años):,Antigüedad del Emprendimiento (Meses):,Tiempo que dedica al emprendimiento (Días a la semana):,Tiempo que dedica al emprendimiento (Horas por día):,Realizó algún tipo de capacitación previa para su emprendimiento:,"En caso de haber recibido algún tipo de capacitación, marque cuales:",Cantidad de personas involucradas en el emprendimiento:,Qué función cumplen?:,Cómo realiza sus ventas? / Cómo ofrece sus servicios?:,Utiliza tarjeta de crédito para realizar sus ventas?:,Cantidad de clientes:,Facturación Mensual (Ingresos Brutos):,Costo Mensual (Egresos):,Ganancia Mensual-Final:,Detallar el nivel de producción semanal:,Donde compra la materia prima?:,El emprendimiento se desarrolla en un ámbito:,Donde realiza su producción? / Donde ofrece su servicio?:,Condiciones del espacio físico donde desarrolla el emprendimiento:,Observaciones del espacio productivo:,Qué habilitaciones posee su espacio productivo?:,Servicio Eléctrico:,Servicio de Gas:,Participó en alguno de los siguientes programas del Min. de Desarrollo Social de E.R.?:,En qué invirtió o para qué utilizó el fortalecimiento adquirido?:,Posee otras fuentes de financiamiento que haya destinado a su emprendimiento?:,Equipamiento con el que cuenta:,Herramientas o equipamiento que solicita:,Aporte que obtendría en su emprendimiento a partir de la incorporación de la/las herramienta/as solicitada/as:,Devolución con respecto a la gestión de la herramienta o equipamiento:,Evaluación Final:,Herramienta/as aprobada/as por Equipo Técnico:,Monto Máximo ($) aprobado por Equipo Técnico:,Herramienta comprada Efectivamente:,Observaciones de la entrevista:,Rubro:,Sub-Rubro:,Sub-Rubro:.1,Sub-Rubro-Final:,Actividad:,Actividad:.1,Actividad:.2,Actividad:.3,Actividad:.4,Actividad:.5,Actividad:.6,Actividad:.7,Actividad:.8,Actividad:.9,Actividad:.10,Actividad:.11,Actividad:.12,Actividad:.13,Actividad:.14,Actividad:.15,Actividad-Final:
0,2016-03-18 09:27:31,La entrevista se realizó correctamente.,2016-03-17 00:00:00,2016-03-17 00:00:00,Gisela,,Gualeguaychú,Gualeguaychú,1971-02-09 00:00:00,Femenino,Casada/o,Secundario Completo,Autoempleado,Vivienda Alquilada,TIPO B,Vive con su esposo quien realiza changas de ja...,Monotributo Social,,SI,6000.0,Lo Nuestro,Lo Nuestro,,"Pre pizzas, pasta frolas, cremonas, pan sabori...",12.0,1.0,5.0,4.0,SI,Capacitación en el Oficio,1,"Los dos hacen todo, Brenda hace lo de reposter...","Tiene un puesto fijo en una Feria., Coordina l...",NO,15,4000.0,2500.0,,10 a 30 kg de harina,mayoristas locales,Urbano,En su casa. (No posee un espacio destinado al ...,Regular.,"Muy chico. 3 x 5 m. Techo cieloraso, piso cera...",Ninguna,Instalación Monofásica.,Gas Envasado.,Programa de Microcréditos para el Desarrollo d...,Insumos- Elementos de Cocina,No,"Horno 6 moldes pizzero, Heladera familiar, bat...",Amasadora y sobadora de mesa,Para agregar otros productos con hojaldre y ag...,Aprobado,Se considera necesario otorgar la maquinaria s...,Amasadora y Sobadora,22.0,,La producción es por pedido pero tienen pedido...,Producción,,Panificación,Panificación,,,,,,,,,,,,,Pastelería,,,,Pastelería
1,2016-03-31 11:41:15,La entrevista se realizó correctamente.,2016-03-18 00:00:00,2016-03-18 00:00:00,Rodrigo,,Victoria,Victoria,1971-02-10 00:00:00,Masculino,Casada/o,Secundario Incompleto,Empleado,Vivienda Propia,Tipo A,El emprendedor vive junto a su señora (Ama de ...,No se encuentra inscripto,El emprendedor posee un trabajo en blanco.,No,8000.0,---,---,---,Claudio lleva adelante un emprendimiento dedic...,5.0,6.0,6.0,5.0,SI,Capacitación en el Oficio,Emprendimiento individual,,La gente lo conoce y va a su domicilio o lo llama,NO,"Posee alrededor de cuarenta clientes fijos, y ...",6000.0,2500.0,3500.0,"Alrededor de diez trabajos por semana, dependi...",Casas de repuestos de la localidad.,Urbano,En su casa. (Posee un espacio separado destina...,Bueno.,El emprendedor practica su emprendimiento en e...,Ninguna,Instalación Monofásica.,Gas Envasado.,Programa de Microcréditos para el Desarrollo d...,Utilizó el financiamiento para la compra de he...,No posee otras fuentes de financiamiento.,"Moto-esmeriladora de banco, cargador de baterí...",Soldadora autógena.,El emprendedor utilizará esta herramientas par...,Aprobado,Como equipo técnico consideramos relevante apo...,Soldadora Autógena,10000.0,,"A la espera de documentación, el emprendedor c...",Servicios generales,Servicio mecánico,,Servicio mecánico,,,,Mecánica del automotor,,,,,,,,,,,,,Mecánica del automotor
