## Paso 1: Importar las Librerías Necesarias

In [6]:
# Importar librerías necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, ConfusionMatrixDisplay, confusion_matrix
import matplotlib.pyplot as plt

## Paso 2: Cargar el DataFrame

In [16]:
# Cargar el archivo CSV con el DataFrame actualizado
df = pd.read_csv('encuestas_con_carrera_ideal.csv')

# Mostrar las primeras filas del DataFrame como una tabla
display(df.head())


Unnamed: 0,Edad,Género,País de nacimiento,País de residencia,Actividad 1,Actividad 2,Actividad 3,Satisfacción Resolver problemas complejos,Satisfacción Colaborar en equipos,Satisfacción Investigar y analizar datos,...,Competencia Comunicación y oratoria,Problema 1,Problema 2,Problema 3,Campo de trabajo preferido 1,Campo de trabajo preferido 2,Campo de trabajo preferido 3,Motivación económica (1-5),Tipo de entorno de trabajo preferido,carrera ideal
0,39,Masculino,Colombia,España,Explorar la inteligencia artificial y su aplic...,Colaborar en equipos multidisciplinarios,Crear experiencias inmersivas en realidad virt...,1,3,3,...,1,Protección y privacidad de datos,Justicia social y equidad,Salud y bienestar público,Realidad virtual y realidad aumentada,Ciberseguridad y protección de datos,Consultoría y análisis de datos,5,Flexible o emprendedor,Especialista en Automatización Doméstica
1,24,Otro,México,Ecuador,Investigar y analizar datos,"Escribir o crear contenido textual (artículos,...",Explorar la inteligencia artificial y su aplic...,1,5,3,...,2,Educación y capacitación,Protección y privacidad de datos,Mejora de procesos empresariales,"Arte, diseño y multimedia",Biotecnología y salud digital,Educación y capacitación,2,Flexible o emprendedor,Ingeniero Civil
2,39,Otro,Chile,México,Gestionar proyectos y recursos,Explorar la inteligencia artificial y su aplic...,Consultar o asesorar sobre ciberseguridad,2,2,5,...,1,Justicia social y equidad,Justicia social y equidad,Diseño de experiencias inmersivas en VR/AR,Innovación sostenible y energías renovables,Derecho y ciencias políticas,Consultoría y análisis de datos,5,Ninguno de los anteriores,Administrador de Empresas
3,44,Masculino,Ecuador,España,Desarrollar software o aplicaciones,Innovar en biotecnología o salud digital,Investigar y analizar datos,1,2,1,...,4,Salud y bienestar público,Salud y bienestar público,Educación y capacitación,"Ingeniería (mecánica, civil, robótica, etc.)",Educación y capacitación,Gestión de proyectos,2,Flexible o emprendedor,Desarrollador de IA
4,39,Otro,Estados Unidos,Estados Unidos,"Diseñar contenido creativo (gráfico, audiovisual)",Consultar o asesorar sobre ciberseguridad,Innovar en biotecnología o salud digital,2,4,3,...,1,Educación y capacitación,Educación y capacitación,Protección y privacidad de datos,Educación y capacitación,Biotecnología y salud digital,"Arte, diseño y multimedia",3,Ninguno de los anteriores,Conservador de Patrimonio Cultural


## Paso 3: Preprocesamiento de los Datos
- Convertir variables categóricas a numéricas mediante la técnicas de codificación one-hot, para que el modelo de Machine Learning pueda trabajar con ellas.
- Definimos nuestras características (X) como las variables predictoras y el target (y) como la carrera ideal que queremos que el modelo prediga, preparando así los datos para el entrenamiento del modelo.

In [22]:
# Convertir variables categóricas a variables numéricas mediante codificación one-hot
df_encoded = pd.get_dummies(df.drop('carrera ideal', axis=1), drop_first=True)

# Definir X (características) e y (target)
X = df_encoded
y = df['carrera ideal']

# Verificar las dimensiones
print("Dimensiones de X:", X.shape)
print("Dimensiones de y:", y.shape)


Dimensiones de X: (300, 202)
Dimensiones de y: (300,)


In [28]:
from IPython.display import display

# Ver el DataFrame procesado (df_encoded)
display(df_encoded.head())


Unnamed: 0,Edad,Satisfacción Resolver problemas complejos,Satisfacción Colaborar en equipos,Satisfacción Investigar y analizar datos,Satisfacción Diseñar contenido creativo,Satisfacción Enseñar o capacitar,Competencia Análisis de datos,Competencia Programación,Competencia Diseño gráfico y multimedia,Competencia Gestión de proyectos,...,Campo de trabajo preferido 3_Derecho y ciencias políticas,Campo de trabajo preferido 3_Educación y capacitación,Campo de trabajo preferido 3_Gestión de proyectos,"Campo de trabajo preferido 3_Ingeniería (mecánica, civil, robótica, etc.)",Campo de trabajo preferido 3_Innovación sostenible y energías renovables,Campo de trabajo preferido 3_Realidad virtual y realidad aumentada,Campo de trabajo preferido 3_Salud y bienestar,Campo de trabajo preferido 3_Tecnología y software,Tipo de entorno de trabajo preferido_Flexible o emprendedor,Tipo de entorno de trabajo preferido_Ninguno de los anteriores
0,39,1,3,3,5,4,1,1,4,5,...,False,False,False,False,False,False,False,False,True,False
1,24,1,5,3,5,1,5,1,4,5,...,False,True,False,False,False,False,False,False,True,False
2,39,2,2,5,3,2,3,2,2,3,...,False,False,False,False,False,False,False,False,False,True
3,44,1,2,1,5,4,4,5,2,5,...,False,False,True,False,False,False,False,False,True,False
4,39,2,4,3,3,2,3,4,5,4,...,False,False,False,False,False,False,False,False,False,True


## Paso 4: Dividir los Datos en Conjuntos de Entrenamiento y Prueba

In [37]:
from sklearn.model_selection import train_test_split

# Dividir los datos en conjunto de entrenamiento (70%) y conjunto de prueba (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print("Dimensiones del conjunto de entrenamiento:")
print("X_train:", X_train.shape, "y_train:", y_train.shape)
print("Dimensiones del conjunto de prueba:")
print("X_test:", X_test.shape, "y_test:", y_test.shape)


Dimensiones del conjunto de entrenamiento:
X_train: (210, 202) y_train: (210,)
Dimensiones del conjunto de prueba:
X_test: (90, 202) y_test: (90,)


## Paso 5: Entrenar el Modelo de Árbol de Decisión

In [42]:
# Crear y entrenar el modelo de árbol de decisión
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred = clf.predict(X_test)

# Evaluar el modelo
print("Exactitud del modelo:", accuracy_score(y_test, y_pred))
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))


Exactitud del modelo: 0.05555555555555555
Reporte de clasificación:
                                             precision    recall  f1-score   support

                          Abogado Ambiental       0.00      0.00      0.00         1
                            Abogado Digital       0.00      0.00      0.00         1
                        Abogado Tradicional       0.00      0.00      0.00         3
                  Administrador de Empresas       0.00      0.00      0.00         1
                          Analista de Datos       0.00      0.00      0.00         2
      Analista de Desarrollo Organizacional       0.00      0.00      0.00         2
    Analista de Experiencia de Usuario (UX)       0.00      0.00      0.00         1
              Analista de Innovación Social       0.00      0.00      0.00         1
                                 Arquitecto       0.00      0.00      0.00         0
           Arquitecto de Realidad Aumentada       0.00      0.00      0.00       

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


## primeros resultados:
1. Bajo Desempeño General
La exactitud del modelo es extremadamente baja (5.56%). Esto indica que el modelo de árbol de decisión apenas está haciendo predicciones correctas y no es capaz de aprender patrones útiles a partir de los datos proporcionados.

2. Clase Desbalanceada y Alta Variedad de Clases
El target 'carrera ideal' parece tener un gran número de clases diferentes (carreras específicas), muchas de las cuales tienen muy pocos ejemplos en los datos de entrenamiento. Esto crea un problema de clase desbalanceada, donde el modelo no tiene suficientes datos para aprender correctamente cómo clasificar cada carrera.
Las clases con más datos muestran una ligera mejora en las métricas, pero la mayoría de las carreras están muy poco representadas, lo que dificulta el aprendizaje del modelo.

3. Necesidad de Mejorar la Calidad de los Datos y el Modelo
El alto número de características (202) y la posible codificación de variables categóricas podrían estar generando ruido en el modelo, lo que hace que sea difícil identificar patrones relevantes.
- Dado que hay muchas clases, una opción sería agrupar las carreras en categorías más generales, lo que podría ayudar al modelo a encontrar patrones más generales antes de hacer predicciones específicas.
-Es probable que el tamaño del conjunto de datos (300 ejemplos) sea insuficiente para capturar las complejidades de un problema tan amplio y variado.


## Vamos a probar con el modelo Random Forest, para mejorar el rendimiento:

In [55]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, ConfusionMatrixDisplay, confusion_matrix
import matplotlib.pyplot as plt
import pandas as pd


In [57]:
# Crear y entrenar el modelo de Random Forest
rf_clf = RandomForestClassifier(random_state=42, n_estimators=100)  # Puedes ajustar n_estimators para cambiar el número de árboles
rf_clf.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred = rf_clf.predict(X_test)

# Evaluar el modelo
print("Exactitud del modelo:", accuracy_score(y_test, y_pred))
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))


Exactitud del modelo: 0.06666666666666667
Reporte de clasificación:
                                             precision    recall  f1-score   support

                          Abogado Ambiental       0.00      0.00      0.00         1
                            Abogado Digital       0.00      0.00      0.00         1
                        Abogado Tradicional       0.00      0.00      0.00         3
                  Administrador de Empresas       0.00      0.00      0.00         1
                          Analista de Datos       0.00      0.00      0.00         2
      Analista de Desarrollo Organizacional       0.00      0.00      0.00         2
    Analista de Experiencia de Usuario (UX)       0.00      0.00      0.00         1
              Analista de Innovación Social       0.00      0.00      0.00         1
                                 Arquitecto       0.00      0.00      0.00         0
           Arquitecto de Realidad Aumentada       0.00      0.00      0.00       

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


## Resultados:

Bajo Rendimiento del Modelo:

- La precisión general del modelo sigue siendo baja, lo que sugiere que las características disponibles no son suficientemente informativas para predecir con precisión la carrera ideal de los usuarios.

- La mayoría de las clases tienen valores cercanos a cero en precision, recall y f1-score, lo que indica que el modelo no puede distinguir entre muchas de las posibles carreras.

- Similar al modelo anterior, el target 'carrera ideal' tiene muchas clases únicas (carreras específicas) con muy pocos ejemplos para cada una, lo que dificulta el aprendizaje del modelo. Las clases que tienen pocos ejemplos no están siendo bien representadas en el entrenamiento.
- Posible Complejidad del Problema: Dado que el problema implica predecir una gran cantidad de carreras basadas en muchas características, el modelo puede estar sobreajustándose o simplemente no ser capaz de encontrar patrones claros debido a la complejidad y diversidad de las carreras.

## Posibles solusiones:

- Agrupación de Carreras en Categorías Más Generales
- Aumentar el Conjunto de Datos
- Explorar Otros Modelos: Modelos de Ensemblado como Gradient Boosting o XGBoost pueden ofrecer mejoras o Modelos más complejos como Redes Neuronales podrían ser útiles con suficientes datos.
- Validación y Cross-Validation