## ***DIPLOMADO EN CIENCIA DE DATOS APLICADOS AL DESARROLLO INTEGRAL DEL TALENTO HUMANOX***  

### ***M4: An√°lisis Predictivo para la Toma de Decisiones Estrat√©gicas en RRHH***  

### ***<span style="color:#FF0000">Universidad del Rosario</span>***

---


# üìò Notebook 1 ‚Äì Fundamentos del An√°lisis Predictivo en RRHH

En este notebook trabajaremos con un dataset de Recursos Humanos adaptado con variables que representan atributos de los colaboradores en una organizaci√≥n.  

Este ser√° nuestro punto de partida para aprender a **explorar, limpiar y preparar datos** con miras a usarlos en modelos predictivos.

## üìÇ Estructura del Dataset

El dataset contiene informaci√≥n de colaboradores descrita con las siguientes variables:

- **A√±os de experiencia**: tiempo acumulado en el mercado laboral.  
- **Formaci√≥n continua**: nivel de educaci√≥n y capacitaci√≥n permanente.  
- **Competencias t√©cnicas**: habilidades asociadas al desempe√±o profesional espec√≠fico.  
- **Competencias blandas**: habilidades sociales, comunicativas y de liderazgo.  
- **Perfil de talento**: clasificaci√≥n del empleado (ej. *Innovador*, otros perfiles).  

## üéØ Objetivos del Notebook
- Realizar un an√°lisis exploratorio (EDA) de las variables de talento humano.  
- Identificar patrones y distribuciones en los datos.  
- Preparar el dataset para modelado predictivo (limpieza, codificaci√≥n, escalado).  

## üõ†Ô∏è Herramientas a utilizar
- **pandas** y **numpy**: manipulaci√≥n de datos.  
- **matplotlib** y **seaborn**: visualizaci√≥n exploratoria.  

‚û°Ô∏è Al finalizar este notebook, tendr√°s un **dataset limpio y analizado**, listo para ser utilizado en la construcci√≥n de modelos de predicci√≥n de perfiles de talento.



### ***Conocimiento del problema y de los datos.***


La parte m√°s importante del machine learning es comprender los datos con los que estamos trabajando y c√≥mo se relacionan con la tarea que desea realizar. No ser√° efectivo elegir aleatoriamente un algoritmo y arrojarle los datos. Es necesario comprender lo que est√° sucediendo en el dataset antes de comenzar a
construir un modelo. Cada algoritmo es diferente en t√©rminos de qu√© tipo de datos y la configuraci√≥n del problema para la que funciona mejor. 

Mientras se crea una soluci√≥n de machine learning se debe tener en cuenta:

- ¬øQu√© pregunta(s) se est√° tratando de responder? ¬øCreo que los datos recopilados pueden responder esa pregunta?

- ¬øCu√°l es la mejor manera de formular mis preguntas como un problema de machine learning?

- ¬øHe recopilado suficientes datos para representar el problema que quiero resolver?

- ¬øQu√© caracter√≠sticas de los datos extraje y permitir√°n las predicciones?

- ¬øC√≥mo medir√© el √©xito de mi soluci√≥n?

- ¬øC√≥mo interactuar√° la soluci√≥n de machine learning con otras partes de mi investigaci√≥n o producto comercial?

In [None]:
# Instalaci√≥n de librer√≠as necesarias
# 
# En esta celda instalamos las principales librer√≠as que usaremos a lo largo del notebook:
# - pandas: para manipulaci√≥n y an√°lisis de datos.
# - numpy: para operaciones num√©ricas y manejo de arreglos.
# - matplotlib: para visualizaciones b√°sicas.
# - seaborn: para visualizaciones estad√≠sticas m√°s estilizadas.
# - scikit-learn: para construir y evaluar modelos de machine learning.
#
# Esta celda solo necesita ejecutarse una vez (o cuando el entorno no tenga estas librer√≠as instaladas).

!pip install pandas numpy matplotlib seaborn scikit-learn

In [None]:
import pandas as pd
# create a simple dataset of people
data = {'Name': ["John", "Anna", "Peter", "Linda"],'Location' : ["New York", "Paris", "Berlin", "London"],
        'Age' : [24, 13, 53, 33],}

data_pandas = pd.DataFrame(data)
display(data_pandas)

In [None]:
# Seleccionamos todos los registros con "Age" mayor a 30.
display(data_pandas[data_pandas["Age"] > 30])

In [None]:
# Manipulaci√≥n y an√°lisis de datos
import pandas as pd
import numpy as np

# Visualizaci√≥n de datos
import matplotlib.pyplot as plt
import seaborn as sns

# Modelado predictivo
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report


## ***Primera aplicaci√≥n: clasificaci√≥n de perfiles de talento***

Vamos a abordar una primera aplicaci√≥n de *machine learning* creando nuestro primer modelo.

Supongamos que el √°rea de Recursos Humanos de una empresa est√° interesada en **distinguir los perfiles de talento** de sus colaboradores para dise√±ar estrategias de formaci√≥n y retenci√≥n m√°s efectivas.  

El √°rea ha recopilado algunas caracter√≠sticas asociadas a cada empleado:  

- _A√±os de experiencia._  
- _Nivel de formaci√≥n continua._  
- _Competencias t√©cnicas._  
- _Competencias blandas._  

Estos valores han sido previamente medidos y normalizados en una escala num√©rica.

Adem√°s, se cuenta con la clasificaci√≥n de cada empleado realizada por expertos en gesti√≥n humana, que identificaron perfiles de talento como:  

- _Innovador._  
- _Ejecutor._  
- _Tradicionalista._    

Supongamos que estos son los perfiles m√°s representativos en la organizaci√≥n.

***Objetivo:*** Construir un modelo de *machine learning* que pueda aprender de las caracter√≠sticas de los empleados con perfil ya identificado, de modo que podamos **predecir el perfil de talento** de un nuevo colaborador a partir de sus competencias y experiencia.


In [None]:

# üì• Cargar el dataset de Recursos Humanos

# Definimos la URL donde se encuentra almacenado el archivo CSV.
# En este caso, el dataset est√° publicado en un repositorio de GitHub.
url = "https://raw.githubusercontent.com/LeStark/Cursos/refs/heads/main/Data/iris_human_resources.csv"

# Leemos el archivo CSV y lo cargamos en un DataFrame de pandas.
# El par√°metro sep="," indica que el separador de columnas es la coma.
df = pd.read_csv(url, sep=",")

# Inspecci√≥n inicial del dataset

# Obtenemos informaci√≥n general del DataFrame:
# - n√∫mero de filas y columnas
# - nombre y tipo de cada columna
# - conteo de valores no nulos
# Esto nos da una idea de la calidad y estructura del dataset.
df.info()

# Mostramos las primeras filas para verificar que los datos se cargaron correctamente.
df.head()




In [None]:
# Identificar las clases de la variable objetivo (target)

# La columna "Perfil de talento" es nuestra variable de salida o target,
# es decir, la categor√≠a que queremos predecir con el modelo.
# Con el m√©todo .unique() obtenemos los valores distintos que existen en esa columna.

print("Target: {}".format(df['Perfil de talento'].unique()))


In [None]:
# Revisar el tama√±o del dataset

# La propiedad .shape de un DataFrame devuelve una tupla con:
# - N√∫mero de filas (registros de empleados).
# - N√∫mero de columnas (variables o caracter√≠sticas medidas).
#
# Usamos .format() para mostrar el resultado en un mensaje m√°s claro.

print("Tama√±o de la data: {}".format(df.shape))


## An√°lisis exploratorio inicial de los datos

Antes de construir nuestro modelo, es importante detenernos a **explorar los datos**.  
Esto nos permite responder preguntas como:  

- ¬øLa informaci√≥n disponible realmente contiene se√±ales que nos ayuden a predecir el perfil de talento?  
- ¬øExisten anomal√≠as o valores inusuales en las mediciones?  
- ¬øHay variables que parecen m√°s relevantes que otras?  

En el mundo real, los datos de Recursos Humanos suelen presentar **inconsistencias**: registros incompletos, escalas diferentes de medici√≥n o valores inesperados. Por ejemplo, un empleado con ‚Äú0 a√±os de experiencia‚Äù pero clasificado como *Ejecutor* podr√≠a ser un dato err√≥neo o reflejar una situaci√≥n particular.  

Una de las mejores formas de iniciar esta exploraci√≥n es **visualizando los datos**.  
Con pocas variables (como en nuestro caso: experiencia, formaci√≥n continua, competencias t√©cnicas y blandas), los **scatter plots** o diagramas de dispersi√≥n son una herramienta muy √∫til.  

üëâ Ten en cuenta que estos gr√°ficos muestran la relaci√≥n entre pares de variables, pero no capturan todas las interacciones posibles al mismo tiempo. Aun as√≠, son una excelente primera aproximaci√≥n para detectar patrones y tendencias en los datos.


##  Resumen de m√©tricas descriptivas

Una buena pr√°ctica es calcular estad√≠sticas descriptivas que nos permitan entender la distribuci√≥n de cada variable num√©rica.  

En este caso, construiremos una tabla con las siguientes m√©tricas:  
- **Media** ‚Üí valor promedio.  
- **Mediana** ‚Üí valor central de la distribuci√≥n.  
- **Moda** ‚Üí valor m√°s frecuente.  
- **Desviaci√≥n est√°ndar** ‚Üí mide qu√© tan dispersos est√°n los datos respecto a la media.  
- **M√≠nimo y M√°ximo** ‚Üí valores extremos de cada variable.  
- **Percentil 25 y 75** ‚Üí delimitan el rango intermedio donde se encuentra el 50% central de los datos.  

Estas m√©tricas nos ayudar√°n a detectar patrones, posibles anomal√≠as y la variabilidad de cada caracter√≠stica.


In [None]:
# Construir tabla de m√©tricas descriptivas para las variables num√©ricas

# Seleccionamos solo columnas num√©ricas
numeric_df = df.select_dtypes(include=['float64', 'int64'])

# Calculamos las principales m√©tricas
summary = pd.DataFrame({
    "Media": numeric_df.mean(),
    "Mediana": numeric_df.median(),
    "Moda": numeric_df.mode().iloc[0],
    "Desviaci√≥n est√°ndar": numeric_df.std(),
    "M√≠nimo": numeric_df.min(),
    "M√°ximo": numeric_df.max(),
    "Percentil 25": numeric_df.quantile(0.25),
    "Percentil 75": numeric_df.quantile(0.75)
})

# Mostrar tabla
summary


##  Exploraci√≥n inicial de caracter√≠sticas por perfil de talento

Antes de construir modelos de clasificaci√≥n, es importante entender c√≥mo se distribuyen las variables
en relaci√≥n con los perfiles de talento.  
Dos visualizaciones √∫tiles son:

- **Boxplots**: muestran la distribuci√≥n de cada variable (mediana, cuartiles, valores at√≠picos) seg√∫n el perfil.  
- **Gr√°ficos de barras**: permiten comparar los valores medios de las caracter√≠sticas entre perfiles.

Estas gr√°ficas nos ayudan a responder preguntas como:  
- ¬øLos *Tradicionalistas* tienden a tener m√°s a√±os de experiencia que los *Innovadores*?  
- ¬øExisten diferencias claras en competencias blandas entre los tres perfiles?


In [None]:
#  Conteo de empleados por perfil de talento
plt.figure(figsize=(6,4))
sns.countplot(x="Perfil de talento", data=df, palette="Set2")

plt.title("N√∫mero de muestras por perfil de talento")
plt.xlabel("Perfil de talento")
plt.ylabel("Cantidad de empleados")
plt.show()


In [None]:
# Boxplots por perfil de talento
fig, axes = plt.subplots(2, 2, figsize=(12, 8))

sns.boxplot(x="Perfil de talento", y="A√±os de experiencia", data=df, ax=axes[0,0])
axes[0,0].set_title("Distribuci√≥n de A√±os de Experiencia")

sns.boxplot(x="Perfil de talento", y="Formaci√≥n continua", data=df, ax=axes[0,1])
axes[0,1].set_title("Distribuci√≥n de Formaci√≥n Continua")

sns.boxplot(x="Perfil de talento", y="Competencias t√©cnicas", data=df, ax=axes[1,0])
axes[1,0].set_title("Distribuci√≥n de Competencias T√©cnicas")

sns.boxplot(x="Perfil de talento", y="Competencias blandas", data=df, ax=axes[1,1])
axes[1,1].set_title("Distribuci√≥n de Competencias Blandas")

plt.tight_layout()
plt.show()


In [None]:
# Valores promedio de cada caracter√≠stica por perfil
mean_values = df.groupby("Perfil de talento").mean(numeric_only=True)

mean_values.plot(kind="bar", figsize=(10,6))
plt.title("Promedio de caracter√≠sticas por perfil de talento")
plt.ylabel("Valor promedio")
plt.xticks(rotation=0)
plt.legend(title="Caracter√≠sticas")
plt.show()


#### ***An√°lisis avanzado***

Construya un [`pairplot`](https://seaborn.pydata.org/generated/seaborn.pairplot.html) o un [`PairGrid`](https://seaborn.pydata.org/generated/seaborn.PairGrid.html) en donde:

- La **diagonal principal** muestre un histograma de cada variable num√©rica.  
- Los **gr√°ficos fuera de la diagonal** sean *scatter plots* que comparen pares de variables.  
- Utilice el par√°metro `hue` con la columna **Perfil de talento**, de manera que cada punto est√© coloreado seg√∫n el perfil (*Innovador, Ejecutor, Tradicionalista*).  

Este ejercicio permite identificar si algunos perfiles de talento tienden a agruparse en torno a ciertas caracter√≠sticas (ej. Innovadores con alta formaci√≥n continua o Tradicionalistas con m√°s a√±os de experiencia).


***Respuesta:***

In [None]:
# üìä Versi√≥n avanzada con PairGrid

g = sns.PairGrid(df, hue="Perfil de talento")
g.map_diag(sns.histplot, kde=False)  # Histogramas en la diagonal
g.map_offdiag(sns.scatterplot, alpha=0.7)  # Scatter plots fuera de la diagonal
g.add_legend()  # Agregar leyenda

plt.show()


De las gr√°ficas podemos observar que los tres perfiles de talento (**Innovador, Ejecutor y Tradicionalista**) tienden a separarse en funci√≥n de las variables analizadas.  

Por ejemplo:  
- Los **Innovadores** aparecen concentrados en niveles bajos de a√±os de experiencia, competencias t√©cnicas y blandas.  
- Los **Ejecutores** muestran valores intermedios tanto en competencias t√©cnicas como en blandas.  
- Los **Tradicionalistas** tienden a ubicarse en los rangos m√°s altos de a√±os de experiencia y competencias.  

Esto sugiere que un modelo de aprendizaje autom√°tico podr√° **aprender patrones claros** en los datos y distinguir entre los perfiles de talento a partir de las variables disponibles.


## Transformaci√≥n de los datos

Antes de entrenar un modelo de *machine learning*, es necesario preparar los datos.  
En este caso, realizaremos dos pasos fundamentales:

### 1. Codificaci√≥n de la variable objetivo (target)

La columna **Perfil de talento** contiene etiquetas de texto (*Innovador, Ejecutor, Tradicionalista*).  
Los algoritmos no pueden trabajar directamente con texto, por lo que debemos **convertir estas categor√≠as en valores num√©ricos**.  
Para esto usamos `LabelEncoder`, que asigna un n√∫mero entero a cada clase.  

Ejemplo:  
- Innovador ‚Üí 0  
- Ejecutor ‚Üí 1  
- Tradicionalista ‚Üí 2  

*(El orden depende de c√≥mo se encuentren en el dataset.)*

### 2. Normalizaci√≥n de las variables num√©ricas

Las variables de entrada (**A√±os de experiencia, Formaci√≥n continua, Competencias t√©cnicas, Competencias blandas**) tienen escalas diferentes.  
Si no las normalizamos, una variable con n√∫meros grandes podr√≠a influir m√°s en el modelo que otra con n√∫meros peque√±os.  

Usaremos `StandardScaler`, que transforma cada variable para que:  
- Tenga media = 0.  
- Tenga desviaci√≥n est√°ndar = 1.  

De esta forma, todas las caracter√≠sticas quedan en la **misma escala** y el modelo puede tratarlas de manera justa.

Con estos dos pasos tendremos un **dataset listo para la clasificaci√≥n**, donde:  
- El target est√° representado en n√∫meros.  
- Las variables de entrada est√°n estandarizadas.


In [None]:
# Preparaci√≥n de los datos para modelado

# 1. Separar features (X) y target (y)
X = df.drop("Perfil de talento", axis=1)   # Variables independientes
y = df["Perfil de talento"]               # Variable objetivo

# 2. Codificaci√≥n de la variable target (Innovador, Ejecutor, Tradicionalista ‚Üí 0,1,2)
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

print("Clases originales:", label_encoder.classes_)

# Seleccionar 10 √≠ndices aleatorios sin repetici√≥n
indices = np.random.choice(len(y_encoded), size=10, replace=False)

# Mostrar las clases codificadas de esos 10 empleados
print("Clases codificadas (10 aleatorias):", y_encoded[indices])

# 3. Normalizaci√≥n/Estandarizaci√≥n de las features
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 4. Verificaci√≥n de la transformaci√≥n
print("\nPrimeras 5 filas de las variables normalizadas:")
print(X_scaled[:5])


### ***Conjuntos de datos Training y Test***

Nuestro objetivo es construir un modelo de *machine learning* que pueda ***predecir*** el perfil de talento de un nuevo colaborador a partir de sus caracter√≠sticas (**a√±os de experiencia, formaci√≥n continua, competencias t√©cnicas y blandas**).  

Para lograrlo, necesitamos entrenar un modelo y, adem√°s, comprobar si realmente funciona de manera confiable.  

No podemos evaluar el modelo con los mismos datos que usamos para entrenarlo.  
La raz√≥n es que el modelo podr√≠a ‚Äúmemorizar‚Äù los ejemplos que ya conoce y predecir siempre correctamente para esos casos, pero eso **no garantiza** que funcione igual de bien con datos nuevos.  

En otras palabras, queremos que el modelo no solo aprenda los datos actuales, sino que tambi√©n **se generalice** a futuros colaboradores que no ha visto antes.  

La forma de resolver este problema es **dividir nuestro dataset en dos partes**:  
1. **Training data (datos de entrenamiento):** se usan para construir el modelo.  
2. **Test data (datos de prueba):** se usan para evaluar qu√© tan bien predice el modelo sobre ejemplos que nunca ha visto.  

En `scikit-learn` podemos hacer esta divisi√≥n con la funci√≥n `train_test_split`.  
De manera est√°ndar, se toma aproximadamente el **75% de los datos para entrenamiento** y el **25% para prueba**.  
Esta proporci√≥n suele ser una buena pr√°ctica porque deja suficiente informaci√≥n para entrenar el modelo, pero tambi√©n una muestra representativa para evaluarlo.


In [None]:
# üìö Dividir el dataset en Training y Test

from sklearn.model_selection import train_test_split

# X = variables predictoras (todas menos 'Perfil de talento')
# y_encoded = variable objetivo ya codificada (Innovador=0, Ejecutor=1, Tradicionalista=2)

X_train, X_test, y_train, y_test = train_test_split(
    X_scaled,        # Datos normalizados (features)
    y_encoded,       # Target codificado
    test_size=0.25,  # 25% para prueba, 75% para entrenamiento
    random_state=42, # Semilla para reproducibilidad
    stratify=y_encoded, # Garantiza que las clases queden balanceadas en train y test
    shuffle=True      # Mezcla los datos antes de dividir
)

# Verificamos el tama√±o de cada conjunto
print("Tama√±o de X_train:", X_train.shape)
print("Tama√±o de X_test:", X_test.shape)
print("Tama√±o de y_train:", y_train.shape)
print("Tama√±o de y_test:", y_test.shape)


### ***Construcci√≥n de nuestro primer modelo: [`k-Nearest Neighbors`](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)***

El modelo **k-Nearest Neighbors (KNN)** es uno de los algoritmos de clasificaci√≥n m√°s sencillos de entender e implementar.  

La idea central es que **para clasificar un nuevo registro de datos (por ejemplo, un colaborador cuyo perfil de talento a√∫n no conocemos), el algoritmo busca en el conjunto de entrenamiento los registros m√°s similares** y asigna la clase predominante entre ellos.  

- Si usamos **k = 1**, el modelo buscar√° √∫nicamente el vecino m√°s cercano en el conjunto de entrenamiento y le asignar√° su mismo perfil de talento (*Innovador, Ejecutor o Tradicionalista*).  
- Si usamos un valor mayor de **k** (por ejemplo, 3 o 5), el algoritmo considerar√° a los 3 o 5 vecinos m√°s cercanos, y clasificar√° el nuevo registro seg√∫n la **clase mayoritaria** en ese grupo.  

De esta forma, KNN se basa completamente en la **proximidad**: los individuos que se parecen entre s√≠ (seg√∫n sus caracter√≠sticas: experiencia, formaci√≥n, competencias) tienden a compartir la misma etiqueta de perfil.  

 En esta primera implementaci√≥n, comenzaremos usando **k = 3** para ilustrar el funcionamiento b√°sico del modelo. M√°s adelante exploraremos c√≥mo elegir el valor de *k* de manera m√°s adecuada.


In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)

El objeto `knn` encapsula el algoritmo que se usar√° para construir el modelo a partir de los datos en train, as√≠ como el algoritmo para hacer predicciones sobre nuevos puntos de datos. Tambi√©n contienen la informaci√≥n que el algoritmo ha extra√≠do de los datos de entrenamiento. En el caso de KNeighborsClassifier, solo almacenar√° el conjunto de train.

In [None]:
knn.get_params()

Lo anterior nos muestra qu√© par√°metros
se usar√°n para crear el modelo. Casi todos ellos son los valores predeterminados, note que tenemos `n_neighbors=1`, que es el par√°metro que pasamos. La mayor√≠a de los modelos en `scikit-learn` tiene muchos par√°metros, pero la mayor√≠a de ellos son optimizaciones de velocidad o para casos de uso muy especiales. Por ahora, no nos preocupamos por el otros par√°metros mostrados. Recuerde que m√°s adelante cubriremos toda la tem√°tica.

Para construir el modelo en el conjunto train, llamamos al m√©todo `fit()` que es el ajuste del objeto `knn`, que toma como argumentos el NumPy array `X_train` que contiene la data train y el NumPy array en `y_train` de las etiquetas de train correspondientes:

In [None]:
knn.fit(X_train, y_train)

### ***Haciendo predicciones***

Una vez entrenado nuestro modelo, podemos usarlo para hacer predicciones sobre **nuevos colaboradores** cuyo perfil de talento a√∫n no conocemos.  

Supongamos que llega un nuevo empleado con las siguientes caracter√≠sticas:

- **A√±os de experiencia:** 4  
- **Formaci√≥n continua:** 3  
- **Competencias t√©cnicas:** 2  
- **Competencias blandas:** 4  

üëâ ¬øA qu√© perfil de talento pertenecer√° este colaborador? (*Innovador, Ejecutor o Tradicionalista*)  

Para que el modelo pueda procesar estos datos, debemos organizarlos en un **array de NumPy** con la forma adecuada:  
- N√∫mero de muestras = 1 (porque es un solo empleado nuevo).  
- N√∫mero de caracter√≠sticas = 4 (a√±os de experiencia, formaci√≥n continua, competencias t√©cnicas y blandas).  

De esta manera, el modelo podr√° recibir la informaci√≥n en el mismo formato con el que fue entrenado y generar la predicci√≥n correspondiente.

Recordemos las estadisticas desxcriptivas de los datos con que fue entrenado: 

## Tabla de m√©tricas descriptivas

| Caracter√≠stica           | Media    | Mediana | Moda | Desviaci√≥n est√°ndar | M√≠nimo | M√°ximo | Percentil 25 | Percentil 75 |
|---------------------------|----------|---------|------|----------------------|--------|--------|--------------|--------------|
| **A√±os de experiencia**   | 5.843333 | 5.80    | 5.0  | 0.828066             | 4.3    | 7.9    | 5.1          | 6.4          |
| **Formaci√≥n continua**    | 3.057333 | 3.00    | 3.0  | 0.435866             | 2.0    | 4.4    | 2.8          | 3.3          |
| **Competencias t√©cnicas** | 3.758000 | 4.35    | 1.4  | 1.765298             | 1.0    | 6.9    | 1.6          | 5.1          |
| **Competencias blandas**  | 1.199333 | 1.30    | 0.2  | 0.762238             | 0.1    | 2.5    | 0.3          | 1.8          |




In [None]:
# Crear un nuevo registro para hacer una predicci√≥n

# Definimos un colaborador ficticio con sus caracter√≠sticas:
# - A√±os de experiencia = 5
# - Formaci√≥n continua = 2.9
# - Competencias t√©cnicas = 1
# - Competencias blandas = 0.2
#
# Importante: los valores deben estar en una lista dentro de otra lista [[...]]
# porque el modelo espera un array bidimensional:
#   - 1 fila  -> una sola muestra (un empleado nuevo)
#   - 4 columnas -> cuatro caracter√≠sticas

X_new = np.array([[5, 2.9, 1, 0.2]])

# Verificamos la forma del array: (n_muestras, n_features)
print("X_new.shape: {}".format(X_new.shape))


In [None]:
# Predicci√≥n con el modelo KNN asegurando la normalizaci√≥n del nuevo dato

# 1. Normalizamos el nuevo registro con el mismo scaler usado en el entrenamiento
X_new_scaled = scaler.transform(X_new)

# 2. Hacemos la predicci√≥n con el modelo entrenado
prediction = knn.predict(X_new_scaled)

# 3. Recuperamos el nombre de la etiqueta original usando el LabelEncoder
predicted_label = label_encoder.inverse_transform(prediction)

print("Predicci√≥n (codificada):", prediction)
print("Perfil de talento predicho:", predicted_label[0])


Nuestro modelo predice que este nuevo colaborador pertenece a la **clase 1**, lo que significa que su perfil de talento es **Ejecutor**.  

Ahora bien, surge una pregunta clave:  
**¬øC√≥mo sabemos si podemos confiar en nuestro modelo?**  

En este caso, no conocemos el perfil real de este colaborador (ese es precisamente el objetivo de construir el modelo: predecirlo).  
Por eso, para evaluar la confiabilidad del modelo debemos probarlo con datos donde **s√≠ conocemos la etiqueta real**, es decir, con el conjunto de prueba (*test set*).  

De esta manera podemos comparar las predicciones del modelo con las etiquetas verdaderas y medir qu√© tan bien est√° funcionando.


### ***Evaluaci√≥n del modelo***

¬øRecuerda que tenemos un conjunto de **test**?  
Es aqu√≠ donde entra en juego.  

Sabemos que estos datos **no se usaron para construir el modelo**, pero s√≠ conocemos el perfil de talento correcto para cada colaborador en este conjunto.  

Por lo tanto, podemos hacer una **predicci√≥n para cada empleado del test set** y compararla contra su etiqueta real (el perfil de talento conocido: *Innovador, Ejecutor o Tradicionalista*).  

De esta forma, podremos medir qu√© tan bien funciona el modelo.  
Una de las m√©tricas m√°s utilizadas es la **precisi√≥n (accuracy)**, que indica la proporci√≥n de colaboradores para los que el modelo hizo una predicci√≥n correcta.

In [None]:
y_pred = knn.predict(X_test)
print("Predicciones en el conjunto test:\n\n {}".format(y_pred))

Podemos usar el m√©todo `score()` del objeto knn, que calcular√° la puntuaci√≥n con exactitud:


In [None]:
print("Score en el conjunto test: {:.2f}".format(knn.score(X_test, y_test)))

Para este modelo, el `accuracy` en el conjunto test es de aproximadamente 0,97, lo que significa que hicimos un buen trabajo en la predicci√≥n para el 97% de los iris en el conjunto test. Bajo algunos supuestos matem√°ticos, esto significa que podemos esperar que nuestro modelo sea correcto el 97% del tiempo para nuevos
iris. Este alto nivel de precisi√≥n significa que nuestro
el modelo puede ser lo suficientemente confiable como para usarlo.

## ***Conclusiones y comentarios***

En este ejercicio realizamos una breve introducci√≥n al *machine learning* aplicado a **Recursos Humanos**, explorando c√≥mo estas t√©cnicas permiten apoyar la toma de decisiones estrat√©gicas.  

Primero discutimos la diferencia entre **aprendizaje supervisado y no supervisado**, y revisamos las herramientas b√°sicas que utilizamos en el curso.  

Luego abordamos el reto de construir un modelo capaz de **predecir el perfil de talento de un colaborador** a partir de sus caracter√≠sticas principales: a√±os de experiencia, formaci√≥n continua, competencias t√©cnicas y competencias blandas.  

En este contexto trabajamos con un problema de **clasificaci√≥n multiclase**, ya que el perfil de un empleado puede ser:  
- *Innovador*  
- *Ejecutor*  
- *Tradicionalista*  

Dividimos nuestro dataset en **conjunto de entrenamiento (train)** y **conjunto de prueba (test)**. Con los datos de entrenamiento construimos el modelo y con los de prueba evaluamos su desempe√±o, es decir, qu√© tan bien se generaliza a colaboradores que nunca hab√≠a visto.  

El algoritmo seleccionado fue **k-Nearest Neighbors (KNN)**, el cual clasifica un nuevo colaborador considerando los perfiles de sus vecinos m√°s cercanos en el conjunto de entrenamiento. Para esto:  
- Instanciamos la clase del modelo.  
- Ajustamos el modelo con `fit()` usando `X_train` y `y_train`.  
- Evaluamos su desempe√±o con `score()` sobre el conjunto `test`.  

El resultado obtenido fue una **precisi√≥n (accuracy) de aproximadamente 95%**, lo que significa que el modelo clasific√≥ correctamente el perfil de talento en 95 de cada 100 casos del conjunto de prueba.  

Este resultado sugiere que el modelo tiene un **alto poder predictivo**, aunque siempre ser√° importante complementarlo con validaciones adicionales y consideraciones √©ticas antes de usarlo en decisiones reales de gesti√≥n humana.


In [None]:
import ipywidgets as widgets
from ipywidgets import interact

def predecir_perfil(a√±os_experiencia, formacion_continua, competencias_tecnicas, competencias_blandas):
    # Construimos el array con los valores ingresados
    X_user = np.array([[a√±os_experiencia, formacion_continua, competencias_tecnicas, competencias_blandas]])
    X_user_scaled = scaler.transform(X_user)

    # Predicci√≥n
    prediction = knn.predict(X_user_scaled)
    predicted_label = label_encoder.inverse_transform(prediction)
    
    print("üìä Perfil de talento predicho:", predicted_label[0])

# Sliders interactivos
interact(
    predecir_perfil,
    a√±os_experiencia=widgets.FloatSlider(min=0, max=10, step=0.1, value=3),
    formacion_continua=widgets.FloatSlider(min=0, max=5, step=0.1, value=2.5),
    competencias_tecnicas=widgets.FloatSlider(min=0, max=10, step=0.1, value=5),
    competencias_blandas=widgets.FloatSlider(min=0, max=5, step=0.1, value=2)
)
