 ![picture](https://drive.google.com/uc?export=view&id=1KaUW3_JAieeY7WVNfoRiTSr2JsaeAcXi)

# **Reclutamiento de Empleados con Aprendizaje Automático | Colocación Laboral con Python | Sistema de Adquisición de Talento en RR.HH.**

En el mundo acelerado de hoy, las empresas buscan constantemente formas innovadoras para optimizar sus procesos, y la gestión de recursos humanos (RR.HH.) no es una excepción. Los métodos de reclutamiento tradicionales suelen ser consumidores de tiempo y carecen de la eficiencia necesaria para identificar a los mejores candidatos para el trabajo. Sin embargo, con los avances en aprendizaje automático y análisis de datos, los profesionales de RR.HH. ahora tienen herramientas poderosas a su disposición para revolucionar el proceso de reclutamiento.




## **Entendimiento del Proyecto:**
El proyecto está diseñado para aprovechar las técnicas de ML para predecir colocaciones laborales basadas en varios factores, como el rendimiento académico, la experiencia laboral, la especialización, y más.

Al analizar los datos históricos de empleados anteriores, el sistema busca identificar patrones y correlaciones que puedan predecir si un candidato es probable que sea colocado o no.

In [1]:
import numpy as np
import pandas as pd

In [38]:
df = pd.read_csv("https://raw.githubusercontent.com/germaingarcia/Files_Lectures/main/Placement_Data_Full_Class.csv")

In [39]:
# mostramos la estructura del dataframe : head

df.head()

Unnamed: 0,sl_no,gender,ssc_p,ssc_b,hsc_p,hsc_b,hsc_s,degree_p,degree_t,workex,etest_p,specialisation,mba_p,status,salary
0,1,M,67.0,Others,91.0,Others,Commerce,58.0,Sci&Tech,No,55.0,Mkt&HR,58.8,Placed,270000.0
1,2,M,79.33,Central,78.33,Others,Science,77.48,Sci&Tech,Yes,86.5,Mkt&Fin,66.28,Placed,200000.0
2,3,M,65.0,Central,68.0,Central,Arts,64.0,Comm&Mgmt,No,75.0,Mkt&Fin,57.8,Placed,250000.0
3,4,M,56.0,Central,52.0,Central,Science,52.0,Sci&Tech,No,66.0,Mkt&HR,59.43,Not Placed,
4,5,M,85.8,Central,73.6,Central,Commerce,73.3,Comm&Mgmt,No,96.8,Mkt&Fin,55.5,Placed,425000.0


## **Diccionario**

1. **Sl_no**: Número de serie o identificador único para cada entrada o persona.
2. **gender**: Género del individuo.
3. **ssc_p**: Porcentaje obtenido en los exámenes de secundaria (SSC suele referirse a Secondary School Certificate).
4. **ssc_b**: Junta o comité organizador de los exámenes de secundaria.
5. **hsc_p**: Porcentaje obtenido en los exámenes de educación superior secundaria (HSC se refiere a Higher Secondary Certificate).
6. **hsc_b**: Junta o comité organizador de los exámenes de educación superior secundaria.
7. **hsc_s**: Especialización o área de estudio en la educación superior secundaria (ciencias, comercio, arte, etc.).
8. **degree_p**: Porcentaje obtenido en el grado universitario.
9. **degree_t**: Tipo de grado o campo de estudio en la educación universitaria (por ejemplo, tecnología, artes, comercio).
10. **workex**: Experiencia laboral (generalmente indicado como 'Yes' o 'No').
11. **etest_p**: Porcentaje obtenido en un examen de prueba, posiblemente un examen de empleabilidad o habilidades específicas.
12. **specialisation**: Especialización en estudios de posgrado, especialmente en programas de MBA.
13. **mba_p**: Porcentaje obtenido en el programa de MBA.
14. **status**: Estado del empleo o resultado del proceso de selección (como 'employed' o 'unemployed').
15. **salary**: Salario ofrecido o actual del individuo.



In [40]:
#Analizamos que variables no ayudan y lo eliminamos: ssc_b','hsc_b','hsc_s','degree_t','salary
to_drop=['ssc_b','hsc_b','hsc_s','degree_t','salary']
df.drop(to_drop, axis=1, inplace=True)

In [14]:
df.head()

Unnamed: 0,sl_no,gender,ssc_p,hsc_p,degree_p,workex,etest_p,specialisation,mba_p,status
0,1,M,67.0,91.0,58.0,No,55.0,Mkt&HR,58.8,Placed
1,2,M,79.33,78.33,77.48,Yes,86.5,Mkt&Fin,66.28,Placed
2,3,M,65.0,68.0,64.0,No,75.0,Mkt&Fin,57.8,Placed
3,4,M,56.0,52.0,52.0,No,66.0,Mkt&HR,59.43,Not Placed
4,5,M,85.8,73.6,73.3,No,96.8,Mkt&Fin,55.5,Placed


In [41]:
df['workex'].value_counts()

workex
No     141
Yes     74
Name: count, dtype: int64

In [21]:
df.head()

Unnamed: 0,sl_no,gender,ssc_p,hsc_p,degree_p,workex,etest_p,specialisation,mba_p,status
0,1,0,67.0,91.0,58.0,0,55.0,0,58.8,0
1,2,0,79.33,78.33,77.48,1,86.5,1,66.28,0
2,3,0,65.0,68.0,64.0,0,75.0,1,57.8,0
3,4,0,56.0,52.0,52.0,0,66.0,0,59.43,1
4,5,0,85.8,73.6,73.3,0,96.8,1,55.5,0


## Preprocessing

## Encoding

 Limpiar y preparar el conjunto de datos para el análisis. Esto incluye manejar valores faltantes, codificar variables categóricas y escalar características numéricas.

In [42]:
# codigica genero, experiencia de trabajo, estatus y especialización
# Puedes usar esta celda como punto de partida

diccionario_gender = {
    'M': 0,
    'F': 1
}
df['gender']=df['gender'].map(diccionario_gender)

diccionario_workex = {
    'No': 0,
    'Yes': 1
}
df['workex']=df['workex'].map(diccionario_workex)

diccionario_specialisation = {
    'Mkt&HR': 0,
    'Mkt&Fin': 1
}
df['specialisation']=df['specialisation'].map(diccionario_specialisation)

diccionario_status = {
    'Placed': 0,
    'Not Placed': 1
}
df['status']=df['status'].map(diccionario_status)

# Balance Dataset


In [43]:
df['status'].value_counts()

status
0    148
1     67
Name: count, dtype: int64

In [44]:
from sklearn.utils import resample

# Separar la clase minoritaria de la clase mayoritaria

clase_mayoritaria = df[df['status'] == 0]
clase_minoritaria = df[df['status'] == 1]

# Aplicar resampling a la clase minoritaria (Upsampling)
clase_minoritaria_balanceada = resample(clase_minoritaria, replace=True, n_samples=len(clase_mayoritaria), random_state=42)

# Combinar los datos balanceados
balanced_data = pd.concat([clase_mayoritaria, clase_minoritaria_balanceada])

# Verificar la distribución balanceada
print(balanced_data['status'].value_counts())

# Adicionar elementos de la clase minoritaria

# Combinar clases mayoritarias y clases minoritarias en la variable balanced_data

status
0    148
1    148
Name: count, dtype: int64


In [45]:
balanced_data['status'].value_counts()

status
0    148
1    148
Name: count, dtype: int64

# Train Test Split

In [46]:
# Separación de feature y target
X = balanced_data.copy().drop('status', axis=1)
y = balanced_data['status']

In [47]:
#Train Test Split con test_size=0.3
from sklearn.model_selection import train_test_split
# Puedes usar esta celda como punto de partida

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


# Feature Scaling

In [48]:
# scalar las características de x_train y x_test

from sklearn.preprocessing import MinMaxScaler
ms = MinMaxScaler()

X_train = ms.fit_transform(X_train)
X_test = ms.transform(X_test)


# Sistema de Predicción

In [49]:
# create instances of all models
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import ExtraTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import accuracy_score

models = {
    'Logistic Regression': LogisticRegression(),
    'Naive Bayes': GaussianNB(),
    'Support Vector Machine': SVC(),
    'K-Nearest Neighbors': KNeighborsClassifier(),
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier(),
    'Bagging': BaggingClassifier(),
    'AdaBoost': AdaBoostClassifier(),
    'Gradient Boosting': GradientBoostingClassifier(),
    'Extra Trees': ExtraTreeClassifier(),
}


for name, md in models.items():
    md.fit(X_train,y_train)
    ypred = md.predict(X_test)

    print(f"{name}  with accuracy : {accuracy_score(y_test,ypred)}")


Logistic Regression  with accuracy : 0.8089887640449438
Naive Bayes  with accuracy : 0.7640449438202247
Support Vector Machine  with accuracy : 0.8764044943820225
K-Nearest Neighbors  with accuracy : 0.8314606741573034
Decision Tree  with accuracy : 0.9213483146067416
Random Forest  with accuracy : 0.9213483146067416
Bagging  with accuracy : 0.9101123595505618
AdaBoost  with accuracy : 0.9325842696629213
Gradient Boosting  with accuracy : 0.9101123595505618
Extra Trees  with accuracy : 0.8426966292134831


In [37]:
adb = AdaBoostClassifier()
adb.fit(X_train,y_train)
ypred = adb.predict(X_test)
accuracy_score(y_test,ypred)

0.9325842696629213

In [50]:
X

Unnamed: 0,sl_no,gender,ssc_p,hsc_p,degree_p,workex,etest_p,specialisation,mba_p
0,1,0,67.00,91.00,58.00,0,55.00,0,58.80
1,2,0,79.33,78.33,77.48,1,86.50,1,66.28
2,3,0,65.00,68.00,64.00,0,75.00,1,57.80
4,5,0,85.80,73.60,73.30,0,96.80,1,55.50
7,8,0,82.00,64.00,66.00,1,67.00,1,62.14
...,...,...,...,...,...,...,...,...,...
100,101,1,45.00,57.00,58.00,1,56.39,0,64.95
173,174,1,52.00,52.00,55.00,0,67.00,0,59.32
194,195,0,52.00,55.00,56.30,0,59.00,1,64.74
186,187,1,52.00,64.00,61.00,0,55.00,1,62.93


In [51]:
def prediction(sl_no, gender, ssc_p, hsc_p, degree_p, workex, etest_p, specialisation, mba_p):

    data_prueba={
      'sl_no':[sl_no],
      'gender':[gender],
      'ssc_p':[ssc_p],
      'hsc_p':[hsc_p],
      'degree_p':[degree_p],
      'workex':[workex],
      'etest_p':[etest_p],
      'specialisation':[specialisation],
      'mba_p':[mba_p]
    }

    data=pd.DataFrame(data_prueba)
    data['gender'] = data['gender'].map({'M': 0,'F': 1})
    data['workex'] = data['workex'].map({'No': 0,'Yes': 1})
    data['specialisation'] = data['specialisation'].map({'Mkt&HR': 0,'Mkt&Fin': 1})
    result = adb.predict(data)

    if result == 1:
        return('contratado')
    else:
        return('No Contratado')


In [81]:
sl_no =11
gender = "F"
ssc_p =58.
hsc_p = 61.
degree_p = 60.
workex = "Yes"
etest_p = 62.
specialisation = "Mkt&Fin"
mba_p = 60.85

data_prueba={
  'sl_no':[sl_no],
  'gender':[gender],
  'ssc_p':[ssc_p],
  'hsc_p':[hsc_p],
  'degree_p':[degree_p],
  'workex':[workex],
  'etest_p':[etest_p],
  'specialisation':[specialisation],
  'mba_p':[mba_p]
  }

data=pd.DataFrame(data_prueba)
data['gender'] = data['gender'].map({'M': 0,'F': 1})
data['workex'] = data['workex'].map({'No': 0,'Yes': 1})
data['specialisation'] = data['specialisation'].map({'Mkt&HR': 0,'Mkt&Fin': 1})



In [82]:
result = adb.predict(data)

if result == 1:
    print('contratado')

else:
    print('No Contratado')

No Contratado





Se emplea un modelo de Clasificador Random Forest para predecir las colocaciones laborales basadas en características de entrada como los puntajes académicos, la experiencia laboral y otros factores relevantes. El modelo se entrena con datos históricos para aprender patrones y hacer predicciones precisas.

# Guardar Archivos

In [None]:
import pickle

pickle.dump(adb,open('model.pkl','wb'))
pickle.dump(ms,open('minmaxscaler.pkl','wb'))
