<a href="https://colab.research.google.com/github/hectormelo/Machine-Learning-Techniques/blob/main/Taller_4/Taller_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/hectormelo/Machine-Learning-Techniques/main/Banner.png" ><br>
# Machine Learning Techniques - MISIS4219

Primer Semestre - 2024

* **Integrante 1:** Jhon Stewar Rayo Mosquera
* **Integrante 2:** Carlos Raúl de la Rosa Peredo

### Modelo de agrupación

El conjunto de datos "Tech Students' Profile Prediction" contiene información sobre las habilidades, preferencias profesionales y antecedentes académicos de estudiantes en el campo de la tecnología. En este proyecto, se busca aplicar técnicas de agrupación para identificar grupos de estudiantes con perfiles similares, lo que podría ser útil para la orientación profesional y la personalización de programas educativos.

El objetivo de este proyecto es desarrollar un modelo de agrupación que clasifique a los estudiantes en función de sus habilidades, intereses y antecedentes, utilizando los datos proporcionados en el conjunto de datos "Tech Students' Profile Prediction". Este modelo deberá ser capaz de identificar patrones y tendencias en los perfiles de los estudiantes, lo que podría ayudar a las instituciones educativas y a los empleadores a adaptar sus estrategias de enseñanza y contratación.

Para poder realizar este proyecto, se le piden los siguientes análisis:

* Realizar la agrupación con el Algoritmo k-Means. Obtener los centroides e interpretarlos.


**Fuente de datos:** [Tech Students' Profile Prediction](https://www.kaggle.com/datasets/scarecrow2020/tech-students-profile-prediction)

### 0. Importar librerías



In [2]:
# Importamos las librerías requeridas para el desarrollo del modelo

# Manejo de datos y visualización
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.cm as cm
import seaborn as sns

# Algoritmo de cluster
from sklearn.cluster import (
    KMeans,
    DBSCAN,
)

# Metricas de evaluación
from sklearn.metrics import (
    silhouette_score,
    silhouette_samples,
    rand_score,
)

from sklearn.preprocessing import StandardScaler

from sklearn.decomposition import PCA, IncrementalPCA



### 1. Procesamiento y entendimiento de los datos

In [3]:
# Descargamos el data set

! mkdir -p ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json

! mkdir -p content
%cd content
! kaggle datasets download scarecrow2020/tech-students-profile-prediction --force
! unzip -o tech-students-profile-prediction.zip
%cd ../

cp: no se puede efectuar `stat' sobre 'kaggle.json': No existe el archivo o el directorio
/home/raul/Escritorio/extra/misis/ml_tech/Machine-Learning-Assignments/Taller4/content


  self.shell.db['dhist'] = compress_dhist(dhist)[-100:]


Downloading tech-students-profile-prediction.zip to /home/raul/Escritorio/extra/misis/ml_tech/Machine-Learning-Assignments/Taller4/content
100%|█████████████████████████████████████████| 666k/666k [00:00<00:00, 885kB/s]
100%|█████████████████████████████████████████| 666k/666k [00:00<00:00, 884kB/s]
Archive:  tech-students-profile-prediction.zip
  inflating: dataset-tortuga.csv     
  inflating: to_be_scored_tortuga.csv  
/home/raul/Escritorio/extra/misis/ml_tech/Machine-Learning-Assignments/Taller4


In [4]:
df = pd.read_csv('content/dataset-tortuga.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,NAME,USER_ID,HOURS_DATASCIENCE,HOURS_BACKEND,HOURS_FRONTEND,NUM_COURSES_BEGINNER_DATASCIENCE,NUM_COURSES_BEGINNER_BACKEND,NUM_COURSES_BEGINNER_FRONTEND,NUM_COURSES_ADVANCED_DATASCIENCE,NUM_COURSES_ADVANCED_BACKEND,NUM_COURSES_ADVANCED_FRONTEND,AVG_SCORE_DATASCIENCE,AVG_SCORE_BACKEND,AVG_SCORE_FRONTEND,PROFILE
0,28,Stormy Muto,58283940,7.0,39.0,29.0,2.0,4.0,0.0,2.0,5.0,0.0,84.0,74.0,,beginner_front_end
1,81,Carlos Ferro,1357218,32.0,0.0,44.0,2.0,0.0,0.0,0.0,5.0,0.0,67.0,45.0,,beginner_front_end
2,89,Robby Constantini,63212105,45.0,0.0,59.0,0.0,5.0,4.0,0.0,4.0,1.0,,54.0,47.0,advanced_front_end
3,138,Paul Mckenny,23239851,36.0,19.0,28.0,0.0,5.0,7.0,0.0,5.0,3.0,,71.0,89.0,beginner_data_science
4,143,Jean Webb,72234478,61.0,78.0,38.0,6.0,11.0,0.0,4.0,3.0,0.0,66.0,85.0,,advanced_front_end


In [5]:
# Existen 13 columnas en el dataset con valores númericos que pueden ser utilizados
# para perfilar a los estudiantes. Dichas columnas cuentan con valores nulos.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 16 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Unnamed: 0                        20000 non-null  int64  
 1   NAME                              20000 non-null  object 
 2   USER_ID                           20000 non-null  int64  
 3   HOURS_DATASCIENCE                 19986 non-null  float64
 4   HOURS_BACKEND                     19947 non-null  float64
 5   HOURS_FRONTEND                    19984 non-null  float64
 6   NUM_COURSES_BEGINNER_DATASCIENCE  19974 non-null  float64
 7   NUM_COURSES_BEGINNER_BACKEND      19982 non-null  float64
 8   NUM_COURSES_BEGINNER_FRONTEND     19961 non-null  float64
 9   NUM_COURSES_ADVANCED_DATASCIENCE  19998 non-null  float64
 10  NUM_COURSES_ADVANCED_BACKEND      19992 non-null  float64
 11  NUM_COURSES_ADVANCED_FRONTEND     19963 non-null  float64
 12  AVG_

In [6]:
# Se asumirá que los valores nulos en las columnas se debe a que
# el estudiante no ha completado la información porque no cuenta 
# 'experencia' en esos rubros. 
# Se procederá a rellenar los valores nulos con 0.

df = df.fillna(0)

In [31]:
# A priori se sabe que existen 5 perfiles de estudiantes en el dataset.
# Sin embargo, se realizará un análisis exploratorio a traves de tecnicas cómo
# 'elbow method' y 'silhouette score' para determinar el número óptimo de clusters.
df.PROFILE.unique()

array(['beginner_front_end', 'advanced_front_end',
       'beginner_data_science', 'beginner_backend',
       'advanced_data_science', 'advanced_backend'], dtype=object)

In [14]:
# Con el fin de optimizar el rendimiento del modelo, se procederá a
# normalizar los datos utilizando la clase StandardScaler de sklearn.

scaler = StandardScaler()

X = df.loc[:, 'HOURS_DATASCIENCE':'AVG_SCORE_FRONTEND'].values

X_std = scaler.fit_transform(X)

### 2. Modelado de la información usando k-means

In [27]:
kmeans = KMeans(n_clusters=5, random_state=42).fit(X_std)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

In [29]:
centroids

array([[ 9.98909141e-01, -4.18502142e-01, -1.52593816e-02,
        -1.98734931e-01,  9.20794863e-01, -4.10675666e-02,
        -2.19259681e-02,  8.39083434e-02, -4.91870668e-01,
        -4.27303425e-01, -4.21319614e-01, -4.78403877e-01],
       [-2.58145771e-03,  2.43526642e-01, -5.16334219e-01,
         1.13309174e+00, -2.97815191e-01,  9.00032301e-01,
        -3.66006171e-03, -4.27537245e-01,  6.62102539e-01,
         2.20262872e-01,  1.26762972e-01,  4.85256286e-01],
       [ 3.88660683e-03,  6.84844787e-01,  3.07688472e-01,
         1.11350655e-03, -2.63858027e-01, -5.55892584e-01,
         8.59256055e-01, -1.01399303e-01,  2.24805022e-01,
         8.83970822e-02,  3.97603380e-01,  4.41968864e-01],
       [-6.16207079e-01, -6.91275506e-01,  6.92797726e-01,
        -6.06212829e-01, -4.06363788e-01,  3.34531655e-01,
        -4.45495524e-01, -2.55873696e-01, -4.08248406e-02,
        -6.34272854e-01,  2.56551099e-01, -1.63667580e-02],
       [-3.90763055e-01,  7.67144427e-02, -5.1435204

In [28]:
labels

array([4, 4, 3, ..., 2, 2, 3], dtype=int32)

In [30]:
df.PROFILE

0           beginner_front_end
1           beginner_front_end
2           advanced_front_end
3        beginner_data_science
4           advanced_front_end
                 ...          
19995         advanced_backend
19996       advanced_front_end
19997         advanced_backend
19998       advanced_front_end
19999    advanced_data_science
Name: PROFILE, Length: 20000, dtype: object