# **Operaciones de aprendizaje automático**
## **Maestría en Inteligencia Artificial Aplicada**
### **Tecnológico de Monterrey**
### **Equipo 36**
**Fase 1**

## **0. Librerías**

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

## **1. Analisis de Requerimientos**

En esta actividad se desarrollarán las primeras etapas de un proyecto de Machine Learning empleando el conjunto de datos titulado “Student Performance on an Entrance Examination”.
Este dataset contiene información de candidatos que participaron en el examen de admisión médica (Common Entrance Examination - CEE) para ingresar a facultades de medicina en Assam (India), recopilada por el Prof. Jiten Hazarika, donde el problema principal a resolver consiste en identificar aquellos factores que influyen en el rendimiento académico de los estudiantes que presentan el examen de ingreso.

El objetivo del proyecto es construir un modelo de clasificación que prediga el desempeño del candidato en función de variables como el género, tipo de coaching, antecedentes académicos y ocupación de los padres. Esto a partir del dataset "student_entry_performance_modified.csv".

Esta fase está estructurada para abarcar desde la exploración, manipulación y preparación de los datos, hasta el diseño y evaluación de modelos de clasificación que permitan comprender los factores asociados al rendimiento en el examen de ingreso.

In [None]:
df = pd.read_csv("../equipo36mlops/data/raw/student_entry_performance_modified.csv")
df.head()

Unnamed: 0,Performance,Gender,Caste,coaching,time,Class_ten_education,twelve_education,medium,Class_ X_Percentage,Class_XII_Percentage,Father_occupation,Mother_occupation,mixed_type_col
0,Excellent,male,General,NO,one,SEBA,AHSEC,ENGLISH,Excellent,Excellent,DOCTOR,OTHERS,unknown
1,Excellent,MALE,OBC,WA,TWO,SEBA,AHSEC,OTHERS,Excellent,Excellent,SCHOOL_TEACHER,HOUSE_WIFE,666
2,Excellent,male,OBC,OA,TWO,others,CBSE,ENGLISH,Excellent,Excellent,BUSINESS,HOUSE_WIFE,unknown
3,Excellent,male,General,WA,one,SEBA,AHSEC,OTHERS,Excellent,eXCELLENT,SCHOOL_TEACHER,school_teacher,275
4,Excellent,male,General,OA,two,,CBSE,ENGLISH,Excellent,Excellent,COLLEGE_TEACHER,HOUSE_WIFE,6


In [5]:
df.shape

(679, 13)

A través del uso de técnicas de Machine Learning, este proyecto busca ofrecer un sistema de apoyo analítico que permita comprender cuales son las variables académicas y socioeconómicas que influyen en el desempeño estudiantil. La propuesta de valor radica en transformar los datos obtenidos del pasado en conocimiento útil para mejorar la planificación educativa y la preparación de futuros aspirantes.

## **2. Manipulación y preparación de datos**

### 2.1 Mayus

Como primer acercamiento, en el df se aprecia que el elemento 3 en la columna de "Class_XII_Percentage" presenta el valor de "eXCELLENT", lo cual coincide con el valor de "Excellent" pero al no tener el mismo formato, no se reconoce igual, es por esto que la primera acción es pasarlo a mayúsculas para homogeneizar el df. 

In [6]:
df.columns

Index(['Performance', 'Gender', 'Caste', 'coaching', 'time',
       'Class_ten_education', 'twelve_education', 'medium',
       'Class_ X_Percentage', 'Class_XII_Percentage', 'Father_occupation',
       'Mother_occupation', 'mixed_type_col'],
      dtype='object')

In [7]:
apply_mayus = ['Performance', 'Gender', 'Caste', 'coaching', 'time',
       'Class_ten_education', 'twelve_education', 'medium',
       'Class_ X_Percentage', 'Class_XII_Percentage', 'Father_occupation',
       'Mother_occupation', 'mixed_type_col']
df[apply_mayus] = df[apply_mayus].apply(lambda x: x.str.upper())

df

Unnamed: 0,Performance,Gender,Caste,coaching,time,Class_ten_education,twelve_education,medium,Class_ X_Percentage,Class_XII_Percentage,Father_occupation,Mother_occupation,mixed_type_col
0,EXCELLENT,MALE,GENERAL,NO,ONE,SEBA,AHSEC,ENGLISH,EXCELLENT,EXCELLENT,DOCTOR,OTHERS,UNKNOWN
1,EXCELLENT,MALE,OBC,WA,TWO,SEBA,AHSEC,OTHERS,EXCELLENT,EXCELLENT,SCHOOL_TEACHER,HOUSE_WIFE,666
2,EXCELLENT,MALE,OBC,OA,TWO,OTHERS,CBSE,ENGLISH,EXCELLENT,EXCELLENT,BUSINESS,HOUSE_WIFE,UNKNOWN
3,EXCELLENT,MALE,GENERAL,WA,ONE,SEBA,AHSEC,OTHERS,EXCELLENT,EXCELLENT,SCHOOL_TEACHER,SCHOOL_TEACHER,275
4,EXCELLENT,MALE,GENERAL,OA,TWO,,CBSE,ENGLISH,EXCELLENT,EXCELLENT,COLLEGE_TEACHER,HOUSE_WIFE,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...
674,AVERAGE,MALE,OBC,WA,TWO,CBSE,CBSE,ENGLISH,EXCELLENT,EXCELLENT,OTHERS,HOUSE_WIFE,900
675,AVERAGE,FEMALE,ST,WA,TWO,SEBA,CBSE,ENGLISH,VG,VG,BUSINESS,HOUSE_WIFE,270
676,AVERAGE,MALE,ST,WA,TWO,SEBA,AHSEC,ENGLISH,VG,GOOD,OTHERS,HOUSE_WIFE,
677,VG,MALE,SC,WA,TWO,SEBA,AHSEC,ENGLISH,EXCELLENT,EXCELLENT,OTHERS,HOUSE_WIFE,


### 2.2 Trim

In [8]:
df['Performance'].value_counts()

Performance
GOOD           199
VG             194
AVERAGE        146
EXCELLENT       96
 GOOD           14
 AVERAGE        12
 EXCELLENT       6
 VG              6
Name: count, dtype: int64

Tomando como ejemplo la columna de "Performance", se observa que hay valores que a la vista son iguales, pero se categorizan como otro tipo, posiblemente presente en las demás columnas, es por esto que se aplica la operación trim para solucionar esto. 

In [9]:
df[apply_mayus] = df[apply_mayus].apply(lambda x: x.str.strip())
df

Unnamed: 0,Performance,Gender,Caste,coaching,time,Class_ten_education,twelve_education,medium,Class_ X_Percentage,Class_XII_Percentage,Father_occupation,Mother_occupation,mixed_type_col
0,EXCELLENT,MALE,GENERAL,NO,ONE,SEBA,AHSEC,ENGLISH,EXCELLENT,EXCELLENT,DOCTOR,OTHERS,UNKNOWN
1,EXCELLENT,MALE,OBC,WA,TWO,SEBA,AHSEC,OTHERS,EXCELLENT,EXCELLENT,SCHOOL_TEACHER,HOUSE_WIFE,666
2,EXCELLENT,MALE,OBC,OA,TWO,OTHERS,CBSE,ENGLISH,EXCELLENT,EXCELLENT,BUSINESS,HOUSE_WIFE,UNKNOWN
3,EXCELLENT,MALE,GENERAL,WA,ONE,SEBA,AHSEC,OTHERS,EXCELLENT,EXCELLENT,SCHOOL_TEACHER,SCHOOL_TEACHER,275
4,EXCELLENT,MALE,GENERAL,OA,TWO,,CBSE,ENGLISH,EXCELLENT,EXCELLENT,COLLEGE_TEACHER,HOUSE_WIFE,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...
674,AVERAGE,MALE,OBC,WA,TWO,CBSE,CBSE,ENGLISH,EXCELLENT,EXCELLENT,OTHERS,HOUSE_WIFE,900
675,AVERAGE,FEMALE,ST,WA,TWO,SEBA,CBSE,ENGLISH,VG,VG,BUSINESS,HOUSE_WIFE,270
676,AVERAGE,MALE,ST,WA,TWO,SEBA,AHSEC,ENGLISH,VG,GOOD,OTHERS,HOUSE_WIFE,
677,VG,MALE,SC,WA,TWO,SEBA,AHSEC,ENGLISH,EXCELLENT,EXCELLENT,OTHERS,HOUSE_WIFE,


In [10]:
df['Performance'].value_counts()

Performance
GOOD         213
VG           200
AVERAGE      158
EXCELLENT    102
Name: count, dtype: int64

### 2.3 Null values

In [12]:
df.isnull().sum()

Performance              6
Gender                   6
Caste                    4
coaching                 6
time                     5
Class_ten_education     11
twelve_education         9
medium                   6
Class_ X_Percentage      4
Class_XII_Percentage     7
Father_occupation        3
Mother_occupation        5
mixed_type_col          68
dtype: int64

In [13]:
df["Gender"].value_counts()

Gender
MALE      361
FEMALE    310
NAN         2
Name: count, dtype: int64

Analizando la columna de "Gender", se aprecia que hay filas/entradas que no estan definidas y otras donde el valor es NAN, por lo que estas pueden descartarse sin ningun inconveniente ya que no representan un número importante de la muestra. Esta decisión busca evitar la introducción de sesgos al imputar valores sin fundamento estadístico, manteniendo la coherencia y calidad del conjunto de datos.

In [14]:
df = df.replace(["NAN", "NaN", "nan", "NULL", "NONE", " "], np.nan)

In [15]:
df.isnull().sum()

Performance              6
Gender                   8
Caste                    4
coaching                 6
time                     5
Class_ten_education     11
twelve_education        10
medium                   6
Class_ X_Percentage      6
Class_XII_Percentage     8
Father_occupation        4
Mother_occupation        5
mixed_type_col          68
dtype: int64

#### 2.3.1 Columna principal

Una vez asignados los strings con intención de ser valores nulos, tenemos que la columna de Performance con 6 valores nulos, y al ser la que nos interesa su estudio, es pertinente descartar sus valores nulos dado que estos valores no pueden emplearse para el entrenamiento ni la evaluación del modelo a diseñar.

In [16]:
df = df.dropna(subset=['Performance'])
df["Performance"].isnull().sum()

0

#### 2.3.2 Columna mixed_type_col

Asimismo, la columna "mixed_type_col" por la cantidad de datos de tipo nulo es muy probable que no aporte algún tipo de valor predictivo para el modelo, ya que su propia entrada mezcla valores de tipo numéricos y de texto. Es por esto que se descartó la columna para evitar ruido en el modelo.

In [17]:
df = df.drop(columns=['mixed_type_col'])
df

Unnamed: 0,Performance,Gender,Caste,coaching,time,Class_ten_education,twelve_education,medium,Class_ X_Percentage,Class_XII_Percentage,Father_occupation,Mother_occupation
0,EXCELLENT,MALE,GENERAL,NO,ONE,SEBA,AHSEC,ENGLISH,EXCELLENT,EXCELLENT,DOCTOR,OTHERS
1,EXCELLENT,MALE,OBC,WA,TWO,SEBA,AHSEC,OTHERS,EXCELLENT,EXCELLENT,SCHOOL_TEACHER,HOUSE_WIFE
2,EXCELLENT,MALE,OBC,OA,TWO,OTHERS,CBSE,ENGLISH,EXCELLENT,EXCELLENT,BUSINESS,HOUSE_WIFE
3,EXCELLENT,MALE,GENERAL,WA,ONE,SEBA,AHSEC,OTHERS,EXCELLENT,EXCELLENT,SCHOOL_TEACHER,SCHOOL_TEACHER
4,EXCELLENT,MALE,GENERAL,OA,TWO,,CBSE,ENGLISH,EXCELLENT,EXCELLENT,COLLEGE_TEACHER,HOUSE_WIFE
...,...,...,...,...,...,...,...,...,...,...,...,...
674,AVERAGE,MALE,OBC,WA,TWO,CBSE,CBSE,ENGLISH,EXCELLENT,EXCELLENT,OTHERS,HOUSE_WIFE
675,AVERAGE,FEMALE,ST,WA,TWO,SEBA,CBSE,ENGLISH,VG,VG,BUSINESS,HOUSE_WIFE
676,AVERAGE,MALE,ST,WA,TWO,SEBA,AHSEC,ENGLISH,VG,GOOD,OTHERS,HOUSE_WIFE
677,VG,MALE,SC,WA,TWO,SEBA,AHSEC,ENGLISH,EXCELLENT,EXCELLENT,OTHERS,HOUSE_WIFE


#### 2.3.3 Columnas con datos ordinales

Las columnas "Class_X_Percentage" y "Class_XII_Percentage" al ser de tipo ordinal, para no descartar sus valores nulos se les puede asignar el valor de su moda, lo cual no afecta en gran medida al modelo.

In [18]:
df.rename(columns={'Class_ X_Percentage': 'Class_X_Percentage'}, inplace=True) # Cambio de nombre de la columna para una mejor manipulación en el notebook
df

Unnamed: 0,Performance,Gender,Caste,coaching,time,Class_ten_education,twelve_education,medium,Class_X_Percentage,Class_XII_Percentage,Father_occupation,Mother_occupation
0,EXCELLENT,MALE,GENERAL,NO,ONE,SEBA,AHSEC,ENGLISH,EXCELLENT,EXCELLENT,DOCTOR,OTHERS
1,EXCELLENT,MALE,OBC,WA,TWO,SEBA,AHSEC,OTHERS,EXCELLENT,EXCELLENT,SCHOOL_TEACHER,HOUSE_WIFE
2,EXCELLENT,MALE,OBC,OA,TWO,OTHERS,CBSE,ENGLISH,EXCELLENT,EXCELLENT,BUSINESS,HOUSE_WIFE
3,EXCELLENT,MALE,GENERAL,WA,ONE,SEBA,AHSEC,OTHERS,EXCELLENT,EXCELLENT,SCHOOL_TEACHER,SCHOOL_TEACHER
4,EXCELLENT,MALE,GENERAL,OA,TWO,,CBSE,ENGLISH,EXCELLENT,EXCELLENT,COLLEGE_TEACHER,HOUSE_WIFE
...,...,...,...,...,...,...,...,...,...,...,...,...
674,AVERAGE,MALE,OBC,WA,TWO,CBSE,CBSE,ENGLISH,EXCELLENT,EXCELLENT,OTHERS,HOUSE_WIFE
675,AVERAGE,FEMALE,ST,WA,TWO,SEBA,CBSE,ENGLISH,VG,VG,BUSINESS,HOUSE_WIFE
676,AVERAGE,MALE,ST,WA,TWO,SEBA,AHSEC,ENGLISH,VG,GOOD,OTHERS,HOUSE_WIFE
677,VG,MALE,SC,WA,TWO,SEBA,AHSEC,ENGLISH,EXCELLENT,EXCELLENT,OTHERS,HOUSE_WIFE


In [19]:
df["Class_X_Percentage"].value_counts()

Class_X_Percentage
EXCELLENT    511
VG           102
GOOD          41
AVERAGE       13
Name: count, dtype: int64

In [20]:
df['Class_X_Percentage'] = df['Class_X_Percentage'].fillna("EXCELLENT")
df["Class_X_Percentage"].value_counts()

Class_X_Percentage
EXCELLENT    517
VG           102
GOOD          41
AVERAGE       13
Name: count, dtype: int64

In [21]:
df["Class_XII_Percentage"].value_counts()

Class_XII_Percentage
EXCELLENT    396
VG           183
GOOD          75
AVERAGE       11
Name: count, dtype: int64

In [22]:
df['Class_XII_Percentage'] = df['Class_XII_Percentage'].fillna("EXCELLENT")
df["Class_XII_Percentage"].value_counts()

Class_XII_Percentage
EXCELLENT    404
VG           183
GOOD          75
AVERAGE       11
Name: count, dtype: int64

#### 2.3.4 Columnas nominales

##### - Gender

In [23]:
df["Gender"].value_counts()

Gender
MALE      359
FEMALE    306
Name: count, dtype: int64

Al no poder suponer el género del que presenta, se optó por crear un nuevo valor "MISSING", el cual no interfiera con la muestra que se tiene y no afecta en gran medida debido a que son 8 datos faltantes de esta columna.

In [24]:
df['Gender'] = df['Gender'].fillna("MISSING")
df["Gender"].value_counts()

Gender
MALE       359
FEMALE     306
MISSING      8
Name: count, dtype: int64

Para las demás columnas, sus datos nulos se les asignó el valor correspondiente a sus modas

In [25]:
df['Caste'] = df['Caste'].fillna("GENERAL")
df['coaching'] = df['coaching'].fillna("WA")
df['time'] = df['time'].fillna("TWO")
df['Class_ten_education'] = df['Class_ten_education'].fillna("SEBA")
df['twelve_education'] = df['twelve_education'].fillna("AHSEC")
df['medium'] = df['medium'].fillna("ENGLISH")
df['Father_occupation'] = df['Father_occupation'].fillna("OTHERS")
df['Mother_occupation'] = df['Mother_occupation'].fillna("HOUSE_WIFE")

### 2.3.5 Evaluación

In [26]:
df.isnull().sum()

Performance             0
Gender                  0
Caste                   0
coaching                0
time                    0
Class_ten_education     0
twelve_education        0
medium                  0
Class_X_Percentage      0
Class_XII_Percentage    0
Father_occupation       0
Mother_occupation       0
dtype: int64

Se aprecia que ya no hay valores nulos y se pudieron homogeneizar aquellas entradas que se reconocían similares en el DataFrame. 