# Data engineering notebook

###  Proyecto: 
Predicción del desempeño de aspirantes a Medical Colleges of Assam

### Objetivo

Preparar y limpiar los datos de los aspirantes para entrenar un modelo que prediga su probabilidad de éxito o su puntaje en el proceso de admisión.

### Fuentes de datos
data/raw/CEE_DATA.arff

### Salida esperada
data/processed/CEE_DATA_clean.csv

In [59]:
import sys


In [60]:
#!{sys.executable} -m pip install scipy

In [61]:
import pandas as pd
from scipy.io import arff


### Carga y limpieza de datos

Carga del data set original, limpieza de nombres de las columnas, revisión de tipos de datos, valores nulos y distribución de la variable objetivo.

In [62]:
arff_file = r"C:\Users\Admin\Documents\GitHub\test-MLops-CEE_DATA\data\raw\CEE_DATA.arff"

# Cargar ARFF en estructura (data, meta)
data = arff.loadarff(arff_file)
df = pd.DataFrame(data[0])  

# Los valores categóricos a menudo se cargan como bytes (b'...'); convertirlos a string
# Esto debe formar parte de la limpieza inicial para evitar prefijos b'' en las columnas
for col in df.select_dtypes([object]).columns:
    df[col] = df[col].apply(lambda x: x.decode() if isinstance(x, bytes) else x)

df.head()

Unnamed: 0,Performance,Gender,Caste,coaching,time,Class_ten_education,twelve_education,medium,Class_ X_Percentage,Class_XII_Percentage,Father_occupation,Mother_occupation
0,Excellent,male,General,NO,ONE,SEBA,AHSEC,ENGLISH,Excellent,Excellent,DOCTOR,OTHERS
1,Excellent,male,OBC,WA,TWO,SEBA,AHSEC,OTHERS,Excellent,Excellent,SCHOOL_TEACHER,HOUSE_WIFE
2,Excellent,male,OBC,OA,TWO,OTHERS,CBSE,ENGLISH,Excellent,Excellent,BUSINESS,HOUSE_WIFE
3,Excellent,male,General,WA,ONE,SEBA,AHSEC,OTHERS,Excellent,Excellent,SCHOOL_TEACHER,SCHOOL_TEACHER
4,Excellent,male,General,OA,TWO,SEBA,CBSE,ENGLISH,Excellent,Excellent,COLLEGE_TEACHER,HOUSE_WIFE


### Inspección inicial

In [63]:
df.info()

# Descripción estadística
df.describe(include='all')

#Valores faltantes

df.isna().sum()

# Ver clases o variables objetivo (Performance)
df['Performance'].value_counts()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 666 entries, 0 to 665
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Performance           666 non-null    object
 1   Gender                666 non-null    object
 2   Caste                 666 non-null    object
 3   coaching              666 non-null    object
 4   time                  666 non-null    object
 5   Class_ten_education   666 non-null    object
 6   twelve_education      666 non-null    object
 7   medium                666 non-null    object
 8   Class_ X_Percentage   666 non-null    object
 9   Class_XII_Percentage  666 non-null    object
 10  Father_occupation     666 non-null    object
 11  Mother_occupation     666 non-null    object
dtypes: object(12)
memory usage: 62.6+ KB


Performance
Good         210
Vg           198
Average      157
Excellent    101
Name: count, dtype: int64

## Limpieza de datos

In [72]:
#Eliminar duplicados

df = df.drop_duplicates()
print("Dimensiones tras eliminar duplicados:", df.shape)



Dimensiones tras eliminar duplicados: (622, 12)


### Guardado del dataset limpio

Una ve que los duplicados se han eliminado y que se corroboró que el data set no cuenta con valores nulos se carga el archivo para consumo del Data scientist

In [73]:
processed_path = "data/processed/CEE_DATA_clean.csv"
df.to_csv(processed_path, index=False)
print(f"Archivo preprocesado guardado en: {processed_path}")

Archivo preprocesado guardado en: data/processed/CEE_DATA_clean.csv
