<a href="https://colab.research.google.com/github/jmtoral/mna-mlops-team46/blob/master/1_clean_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🎓 Maestría en Inteligencia Artificial Aplicada
## Equipo 46
<center>

[![Institution](https://img.shields.io/badge/Institution-Tecnológico%20de%20Monterrey-1F497D?style=for-the-badge&logo=tecnologicodemonterrey)](https://tec.mx)
[![Course](https://img.shields.io/badge/Course-Operaciones%20de%20Aprendizaje%20Automático-FF6B6B?style=for-the-badge&logo=python)](https://tec.mx)
[![Activity](https://img.shields.io/badge/Pipeline%201-Limpieza-F9AB00?style=for-the-badge&logo=googlecolab)](https://colab.research.google.com)

</center>

---
## ⚙️ **Operaciones de Aprendizaje Automático (MLOps)**
### 👨‍🏫 **Profesores**
- **Profesores Titulares:** Dr. Gerardo Rodríguez Hernández, Mtro. Ricardo Valdez Hernández, Mtra. María Mylen Treviño Elizondo
- **Profesor Tutor:** Dr. José Carlos Soto Monterrubio

---
## 📊 **Pipeline 1: Limpieza,  estandarización y disponibilización de datos**
- **Descripción:** Implementación de un pipeline versionado para la limpieza, análisis y modelado del dataset German Credit.

---
## 👥 **Equipo de Trabajo**
### 🚀 **Integrantes y Roles**

| Integrante | Matrícula | Rol |
|---|---|---|
| Jesús Alberto Jiménez Ramos | `A01796903` | 📊 Data Engineer |
| Mónica María Del Rivero Sánchez | `A01362368` | 👩‍🔬 Data Scientist |
| Montserrat Gaytán Morales | `A01332220` | 💻 Software Engineer |
| José Manuel Toral Cruz | `A01122243` | 🤖 ML Engineer |
| Jeanette Rios Martinez | `A01688888` | 🛠️ SRE / DevOps |




---

### **1️⃣ Limpieza y Validación de Datos: Metodología Detallada**
El objetivo de esta fase es transformar el dataset "sucio" (`modified`) en una réplica exacta del dataset de referencia (`original`). Este proceso garantiza la integridad y calidad de los datos antes de pasar al análisis y modelado. La metodología se divide en cuatro pasos clave:

#### **Paso 1: Diagnóstico Inicial** 🩺
Antes de modificar cualquier dato, realizamos un diagnóstico completo para entender la naturaleza y el alcance de los problemas en el archivo `modified`.
* **Inspección Estructural:** Utilizamos funciones como `.info()` y `.shape` para obtener una visión general de las dimensiones del dataset, el tipo de dato de cada columna (`dtype`) y un conteo inicial de valores nulos. El objetivo principal aquí es identificar columnas que deberían ser numéricas pero están clasificadas como `object`, lo que delata la presencia de texto.
* **Detección de Inconsistencias:** Mediante una inspección visual (`.head()`) y el uso de `.unique()` en las columnas sospechosas, creamos un inventario de todos los valores no estándar que representan datos inválidos o faltantes (ej. `?`, `invalid`, `N/A`, `NULL`).

#### **Paso 2: Estandarización y Corrección** 🧹
Con un diagnóstico claro, procedemos a estandarizar y corregir el dataset.
* **Unificación de Valores Faltantes:** Reemplazamos toda la lista de valores inconsistentes detectados en el paso anterior por un único marcador estándar para datos faltantes: `np.nan` (Not a Number). Esto nos permite manejar todos los datos ausentes de manera uniforme.
* **Corrección de Tipos de Datos:** Forzamos la conversión de todas las columnas a un formato numérico. Usamos una técnica robusta (`pd.to_numeric` con `errors='coerce'`) que convierte cualquier valor que no pueda ser interpretado como un número en `np.nan`. Este paso es fundamental, ya que revela problemas de calidad de datos que no eran obvios a simple vista.

#### **Paso 3: Imputación de Datos Faltantes** 🔧
Una vez que todos los datos faltantes están estandarizados como `np.nan`, debemos rellenarlos para que el dataset esté completo.
* **Estrategia de Imputación:** Decidimos utilizar el dataset `original` como "fuente de la verdad". Para cada columna del dataset `modified` que contenga valores `np.nan`, calculamos la **mediana** de la columna correspondiente en el dataset `original`.
* **Justificación:** Se elige la mediana en lugar de la media porque es una medida de tendencia central más robusta frente a valores atípicos (outliers), asegurando que la imputación no sesgue la distribución natural de los datos.
* **Ejecución:** Aplicamos un proceso iterativo que rellena los `np.nan` de cada columna con la mediana calculada, dejando el dataset sin valores nulos.

#### **Paso 4: Validación y Comparación Final** ✅
Este es el control de calidad final para garantizar que nuestro proceso de limpieza fue exitoso.
* **Validación de Integridad:** Verificamos que no queden valores nulos y que los tipos de datos de nuestro dataframe limpio coincidan exactamente con los del dataframe `original`.
* **Comparación Lógica:** Usamos el método `.equals()` para una comparación directa y rápida. Un resultado de `True` nos da una alta confianza de que los dos datasets son idénticos.
* **Análisis Detallado de Discrepancias:** Si la comparación lógica falla, utilizamos `.compare()` para generar un reporte que nos muestra **exactamente qué celdas y qué valores** difieren entre nuestro resultado y el original, facilitando la depuración final.
* **Validación Estadística:** Como verificación final, comparamos las estadísticas descriptivas (`.describe()`) de ambos datasets. Si la media, desviación estándar, mínimos y máximos de cada columna son idénticos, podemos certificar que la limpieza ha recreado exitosamente la estructura y distribución del dataset original.


---
## 🛠️ **Bibliotecas y Herramientas Utilizadas**
| Herramienta | Descripción | Uso Principal |
|---|---|---|
| **Pandas** | Biblioteca para manipulación y análisis de datos. | Limpieza, transformación y análisis de tablas. |
| **NumPy** | Soporte para vectores y matrices de gran tamaño. | Operaciones numéricas y manejo de nulos. |
| **Matplotlib & Seaborn**| Bibliotecas para visualización de datos. | Creación de gráficos para el EDA. |
| **Scikit-learn** | Ecosistema de herramientas de Machine Learning. | Preprocesamiento y modelado. |
| **Git & GitHub** | Sistema de control de versiones. | Versionado de código y colaboración. |
| **DVC** | Data Version Control. | Versionado de grandes archivos de datos y modelos. |

In [5]:
#@title CELDA 1: Instalación de dependencias

import gdown
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib

# Configuración para mostrar todas las columnas en los resultados de pandas
pd.set_option('display.max_columns', None)

print("Todo fue instalado con éxito.")
print(f"Versión de pandas: {pd.__version__}")
print(f"Versión de numpy: {np.__version__}")
print(f"Versión de matplotlib: {matplotlib.__version__}")
print(f"Versión de seaborn: {sns.__version__}")

Todo fue instalado con éxito.
Versión de pandas: 2.2.2
Versión de numpy: 2.0.2
Versión de matplotlib: 3.10.0
Versión de seaborn: 0.13.2


In [10]:
#@title CELDA 2: Creación de carpeta temporal

nombre_carpeta = "data/raw"

ruta_dataset = os.path.join(os.getcwd(), nombre_carpeta)

if not os.path.exists(ruta_dataset):
    os.makedirs(ruta_dataset)
    print(f"Carpeta '{nombre_carpeta}' creada en: {ruta_dataset}")
else:
    print(f"La carpeta '{nombre_carpeta}' ya existe en: {ruta_dataset}")

La carpeta 'data/raw' ya existe en: /content/data/raw


In [11]:
#@title CELDA 3: Descargar y cargar los datasets original y modificado

# IDs de los archivos en Google Drive (reemplaza con los IDs correctos de tus archivos)

file_id_original = '1E5o5k4UPjFwPi9D528dAg75hZftrHE1J'
file_id_modified = '1OjHs6Ec7m04snvR5erV_gmI-9apjHX67'

output_path_original = os.path.join(ruta_dataset, 'german_credit_original.csv')
output_path_modified = os.path.join(ruta_dataset, 'german_credit_modified.csv')

try:
    # Descargar el dataset original
    gdown.download(f'https://drive.google.com/uc?id={file_id_original}', output_path_original, quiet=False)
    print(f"Archivo original descargado exitosamente en: {output_path_original}")

    # Cargar el dataset original
    df_original = pd.read_csv(output_path_original)
    print("Dataset original cargado exitosamente en df_original.")

    # Descargar el dataset modificado
    gdown.download(f'https://drive.google.com/uc?id={file_id_modified}', output_path_modified, quiet=False)
    print(f"Archivo modificado descargado exitosamente en: {output_path_modified}")

    # Cargar el dataset modificado
    df_modified = pd.read_csv(output_path_modified)
    print("Dataset modificado cargado exitosamente en df_modified.")

    print("\n--- Primeras filas del dataset original ---")
    display(df_original.head())

    print("\n--- Primeras filas del dataset modificado por los profesores ---")
    display(df_modified.head())


except Exception as e:
    print(f"Ocurrió un error al descargar o cargar los archivos: {e}")

Downloading...
From: https://drive.google.com/uc?id=1E5o5k4UPjFwPi9D528dAg75hZftrHE1J
To: /content/data/raw/german_credit_original.csv
100%|██████████| 46.9k/46.9k [00:00<00:00, 26.1MB/s]


Archivo original descargado exitosamente en: /content/data/raw/german_credit_original.csv
Dataset original cargado exitosamente en df_original.


Downloading...
From: https://drive.google.com/uc?id=1OjHs6Ec7m04snvR5erV_gmI-9apjHX67
To: /content/data/raw/german_credit_modified.csv
100%|██████████| 96.8k/96.8k [00:00<00:00, 3.46MB/s]

Archivo modificado descargado exitosamente en: /content/data/raw/german_credit_modified.csv
Dataset modificado cargado exitosamente en df_modified.

--- Primeras filas del dataset original ---





Unnamed: 0,laufkont,laufzeit,moral,verw,hoehe,sparkont,beszeit,rate,famges,buerge,wohnzeit,verm,alter,weitkred,wohn,bishkred,beruf,pers,telef,gastarb,kredit
0,1,18,4,2,1049,1,2,4,2,1,4,2,21,3,1,1,3,2,1,2,1
1,1,9,4,0,2799,1,3,2,3,1,2,1,36,3,1,2,3,1,1,2,1
2,2,12,2,9,841,2,4,2,2,1,4,1,23,3,1,1,2,2,1,2,1
3,1,12,4,0,2122,1,3,3,3,1,2,1,39,3,1,2,2,1,1,1,1
4,1,12,4,0,2171,1,3,4,3,1,4,2,38,1,2,2,2,2,1,1,1



--- Primeras filas del dataset modificado (antes de limpiar) ---


Unnamed: 0,laufkont,laufzeit,moral,verw,hoehe,sparkont,beszeit,rate,famges,buerge,wohnzeit,verm,alter,weitkred,wohn,bishkred,beruf,pers,telef,gastarb,kredit,mixed_type_col
0,1.0,18.0,4.0,2.0,1049.0,1.0,2.0,4.0,2.0,1.0,4.0,2.0,21.0,3.0,1.0,1.0,3.0,2.0,1.0,2.0,1.0,bad
1,1.0,9.0,4.0,0.0,2799.0,1.0,3.0,2.0,3.0,1.0,2.0,1.0,36.0,3.0,1.0,2.0,3.0,1.0,1.0,2.0,1.0,
2,2.0,12.0,2.0,9.0,841.0,2.0,4.0,2.0,2.0,1.0,4.0,1.0,23.0,3.0,1.0,1.0,2.0,2.0,1.0,2.0,1.0,unknown
3,1.0,12.0,4.0,0.0,2122.0,1.0,3.0,3.0,3.0,1.0,2.0,1.0,39.0,3.0,1.0,2.0,2.0,1.0,1.0,1.0,1.0,
4,1.0,12.0,4.0,0.0,2171.0,1.0,3.0,4.0,3.0,,4.0,2.0,38.0,1.0,2.0,2.0,2.0,error,1.0,1.0,1.0,208


In [18]:
#@title Tabla comparativa de información general de los datasets

def dataframe_info_to_dataframe(df, suffix):
    """Convierte la información de un DataFrame a un DataFrame."""
    info = []
    for col in df.columns:
        non_null_count = df[col].count()
        dtype = df[col].dtype
        info.append({'Column': col, f'Non-Null Count ({suffix})': non_null_count, f'Dtype ({suffix})': dtype})
    return pd.DataFrame(info)

# Obtener información de ambos DataFrames como DataFrames separados
info_df_original = dataframe_info_to_dataframe(df_original, 'Original')
info_df_modified = dataframe_info_to_dataframe(df_modified, 'Modificado')

# Combinar los DataFrames de información
# Usamos 'outer' join para incluir todas las columnas de ambos DataFrames
comparative_info_df = pd.merge(info_df_original, info_df_modified, on='Column', how='outer')

print("--- Tabla Comparativa de Información General de los Datasets ---")
display(comparative_info_df)

--- Tabla Comparativa de Información General de los Datasets ---


Unnamed: 0,Column,Non-Null Count (Original),Dtype (Original),Non-Null Count (Modificado),Dtype (Modificado)
0,alter,1000.0,int64,1009,object
1,beruf,1000.0,int64,1008,object
2,beszeit,1000.0,int64,1003,object
3,bishkred,1000.0,int64,1008,object
4,buerge,1000.0,int64,1007,object
5,famges,1000.0,int64,1013,object
6,gastarb,1000.0,int64,1005,object
7,hoehe,1000.0,int64,1012,object
8,kredit,1000.0,int64,1004,object
9,laufkont,1000.0,int64,1005,object


**Nota:** Reemplaza `YOUR_ORIGINAL_FILE_ID_HERE` y `YOUR_MODIFIED_FILE_ID_HERE` en la celda anterior con los IDs reales de tus archivos "german_credit_original.csv" y "german_credit_modified.csv" en Google Drive.