<a href="https://colab.research.google.com/github/jmtoral/mna-mlops-team46/blob/master/notebooks/1_clean_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🎓 Maestría en Inteligencia Artificial Aplicada
## Equipo 46
<center>

[![Institution](https://img.shields.io/badge/Institution-Tecnológico%20de%20Monterrey-1F497D?style=for-the-badge&logo=tecnologicodemonterrey)](https://tec.mx)
[![Course](https://img.shields.io/badge/Course-Operaciones%20de%20Aprendizaje%20Automático-FF6B6B?style=for-the-badge&logo=python)](https://tec.mx)
[![Activity](https://img.shields.io/badge/Pipeline%201-Limpieza-F9AB00?style=for-the-badge&logo=googlecolab)](https://colab.research.google.com)

</center>

---
## ⚙️ **Operaciones de Aprendizaje Automático (MLOps)**
### 👨‍🏫 **Profesores**
- **Profesores Titulares:** Dr. Gerardo Rodríguez Hernández, Mtro. Ricardo Valdez Hernández, Mtra. María Mylen Treviño Elizondo
- **Profesor Tutor:** Dr. José Carlos Soto Monterrubio

---
## 📊 **Pipeline 1: Limpieza,  estandarización y disponibilización de datos**
- **Descripción:** Implementación de un pipeline versionado para la limpieza, análisis y modelado del dataset German Credit.

---
## 👥 **Equipo de Trabajo**
### 🚀 **Integrantes y Roles**

| Integrante | Matrícula | Rol |
|---|---|---|
| Jesús Alberto Jiménez Ramos | `A01796903` | 📊 Data Engineer |
| Mónica María Del Rivero Sánchez | `A01362368` | 👩‍🔬 Data Scientist |
| Montserrat Gaytán Morales | `A01332220` | 💻 Software Engineer |
| José Manuel Toral Cruz | `A01122243` | 🤖 ML Engineer |
| Jeanette Rios Martinez | `A01688888` | 🛠️ SRE / DevOps |




---

### **1️⃣ Limpieza y Validación de Datos: Metodología Detallada**


---
## 🛠️ **Bibliotecas y Herramientas Utilizadas**
| Herramienta | Descripción | Uso Principal |
|---|---|---|
| **Pandas** | Biblioteca para manipulación y análisis de datos. | Limpieza, transformación y análisis de tablas. |
| **NumPy** | Soporte para vectores y matrices de gran tamaño. | Operaciones numéricas y manejo de nulos. |
| **Matplotlib & Seaborn**| Bibliotecas para visualización de datos. | Creación de gráficos para el EDA. |
| **Scikit-learn** | Ecosistema de herramientas de Machine Learning. | Preprocesamiento y modelado. |
| **Git & GitHub** | Sistema de control de versiones. | Versionado de código y colaboración. |
| **DVC** | Data Version Control. | Versionado de grandes archivos de datos y modelos. |

| Nombre Original (`laufkont`) | Nombre en Inglés (`Variable name`) | Descripción del Contenido | Tipo de Variable |
| :--- | :--- | :--- | :--- |
| **laufkont** | status | Estado de la cuenta corriente del deudor. | Categórica |
| **laufzeit** | duration | Duración del crédito en meses. | Cuantitativa |
| **moral** | credit_history | Historial de cumplimiento de créditos anteriores. | Categórica |
| **verw** | purpose | Propósito para el cual se solicita el crédito. | Categórica |
| **hoehe** | amount | Monto del crédito en marcos alemanes (DM). | Cuantitativa |
| **sparkont** | savings | Ahorros del deudor. | Categórica |
| **beszeit** | employment_duration | Duración del empleo actual del deudor. | Ordinal |
| **rate** | installment_rate | Cuotas del crédito como porcentaje del ingreso disponible. | Ordinal |
| **famges** | personal_status_sex | Información combinada sobre sexo y estado civil. | Categórica |
| **buerge** | other_debtors | Si existe otro deudor o garante para el crédito. | Categórica |
| **wohnzeit** | present_residence | Tiempo (en años) que el deudor ha vivido en su residencia actual. | Ordinal |
| **verm** | property | La propiedad más valiosa del deudor. | Ordinal |
| **alter** | age | Edad en años. | Cuantitativa |
| **weitkred** | other_installment_plans | Planes de pago a plazos con otros proveedores. | Categórica |
| **wohn** | housing | Tipo de vivienda en la que vive el deudor. | Categórica |
| **bishkred** | number_credits | Número de créditos que el deudor tiene en este banco. | Ordinal |
| **beruf** | job | Calidad del trabajo del deudor. | Ordinal |
| **pers** | people_liable | Número de personas que dependen financieramente del deudor. | Binaria |
| **telef** | telephone | Si el deudor tiene una línea telefónica fija a su nombre. | Binaria |
| **gastarb** | foreign_worker | Si el deudor es un trabajador extranjero. | Binaria |
| **kredit** | credit_risk | Si el crédito fue pagado (bueno) o no (malo). | Binaria |

In [1]:
#@title CELDA 1: Instalación de dependencias
!pip install dvc[gs,s3,ssh,gdrive]

import gdown
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib
from google.colab import userdata

# Configuración para mostrar todas las columnas en los resultados de pandas
pd.set_option('display.max_columns', None)

print("Todo fue instalado con éxito.")
print(f"Versión de pandas: {pd.__version__}")
print(f"Versión de numpy: {np.__version__}")
print(f"Versión de matplotlib: {matplotlib.__version__}")
print(f"Versión de seaborn: {sns.__version__}")

Todo fue instalado con éxito.
Versión de pandas: 2.2.2
Versión de numpy: 2.0.2
Versión de matplotlib: 3.10.0
Versión de seaborn: 0.13.2


In [2]:
#@title CELDA 2: Creación de carpeta temporal

nombre_carpeta = "data/raw"

ruta_dataset = os.path.join(os.getcwd(), nombre_carpeta)

if not os.path.exists(ruta_dataset):
    os.makedirs(ruta_dataset)
    print(f"Carpeta '{nombre_carpeta}' creada en: {ruta_dataset}")
else:
    print(f"La carpeta '{nombre_carpeta}' ya existe en: {ruta_dataset}")

La carpeta 'data/raw' ya existe en: /content/data/raw


In [3]:
#@title CELDA 3: Descargar y cargar los datasets original y modificado

# IDs de los archivos en Google Drive (reemplaza con los IDs correctos de tus archivos)

file_id_original = '1E5o5k4UPjFwPi9D528dAg75hZftrHE1J'
file_id_modified = '1OjHs6Ec7m04snvR5erV_gmI-9apjHX67'

output_path_original = os.path.join(ruta_dataset, 'german_credit_original.csv')
output_path_modified = os.path.join(ruta_dataset, 'german_credit_modified.csv')

try:
    # Descargar el dataset original
    gdown.download(f'https://drive.google.com/uc?id={file_id_original}', output_path_original, quiet=False)
    print(f"Archivo original descargado exitosamente en: {output_path_original}")

    # Cargar el dataset original
    df_original = pd.read_csv(output_path_original)
    print("Dataset original cargado exitosamente en df_original.")

    # Descargar el dataset modificado
    gdown.download(f'https://drive.google.com/uc?id={file_id_modified}', output_path_modified, quiet=False)
    print(f"Archivo modificado descargado exitosamente en: {output_path_modified}")

    # Cargar el dataset modificado
    df_modified = pd.read_csv(output_path_modified)
    print("Dataset modificado cargado exitosamente en df_modified.")

    print("\n--- Primeras filas del dataset original ---")
    display(df_original.head())

    print("\n--- Primeras filas del dataset modificado por los profesores ---")
    display(df_modified.head())


except Exception as e:
    print(f"Ocurrió un error al descargar o cargar los archivos: {e}")

Downloading...
From: https://drive.google.com/uc?id=1E5o5k4UPjFwPi9D528dAg75hZftrHE1J
To: /content/data/raw/german_credit_original.csv
100%|██████████| 46.9k/46.9k [00:00<00:00, 50.0MB/s]


Archivo original descargado exitosamente en: /content/data/raw/german_credit_original.csv
Dataset original cargado exitosamente en df_original.


Downloading...
From: https://drive.google.com/uc?id=1OjHs6Ec7m04snvR5erV_gmI-9apjHX67
To: /content/data/raw/german_credit_modified.csv
100%|██████████| 96.8k/96.8k [00:00<00:00, 24.3MB/s]

Archivo modificado descargado exitosamente en: /content/data/raw/german_credit_modified.csv
Dataset modificado cargado exitosamente en df_modified.

--- Primeras filas del dataset original ---





Unnamed: 0,laufkont,laufzeit,moral,verw,hoehe,sparkont,beszeit,rate,famges,buerge,wohnzeit,verm,alter,weitkred,wohn,bishkred,beruf,pers,telef,gastarb,kredit
0,1,18,4,2,1049,1,2,4,2,1,4,2,21,3,1,1,3,2,1,2,1
1,1,9,4,0,2799,1,3,2,3,1,2,1,36,3,1,2,3,1,1,2,1
2,2,12,2,9,841,2,4,2,2,1,4,1,23,3,1,1,2,2,1,2,1
3,1,12,4,0,2122,1,3,3,3,1,2,1,39,3,1,2,2,1,1,1,1
4,1,12,4,0,2171,1,3,4,3,1,4,2,38,1,2,2,2,2,1,1,1



--- Primeras filas del dataset modificado por los profesores ---


Unnamed: 0,laufkont,laufzeit,moral,verw,hoehe,sparkont,beszeit,rate,famges,buerge,wohnzeit,verm,alter,weitkred,wohn,bishkred,beruf,pers,telef,gastarb,kredit,mixed_type_col
0,1.0,18.0,4.0,2.0,1049.0,1.0,2.0,4.0,2.0,1.0,4.0,2.0,21.0,3.0,1.0,1.0,3.0,2.0,1.0,2.0,1.0,bad
1,1.0,9.0,4.0,0.0,2799.0,1.0,3.0,2.0,3.0,1.0,2.0,1.0,36.0,3.0,1.0,2.0,3.0,1.0,1.0,2.0,1.0,
2,2.0,12.0,2.0,9.0,841.0,2.0,4.0,2.0,2.0,1.0,4.0,1.0,23.0,3.0,1.0,1.0,2.0,2.0,1.0,2.0,1.0,unknown
3,1.0,12.0,4.0,0.0,2122.0,1.0,3.0,3.0,3.0,1.0,2.0,1.0,39.0,3.0,1.0,2.0,2.0,1.0,1.0,1.0,1.0,
4,1.0,12.0,4.0,0.0,2171.0,1.0,3.0,4.0,3.0,,4.0,2.0,38.0,1.0,2.0,2.0,2.0,error,1.0,1.0,1.0,208


In [4]:
#@title Tabla comparativa de información general de los datasets

def dataframe_info_to_dataframe(df, suffix):
    """Convierte la información de un DataFrame a un DataFrame."""
    info = []
    total_rows = df.shape[0] # Obtener el número total de filas
    for col in df.columns:
        non_null_count = df[col].count()
        dtype = df[col].dtype
        info.append({'Column': col, f'Non-Null Count ({suffix})': non_null_count, f'Dtype ({suffix})': dtype, f'Total Rows ({suffix})': total_rows}) # Agregar el total de filas
    return pd.DataFrame(info)

# Obtener información de ambos DataFrames como DataFrames separados
info_df_original = dataframe_info_to_dataframe(df_original, 'Original')
info_df_modified = dataframe_info_to_dataframe(df_modified, 'Modificado')

# Combinar los DataFrames de información
# Usamos 'outer' join para incluir todas las columnas de ambos DataFrames
comparative_info_df = pd.merge(info_df_original, info_df_modified, on='Column', how='outer')

print("--- Tabla Comparativa de Información General de los Datasets ---")
display(comparative_info_df)

--- Tabla Comparativa de Información General de los Datasets ---


Unnamed: 0,Column,Non-Null Count (Original),Dtype (Original),Total Rows (Original),Non-Null Count (Modificado),Dtype (Modificado),Total Rows (Modificado)
0,alter,1000.0,int64,1000.0,1009,object,1020
1,beruf,1000.0,int64,1000.0,1008,object,1020
2,beszeit,1000.0,int64,1000.0,1003,object,1020
3,bishkred,1000.0,int64,1000.0,1008,object,1020
4,buerge,1000.0,int64,1000.0,1007,object,1020
5,famges,1000.0,int64,1000.0,1013,object,1020
6,gastarb,1000.0,int64,1000.0,1005,object,1020
7,hoehe,1000.0,int64,1000.0,1012,object,1020
8,kredit,1000.0,int64,1000.0,1004,object,1020
9,laufkont,1000.0,int64,1000.0,1005,object,1020


In [5]:
#@title Tabla comparativa de Estadísticas Descriptivas

# Obtener las estadísticas descriptivas de ambos DataFrames
describe_original = df_original.describe().T
describe_modified = df_modified.describe().T

# Renombrar las columnas para evitar conflictos al unir
describe_original = describe_original.add_suffix('_Original')
describe_modified = describe_modified.add_suffix('_Modified')

# Combinar las estadísticas descriptivas
# Usamos 'outer' join para incluir todas las columnas de ambos DataFrames
comparative_describe_df = pd.merge(describe_original, describe_modified, left_index=True, right_index=True, how='outer')

print("--- Tabla Comparativa de Estadísticas Descriptivas ---")
display(comparative_describe_df)

--- Tabla Comparativa de Estadísticas Descriptivas ---


Unnamed: 0,count_Original,mean_Original,std_Original,min_Original,25%_Original,50%_Original,75%_Original,max_Original,count_Modified,unique_Modified,top_Modified,freq_Modified
alter,1000.0,35.542,11.35267,19.0,27.0,33.0,42.0,75.0,1009,84,26.0,51
beruf,1000.0,2.904,0.653614,1.0,3.0,3.0,3.0,4.0,1008,26,3.0,588
beszeit,1000.0,3.384,1.208306,1.0,3.0,3.0,5.0,5.0,1003,19,3.0,312
bishkred,1000.0,1.407,0.577654,1.0,1.0,1.0,2.0,4.0,1008,24,1.0,590
buerge,1000.0,1.145,0.477706,1.0,1.0,1.0,1.0,3.0,1007,21,1.0,860
famges,1000.0,2.682,0.70808,1.0,2.0,3.0,3.0,4.0,1013,16,3.0,519
gastarb,1000.0,1.963,0.188856,1.0,2.0,2.0,2.0,2.0,1005,19,2.0,911
hoehe,1000.0,3271.248,2822.75176,250.0,1365.5,2319.5,3972.25,18424.0,1012,931,1393.0,3
kredit,1000.0,0.7,0.458487,0.0,0.0,1.0,1.0,1.0,1004,15,1.0,664
laufkont,1000.0,2.577,1.257638,1.0,1.0,2.0,4.0,4.0,1005,23,4.0,378


In [6]:
#@title CELDA 5: Renombrar columnas a inglés

# Diccionario para mapear los nombres de las columnas de alemán a inglés (según la tabla)
column_mapping = {
    'laufkont': 'status',
    'laufzeit': 'duration',
    'moral': 'credit_history',
    'verw': 'purpose',
    'hoehe': 'amount',
    'sparkont': 'savings',
    'beszeit': 'employment_duration',
    'rate': 'installment_rate',
    'famges': 'personal_status_sex',
    'buerge': 'other_debtors',
    'wohnzeit': 'present_residence',
    'verm': 'property',
    'alter': 'age',
    'weitkred': 'other_installment_plans',
    'wohn': 'housing',
    'bishkred': 'number_credits',
    'beruf': 'job',
    'pers': 'people_liable',
    'telef': 'telephone',
    'gastarb': 'foreign_worker',
    'kredit': 'credit_risk'
}

# Renombrar columnas en df_original
df_original.rename(columns=column_mapping, inplace=True)

# Renombrar columnas en df_modified
df_modified.rename(columns=column_mapping, inplace=True)

print("Nombres de columnas en df_original después de renombrar:")
print(df_original.columns.tolist())

print("\nNombres de columnas en df_modified después de renombrar:")
print(df_modified.columns.tolist())

Nombres de columnas en df_original después de renombrar:
['status', 'duration', 'credit_history', 'purpose', 'amount', 'savings', 'employment_duration', 'installment_rate', 'personal_status_sex', 'other_debtors', 'present_residence', 'property', 'age', 'other_installment_plans', 'housing', 'number_credits', 'job', 'people_liable', 'telephone', 'foreign_worker', 'credit_risk']

Nombres de columnas en df_modified después de renombrar:
['status', 'duration', 'credit_history', 'purpose', 'amount', 'savings', 'employment_duration', 'installment_rate', 'personal_status_sex', 'other_debtors', 'present_residence', 'property', 'age', 'other_installment_plans', 'housing', 'number_credits', 'job', 'people_liable', 'telephone', 'foreign_worker', 'credit_risk', 'mixed_type_col']


In [7]:
#@title CELDA 6: Limpieza, Imputación y Conversión de Tipos de Datos

# --- Paso 0: Eliminar columna 'mixed_type_col' si existe ---
# Esta columna fue introducida con fines de demostración y no existe en el dataset original.
if 'mixed_type_col' in df_modified.columns:
    df_modified.drop('mixed_type_col', axis=1, inplace=True)
    print("Columna 'mixed_type_col' eliminada del dataset modificado.")


# --- Paso 1: Limpieza inicial a numérico ---
# Este paso estandariza errores y texto inválido a NaN, que es el formato
# correcto para valores faltantes.
print("--- Paso 1: Estandarizando valores inválidos a NaN ---")
for col in df_modified.columns:
    df_modified[col] = pd.to_numeric(df_modified[col], errors='coerce')
print("Conversión inicial a numérico completada.")
print("\nConteo de valores nulos por columna (antes de imputar):")
display(df_modified.isnull().sum())

# --- Paso 2: Imputar valores nulos con la mediana ---
# Rellenamos los NaN usando la mediana del dataframe original como referencia.
print("\n--- Paso 2: Imputando valores nulos con la mediana del dataset original ---")
for col in df_modified.columns:
    if df_modified[col].isnull().any():
        # Ensure the column exists in df_original before calculating median
        if col in df_original.columns:
            median_value = df_original[col].median()
            df_modified[col].fillna(median_value, inplace=True)
        else:
            print(f"Warning: Column '{col}' not found in df_original. Cannot impute median.")

print("Imputación completada.") # Removed "No deberían quedar valores nulos." as there might be columns not in original


# --- Paso 3: Aplicar los tipos de datos correctos ---
# Ahora que no hay nulos, podemos convertir las columnas a sus tipos definitivos.
print("\n--- Paso 3: Aplicando tipos de datos finales (category, int64) ---")
type_mapping = {
    'status': 'category',
    'duration': 'int64',
    'credit_history': 'category',
    'purpose': 'category',
    'amount': 'int64',
    'savings': 'category',
    'employment_duration': 'category',
    'installment_rate': 'category',
    'personal_status_sex': 'category',
    'other_debtors': 'category',
    'present_residence': 'category',
    'property': 'category',
    'age': 'int64',
    'other_installment_plans': 'category',
    'housing': 'category',
    'number_credits': 'int64',
    'job': 'category',
    'people_liable': 'int64',
    'telephone': 'category',
    'foreign_worker': 'category',
    'credit_risk': 'int64'
}

# Apply type mapping, coercing errors which might still exist after imputation
for col, dtype in type_mapping.items():
    if col in df_modified.columns:
        try:
            if dtype == 'category':
                # Convert to object first to handle potential mixed types before converting to category
                df_modified[col] = df_modified[col].astype(object)
                df_modified[col] = df_modified[col].astype(dtype)
            else:
                 df_modified[col] = df_modified[col].astype(dtype, errors='coerce')
        except Exception as e:
            print(f"Error converting column '{col}' to {dtype}: {e}")
            # Optionally, check for remaining non-numeric values if error occurs
            # non_numeric_values = df_modified[col][pd.to_numeric(df_modified[col], errors='coerce').isna()].unique()
            # print(f"Remaining non-numeric values in '{col}': {non_numeric_values}")


print("Conversión de tipos de datos finalizada.")

# --- Verificación Final ---
print("\n--- Tipos de datos finales en df_modified: ---")
print(df_modified.dtypes)
print("\nConteo final de valores nulos por columna:")
display(df_modified.isnull().sum())

Columna 'mixed_type_col' eliminada del dataset modificado.
--- Paso 1: Estandarizando valores inválidos a NaN ---
Conversión inicial a numérico completada.

Conteo de valores nulos por columna (antes de imputar):


Unnamed: 0,0
status,19
duration,11
credit_history,18
purpose,22
amount,12
savings,15
employment_duration,19
installment_rate,12
personal_status_sex,11
other_debtors,16



--- Paso 2: Imputando valores nulos con la mediana del dataset original ---
Imputación completada.

--- Paso 3: Aplicando tipos de datos finales (category, int64) ---
Error converting column 'duration' to int64: Expected value of kwarg 'errors' to be one of ['raise', 'ignore']. Supplied value is 'coerce'
Error converting column 'amount' to int64: Expected value of kwarg 'errors' to be one of ['raise', 'ignore']. Supplied value is 'coerce'
Error converting column 'age' to int64: Expected value of kwarg 'errors' to be one of ['raise', 'ignore']. Supplied value is 'coerce'
Error converting column 'number_credits' to int64: Expected value of kwarg 'errors' to be one of ['raise', 'ignore']. Supplied value is 'coerce'
Error converting column 'people_liable' to int64: Expected value of kwarg 'errors' to be one of ['raise', 'ignore']. Supplied value is 'coerce'
Error converting column 'credit_risk' to int64: Expected value of kwarg 'errors' to be one of ['raise', 'ignore']. Supplied value is 

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_modified[col].fillna(median_value, inplace=True)


Unnamed: 0,0
status,0
duration,0
credit_history,0
purpose,0
amount,0
savings,0
employment_duration,0
installment_rate,0
personal_status_sex,0
other_debtors,0


In [8]:
#@title Conteo de Categorías para Variables Categóricas

print("--- Conteo de Categorías para Variables Categóricas en df_modified ---")

# Identificar las columnas categóricas
categorical_cols = df_modified.select_dtypes(include='category').columns

# Generar y mostrar una tabla de conteo para cada variable categórica
for col in categorical_cols:
    print(f"\nConteo de categorías para '{col}':")
    display(df_modified[col].value_counts().reset_index(name='count'))

--- Conteo de Categorías para Variables Categóricas en df_modified ---

Conteo de categorías para 'status':


Unnamed: 0,status,count
0,4.0,390
1,2.0,287
2,1.0,267
3,3.0,63
4,64.0,1
5,76.0,1
6,92.0,1
7,96.0,1
8,104.0,1
9,144.0,1



Conteo de categorías para 'credit_history':


Unnamed: 0,credit_history,count
0,2.0,537
1,4.0,289
2,3.0,88
3,1.0,48
4,0.0,40
5,40.0,1
6,60.0,1
7,70.0,1
8,100.0,1
9,112.0,1



Conteo de categorías para 'purpose':


Unnamed: 0,purpose,count
0,3.0,277
1,0.0,228
2,2.0,203
3,1.0,102
4,9.0,96
5,6.0,49
6,5.0,23
7,4.0,12
8,10.0,12
9,8.0,9



Conteo de categorías para 'savings':


Unnamed: 0,savings,count
0,1.0,617
1,5.0,183
2,2.0,101
3,3.0,62
4,4.0,48
5,235.0,1
6,240.0,1
7,272.0,1
8,398.0,1
9,435.0,1



Conteo de categorías para 'employment_duration':


Unnamed: 0,employment_duration,count
0,3.0,353
1,5.0,251
2,4.0,175
3,2.0,172
4,1.0,62
5,45.0,1
6,63.0,1
7,90.0,1
8,141.0,1
9,179.0,1



Conteo de categorías para 'installment_rate':


Unnamed: 0,installment_rate,count
0,4.0,484
1,2.0,223
2,3.0,168
3,1.0,141
4,80.0,1
5,114.0,1
6,146.0,1
7,198.0,1



Conteo de categorías para 'personal_status_sex':


Unnamed: 0,personal_status_sex,count
0,3.0,561
1,2.0,311
2,4.0,93
3,1.0,50
4,86.0,1
5,110.0,1
6,241.0,1
7,322.0,1
8,724.0,1



Conteo de categorías para 'other_debtors':


Unnamed: 0,other_debtors,count
0,1.0,917
1,3.0,52
2,2.0,39
3,10.0,1
4,14.0,1
5,33.0,1
6,46.0,1
7,62.0,1
8,98.0,1
9,155.0,1



Conteo de categorías para 'present_residence':


Unnamed: 0,present_residence,count
0,4.0,410
1,2.0,302
2,3.0,167
3,1.0,131
4,64.0,1
5,98.0,1
6,160.0,1
7,272.0,1
8,288.0,1
9,341.0,1



Conteo de categorías para 'property':


Unnamed: 0,property,count
0,3.0,332
1,1.0,281
2,2.0,244
3,4.0,155
4,30.0,1
5,76.0,1
6,144.0,1
7,186.0,1
8,216.0,1
9,297.0,1



Conteo de categorías para 'other_installment_plans':


Unnamed: 0,other_installment_plans,count
0,3.0,821
1,1.0,138
2,2.0,51
3,141.0,1
4,203.0,1
5,213.0,1
6,348.0,1
7,372.0,1
8,568.0,1
9,673.0,1



Conteo de categorías para 'housing':


Unnamed: 0,housing,count
0,2.0,724
1,1.0,177
2,3.0,110
3,90.0,1
4,112.0,1
5,158.0,1
6,176.0,1
7,312.0,1
8,485.0,1
9,516.0,1



Conteo de categorías para 'job':


Unnamed: 0,job,count
0,3.0,636
1,2.0,196
2,4.0,150
3,1.0,21
4,48.0,1
5,66.0,1
6,72.0,1
7,75.0,1
8,108.0,1
9,118.0,1



Conteo de categorías para 'telephone':


Unnamed: 0,telephone,count
0,1.0,612
1,2.0,403
2,20.0,1
3,28.0,1
4,158.0,1
5,575.0,1
6,827.0,1



Conteo de categorías para 'foreign_worker':


Unnamed: 0,foreign_worker,count
0,2.0,970
1,1.0,37
2,54.0,1
3,60.0,1
4,110.0,1
5,134.0,1
6,160.0,1
7,170.0,1
8,406.0,1
9,575.0,1


In [9]:
type_mapping = {
    'status': 'category',
    'duration': 'int64',
    'credit_history': 'category',
    'purpose': 'category',
    'amount': 'int64',
    'savings': 'category',
    'employment_duration': 'category',
    'installment_rate': 'category',
    'personal_status_sex': 'category',
    'other_debtors': 'category',
    'present_residence': 'category',
    'property': 'category',
    'age': 'int64',
    'other_installment_plans': 'category',
    'housing': 'category',
    'number_credits': 'int64',
    'job': 'category',
    'people_liable': 'int64',
    'telephone': 'category',
    'foreign_worker': 'category',
    'credit_risk': 'int64'
}

df_original = df_original.astype(type_mapping)
categorical_cols = df_original.select_dtypes(include='category').columns

# Generar y mostrar una tabla de conteo para cada variable categórica
for col in categorical_cols:
    print(f"\nConteo de categorías para '{col}':")
    display(df_original[col].value_counts().reset_index(name='count'))


Conteo de categorías para 'status':


Unnamed: 0,status,count
0,4,394
1,1,274
2,2,269
3,3,63



Conteo de categorías para 'credit_history':


Unnamed: 0,credit_history,count
0,2,530
1,4,293
2,3,88
3,1,49
4,0,40



Conteo de categorías para 'purpose':


Unnamed: 0,purpose,count
0,3,280
1,0,234
2,2,181
3,1,103
4,9,97
5,6,50
6,5,22
7,4,12
8,10,12
9,8,9



Conteo de categorías para 'savings':


Unnamed: 0,savings,count
0,1,603
1,5,183
2,2,103
3,3,63
4,4,48



Conteo de categorías para 'employment_duration':


Unnamed: 0,employment_duration,count
0,3,339
1,5,253
2,4,174
3,2,172
4,1,62



Conteo de categorías para 'installment_rate':


Unnamed: 0,installment_rate,count
0,4,476
1,2,231
2,3,157
3,1,136



Conteo de categorías para 'personal_status_sex':


Unnamed: 0,personal_status_sex,count
0,3,548
1,2,310
2,4,92
3,1,50



Conteo de categorías para 'other_debtors':


Unnamed: 0,other_debtors,count
0,1,907
1,3,52
2,2,41



Conteo de categorías para 'present_residence':


Unnamed: 0,present_residence,count
0,4,413
1,2,308
2,3,149
3,1,130



Conteo de categorías para 'property':


Unnamed: 0,property,count
0,3,332
1,1,282
2,2,232
3,4,154



Conteo de categorías para 'other_installment_plans':


Unnamed: 0,other_installment_plans,count
0,3,814
1,1,139
2,2,47



Conteo de categorías para 'housing':


Unnamed: 0,housing,count
0,2,714
1,1,179
2,3,107



Conteo de categorías para 'job':


Unnamed: 0,job,count
0,3,630
1,2,200
2,4,148
3,1,22



Conteo de categorías para 'telephone':


Unnamed: 0,telephone,count
0,1,596
1,2,404



Conteo de categorías para 'foreign_worker':


Unnamed: 0,foreign_worker,count
0,2,963
1,1,37


In [10]:
#@title CELDA 8: Eliminar filas con categorías de una sola observación

# Identificar las columnas categóricas
categorical_cols = df_modified.select_dtypes(include='category').columns

print(f"Tamaño original del dataframe: {df_modified.shape}")
print("-" * 40)

# Iterar sobre cada columna categórica para filtrar
for col in categorical_cols:
    # 1. Calcular los conteos de cada categoría en la columna
    value_counts = df_modified[col].value_counts()

    # 2. Identificar las categorías que aparecen solo una vez
    single_obs_categories = value_counts[value_counts == 1].index

    # 3. Si se encontraron categorías con una sola observación, eliminarlas
    if len(single_obs_categories) > 0:
        rows_before = len(df_modified)

        # Mantener solo las filas donde la categoría NO está en la lista de eliminación
        df_modified = df_modified[~df_modified[col].isin(single_obs_categories)]

        rows_after = len(df_modified)
        print(f"Columna '{col}': Se eliminaron {rows_before - rows_after} filas.")

print("-" * 40)
print(f"Tamaño final del dataframe: {df_modified.shape}")

Tamaño original del dataframe: (1020, 21)
----------------------------------------
Columna 'status': Se eliminaron 13 filas.
Columna 'credit_history': Se eliminaron 18 filas.
Columna 'purpose': Se eliminaron 8 filas.
Columna 'savings': Se eliminaron 8 filas.
Columna 'employment_duration': Se eliminaron 7 filas.
Columna 'installment_rate': Se eliminaron 4 filas.
Columna 'personal_status_sex': Se eliminaron 5 filas.
Columna 'other_debtors': Se eliminaron 12 filas.
Columna 'present_residence': Se eliminaron 8 filas.
Columna 'property': Se eliminaron 8 filas.
Columna 'other_installment_plans': Se eliminaron 8 filas.
Columna 'housing': Se eliminaron 9 filas.
Columna 'job': Se eliminaron 15 filas.
Columna 'telephone': Se eliminaron 5 filas.
Columna 'foreign_worker': Se eliminaron 13 filas.
----------------------------------------
Tamaño final del dataframe: (879, 21)


In [11]:
#@title CELDA 9: Winsorizar variables numéricas para manejar outliers

from scipy.stats.mstats import winsorize
import numpy as np

# Identificar las columnas numéricas (excluyendo las categóricas)
numeric_cols = df_modified.select_dtypes(include=np.number).columns

print("--- Estadísticas de variables numéricas ANTES de winsorizar ---")
display(df_modified[numeric_cols].describe())

# Iterar sobre cada columna numérica para aplicar la winsorización
# limits=[0.05, 0.05] significa que el 5% inferior y el 5% superior serán acotados.
for col in numeric_cols:
    df_modified[col] = winsorize(df_modified[col], limits=[0.01, 0.01])

print("\n--- Estadísticas de variables numéricas DESPUÉS de winsorizar ---")
display(df_modified[numeric_cols].describe())

print("\n--- Estadísticas de variables numéricas original ---")
display(df_original[numeric_cols].describe())

print("\n✅ Winsorización completada en todas las columnas numéricas.")

--- Estadísticas de variables numéricas ANTES de winsorizar ---


Unnamed: 0,duration,amount,age,number_credits,people_liable,credit_risk
count,879.0,879.0,879.0,879.0,879.0,879.0
mean,93.010239,4315.951081,45.649602,4.455063,7.17975,3.368601
std,1962.832987,29977.485005,170.597216,33.583676,60.16842,45.646365
min,4.0,250.0,19.0,1.0,1.0,0.0
25%,12.0,1386.0,27.0,1.0,2.0,0.0
50%,18.0,2319.5,33.0,1.0,2.0,1.0
75%,24.0,4030.5,42.0,2.0,2.0,1.0
max,58140.0,887992.0,4606.0,685.0,987.0,967.0



--- Estadísticas de variables numéricas DESPUÉS de winsorizar ---


Unnamed: 0,duration,amount,age,number_credits,people_liable,credit_risk
count,879.0,879.0,879.0,879.0,879.0,879.0
mean,21.11149,3306.428896,35.664391,2.372014,2.906712,0.705347
std,12.376454,2821.852984,11.841974,8.08929,9.655003,0.456146
min,6.0,392.0,20.0,1.0,1.0,0.0
25%,12.0,1386.0,27.0,1.0,2.0,0.0
50%,18.0,2319.5,33.0,1.0,2.0,1.0
75%,24.0,4030.5,42.0,2.0,2.0,1.0
max,60.0,14421.0,74.0,75.0,94.0,1.0



--- Estadísticas de variables numéricas original ---


Unnamed: 0,duration,amount,age,number_credits,people_liable,credit_risk
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,20.903,3271.248,35.542,1.407,1.845,0.7
std,12.058814,2822.75176,11.35267,0.577654,0.362086,0.458487
min,4.0,250.0,19.0,1.0,1.0,0.0
25%,12.0,1365.5,27.0,1.0,2.0,0.0
50%,18.0,2319.5,33.0,1.0,2.0,1.0
75%,24.0,3972.25,42.0,2.0,2.0,1.0
max,72.0,18424.0,75.0,4.0,2.0,1.0



✅ Winsorización completada en todas las columnas numéricas.


In [12]:
#@title CELDA 9.5: Preparar repositorio
import os

# Verificar y preparar el repositorio
repo_path = "/content/mna-mlops-team46"

if os.path.exists(repo_path):
    print("✅ Repositorio ya existe")
    os.chdir(repo_path)
else:
    print("🔄 Clonando repositorio...")
    !git clone https://github.com/jmtoral/mna-mlops-team46.git
    os.chdir(repo_path)

print(f"📂 Directorio actual: {os.getcwd()}")
print("📁 Contenido del directorio:")
!ls -la

✅ Repositorio ya existe
📂 Directorio actual: /content/mna-mlops-team46
📁 Contenido del directorio:
total 68
drwxr-xr-x 11 root root 4096 Sep 28 05:37 .
drwxr-xr-x  1 root root 4096 Sep 28 04:41 ..
drwxr-xr-x  6 root root 4096 Sep 28 04:41 data
drwxr-xr-x  2 root root 4096 Sep 28 04:41 docs
drwxr-xr-x  4 root root 4096 Sep 28 05:37 .dvc
-rw-r--r--  1 root root  139 Sep 28 04:52 .dvcignore
drwxr-xr-x  8 root root 4096 Sep 28 05:53 .git
-rw-r--r--  1 root root  547 Sep 28 04:41 LICENSE
-rw-r--r--  1 root root  183 Sep 28 04:41 Makefile
drwxr-xr-x  3 root root 4096 Sep 28 04:41 mlops
drwxr-xr-x  2 root root 4096 Sep 28 04:41 models
drwxr-xr-x  2 root root 4096 Sep 28 04:41 notebooks
-rw-r--r--  1 root root 4286 Sep 28 04:41 README.md
drwxr-xr-x  2 root root 4096 Sep 28 04:41 references
drwxr-xr-x  3 root root 4096 Sep 28 04:41 reports
-rw-r--r--  1 root root   60 Sep 28 04:41 requirements.txt


In [13]:
#@title CELDA 10: Limpiar configuración DVC problemática

print("🧹 Limpiando configuración DVC problemática...")

# Cambiar al directorio del proyecto
import os
os.chdir('/content/mna-mlops-team46')

# Limpiar archivos de DVC
!rm -rf .dvc 2>/dev/null || true
!rm -f data/interim/df_modified.csv.dvc 2>/dev/null || true
!rm -f .gitignore 2>/dev/null || true

# Reset del último commit problemático si existe
!git reset --soft HEAD~1 2>/dev/null || true

print("✅ Limpieza completada")

🧹 Limpiando configuración DVC problemática...
✅ Limpieza completada


In [14]:
#@title CELDA 11: Guardar dataset limpio y verificar integridad

print("💾 Guardando dataset limpio...")

# Crear directorio si no existe
!mkdir -p data/interim

# Guardar el dataset limpio
df_modified.to_csv("data/interim/df_modified_clean.csv", index=False)

# Función de verificación
def verify_data_integrity():
    """Verifica que los datos se han guardado correctamente"""

    import pandas as pd
    import os

    file_path = "data/interim/df_modified_clean.csv"

    if os.path.exists(file_path):
        df_check = pd.read_csv(file_path)
        print(f"✅ Archivo guardado exitosamente en: {file_path}")
        print(f"📊 Shape: {df_check.shape}")
        print(f"📝 Primeras columnas: {list(df_check.columns[:5])}")

        # Verificar que no hay valores nulos
        null_counts = df_check.isnull().sum().sum()
        print(f"🔍 Valores nulos totales: {null_counts}")

        # Mostrar tipos de datos
        print(f"📋 Tipos de datos únicos: {df_check.dtypes.value_counts().to_dict()}")

        return df_check
    else:
        print("❌ Error: Archivo no encontrado")
        return None

# Ejecutar verificación
df_verified = verify_data_integrity()

if df_verified is not None:
    print("🎉 ¡Dataset verificado correctamente!")
    # Mostrar muestra de los datos
    print("\n--- Muestra de los datos limpios ---")
    display(df_verified.head(3))
else:
    print("❌ Error en la verificación")

💾 Guardando dataset limpio...
✅ Archivo guardado exitosamente en: data/interim/df_modified_clean.csv
📊 Shape: (879, 21)
📝 Primeras columnas: ['status', 'duration', 'credit_history', 'purpose', 'amount']
🔍 Valores nulos totales: 0
📋 Tipos de datos únicos: {dtype('float64'): 21}
🎉 ¡Dataset verificado correctamente!

--- Muestra de los datos limpios ---


Unnamed: 0,status,duration,credit_history,purpose,amount,savings,employment_duration,installment_rate,personal_status_sex,other_debtors,present_residence,property,age,other_installment_plans,housing,number_credits,job,people_liable,telephone,foreign_worker,credit_risk
0,1.0,18.0,4.0,2.0,1049.0,1.0,2.0,4.0,2.0,1.0,4.0,2.0,21.0,3.0,1.0,1.0,3.0,2.0,1.0,2.0,1.0
1,1.0,9.0,4.0,0.0,2799.0,1.0,3.0,2.0,3.0,1.0,2.0,1.0,36.0,3.0,1.0,2.0,3.0,1.0,1.0,2.0,1.0
2,2.0,12.0,2.0,9.0,841.0,2.0,4.0,2.0,2.0,1.0,4.0,1.0,23.0,3.0,1.0,1.0,2.0,2.0,1.0,2.0,1.0


In [29]:
!git status

On branch main
Your branch is up to date with 'origin/master'.

Untracked files:
  (use "git add <file>..." to include in what will be committed)
	[31mdata/interim/.gitignore[m

nothing added to commit but untracked files present (use "git add" to track)


In [17]:

# 1. Configurar tu token como variable de entorno
import os
os.environ["GITHUB_TOKEN"] = userdata.get("GITHUB_TOKEN")

# 2. Configurar Git
!git config --global user.name "Manuel Toral"
!git config --global user.email "jmtoralcruz@gmail.com"

# 3. Definir remoto limpio (sin token)
!git remote remove origin 2>/dev/null || true
!git remote add origin https://github.com/jmtoral/mna-mlops-team46.git

# 4. Guardar credenciales en ~/.git-credentials
!printf "https://jmtoral:${GITHUB_TOKEN}@github.com\n" > ~/.git-credentials
!git config --global credential.helper store

# 5. Push inicial (asegurando rama main)
!git branch -M main
!git push -u origin main


Branch 'main' set up to track remote branch 'main' from 'origin'.
Everything up-to-date


In [18]:
#@title CELDA 12B: DVC + Google Drive - EXPLICACIÓN DETALLADA

print("📚 ENTENDIENDO DVC CON GOOGLE DRIVE")
print("=" * 60)
print("""
🤔 ¿QUÉ HACE DVC?
• DVC separa los DATOS de los METADATOS
• Los DATOS van al remoto de DVC (en este caso, una carpeta de tu Google Drive)
• Los METADATOS van a Git (archivos pequeños .dvc y config)

📂 ESTRUCTURA RESULTANTE:
• En GitHub: df_modified_clean.csv.dvc (metadatos, ~1KB)
• En Google Drive (remoto DVC): paquetes de datos (cache remota)
• En tu Colab / repo: cache local temporal (.dvc/cache)

🔄 FLUJO DE TRABAJO:
1. Guardas datos localmente
2. dvc add: DVC guarda contenido en cache local y crea .dvc
3. dvc push: DVC sube los datos al remoto (tu Drive)
4. Git: subes solo metadatos (.dvc, .dvc/config, .gitignore) a GitHub
""")

print("\n🚀 EJECUTANDO CONFIGURACIÓN...")

# === PARÁMETROS ===
from pathlib import Path
import os

# Carpeta REMOTA en tu Google Drive
gdrive_remote_path = "/content/drive/MyDrive/MLOPS CLASE MNA/Proyecto/data/interim"

# Ruta del dataset a versionar con DVC
dataset_path = "data/interim/df_modified_clean.csv"

# Config Git (ajústalo si quieres)
git_user_name = "Manuel Toral"
git_user_email = "jmtoralcruz@gmail.com"

def file_exists(path: str) -> bool:
    try:
        return Path(path).exists()
    except Exception:
        return False

# PASO 1: Montar Google Drive
print("\n📱 PASO 1: Montando Google Drive...")
try:
    from google.colab import drive
    drive.mount('/content/drive')
except Exception as e:
    print(f"⚠️ No estás en Colab o hubo un problema montando Drive: {e}")

# PASO 2: Verificar/crear carpeta remota en Drive
print("\n📁 PASO 2: Verificando carpeta REMOTA para DVC en Drive...")
Path(gdrive_remote_path).mkdir(parents=True, exist_ok=True)
if file_exists(gdrive_remote_path):
    print(f"✅ Carpeta remota verificada: {gdrive_remote_path}")
else:
    raise SystemExit("❌ No se pudo crear/verificar la carpeta remota. Revisa permisos de Drive.")

# PASO 3: Inicializar DVC (integrado con Git)
print("\n⚙️ PASO 3: Inicializando DVC (con Git SCM)...")
!dvc init

# PASO 4: Configurar remoto DVC apuntando a tu carpeta de Drive
print("\n🔗 PASO 4: Configurando REMOTO de DVC (tu carpeta en Drive)...")
# --force por si ya existía y queremos reasignar
!dvc remote add -d --force drive_remote "{gdrive_remote_path}"
!dvc remote modify drive_remote url "{gdrive_remote_path}"

print("\n🔍 Verificando configuración de remotos DVC:")
!dvc remote list

# PASO 5: Verificar que el dataset existe
print("\n📊 PASO 5: Verificando dataset...")
if file_exists(dataset_path):
    file_size_kb = os.path.getsize(dataset_path) / 1024
    print(f"✅ Dataset encontrado: {dataset_path} ({file_size_kb:.2f} KB)")
else:
    raise SystemExit("❌ Dataset no encontrado. Ejecuta primero la Celda 11 para generar: "
                     f"{dataset_path}")

# PASO 6: Agregar dataset a DVC
print("\n📦 PASO 6: dvc add del dataset...")
print("   Esto crea un .dvc con metadatos y guarda el contenido en cache local.")
!dvc add "{dataset_path}"

print("\n📋 Archivos en data/interim/ tras dvc add:")
!ls -la "data/interim/"

# PASO 7: Configurar Git (por si no está configurado)
print("\n⚙️ PASO 7: Configurando Git (usuario/correo)...")
!git config --global user.name "{git_user_name}"
!git config --global user.email "{git_user_email}"

# PASO 8: Agregar metadatos a Git (NO los datos)
print("\n📝 PASO 8: Agregando METADATOS a Git...")
print("   Solo añadimos .dvc, .gitignore y configuración de DVC.")
!git add "{dataset_path}.dvc" .gitignore .dvc/config

!git status

# PASO 9: Commit de metadatos
print("\n💾 PASO 9: Haciendo commit de metadatos...")
commit_message = "Add dataset with DVC tracking - data stored in Drive remote"
!git commit -m "{commit_message}"

# PASO 10 (opcional): Push metadatos a GitHub si hay remoto 'origin' configurado
print("\n🌐 PASO 10: Subiendo metadatos a GitHub (si hay remoto 'origin')...")
# Intentamos push; si falla por auth/origin, el mensaje de Git lo indicará
try:
    # Empuja la rama actual (HEAD) a su upstream
    !git push origin HEAD
except Exception as e:
    print("⚠️ No se pudo hacer push. Verifica que tengas remoto 'origin' configurado y credenciales válidas.")
    print("   - Configura token con ~/.git-credentials o ~/.netrc")
    print("   - O usa: git remote add origin <URL_de_tu_repo> y git push -u origin HEAD")

# PASO 11: Push de datos al remoto de DVC (tu Drive)
print("\n☁️ PASO 11: Subiendo DATOS al remoto DVC (Drive)...")
print("   Esto puede tardar un momento la primera vez.")
!dvc push

print("\n" + "=" * 60)
print("🎉 ¡DVC CON GOOGLE DRIVE CONFIGURADO EXITOSAMENTE!")
print("=" * 60)

# VERIFICACIÓN FINAL
print("\n🔍 VERIFICACIÓN FINAL:")
print(f"📂 Remoto DVC (carpeta en Google Drive): {gdrive_remote_path}")
print(f"🌐 Metadatos en Git: {dataset_path}.dvc y .dvc/config")
print("📝 El CSV original es rastreado por DVC; Git guarda solo metadatos (.dvc)")

# Mostrar contenido del archivo .dvc
print(f"\n📋 Contenido del archivo .dvc (metadatos):")
with open(f"{dataset_path}.dvc", "r") as f:
    print(f.read())

# Verificar en Google Drive (lista del remoto)
print(f"\n📁 Verificando contenido en el remoto de Drive:")
!ls -la "{gdrive_remote_path}"



📚 ENTENDIENDO DVC CON GOOGLE DRIVE

🤔 ¿QUÉ HACE DVC?
• DVC separa los DATOS de los METADATOS
• Los DATOS van al remoto de DVC (en este caso, una carpeta de tu Google Drive)
• Los METADATOS van a Git (archivos pequeños .dvc y config)

📂 ESTRUCTURA RESULTANTE:
• En GitHub: df_modified_clean.csv.dvc (metadatos, ~1KB)
• En Google Drive (remoto DVC): paquetes de datos (cache remota)
• En tu Colab / repo: cache local temporal (.dvc/cache)

🔄 FLUJO DE TRABAJO:
1. Guardas datos localmente
2. dvc add: DVC guarda contenido en cache local y crea .dvc
3. dvc push: DVC sube los datos al remoto (tu Drive)
4. Git: subes solo metadatos (.dvc, .dvc/config, .gitignore) a GitHub


🚀 EJECUTANDO CONFIGURACIÓN...

📱 PASO 1: Montando Google Drive...
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).

📁 PASO 2: Verificando carpeta REMOTA para DVC en Drive...
✅ Carpeta remota verificada: /content/drive/MyDrive/MLOPS CLASE MNA/Proyect

In [21]:
#@title 🚀 OPCIONES PARA GIT PUSH
print("🚀 OPCIONES PARA HACER GIT PUSH")
print("=" * 40)

# Detectar la rama actual
current_branch = !git branch --show-current
if current_branch and current_branch[0].strip():
    branch_name = current_branch[0].strip()
    print(f"🌿 Tu rama actual: {branch_name}")

    print(f"\n✅ OPCIONES EQUIVALENTES:")
    print(f"git push origin HEAD        ← Genérico (siempre funciona)")
    print(f"git push origin {branch_name}    ← Específico para tu rama")
    print(f"git push                    ← Usa configuración por defecto")

    print(f"\n🎯 RECOMENDACIÓN:")
    if branch_name == "main":
        print("Tu rama es 'main', puedes usar cualquiera:")
        print("!git push origin main   # Específico")
        print("!git push origin HEAD   # Genérico")
    elif branch_name == "master":
        print("Tu rama es 'master', puedes usar:")
        print("!git push origin master # Específico")
        print("!git push origin HEAD   # Genérico")
    else:
        print(f"Tu rama es '{branch_name}', usa:")
        print(f"!git push origin {branch_name}  # Específico")
        print("!git push origin HEAD        # Genérico (recomendado)")

else:
    print("❌ No se pudo detectar la rama actual")
    print("Ejecuta: !git branch --show-current")

print(f"\n💡 ¿POR QUÉ HEAD?")
print("• Funciona con cualquier nombre de rama")
print("• No tienes que recordar si es 'main' o 'master'")
print("• Más robusto para código que se comparte")
print("• Es una buena práctica en scripts automatizados")

print(f"\n🔧 CORREGIR LA CELDA:")
print("Si prefieres usar el nombre específico, cambia:")
print("!git push origin HEAD")
print("por:")
current_branch = !git branch --show-current
if current_branch and current_branch[0].strip():
    branch_name = current_branch[0].strip()
    print(f"!git push origin {branch_name}")
else:
    print("!git push origin main  # o master, según tu repo")

🚀 OPCIONES PARA HACER GIT PUSH
🌿 Tu rama actual: main

✅ OPCIONES EQUIVALENTES:
git push origin HEAD        ← Genérico (siempre funciona)
git push origin main    ← Específico para tu rama
git push                    ← Usa configuración por defecto

🎯 RECOMENDACIÓN:
Tu rama es 'main', puedes usar cualquiera:
!git push origin main   # Específico
!git push origin HEAD   # Genérico

💡 ¿POR QUÉ HEAD?
• Funciona con cualquier nombre de rama
• No tienes que recordar si es 'main' o 'master'
• Más robusto para código que se comparte
• Es una buena práctica en scripts automatizados

🔧 CORREGIR LA CELDA:
Si prefieres usar el nombre específico, cambia:
!git push origin HEAD
por:
!git push origin main


In [22]:
#@title 🔍 VERIFICAR ESTRUCTURA DVC EN GOOGLE DRIVE
print("🔍 VERIFICANDO ESTRUCTURA DVC EN GOOGLE DRIVE")
print("=" * 50)

import os

# Ruta del cache DVC
gdrive_dvc_cache = "/content/drive/MyDrive/MLOPS CLASE MNA/Proyecto/files"

print("📁 EXPLORANDO ESTRUCTURA DEL CACHE:")
print(f"Cache ubicado en: {gdrive_dvc_cache}")

if os.path.exists(gdrive_dvc_cache):
    # Mostrar estructura completa
    print("\n🌳 ESTRUCTURA COMPLETA:")
    !find "{gdrive_dvc_cache}" -type f 2>/dev/null | head -10

    print("\n📂 CARPETAS EN EL CACHE:")
    !ls -la "{gdrive_dvc_cache}/"

    # Buscar archivos CSV específicamente
    print("\n🔎 BUSCANDO ARCHIVOS CSV:")
    csv_files = !find "{gdrive_dvc_cache}" -name "*.csv" 2>/dev/null
    if csv_files:
        for csv_file in csv_files[:3]:  # Mostrar máximo 3
            if csv_file.strip():
                file_size = os.path.getsize(csv_file) / 1024
                print(f"  📄 {csv_file} ({file_size:.2f} KB)")

    # Mostrar contenido de la carpeta files si existe
    files_dir = os.path.join(gdrive_dvc_cache, "files")
    if os.path.exists(files_dir):
        print(f"\n📁 CONTENIDO DE /files/:")
        !ls -la "{files_dir}/"

        # Mostrar las subcarpetas (primeros 2 chars del hash)
        print(f"\n🔢 SUBCARPETAS (hashes):")
        subdirs = !ls "{files_dir}/" 2>/dev/null
        for subdir in subdirs[:5]:  # Mostrar máximo 5
            if subdir.strip():
                subdir_path = os.path.join(files_dir, subdir.strip())
                if os.path.isdir(subdir_path):
                    print(f"  📂 {subdir.strip()}/")
                    # Mostrar contenido de la subcarpeta
                    !ls -la "{subdir_path}/" 2>/dev/null | head -3

else:
    print("❌ Cache no encontrado")

print("\n" + "=" * 50)
print("💡 EXPLICACIÓN DE LA ESTRUCTURA:")
print("• files/          ← Carpeta principal de archivos")
print("• d5/             ← Primeros 2 chars del hash MD5")
print("• e9.../          ← Resto del hash (nombre real del archivo)")
print("• archivo dentro  ← Tu CSV real con los datos")

print("\n🎯 ESTO ES NORMAL Y CORRECTO:")
print("✅ DVC usa hashes para organizar archivos")
print("✅ Evita duplicados y corrupción")
print("✅ Permite versionado eficiente")

print("\n📋 COMPARACIÓN CON ARCHIVO .DVC:")
dvc_file_path = "data/interim/df_modified_clean.csv.dvc"
if os.path.exists(dvc_file_path):
    print(f"\n📄 Contenido del archivo .dvc:")
    with open(dvc_file_path, 'r') as f:
        content = f.read()
        print(content)

    # Extraer el hash para comparar
    import yaml
    try:
        dvc_data = yaml.safe_load(content)
        if 'outs' in dvc_data and len(dvc_data['outs']) > 0:
            file_hash = dvc_data['outs'][0].get('md5', 'N/A')
            print(f"\n🔗 CONEXIÓN:")
            print(f"Hash en .dvc: {file_hash}")
            print(f"Carpeta en Drive: files/{file_hash[:2]}/{file_hash[2:]}...")
    except:
        print("⚠️ No se pudo parsear el archivo .dvc")
else:
    print("❌ Archivo .dvc no encontrado")

print(f"\n🎉 CONCLUSIÓN:")
print(f"La estructura que viste (files/d5/e9...) es PERFECTA.")
print(f"¡DVC está funcionando exactamente como debe!")

🔍 VERIFICANDO ESTRUCTURA DVC EN GOOGLE DRIVE
📁 EXPLORANDO ESTRUCTURA DEL CACHE:
Cache ubicado en: /content/drive/MyDrive/MLOPS CLASE MNA/Proyecto/files
❌ Cache no encontrado

💡 EXPLICACIÓN DE LA ESTRUCTURA:
• files/          ← Carpeta principal de archivos
• d5/             ← Primeros 2 chars del hash MD5
• e9.../          ← Resto del hash (nombre real del archivo)
• archivo dentro  ← Tu CSV real con los datos

🎯 ESTO ES NORMAL Y CORRECTO:
✅ DVC usa hashes para organizar archivos
✅ Evita duplicados y corrupción
✅ Permite versionado eficiente

📋 COMPARACIÓN CON ARCHIVO .DVC:

📄 Contenido del archivo .dvc:
outs:
- md5: e933ab865f40ff4352f6db38bcfd8699
  size: 78344
  hash: md5
  path: df_modified_clean.csv


🔗 CONEXIÓN:
Hash en .dvc: e933ab865f40ff4352f6db38bcfd8699
Carpeta en Drive: files/e9/33ab865f40ff4352f6db38bcfd8699...

🎉 CONCLUSIÓN:
La estructura que viste (files/d5/e9...) es PERFECTA.
¡DVC está funcionando exactamente como debe!


In [26]:
# --- 1) Asegura que estás en la rama correcta ---
!git rev-parse --abbrev-ref HEAD
# Si en GitHub estás mirando 'master' pero trabajaste en 'main', puedes:
!git checkout main

# --- 2) Parchea .gitignore para permitir .dvc en data/ y el .dvc/config ---
from pathlib import Path

gi = Path(".gitignore")
text = gi.read_text() if gi.exists() else ""

PATCH = """
# --- DVC allowlist ---
# Ignora data por defecto, pero permite los metadatos .dvc
# (algunas plantillas ya tienen 'data/*', por eso agregamos excepciones)
!data/**/*.dvc
!data/**/.gitkeep

# Asegura que el directorio .dvc y su config sean versionados
!.dvc/
!.dvc/config
"""

if "DVC allowlist" not in text:
    gi.write_text(text.rstrip() + "\n" + PATCH.strip() + "\n")
    print("✅ .gitignore parcheado para permitir .dvc y .dvc/config")
else:
    print("ℹ️ El parche DVC ya estaba en .gitignore")

# --- 3) Asegura que NO se suba el CSV (solo el .dvc) ---
# (si por accidente el CSV quedó trackeado en Git alguna vez)
!git rm --cached -f data/interim/df_modified_clean.csv 2>/dev/null || true

# --- 4) Forzar el add del .dvc y del .dvc/config ---
!git add -f data/interim/df_modified_clean.csv.dvc .dvc/config .gitignore
!git status

# --- 5) Commit y push a la rama que realmente estás mirando en GitHub ---
!git commit -m "Track DVC metadata for df_modified_clean; allow .dvc in gitignore" || true

# Empuja a main O a master según lo que veas en GitHub
# Opción A: si tu rama por defecto es main
#!git push -u origin main

# Opción B: si estás viendo master en GitHub y quieres ver ahí el .dvc
#!git push -u origin HEAD:master
!git fetch origin master
!git rebase origin/master      # si hay conflictos: git add <archivos> ; git rebase --continue
!git push -u origin HEAD:master


main
Already on 'main'
Your branch is ahead of 'origin/main' by 1 commit.
  (use "git push" to publish your local commits)
ℹ️ El parche DVC ya estaba en .gitignore
On branch main
Your branch is ahead of 'origin/main' by 1 commit.
  (use "git push" to publish your local commits)

Untracked files:
  (use "git add <file>..." to include in what will be committed)
	[31mdata/interim/.gitignore[m

nothing added to commit but untracked files present (use "git add" to track)
On branch main
Your branch is ahead of 'origin/main' by 1 commit.
  (use "git push" to publish your local commits)

Untracked files:
  (use "git add <file>..." to include in what will be committed)
	[31mdata/interim/.gitignore[m

nothing added to commit but untracked files present (use "git add" to track)
From https://github.com/jmtoral/mna-mlops-team46
 * branch            master     -> FETCH_HEAD
dropping 96eb6839438961b0828df7751ba329bb4e8df19f Add dataset with DVC tracking - data in Google Drive -- patch contents al