<a href="https://colab.research.google.com/github/Andru-1987/74235-_DataScience_I/blob/main/clase_4/ejercicio-practioco/clase_imputacion_arreglado_imputacion_knn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio Pr√°ctico: Imputaci√≥n de Datos con KNN

## üéØ Objetivo del Ejercicio

Este ejercicio pr√°ctico tiene como objetivo:

1. **Entender el problema de datos faltantes**: Aprender a identificar y cuantificar valores nulos en un dataset real
2. **Comparar m√©todos de imputaci√≥n**: Ver las diferencias entre imputaci√≥n simple (media/moda) y m√©todos avanzados (KNN)
3. **Implementar imputaci√≥n KNN**: Aprender a usar KNNImputer de scikit-learn para imputar valores faltantes de manera inteligente
4. **Evaluar resultados**: Comparar las distribuciones de datos antes y despu√©s de la imputaci√≥n

## üìã ¬øQu√© se busca lograr?

- **Clase MarketStore**: Crear una clase que encapsule todo el proceso de an√°lisis e imputaci√≥n de datos
- **An√°lisis exploratorio**: Visualizar qu√© columnas tienen valores nulos y en qu√© porcentaje
- **Imputaci√≥n inteligente**: Usar KNN (K-Nearest Neighbors) para imputar valores bas√°ndose en registros similares
- **Validaci√≥n visual**: Comparar distribuciones antes y despu√©s para verificar que la imputaci√≥n es adecuada

## üîë Conceptos Clave

- **KNN Imputation**: Encuentra los K registros m√°s similares y usa sus valores para imputar los faltantes
- **Label Encoding**: Convierte variables categ√≥ricas a num√©ricas para que KNN pueda trabajar con ellas
- **Distribuci√≥n de datos**: Es importante que la imputaci√≥n no distorsione la distribuci√≥n original de los datos


## üì¶ Importaci√≥n de Librer√≠as

Las librer√≠as necesarias para este ejercicio:
- **numpy**: Operaciones num√©ricas
- **pandas**: Manipulaci√≥n de DataFrames
- **matplotlib**: Visualizaciones
- **KNNImputer**: Algoritmo de imputaci√≥n basado en vecinos m√°s cercanos
- **LabelEncoder**: Convierte variables categ√≥ricas a num√©ricas


## üìä Dataset de Ejemplo (Pima Indians Diabetes)

Este es un dataset de ejemplo para entender la estructura. El dataset principal que usaremos es el de Market Store.


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.impute import KNNImputer
from sklearn.preprocessing import LabelEncoder


In [None]:
URL_DATASET = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"

In [None]:
dataframe = pd.read_csv(URL_DATASET)

## üèóÔ∏è Clase MarketStore: Sistema de An√°lisis e Imputaci√≥n

Esta clase encapsula todo el proceso de trabajo con datos faltantes:

### M√©todos principales:

1. **`get_dataframe()`**: Carga el dataset desde la URL
2. **`get_information()`**: Muestra informaci√≥n general del dataset
3. **`nullish_counting()`**: Visualiza el porcentaje de valores nulos por columna
4. **`imputar_manual()`**: Imputaci√≥n simple usando media (num√©ricas) y moda (categ√≥ricas)
5. **`imputacion_knn_imputer()`**: Imputaci√≥n avanzada usando KNN
6. **`plot_distribution()`**: Visualiza la distribuci√≥n de una columna antes de imputar
7. **`plot_distribution_knn()`**: Visualiza la distribuci√≥n despu√©s de imputar con KNN

### ¬øPor qu√© usar una clase?

- **Organizaci√≥n**: Todo el c√≥digo relacionado est√° en un solo lugar
- **Reutilizaci√≥n**: Puedes aplicar los mismos m√©todos a diferentes datasets
- **Mantenibilidad**: Es m√°s f√°cil modificar y extender el c√≥digo


In [None]:
dataframe

## üöÄ Uso de la Clase MarketStore

Ahora vamos a usar la clase para analizar el dataset de Market Store.


### Paso 1: Cargar el Dataset

Cargamos el dataset desde la URL. Este dataset contiene informaci√≥n de productos de una tienda.


### Paso 2: Explorar el Dataset

Descomenta las siguientes l√≠neas para ver:
- Informaci√≥n general del dataset
- Porcentaje de valores nulos por columna
- Distribuciones de variables espec√≠ficas


In [None]:
dataframe.info()

### Paso 3: Imputaci√≥n con KNN

Aplicamos la imputaci√≥n KNN. Este m√©todo:
1. Codifica variables categ√≥ricas a num√©ricas
2. Encuentra los K vecinos m√°s cercanos para cada registro con valores faltantes
3. Usa los valores de esos vecinos para imputar
4. Decodifica las variables categ√≥ricas de vuelta a sus valores originales

**Par√°metro n_neighbors=4**: Usa los 4 registros m√°s similares para imputar cada valor faltante.


In [None]:
MARKET_STORE_URL = "https://raw.githubusercontent.com/Andru-1987/csv_files_ds/refs/heads/main/market_data.csv"

In [None]:
class MarketStore:
    """
    Clase para analizar e imputar valores faltantes en datasets de tiendas.
    
    Esta clase proporciona m√©todos para:
    - Cargar y explorar datos
    - Visualizar valores faltantes
    - Imputar valores usando m√©todos simples (media/moda) o avanzados (KNN)
    - Comparar distribuciones antes y despu√©s de la imputaci√≥n
    """
    
    def __init__(self, url):
        """
        Inicializa la clase con la URL del dataset.
        
        Args:
            url: URL del archivo CSV a cargar
        """
        self.url = url
        self.dataframe = None  # Dataset original
        self.dataframe_imputed_knn = None  # Dataset despu√©s de imputaci√≥n KNN

    def get_dataframe(self):
        """
        Carga el dataset desde la URL y lo almacena en self.dataframe.
        
        Returns:
            DataFrame: El dataset cargado
        """
        self.dataframe = pd.read_csv(self.url)
        return self.dataframe

    def get_information(self):
        """
        Muestra informaci√≥n general del dataset:
        - Primeros registros
        - Informaci√≥n de columnas y tipos de datos
        - Estad√≠sticas descriptivas
        
        √ötil para entender la estructura y calidad de los datos.
        """
        print("\n=== Informaci√≥n de los primeros registros ===")
        print(self.dataframe.head())
        print("\n=== Informaci√≥n sobre columnas y valores nulos ===")
        print(self.dataframe.info())
        print("\n=== Informaci√≥n estad√≠stica de los datos ===")
        print(self.dataframe.describe().transpose())

    def nullish_counting(self):
        """
        Visualiza el porcentaje de valores nulos por columna.
        
        ¬øPor qu√© es importante?
        - Identifica qu√© columnas tienen m√°s problemas de datos faltantes
        - Ayuda a decidir qu√© columnas necesitan imputaci√≥n
        - Permite priorizar el trabajo seg√∫n la gravedad del problema
        """
        total_rows = len(self.dataframe)
        # Calcula el porcentaje de valores nulos por columna
        null_percentage = (self.dataframe.isnull().sum() / total_rows) * 100
        # Ordena de mayor a menor porcentaje
        null_percentage_sorted = null_percentage.sort_values(ascending=False)

        # Visualizaci√≥n
        plt.figure(figsize=(16, 9))
        ax = null_percentage_sorted.plot(kind='bar', color="skyblue")
        ax.set_xlabel("Columnas", fontsize=12)
        ax.set_ylabel("Porcentaje de valores nulos (%)", fontsize=12)
        ax.set_title("Porcentaje de valores nulos por columna", fontsize=14, fontweight='bold')
        ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')
        plt.grid(axis='y', alpha=0.3)
        plt.tight_layout()
        plt.show()

    def imputar_manual(self):
        """
        Imputaci√≥n simple usando m√©todos b√°sicos:
        - Variables categ√≥ricas: Se imputan con la moda (valor m√°s frecuente)
        - Variables num√©ricas: Se imputan con la media
        
        ‚ö†Ô∏è Limitaciones:
        - No considera relaciones entre variables
        - Puede distorsionar la distribuci√≥n de los datos
        - No es ideal para datasets con muchas variables correlacionadas
        
        Este m√©todo modifica directamente self.dataframe.
        """
        # Para variables categ√≥ricas: usar moda (valor m√°s frecuente)
        for col in self.dataframe.select_dtypes(include=['object']).columns:
            # mode()[0] obtiene el valor m√°s frecuente
            self.dataframe[col].fillna(self.dataframe[col].mode()[0], inplace=True)

        # Para variables num√©ricas: usar media
        for col in self.dataframe.select_dtypes(include=['number']).columns:
            self.dataframe[col].fillna(self.dataframe[col].mean(), inplace=True)

    def imputacion_knn_imputer(self, n_neighbors=4):
        """
        Imputaci√≥n avanzada usando K-Nearest Neighbors (KNN).
        
        ¬øC√≥mo funciona KNN Imputation?
        1. Para cada registro con valores faltantes, encuentra los K registros m√°s similares
        2. Usa los valores de esos K vecinos para imputar el valor faltante
        3. Considera todas las variables, no solo la que tiene el valor faltante
        
        Ventajas sobre imputaci√≥n simple:
        - Considera relaciones entre variables
        - Mantiene mejor la distribuci√≥n original de los datos
        - M√°s preciso cuando hay correlaciones entre variables
        
        Args:
            n_neighbors: N√∫mero de vecinos m√°s cercanos a considerar (default: 4)
        
        El resultado se guarda en self.dataframe_imputed_knn
        """
        # Paso 1: Copiar el dataset original para no modificar el original
        df_encoder = self.dataframe.copy()
        encoders = {}  # Guardar√° los encoders para poder decodificar despu√©s

        # Paso 2: Detectar y codificar variables categ√≥ricas
        # KNN solo funciona con n√∫meros, as√≠ que necesitamos convertir categor√≠as a n√∫meros
        category_columns = df_encoder.select_dtypes(include=['object', 'category']).columns

        for col in category_columns:
            print(f"Codificando columna categ√≥rica: {col}")
            le = LabelEncoder()
            
            # Crear m√°scara para valores no nulos (solo codificar valores existentes)
            not_null_values = df_encoder[col].notnull()
            
            # Codificar solo los valores no nulos
            df_encoder.loc[not_null_values, col] = le.fit_transform(
                df_encoder.loc[not_null_values, col]
            ).astype(str)
            
            # Mantener los NaN como NaN (no codificarlos)
            df_encoder.loc[~not_null_values, col] = np.nan
            
            # Guardar el encoder para poder decodificar despu√©s
            encoders[col] = le

        # Paso 3: Aplicar KNN Imputation
        # KNNImputer encuentra los n_neighbors registros m√°s similares y usa sus valores
        print(f"\nAplicando KNN Imputation con {n_neighbors} vecinos...")
        imputer = KNNImputer(n_neighbors=n_neighbors)
        data_imputed = imputer.fit_transform(df_encoder)
        self.dataframe_imputed_knn = pd.DataFrame(data_imputed, columns=df_encoder.columns)

        # Paso 4: Decodificar variables categ√≥ricas de vuelta a sus valores originales
        df_decoded = self.dataframe_imputed_knn.copy()
        for col, le in encoders.items():
            if col in df_decoded.columns:
                print(f"Decodificando columna categ√≥rica: {col}")
                # Convertir de vuelta a enteros y luego decodificar
                df_decoded[col] = le.inverse_transform(df_decoded[col].astype(int))

        self.dataframe_imputed_knn = df_decoded
        print("\n‚úÖ Imputaci√≥n KNN completada!")

    def plot_distribution(self, columna):
        """
        Visualiza la distribuci√≥n de una columna ANTES de la imputaci√≥n.
        
        Para variables num√©ricas muestra:
        - Boxplot: Detecta outliers y muestra cuartiles
        - Histograma: Muestra la forma de la distribuci√≥n
        
        Para variables categ√≥ricas muestra:
        - Gr√°fico de barras: Frecuencia de cada categor√≠a
        
        Args:
            columna: Nombre de la columna a visualizar
        """
        if pd.api.types.is_numeric_dtype(self.dataframe[columna]):
            plt.figure(figsize=(16, 9))
            
            # Boxplot: muestra mediana, cuartiles y outliers
            plt.subplot(1, 2, 1)
            plt.boxplot(self.dataframe[columna].dropna())
            plt.title(f'Boxplot de {columna} (ANTES de imputaci√≥n)', fontweight='bold')
            plt.ylabel('Valores')
            
            # Histograma: muestra la distribuci√≥n
            plt.subplot(1, 2, 2)
            plt.hist(self.dataframe[columna].dropna(), bins=20, edgecolor='k', alpha=0.7)
            plt.title(f'Histograma de {columna} (ANTES de imputaci√≥n)', fontweight='bold')
            plt.xlabel('Valores')
            plt.ylabel('Frecuencia')
            plt.tight_layout()
            plt.show()
        else:
            # Para variables categ√≥ricas: gr√°fico de barras
            plt.figure(figsize=(16, 9))
            self.dataframe[columna].value_counts().plot(kind='bar')
            plt.title(f'Frecuencia de {columna} (ANTES de imputaci√≥n)', fontweight='bold')
            plt.xlabel(columna)
            plt.ylabel('Frecuencia')
            plt.xticks(rotation=45)
            plt.tight_layout()
            plt.show()

    def plot_distribution_knn(self, columna):
        """
        Visualiza la distribuci√≥n de una columna DESPU√âS de la imputaci√≥n KNN.
        
        Permite comparar con plot_distribution() para verificar que:
        - La distribuci√≥n no se distorsion√≥ demasiado
        - Los valores imputados son razonables
        - No se introdujeron patrones artificiales
        
        Args:
            columna: Nombre de la columna a visualizar
        """
        if pd.api.types.is_numeric_dtype(self.dataframe_imputed_knn[columna]):
            plt.figure(figsize=(16, 9))
            
            # Boxplot despu√©s de imputaci√≥n
            plt.subplot(1, 2, 1)
            plt.boxplot(self.dataframe_imputed_knn[columna])
            plt.title(f'Boxplot de {columna} (DESPU√âS de imputaci√≥n KNN)', fontweight='bold', color='green')
            plt.ylabel('Valores')
            
            # Histograma despu√©s de imputaci√≥n
            plt.subplot(1, 2, 2)
            plt.hist(self.dataframe_imputed_knn[columna], bins=20, edgecolor='k', alpha=0.7, color='lightgreen')
            plt.title(f'Histograma de {columna} (DESPU√âS de imputaci√≥n KNN)', fontweight='bold', color='green')
            plt.xlabel('Valores')
            plt.ylabel('Frecuencia')
            plt.tight_layout()
            plt.show()
        else:
            # Para variables categ√≥ricas
            plt.figure(figsize=(16, 9))
            self.dataframe_imputed_knn[columna].value_counts().plot(kind='bar', color='lightgreen')
            plt.title(f'Frecuencia de {columna} (DESPU√âS de imputaci√≥n KNN)', fontweight='bold', color='green')
            plt.xlabel(columna)
            plt.ylabel('Frecuencia')
            plt.xticks(rotation=45)
            plt.tight_layout()
            plt.show()



In [None]:
market_store = MarketStore(MARKET_STORE_URL)


In [None]:
market_store.get_dataframe()

## üìù Resumen del Ejercicio

### ¬øQu√© aprendimos?

1. **Problema de datos faltantes**: Los datasets reales casi siempre tienen valores faltantes que necesitan ser tratados

2. **M√©todos de imputaci√≥n**:
   - **Simple (media/moda)**: R√°pido pero puede distorsionar los datos
   - **KNN**: M√°s inteligente, considera relaciones entre variables

3. **Proceso de imputaci√≥n KNN**:
   - Codificar variables categ√≥ricas ‚Üí Aplicar KNN ‚Üí Decodificar variables categ√≥ricas

4. **Validaci√≥n**: Siempre comparar distribuciones antes y despu√©s para verificar la calidad de la imputaci√≥n

### Pr√≥ximos pasos sugeridos:

- Probar con diferentes valores de `n_neighbors` (3, 5, 7) y comparar resultados
- Comparar visualmente las distribuciones antes y despu√©s
- Verificar que no quedan valores nulos: `market_store.dataframe_imputed_knn.isnull().sum()`


In [None]:
# market_store.get_information()

In [None]:
# market_store.nullish_counting()

In [None]:
# market_store.dataframe.Outlet_Size.value_counts()
# market_store.imputar_manual()

In [None]:
# market_store.nullish_counting()

In [None]:
# market_store.plot_distribution("Outlet_Size")
# market_store.plot_distribution("Item_Weight")

In [None]:
market_store.imputacion_knn_imputer(4)

In [None]:
# Ahora como podremos observar los valores por medio del KnnImputer son muchos mas uniformes
# entregandonos una forma mas adecuada de imputar los datos

market_store.plot_distribution_knn("Outlet_Size")
market_store.plot_distribution_knn("Item_Weight")
