<img src="Local\imgs\U1\banner_fcd.jpg" alt="banner" width="1100"  height="150">

# <span style="color:black;"><strong>Limpieza y Estretagias de Imputación</strong></span>  
---
<p align="right">
  <a href="https://colab.research.google.com/github/mariabda2/intro_data_2025/blob/main/FCD_U4_imputacion.ipynb?clone=true" target="_blank">
    <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir en Colab"/>
  </a>
</p>

## <span style="color:#2F749F;"><strong>🎯 Objetivos de aprendizaje</strong></span>

> ✅ Comprender la **importancia de la imputación de datos** en el tratamiento de valores faltantes y su impacto en la calidad del análisis estadístico y predictivo.  
>  
> ✅ Diferenciar los **tipos de datos faltantes** (MCAR, MAR, MNAR) y reconocer sus implicaciones metodológicas en la selección de estrategias de imputación.  
>  
> ✅ Aplicar métodos **simples** (media, mediana, moda, constante) y **avanzados** (KNN, regresión, MICE, imputación múltiple) para reemplazar valores faltantes en distintos contextos.  
>  
> ✅ Evaluar la **idoneidad y el sesgo potencial** introducido por las técnicas de imputación, comparando resultados antes y después del tratamiento.  
>  

# <span style="color:#2F749F;"><strong>Introducción</strong></span>

La **limpieza de datos** (o *data cleaning*) es el proceso de identificar, corregir o eliminar errores e inconsistencias en un conjunto de datos con el fin de mejorar su calidad y asegurar su utilidad para el análisis ([Rahm & Do, 2000](https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=379a09d1efabff918cae5790214e595b7e1cdb14)). Este proceso es esencial en cualquier flujo de trabajo en ciencia de datos, ya que la presencia de datos sucios puede conducir a conclusiones erróneas y decisiones inadecuadas.

<div style="background-color:#e8f4fd; padding:15px; border-radius:8px; font-size:17px;"> 

<b>El objetivo es mejorar la calidad del conjunto de datos en términos de:</b>

- **Exactitud:** los valores reflejan la realidad.  
- **Completitud:** ausencia de valores faltantes críticos.  
- **Consistencia:** los datos no se contradicen entre sí.  
- **Uniformidad:** los formatos están estandarizados.  
- **Validez:** los datos cumplen con las reglas del dominio.  

</div>

A continuación, se describen las principales etapas del proceso, incluyendo las estrategias más comunes aplicadas en cada tipo de variable:

## **1. Detección de valores faltantes**
> Identificar celdas vacías, códigos especiales (NA, NULL, “?”) o inconsistencias que representen ausencia de información.  
- Utilizar funciones como `df.isnull().sum()` o `df.info()` para cuantificar la magnitud del problema.  
- Analizar el **patrón de ausencia** (aleatorio o no aleatorio) mediante pruebas estadísticas o visualizaciones de correlación de faltantes (*missingness maps*).  

## **2. Eliminación de duplicados**
> Se eliminan registros idénticos o redundantes que podrían sesgar el análisis.  
- En Python: `df.drop_duplicates()`  
- También puede aplicarse una eliminación condicional cuando los duplicados se definen por un subconjunto de columnas clave (por ejemplo, `ID` o `fecha`).  

## **3. Corrección de errores tipográficos y de codificación**
> Unificar valores escritos de forma inconsistente.  
- Aplicar funciones de normalización (`str.lower()`, `strip()`) y diccionarios de reemplazo,  por ejemplo: “Bogotá”, “bogota”, “Bogota D.C.”.
- En casos más complejos, utilizar medidas de similitud textual (*fuzzy matching*) para estandarizar categorías.  

## **4. Normalización de formatos**
> Alinear formatos de fechas, unidades de medida, categorías y escalas.  
- Convertir tipos de datos (por ejemplo, de texto a numérico) para asegurar compatibilidad con algoritmos.  
- Ejemplo: transformar "12/10/25" a formato ISO (`2025-10-12`).  

## **5. Filtrado y tratamiento de valores atípicos (outliers)**
- Detectar valores que se alejan significativamente del resto mediante:
  - **Métodos univariados:** rango intercuartílico (IQR), z-score.  
  - **Métodos multivariados:** distancia de Mahalanobis o algoritmos de aislamiento (*Isolation Forest*).  
- Los valores atípicos pueden **eliminarse, truncarse o imputarse** según el contexto y la relevancia del dato.  

## **6. Selección de estrategia de imputación**
La elección del método depende del tipo de variable y del mecanismo de ausencia:

| **Tipo de variable** | **Estrategias de imputación** | **Ejemplos de variables** |
|----------------------|-------------------------|-----------------------------|
| **Numéricas** | - Sustitución por media, mediana o moda<br>- Interpolación lineal o polinómica<br>- Imputación por KNN<br>- Modelos de regresión o MICE | Variables continuas como edad, ingresos, temperatura, peso |
| **Categóricas** | - Sustitución por la moda<br>- Imputación por categoría más frecuente dentro de un grupo<br>- Imputación por modelo (árbol de decisión, regresión logística)<br>- Creación de una nueva categoría “Desconocido” | Variables como género, nivel educativo, tipo de producto |

## **7. Validación posterior a la imputación**
> Verificar que las imputaciones no alteren la estructura estadística del conjunto de datos.  
- Comparar distribuciones antes y después del proceso.  
- Documentar las decisiones tomadas (método utilizado, variables afectadas, número de imputaciones realizadas).  

## 
<div style="background-color:#fff9e6; padding:15px; border-radius:8px; font-size:17px;"> 

<b>Nota:</b>

La imputación no consiste únicamente en “rellenar vacíos”, sino en **preservar la integridad estadística** del conjunto de datos. Por ello, se recomienda combinar criterios empíricos (análisis exploratorio) y teóricos (conocimiento del dominio) para justificar cada decisión.

</div>



**Antes de aplicar cualquier técnica de imputación, analiza el tipo de variable (numérica, categórica o temporal) y evalúa el impacto que la imputación puede tener sobre los análisis posteriores o los modelos predictivos.**

> **Funciones destacadas utilizadas**

| **Función / Método** | **Descripción** | **Ejemplo de uso** |
|-----------------------|----------------|--------------------|
| `pd.to_datetime()` | Convierte una columna a formato de fecha, permitiendo el manejo de valores no válidos. | `df['A'] = pd.to_datetime(df['A'], errors='coerce')` |
| `.isnull()` / `.sum()` | Identifica y contabiliza valores faltantes. | `df.isnull().sum()` |
| `.apply()` | Permite aplicar funciones personalizadas a columnas. | `df['A'] = df['A'].apply(lambda x: np.nan if x < 0 else x)` |
| `.fillna()` | Imputa valores faltantes con un valor específico o estadístico. | `df['A'] = df['A'].fillna(df['A'].median())` |
| `.mode()` | Obtiene el valor más frecuente de una columna (moda). | `df['A'].fillna(df['A'].mode()[0])` |
| `.interpolate()` | Rellena valores numéricos faltantes mediante interpolación lineal. | `df['A'] = df['A'].interpolate(method='linear')` |
| `.ffill()` / `.bfill()` | Rellena valores faltantes propagando el último valor válido hacia adelante o hacia atrás. | `df['A'] = df['A'].ffill()` |
| `df.duplicated(keep=False)` | Detecta registros duplicados en el DataFrame, mostrando `True` para todas las repeticiones. | `df[df.duplicated(keep=False)]` |
| `get_close_matches()` | Busca coincidencias aproximadas entre cadenas para detectar errores tipográficos o categorías similares. | `from difflib import get_close_matches`<br>`get_close_matches('Medelin', ['Medellín', 'Bogotá', 'Cali'])` |
| `pd.concat()` | Combina series o DataFrames para comparación o unión de resultados. | `pd.concat([faltantes_antes, faltantes_despues], axis=1)` |
| `missingno` | Visualización gráfica de valores faltantes. | `import missingno as msno` |
| `sklearn.impute` | Imputación avanzada (KNN, media, mediana, constante). | `from sklearn.impute import SimpleImputer` |



## <span style="color:#2F749F;"><strong>Ejercicio 1. Limpieza e imputación de un conjunto de datos mixto</strong></span>

#### <span style="color:#2F749F;"><strong>📋 Instrucciones</strong></span>

1. Crea el DataFrame base **df** ejecutando el siguiente código:
    ```python
    df = pd.DataFrame({
        'Nombre': ['Ana', 'Luis', 'Pedro', None, 'Marta', 'Luis', 'Sofía'],
        'Edad': [25, np.nan, 35, 29, -5, 25, None],
        'Ciudad': ['Bogotá', 'Medellín', None, 'Medellín', 'Cali', 'Bogotá', 'Cali'],
        'Ingreso': [3500, 4800, np.nan, 5200, 5100, np.nan, 4700],
        'FechaIngreso': ['2023-01-01', '2023-01-05', None, '2023-01-10', '2023-01-12', None, '2023-01-15']
    })

2. En un nuevo notebook, aplica las etapas del proceso de limpieza e imputación de datos que consideres necesarias sobre el DataFrame df. Ten encuenta incluir:
    - Código correctamente comentado y ejecutado.
    - Explicaciones breves de cada paso.
    - Resultados visuales o estadísticos que evidencien las transformaciones.

## <span style="color:#2F749F;"><strong>Ejercicio 2. Limpieza de duplicados</strong></span>

#### <span style="color:#2F749F;"><strong>📋 Instrucciones</strong></span>

1. Crea el DataFrame base **df** ejecutando el siguiente código:
    ```python
    df = pd.DataFrame({
        'ID': [101, 102, 102, 103, 104, 104, 104],
        'Nombre': ['Ana', 'Luis', 'Luis', 'Marta', 'Carlos', 'Carlos', 'Carlos'],
        'Edad': [25, 30, 30, 29, 40, 40, 41],
        'Ciudad': ['Bogotá', 'Cali', 'Cali', 'Medellín', 'Cali', 'Cali', 'Cali'],
        'FechaRegistro': ['2023-01-01', '2023-01-05', '2023-01-05', '2023-01-10', 
                        '2023-01-15', '2023-01-15', '2023-01-16']
    })

2.  En el mismo notebook anterior, para el nuevo dataframe df, responde a las siguientes preguntas (utilizando python):
    - ¿Cuál es el total de registros originales?
    - ¿Cuáles y cuántos son los duplicados exactos?
    - ¿Cuáles y cuántos son los duplicados por varias columnas?
    - ¿Cuántos registros debes eliminar?
    - ¿Cuántos registros quedan después de la limpieza?

## <span style="color:#2F749F;"><strong>Ejercicio 3. Corrección de errores tipográficos o de codificación</strong></span>

#### <span style="color:#2F749F;"><strong>📋 Instrucciones</strong></span>

1. Crea el DataFrame base **df** ejecutando el siguiente código:
    ```python
    df = pd.DataFrame({
        'Ciudad': ['bogota', 'Bogotá', 'BOGOTA', 'bogotá', 'bogata', 'Bógota', 'BogoTa', 'Cali', 'calí', 'medellín', 'medellin']
    })

2.  En el mismo notebook anterior, para el nuevo dataframe df, estandariza la variable ciudad utilizando python. 

**Realice commit de su notebook, en la carpeta sesiones prácticas**

# <span style="color:#2F749F;"><strong>Referencias</strong></span>

Little, R. J. A., & Rubin, D. B. (2019). [*Statistical analysis with missing data*](https://onlinelibrary.wiley.com/doi/book/10.1002/9781119482260). John Wiley & Sons.  

Van Buuren, S. (2018). [*Flexible imputation of missing data*](https://stefvanbuuren.name/fimd/). CRC Press.  

Zhang, S. (2011). [*Shell-neighbor method and its application in missing data imputation*](https://link.springer.com/article/10.1007/s10489-009-0207-6#:~:text=The%20SNI%20fills%20in%20an,neighbors%20of%20the%20incomplete%20instance.). *Knowledge-Based Systems, 24*(5), 709–715.  
