<img src="Local\imgs\U1\banner_fcd.jpg" alt="banner" width="1100"  height="150">

# <span style="color:black;"><strong>Limpieza y Estretagias de Imputaci√≥n</strong></span>  
---
<p align="right">
  <a href="https://colab.research.google.com/github/mariabda2/intro_data_2025/blob/main/FCD_U4_imputacion.ipynb?clone=true" target="_blank">
    <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir en Colab"/>
  </a>
</p>

## <span style="color:#2F749F;"><strong>üéØ Objetivos de aprendizaje</strong></span>

> ‚úÖ Comprender la **importancia de la imputaci√≥n de datos** en el tratamiento de valores faltantes y su impacto en la calidad del an√°lisis estad√≠stico y predictivo.  
>  
> ‚úÖ Diferenciar los **tipos de datos faltantes** (MCAR, MAR, MNAR) y reconocer sus implicaciones metodol√≥gicas en la selecci√≥n de estrategias de imputaci√≥n.  
>  
> ‚úÖ Aplicar m√©todos **simples** (media, mediana, moda, constante) y **avanzados** (KNN, regresi√≥n, MICE, imputaci√≥n m√∫ltiple) para reemplazar valores faltantes en distintos contextos.  
>  
> ‚úÖ Evaluar la **idoneidad y el sesgo potencial** introducido por las t√©cnicas de imputaci√≥n, comparando resultados antes y despu√©s del tratamiento.  
>  

# <span style="color:#2F749F;"><strong>Introducci√≥n</strong></span>

La **limpieza de datos** (o *data cleaning*) es el proceso de identificar, corregir o eliminar errores e inconsistencias en un conjunto de datos con el fin de mejorar su calidad y asegurar su utilidad para el an√°lisis ([Rahm & Do, 2000](https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=379a09d1efabff918cae5790214e595b7e1cdb14)). Este proceso es esencial en cualquier flujo de trabajo en ciencia de datos, ya que la presencia de datos sucios puede conducir a conclusiones err√≥neas y decisiones inadecuadas.

<div style="background-color:#e8f4fd; padding:15px; border-radius:8px; font-size:17px;"> 

<b>El objetivo es mejorar la calidad del conjunto de datos en t√©rminos de:</b>

- **Exactitud:** los valores reflejan la realidad.  
- **Completitud:** ausencia de valores faltantes cr√≠ticos.  
- **Consistencia:** los datos no se contradicen entre s√≠.  
- **Uniformidad:** los formatos est√°n estandarizados.  
- **Validez:** los datos cumplen con las reglas del dominio.  

</div>

A continuaci√≥n, se describen las principales etapas del proceso, incluyendo las estrategias m√°s comunes aplicadas en cada tipo de variable:

## **1. Detecci√≥n de valores faltantes**
> Identificar celdas vac√≠as, c√≥digos especiales (NA, NULL, ‚Äú?‚Äù) o inconsistencias que representen ausencia de informaci√≥n.  
- Utilizar funciones como `df.isnull().sum()` o `df.info()` para cuantificar la magnitud del problema.  
- Analizar el **patr√≥n de ausencia** (aleatorio o no aleatorio) mediante pruebas estad√≠sticas o visualizaciones de correlaci√≥n de faltantes (*missingness maps*).  

## **2. Eliminaci√≥n de duplicados**
> Se eliminan registros id√©nticos o redundantes que podr√≠an sesgar el an√°lisis.  
- En Python: `df.drop_duplicates()`  
- Tambi√©n puede aplicarse una eliminaci√≥n condicional cuando los duplicados se definen por un subconjunto de columnas clave (por ejemplo, `ID` o `fecha`).  

## **3. Correcci√≥n de errores tipogr√°ficos y de codificaci√≥n**
> Unificar valores escritos de forma inconsistente.  
- Aplicar funciones de normalizaci√≥n (`str.lower()`, `strip()`) y diccionarios de reemplazo,  por ejemplo: ‚ÄúBogot√°‚Äù, ‚Äúbogota‚Äù, ‚ÄúBogota D.C.‚Äù.
- En casos m√°s complejos, utilizar medidas de similitud textual (*fuzzy matching*) para estandarizar categor√≠as.  

## **4. Normalizaci√≥n de formatos**
> Alinear formatos de fechas, unidades de medida, categor√≠as y escalas.  
- Convertir tipos de datos (por ejemplo, de texto a num√©rico) para asegurar compatibilidad con algoritmos.  
- Ejemplo: transformar "12/10/25" a formato ISO (`2025-10-12`).  

## **5. Filtrado y tratamiento de valores at√≠picos (outliers)**
- Detectar valores que se alejan significativamente del resto mediante:
  - **M√©todos univariados:** rango intercuart√≠lico (IQR), z-score.  
  - **M√©todos multivariados:** distancia de Mahalanobis o algoritmos de aislamiento (*Isolation Forest*).  
- Los valores at√≠picos pueden **eliminarse, truncarse o imputarse** seg√∫n el contexto y la relevancia del dato.  

## **6. Selecci√≥n de estrategia de imputaci√≥n**
La elecci√≥n del m√©todo depende del tipo de variable y del mecanismo de ausencia:

| **Tipo de variable** | **Estrategias de imputaci√≥n** | **Ejemplos de variables** |
|----------------------|-------------------------|-----------------------------|
| **Num√©ricas** | - Sustituci√≥n por media, mediana o moda<br>- Interpolaci√≥n lineal o polin√≥mica<br>- Imputaci√≥n por KNN<br>- Modelos de regresi√≥n o MICE | Variables continuas como edad, ingresos, temperatura, peso |
| **Categ√≥ricas** | - Sustituci√≥n por la moda<br>- Imputaci√≥n por categor√≠a m√°s frecuente dentro de un grupo<br>- Imputaci√≥n por modelo (√°rbol de decisi√≥n, regresi√≥n log√≠stica)<br>- Creaci√≥n de una nueva categor√≠a ‚ÄúDesconocido‚Äù | Variables como g√©nero, nivel educativo, tipo de producto |

## **7. Validaci√≥n posterior a la imputaci√≥n**
> Verificar que las imputaciones no alteren la estructura estad√≠stica del conjunto de datos.  
- Comparar distribuciones antes y despu√©s del proceso.  
- Documentar las decisiones tomadas (m√©todo utilizado, variables afectadas, n√∫mero de imputaciones realizadas).  

## 
<div style="background-color:#fff9e6; padding:15px; border-radius:8px; font-size:17px;"> 

<b>Nota:</b>

La imputaci√≥n no consiste √∫nicamente en ‚Äúrellenar vac√≠os‚Äù, sino en **preservar la integridad estad√≠stica** del conjunto de datos. Por ello, se recomienda combinar criterios emp√≠ricos (an√°lisis exploratorio) y te√≥ricos (conocimiento del dominio) para justificar cada decisi√≥n.

</div>



**Antes de aplicar cualquier t√©cnica de imputaci√≥n, analiza el tipo de variable (num√©rica, categ√≥rica o temporal) y eval√∫a el impacto que la imputaci√≥n puede tener sobre los an√°lisis posteriores o los modelos predictivos.**

> **Funciones destacadas utilizadas**

| **Funci√≥n / M√©todo** | **Descripci√≥n** | **Ejemplo de uso** |
|-----------------------|----------------|--------------------|
| `pd.to_datetime()` | Convierte una columna a formato de fecha, permitiendo el manejo de valores no v√°lidos. | `df['A'] = pd.to_datetime(df['A'], errors='coerce')` |
| `.isnull()` / `.sum()` | Identifica y contabiliza valores faltantes. | `df.isnull().sum()` |
| `.apply()` | Permite aplicar funciones personalizadas a columnas. | `df['A'] = df['A'].apply(lambda x: np.nan if x < 0 else x)` |
| `.fillna()` | Imputa valores faltantes con un valor espec√≠fico o estad√≠stico. | `df['A'] = df['A'].fillna(df['A'].median())` |
| `.mode()` | Obtiene el valor m√°s frecuente de una columna (moda). | `df['A'].fillna(df['A'].mode()[0])` |
| `.interpolate()` | Rellena valores num√©ricos faltantes mediante interpolaci√≥n lineal. | `df['A'] = df['A'].interpolate(method='linear')` |
| `.ffill()` / `.bfill()` | Rellena valores faltantes propagando el √∫ltimo valor v√°lido hacia adelante o hacia atr√°s. | `df['A'] = df['A'].ffill()` |
| `df.duplicated(keep=False)` | Detecta registros duplicados en el DataFrame, mostrando `True` para todas las repeticiones. | `df[df.duplicated(keep=False)]` |
| `get_close_matches()` | Busca coincidencias aproximadas entre cadenas para detectar errores tipogr√°ficos o categor√≠as similares. | `from difflib import get_close_matches`<br>`get_close_matches('Medelin', ['Medell√≠n', 'Bogot√°', 'Cali'])` |
| `pd.concat()` | Combina series o DataFrames para comparaci√≥n o uni√≥n de resultados. | `pd.concat([faltantes_antes, faltantes_despues], axis=1)` |
| `missingno` | Visualizaci√≥n gr√°fica de valores faltantes. | `import missingno as msno` |
| `sklearn.impute` | Imputaci√≥n avanzada (KNN, media, mediana, constante). | `from sklearn.impute import SimpleImputer` |



## <span style="color:#2F749F;"><strong>Ejercicio 1. Limpieza e imputaci√≥n de un conjunto de datos mixto</strong></span>

#### <span style="color:#2F749F;"><strong>üìã Instrucciones</strong></span>

1. Crea el DataFrame base **df** ejecutando el siguiente c√≥digo:
    ```python
    df = pd.DataFrame({
        'Nombre': ['Ana', 'Luis', 'Pedro', None, 'Marta', 'Luis', 'Sof√≠a'],
        'Edad': [25, np.nan, 35, 29, -5, 25, None],
        'Ciudad': ['Bogot√°', 'Medell√≠n', None, 'Medell√≠n', 'Cali', 'Bogot√°', 'Cali'],
        'Ingreso': [3500, 4800, np.nan, 5200, 5100, np.nan, 4700],
        'FechaIngreso': ['2023-01-01', '2023-01-05', None, '2023-01-10', '2023-01-12', None, '2023-01-15']
    })

2. En un nuevo notebook, aplica las etapas del proceso de limpieza e imputaci√≥n de datos que consideres necesarias sobre el DataFrame df. Ten encuenta incluir:
    - C√≥digo correctamente comentado y ejecutado.
    - Explicaciones breves de cada paso.
    - Resultados visuales o estad√≠sticos que evidencien las transformaciones.

## <span style="color:#2F749F;"><strong>Ejercicio 2. Limpieza de duplicados</strong></span>

#### <span style="color:#2F749F;"><strong>üìã Instrucciones</strong></span>

1. Crea el DataFrame base **df** ejecutando el siguiente c√≥digo:
    ```python
    df = pd.DataFrame({
        'ID': [101, 102, 102, 103, 104, 104, 104],
        'Nombre': ['Ana', 'Luis', 'Luis', 'Marta', 'Carlos', 'Carlos', 'Carlos'],
        'Edad': [25, 30, 30, 29, 40, 40, 41],
        'Ciudad': ['Bogot√°', 'Cali', 'Cali', 'Medell√≠n', 'Cali', 'Cali', 'Cali'],
        'FechaRegistro': ['2023-01-01', '2023-01-05', '2023-01-05', '2023-01-10', 
                        '2023-01-15', '2023-01-15', '2023-01-16']
    })

2.  En el mismo notebook anterior, para el nuevo dataframe df, responde a las siguientes preguntas (utilizando python):
    - ¬øCu√°l es el total de registros originales?
    - ¬øCu√°les y cu√°ntos son los duplicados exactos?
    - ¬øCu√°les y cu√°ntos son los duplicados por varias columnas?
    - ¬øCu√°ntos registros debes eliminar?
    - ¬øCu√°ntos registros quedan despu√©s de la limpieza?

## <span style="color:#2F749F;"><strong>Ejercicio 3. Correcci√≥n de errores tipogr√°ficos o de codificaci√≥n</strong></span>

#### <span style="color:#2F749F;"><strong>üìã Instrucciones</strong></span>

1. Crea el DataFrame base **df** ejecutando el siguiente c√≥digo:
    ```python
    df = pd.DataFrame({
        'Ciudad': ['bogota', 'Bogot√°', 'BOGOTA', 'bogot√°', 'bogata', 'B√≥gota', 'BogoTa', 'Cali', 'cal√≠', 'medell√≠n', 'medellin']
    })

2.  En el mismo notebook anterior, para el nuevo dataframe df, estandariza la variable ciudad utilizando python. 

**Realice commit de su notebook, en la carpeta sesiones pr√°cticas**

# <span style="color:#2F749F;"><strong>Referencias</strong></span>

Little, R. J. A., & Rubin, D. B. (2019). [*Statistical analysis with missing data*](https://onlinelibrary.wiley.com/doi/book/10.1002/9781119482260). John Wiley & Sons.  

Van Buuren, S. (2018). [*Flexible imputation of missing data*](https://stefvanbuuren.name/fimd/). CRC Press.  

Zhang, S. (2011). [*Shell-neighbor method and its application in missing data imputation*](https://link.springer.com/article/10.1007/s10489-009-0207-6#:~:text=The%20SNI%20fills%20in%20an,neighbors%20of%20the%20incomplete%20instance.). *Knowledge-Based Systems, 24*(5), 709‚Äì715.  
