<img src="https://udearroba.udea.edu.co/imagescourses/2022C343_alprog_V1/banner-colab.png">

# <font color='157699'> **Métodos de codificación**
# <font color='157699'> **Métodos de imputación y filtrado**



# <font color='157699'> **Métodos de codificación**

### **Uso de Python para aplicar métodos como One-Hot encoding y Label encoding**

---

#### **1. Herramientas necesarias:**

**a. Librerías:**
- `Pandas`: facilita la manipulación de datos y estructuras de datos.
- `sklearn.preprocessing`: contiene las herramientas necesarias para la codificación.

```python
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
```

---

#### **2. Label Encoding**

**a. Creación del codificador**

```python
label_encoder = LabelEncoder()
```

**b. Aplicación a una columna categórica**

Supongamos que tenemos un DataFrame `df` y una columna 'Categoria':

```python
df['Categoria_encoded'] = label_encoder.fit_transform(df['Categoria'])
```

**c. Inversión (de numérico a categórico)**

```python
df['Categoria'] = label_encoder.inverse_transform(df['Categoria_encoded'])
```

---

#### **3. One-Hot encoding**

**a. Utilizando Pandas**

Es la forma más sencilla de realizar One-Hot encoding:

```python
df_onehot = pd.get_dummies(df, columns=['Categoria'], prefix = ['Categoria'])
```

**b. Utilizando sklearn**

**i. Creación del codificador**

```python
onehot_encoder = OneHotEncoder()
```

**ii. Transformación**

```python
onehot_encoded = onehot_encoder.fit_transform(df[['Categoria']]).toarray()
```

**iii. Agregando al DataFrame original**

Para este ejemplo supongamos que las categorías son 'A', 'B', y 'C':

```python
df[['Categoria_A', 'Categoria_B', 'Categoria_C']] = pd.DataFrame(onehot_encoded, index=df.index)
```

---

#### **4. Ventajas y vesventajas**

**a. Label encoding**
- **Ventajas**: no aumenta la dimensionalidad del conjunto de datos.
- **Desventajas**: puede inducir un orden artificial en categorías sin orden inherente.

**b. One-Hot encoding**
- **Ventajas**: representa de forma clara las categorías sin introducir un orden artificial.
- **Desventajas**: aumenta la dimensionalidad, lo que puede ser problemático para conjuntos de datos grandes.

---

#### **5. Casos prácticos y ejemplos**

Se puede demostrar con un conjunto de datos de muestra cómo se ven los datos antes y después de la codificación y discutir situaciones en las que sería más apropiado usar uno u otro método.

# <font color='157699'> **Métodos de imputación y filtrado**

### **Razones y métodos para la imputación de datos faltantes**

---


#### **1. ¿Qué son los datos faltantes?**

- **Definición**: son aquellos valores ausentes en un conjunto de datos que se supone deberían existir. Pueden surgir debido a errores humanos, fallos en sistemas de medición, no respuesta en encuestas, entre otros.

---

#### **2. Impacto de los datos faltantes**

**a. Sesgo en el análisis:** los datos faltantes pueden introducir un sesgo si no se tratan adecuadamente, lo que podría llevar a conclusiones erróneas.

**b. Reducción de la eficiencia:** al eliminar registros con datos faltantes, se reduce el tamaño del conjunto de datos, lo que puede afectar la precisión y potencia de los análisis.

**c. Problemas con algoritmos:** muchos algoritmos no pueden manejar datos faltantes por defecto y requieren un conjunto de datos completo para funcionar correctamente.

---

#### **3. Tipos de datos faltantes**

**a. MCAR (Missing Completely At Random):** la probabilidad de que falte un valor es independiente de cualquier otra observación o característica.

**b. MAR (Missing At Random):** la probabilidad de que falte un valor está relacionada con alguna otra característica observada, pero no con el valor faltante en sí.

**c. MNAR (Missing Not At Random):** la probabilidad de que falte un valor está relacionada con el valor faltante.

---

#### **4. Métodos de imputación**

**a. Eliminación:**  
Eliminar registros con datos faltantes.

- **Ventajas:** método simple y rápido.
- **Desventajas:** pérdida de datos. Solo se recomienda cuando el porcentaje de datos faltantes es muy pequeño.

**b. Imputación media/mediana/moda:**  
Rellenar valores faltantes con la media (para variables continuas) o mediana/moda (para variables categóricas).

- **Ventajas:** rápido y fácil de implementar.
- **Desventajas:** puede distorsionar la distribución original y reducir la varianza.

**c. Imputación por interpolación y extrapolación:**  
Estima valores en función de otros puntos de datos (útil en series temporales).

**d. Imputación por regresión:**  
Usar otras características para predecir y completar el valor faltante.

**e. K-NN Imputation:**  
Rellenar valores faltantes utilizando los k vecinos más cercanos.

- **Ventajas:** considera correlaciones entre variables.
- **Desventajas:** computacionalmente costoso.

**f. Métodos avanzados:**  
MICE (Multiple Imputation by Chained Equations), imputación basada en modelos de árbol, imputación por aprendizaje profundo.

---

#### **5. Elección del método de imputación**

La elección del método de imputación depende de la naturaleza del conjunto de datos, la cantidad y el tipo de datos faltantes y el objetivo del análisis. Es fundamental validar el método elegido y considerar su impacto en los resultados finales.

---

#### **6. Herramientas y librerías en Python**

Ejemplo práctico utilizando Pandas para imputación básica y sklearn.impute para técnicas más avanzadas.

---

# <font color='157699'> **Métodos de imputación y filtrado**

### **Técnicas de filtrado para limpieza y preprocesamiento de datos**

---

#### **1. Importancia del filtrado y la limpieza de datos**

- **Relevancia en el análisis:** un conjunto de datos limpio mejora la precisión y confiabilidad del análisis.
- **Ahorro de tiempo:** detectar y resolver problemas en las primeras etapas evita errores costosos y repetitivos más adelante.
- **Mejora del rendimiento:** los algoritmos de *Machine Learning* y análisis estadístico funcionan mejor con datos limpios y bien estructurados.

---

#### **2. Tipos de impurezas en los datos**

**a. Valores faltantes:** ya discutidos en la sección anterior.
**b. Outliers:** valores que se desvían significativamente del resto.
**c. Duplicados:** registros repetidos en el conjunto de datos.
**d. Errores de entrada:** resultado de errores humanos o de máquina al ingresar datos.
**e. Datos irrelevantes:** información que no es pertinente para el análisis actual.
**f. Inconsistencias:** datos que no siguen un patrón o estructura esperados.

---

#### **3. Técnicas de filtrado**

**a. Filtrado de outliers:**
   - Métodos estadísticos (Z-score, IQR).
   - Visualización (Box plots, scatter plots).

**b. Eliminación de duplicados:**
   - Uso de funciones en Pandas como drop_duplicates().

**c. Corrección de errores de entrada:**
   - Validación de datos utilizando reglas o patrones (por ejemplo, regex).
   - Comparación con listas blancas / negras o bases de datos de referencia.

**d. Eliminación de datos irrelevantes:**
   - Selección de características basada en la relevancia para el análisis.
   - Uso de métodos automáticos como la selección univariante de características.

**e. Tratamiento de inconsistencias:**
   - Normalización: convertir datos a una escala común.
   - Estandarización: reescalar datos para tener una media de 0 y una desviación estándar de 1.

---

#### **4. Herramientas y librerías en Python**

- **Pandas:** funciones como dropna(), drop_duplicates(), replace(), entre otras.
- **NumPy:** funciones para tratamiento estadístico y matemático.
- **Scikit-learn:** herramientas para la selección de características, normalización y estandarización.
- **Seaborn y Matplotlib:** para visualización y detección visual de *outliers* e inconsistencias.

---

#### **5. Buenas prácticas en la limpieza de datos**

**a. Documentar el proceso:** mantener un registro de todos los pasos realizados para referencias futuras y replicabilidad.
**b. Validar cambios con el equipo o expertos en el dominio:** asegurarse de que las decisiones tomadas sean correctas y no eliminan información crítica.
**c. Iterar y revisar:** la limpieza de datos suele ser un proceso iterativo. Revisar y refinar según sea necesario.

---

· Universidad de Antioquia · Ude@ Educación Virtual ·