# Analítica y pre-procesado de datos

# Por qué? Cuándo?

Los datos **no vienen usables** casi nunca. Solo en materias de IA :)

Aunque usables, a veces **los modelos requieren o andan mejor con la data en determinadas condiciones**.

Se hace al inicio, y se re-hace durante todo el proyecto.

![](files/images/ml_process.svg)

# Limpieza de datos vs pre-procesado

**Limpieza**: arreglar las cosas que no están bien en los datos.

**Pre-procesado**: hacer que la data sea compatible/amigable con nuestros modelos.

# Limpieza: valores nulos

Básicamente, **datos que faltan**.

![](files/images/null_values.svg)

Podemos **rellenarlos**: valores a mano, o calculados (ej: más común, más común en parecidos, extrapolados)

Podemos **descartarlos**: si tenemos muchos datos, no es problema.

# Limpieza: datos redundantes

Básicamente, **columnas que contienen la información de otras columnas, repetidas**.

![](files/images/redundant_values.svg)

Los **sacamos**.

Porque muchos modelos tienen problemas **graves** con ese tipo de correlación.

Porque menos datos es más **simple** (performance, visualización, etc).

# Limpieza: datos duplicados

Básicamente, **filas repetidas** en nuestros datos (ejemplos repetidos).

![](files/images/duplicated_samples.svg)

Los **sacamos**.

Nos pueden muy fácilmente hacer llegar a **predicciones y métricas re buenas, pero falsas**, si el modelo se memoriza los ejemplos de train y luego ve los mismos ejemplos en test.

# Limpieza: outliers

Datos aberrantes, **muy diferentes al resto**.

![](files/images/outliers.svg)

![](files/images/no_outliers.svg)

Los **sacamos**.

Porque muchas veces son simplemente información **incorrecta o falsa** (típico: error de sensor, de carga de encuesta, etc).

Porque muchos modelos pueden **deformar mucho sus predicciones** para tratar de predecirlos bien.

# Pre-procesado: escalar

Si tenemos columnas numéricas en rangos muy diferentes, suele convenir escalarlas a **rangos similares**.

![](files/images/scaling_before.svg)

![](files/images/scaling_after.svg)

Porque muchos modelos **convergen más rápido** con ese tipo de valores.

Porque muchos modelos **sufren mucho** cuando hay valores que **dominan** las operaciones por estar en rangos más grandes (ej: distancia al centro vs cantidad de habitaciones).

Hay varias formas de escalar:

- **Min/Max normalization** (o "re-scaling"): convertir a valores en los rangos (0, 1) o (−1, 1), pero conservando su distribución.
- **Mean normalization**: convertir a valores con media en 0, conservando su distribución.
- **Standarization**: transformar a valores con distribución normal, con media en 0 y desvío estándar 1.

# Pre-procesado: one-hot encoder

Qué hacemos cuando tenemos "categorías" en alguna columna de entrada?

Códigos no tiene mucho sentido (el país 20 no es el doble que el país 10).

One-hot encoder: columnas **"es o no es"**

![](files/images/one_hot_encoder_before.svg)

![](files/images/one_hot_encoder_after.svg)

# Pre-procesado: count vectorizer

Qué hacemos cuando tenemos "documentos" en alguna columna de entrada? Documento = lista de cosas que son categorías.

Algo similar al one-hot encoder: columnas por "palabra" conocida, **contando ocurrencias**.

![](files/images/count_vectorizer_before.svg)

![](files/images/count_vectorizer_after.svg)

# Pre-procesado: composición y decomposición

Convertir **N nfeatures en una, o una en N**.

Para qué?

**Facilitarle el trabajo al modelo**. Proveerle más información, o info más procesada.

Reducir necesidades de **hardware**.

Exponerle al modelo **información escondida**.

![](files/images/composition_decomposition.svg)