# Preparacion del conjunto de datos

La preparación del conjunto de datos es un paso fundamental en cualquier proyecto de análisis de datos o aprendizaje automático. Consiste en recopilar, limpiar, transformar y organizar los datos para que sean adecuados para el análisis o modelado.

**Pasos comunes en la preparación de datos:**
- **Recolección:** Obtención de los datos desde fuentes internas o externas.
- **Limpieza:** Eliminación de valores nulos, duplicados y corrección de errores.
- **Transformación:** Conversión de formatos, normalización y escalado de variables.
- **División:** Separación en conjuntos de entrenamiento, validación y prueba.
- **Documentación:** Registro de los pasos realizados para asegurar reproducibilidad.

Una buena preparación de datos mejora la calidad de los resultados y facilita el trabajo posterior en el análisis o modelado.

El conjunto de datos puede contener ejemplos que no dispongan de un valor para una determinada caracteristicas o *FEATURE*.

## Valores Perdidos

Los valores perdidos, también conocidos como valores nulos o faltantes, ocurren cuando no se dispone de información para una o más características en ciertos ejemplos del conjunto de datos. Estos pueden surgir por errores en la recolección, problemas de almacenamiento o porque simplemente no se registró el dato.

El manejo adecuado de los valores perdidos es esencial, ya que pueden afectar la calidad del análisis y el rendimiento de los modelos. Algunas estrategias comunes para tratar valores perdidos incluyen:

- **Eliminación de filas o columnas:** Quitar los ejemplos o características con valores faltantes.
    - Hacer uso de medidas matematicas para solucionar estos problemas de espacios null.
- **Imputación:** Sustituir los valores perdidos por la media, mediana, moda u otros métodos estadísticos.
- **Modelos específicos:** Utilizar algoritmos que puedan manejar valores nulos de forma nativa.

La elección de la estrategia depende del contexto y del impacto que los valores perdidos puedan tener en el análisis.

Para el analisis, entrenamiento y uso de conjunto de datos no se pueden dejar espacios __null__ o __vacios__ porque no lo va a dijerir correctamente el entrenamiento de modelo.

- El conjunto de datos puede contener ejemplos que no dispongan de un valor para una determinada características (feature)
    * Eliminar el ejemplo del conjunto de datos
    * Eliminar la característica (feature $x_i$)
    * Asignar un valor determinado

### Caracteristicas de Entrada

Valores que no sean numeros, sino otras cosas. La mayoria de los metodos de entrenamiento funcionan con numeros para poder llevar a cabo el entrenamiento.

* El conjunto de datos puede contener características cuyo valor este representado por un texto o una categoría
* La mayoría de los algoritmos de Machine Learning requieren valores numéricos para funcionar

__One-Hot Encoding__

Especificamente la codificacion es la que permite cambiar esto.
Este metodo utiliza un array de bits con tantos bits como valores diferentes tiene la caracteristica categorica. Como un vector numerico de la categoria para ser una tecnica sencilla pero util.

__Dummy Coding__ o __Dummy Encoding__

Reduce el grado de libertad utilizado k - 1 nuevas caracteristicas. Siendo k el numero de posibles valores distintos para la caracteristica categorica.

Si se tiene tantas categorias de las que 5 son importantes y las otras no pues seria un k = 6 y se pueden tratar como un modelo de bits. tipo:

$
1 \rightarrow [0,0,0,0,0]  \\
2 \rightarrow [0,0,0,0,1]  \\
3 \rightarrow [0,0,0,1,0]  \\
4 \rightarrow [0,0,1,0,0]  \\
5 \rightarrow [0,1,0,0,0]  \\
6 \rightarrow [1,0,0,0,0]  \\
$

Cada categoría se representa por un vector donde solo una posición es 1 (indicando la presencia de esa categoría) y el resto son 0.  
En el caso de Dummy Coding, se utiliza k-1 columnas para evitar redundancia y problemas de multicolinealidad. Por ejemplo, para 6 categorías, solo se crean 5 columnas y la categoría que tenga todos ceros se interpreta como la sexta categoría.


## Escalado y estandarizacion caracteristicas
Los algoritmos de machine learning no funcionan correctamente cuando los valores de los atributos numericos tienen diferentes escalas.

Existen dos mecanismos principales para igualar la escala de los valores: `min-max scaling (normalizacion)` y `estandarizacion`.

### Normalizacion
Escalar los valores en escalas numericas con escalas muy dispares entre 0 y 1, esto se calcula restando el valor minimo y dividiendo por el maximo menos el minimo.

### Estandarizacion
Se refiere a cambiar cada caracteristica para cambiar la media a 0 y la desviacion estandar a 1. Se calcula restando el valor medio y dividiendo el resultado por la desviacion estandar.

## Desequilibrio de los datos
En muchos casos de uso relacionados con la ciberseguridad, sucederá que dispondremos de un conjunto de datos con un 0.1% de ejemplos positivos(malos) y un 99.9% de ejemplos negativos(buenos)
* Repetir los ejemplos de casos positivos en el conjunto de datos para balancear la proporción (oversample)
* Seleccionar un subconjunto de la clase mayoritaria para balancear la proporción (undersample)
* Modificar la función de error para que cada ejemplo de la clase minoritaria tenga más influencia en el modelo

