# Preparación de datos

En un proyecto de modelado predictivo, como clasificación o regresión, los datos sin procesar normalmente no pueden
usarse directamente. Esto se debe a razones tales como:

- Los algoritmos de ML requieren que los datos sean números.
- Algunos algoritmos imponen requisitos a los datos.
- Es posible que sea necesario corregir el ruido estadístico y los errores en los datos.
- Las relaciones no lineales complejas pueden extraerse de los datos.

## Pasos de un proyecto de ML
1. **Definir el problema:** aprender lo suficiente sobre el proyecto para seleccionar el encuadre de la tarea de predicción.
2. **Preparar datos:** transformar los datos sin procesar que se recopilaron y que se pueden usar en el modelado.
3. **Evaluar modelos:** evaluar modelos de ML en los datos. Requiere que se diseñen pruebas robustas para evaluar los modelos, y se usen para seleccionar entre los modelos evaluados.
4. **Finalizar el modelo:** seleccionar y usar un modelo final.

Es habitual ir atrás y adelante en estos paso para un proyecto determinado.

## Definir el problema
El paso previo a la preparación de los datos consiste en definir el problema, que puede incluir:
- Recopilar datos del dominio del problema.
- Discutir el proyecto con expertos en la materia.
- Seleccionar aquellas variables que se utilizarán como entradas y salidas para un modelo predictivo.
- Revisar los datos que se han recopilado.
- Resumir los datos recopilados utilizando métodos estadísticos.
- Visualizar los datos recopilados mediante diagramas y gráficos.


## Tareas de preparación de datos
- **Limpieza de datos:** Identificar y corregir faltas o errores en los datos.
- **Selección de características:** identificar aquellas variables de entrada que son más relevantes para la tarea.
- **Transformaciones de datos:** Cambiar la escala o distribución de variables.
- **Ingeniería de características:** derivación de nuevas variables a partir de los datos disponibles.
- **Reducción de dimensionalidad:** Creación de proyecciones compactas de los datos.

Puede haber mucha interacción entre la definición del problema y la preparación de los datos.

## Escoger las técnicas de preparación de datos
- La información conocida sobre los datos se puede utilizar para seleccionar y configurar métodos de preparación de datos.
    > Por ejemplo,\
        - las gráficas de los datos pueden ayudar a identificar si una variable tiene valores atípicos.
        - Esto puede ayudar en las operaciones de limpieza de datos.
        - Puede proporcionar información sobre la distribución subyace a los datos.
        - Y a determinar si serían apropiadas transformaciones de datos que cambian la distribución de una variable.
- Los métodos estadísticos, como las estadísticas descriptivas, se pueden utilizar para determinar si se pueden requerir operaciones de escalado. 
- Las pruebas de hipótesis estadísticas se pueden utilizar para determinar si una variable coincide con una distribución de probabilidad dada.
- Las gráficas y estadísticas por pares se pueden usar para determinar si las variables están relacionadas y, de ser así, en qué medida, proporcionando información sobre si una o más variables son redundantes o irrelevantes para la variable de destino.

## Evaluación del modelo
Puede incluir tareas como:
- Seleccionar una métrica de rendimiento para evaluar la habilidad predictiva del modelo.
- Seleccionar un modelo de procedimiento de evaluación.
- Seleccionar algoritmos a evaluar.
- Tunear los Hiperparámetros del algoritmo.
- Combinar modelos predictivos en conjuntos.

También puede haber interacción entre el paso de preparación de datos y la evaluación de modelos.

### Referencia:
D⁠a⁠t⁠a⁠ ⁠P⁠r⁠e⁠p⁠a⁠r⁠a⁠t⁠i⁠on⁠ ⁠f⁠o⁠r⁠ ⁠⁠M⁠a⁠c⁠h⁠i⁠n⁠e⁠ ⁠L⁠e⁠a⁠r⁠n⁠i⁠n⁠g. Jason Brownlee. 2020.