# Preparación de datos 

![preparaciondatos.png](attachment:3ce67564-1595-4409-8110-a3868a382940.png)

La preparación de los datos es una fase crucial en el proceso de desarrollo de un modelo de Machine Learning. Consiste en limpiar, transformar y estructurar los datos para que puedan ser utilizados de manera efectiva en el entrenamiento del modelo. Esta etapa impacta directamente en el rendimiento del modelo, ya que los datos deben ser de alta calidad y adecuados para el tipo de algoritmo que se va a utilizar.

## Pasos en preparación de los datos

## 1. Recolección de Datos:
La preparación comienza con la obtención de datos. Los datos pueden provenir de diferentes fuentes como archivos CSV, bases de datos, API, encuestas, etc.

Ejemplo: Descargar un archivo CSV con datos de ventas de productos o acceder a una base de datos de transacciones bancarias.

## 2. Limpieza de Datos:
Esta etapa implica eliminar o corregir datos erróneos, incompletos o irrelevantes para asegurar que los datos sean consistentes.

### Tareas comunes:

Manejo de valores faltantes: Los valores nulos o vacíos deben ser manejados (puedes eliminarlos o imputarlos con un valor medio, mediano, etc.).
Eliminación de duplicados: Asegurarse de que no haya registros repetidos en el conjunto de datos.
Detección de outliers: Identificar y tratar valores atípicos que pueden influir negativamente en el modelo.

## 3. Transformación de Datos:
Aquí los datos se ajustan a un formato adecuado para el modelo. Esto puede incluir la normalización o escalado de características, conversión de tipos de datos y la creación de nuevas características.

### Tareas comunes:

Escalado de características: Algunas técnicas de Machine Learning (como SVM o redes neuronales) son sensibles a la escala de los datos, por lo que puede ser necesario escalar las características (por ejemplo, normalizando entre 0 y 1 o estandarizando a media 0 y desviación estándar 1).
Codificación de variables categóricas: Convertir variables categóricas en variables numéricas, por ejemplo, utilizando One-Hot Encoding o Label Encoding.
Creación de nuevas características: A veces es útil generar nuevas variables a partir de las existentes, como transformar fechas en años, meses o días.
Ejemplo de normalización:

# One hot encoding

El One-Hot Encoding es una técnica de transformación utilizada en Machine Learning para convertir variables categóricas (aquellas que toman un número limitado de valores, como colores, tipos de producto, etc.) en variables numéricas. Esta técnica es esencial porque la mayoría de los algoritmos de Machine Learning requieren que las características sean numéricas.

¿Cómo funciona el One-Hot Encoding?
Supongamos que tienes una columna de datos categóricos llamada "Color" con los siguientes valores: Rojo, Verde, y Azul. El objetivo del One-Hot Encoding es convertir estos valores en columnas binarias (0 o 1), donde cada columna representa una categoría posible.

![encoding.png](attachment:ea0abbcd-bb90-4484-adab-83b2050b2347.png)

## En el ejemplo anterior:

Rojo se convierte en [1, 0, 0].
Verde se convierte en [0, 1, 0].
Azul se convierte en [0, 0, 1].
Cada fila original se convierte en un conjunto de nuevas columnas binarias, donde:

1 indica que la fila pertenece a esa categoría.
0 indica que la fila no pertenece a esa categoría.

## Beneficios de One-Hot Encoding:

Representación Numérica: Convierte las categorías en números que los algoritmos de Machine Learning pueden procesar.
Sin Implicar Orden: A diferencia de la codificación de etiquetas (Label Encoding), One-Hot Encoding no implica un orden entre las categorías. Por ejemplo, en un conjunto de colores, no tiene sentido asignar el número 1 a "Rojo", 2 a "Verde" y 3 a "Azul", ya que no hay una relación ordinal entre ellos.
Mejora del Rendimiento: En algunos algoritmos como árboles de decisión o redes neuronales, la técnica de One-Hot Encoding puede mejorar la interpretación y el rendimiento, ya que las categorías se representan como vectores binarios independientes.

Desventajas:
Aumento de la Dimensionalidad: Si tienes una columna con muchas categorías únicas, la matriz resultante puede ser muy grande y es posible que tengas problemas de alta dimensionalidad.
Sparsity (Escasez de datos): La representación en la que la mayoría de los valores son 0 puede causar que los datos sean dispersos, lo que puede ser ineficiente para almacenar y procesar.
Implementación en Python (con Pandas):
Para realizar One-Hot Encoding en un DataFrame, puedes usar la función get_dummies de Pandas.

import pandas as pd

# Crear un DataFrame con una columna categórica
data = {'Color': ['Rojo', 'Verde', 'Azul', 'Rojo']}
df = pd.DataFrame(data)

# Aplicar One-Hot Encoding usando pd.get_dummies()
df_encoded = pd.get_dummies(df, columns=['Color'])

print(df_encoded)

![salidaEncoding.png](attachment:97f55ce1-fec2-43b3-9477-12fe669b070f.png)

In [3]:
import pandas as pd
data = {
    'Color': ['Rojo', 'Verde', 'Azul', 'Rojo']
}
df = pd.DataFrame(data)
print(df)
df_encoded = pd.get_dummies(df, columns=['Color'])
df_encoded = df_encoded.astype(int)     #Convierte valores logicos al typo int
print(df_encoded)

   Color
0   Rojo
1  Verde
2   Azul
3   Rojo
   Color_Azul  Color_Rojo  Color_Verde
0           0           1            0
1           0           0            1
2           1           0            0
3           0           1            0


# Escalado de los datos y mecanismos de normalizacion y standarización
- Normalizacion es escalar los valores entere 0 y 1 (value_Xi - min_xi)/max_xi
- standarización: Se refiere a cambiar la distribución de cada caracteristica para que tenga una media de cero y una desviacion estandar de 1

Problema de desequilibrio de los datos
- undersample
- oversample
-Solución


