# Preprocesamiento de datos

Es el conjunto de técnicas y operaciones aplicadas a los datos antes de ser utilizados en un análisis o modelo de machine learning. 

El objetivo principal del preprocesamiento es limpiar, transformar y estructurar los datos para que sean adecuados y puedan ser interpretados de manera efectiva por los algoritmos de aprendizaje automático.

A continuación, se presenta un orden comúnmente seguido en el preprocesamiento de datos:

- **Limpieza de datos:** Eliminar o manejar los datos faltantes, eliminar duplicados y corregir posibles errores en los datos.

- **Normalización de variables:** Ajustar las escalas de las variables para que tengan un rango similar, como la estandarización (mean=0, std=1).

- **Codificación de variables categóricas:** Convertir variables categóricas en representaciones numéricas adecuadas para su procesamiento, como la codificación one-hot o la codificación ordinal.

- **Manejo de valores atípicos:** Identificar y tratar los valores atípicos que pueden afectar negativamente el análisis o el modelo.

- **Selección de características:** Seleccionar las características más relevantes para el análisis o el modelo de machine learning, descartando las que aportan poca información.

- **Reducción de dimensionalidad:** Si el conjunto de datos es de alta dimensionalidad, aplicar técnicas de reducción de dimensionalidad, como PCA (Análisis de Componentes Principales) o LDA (Análisis Discriminante Lineal).

- **División de datos:** Separar los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo.

## Sustituir valores faltantes

La forma mas sencilla de sustitución es reemplazar los valores faltantes por una constante (0), la media, la mediana o la moda.

- **Media:** La media es una medida adecuada para variables numéricas que siguen una distribución normal o aproximadamente simétrica. Si la variable no presenta valores atípicos o la distribución no está sesgada, la imputación por media puede ser una opción razonable.

- **Mediana:** La mediana es una medida robusta que no se ve afectada por valores atípicos o distribuciones sesgadas. Es una opción más adecuada para variables numéricas con valores extremos o sesgos.

- **Moda:** La moda se utiliza para variables categóricas o variables con datos categóricos, como variables categóricas nominales o variables con valores discretos. 

In [None]:
import pandas as pd

air_quality = pd.read_csv('datasets/air-quality.csv')
air_quality.info()

Utilizando el metodo *info()* podemos observar que hay valores faltantes en la columna *Ozone* y en la columna *Solar*.

Revisaremos si existe algún *sesgo* en la columna *Ozone*

In [None]:
air_quality.hist('Ozone')

Existe un sesgo hacia la izquierda, por lo que es recomendable sustituir los valores faltantes de esta columna por la mediana

In [None]:
air_quality['Ozone'] = air_quality['Ozone'].fillna(air_quality['Ozone'].median())
air_quality.info()

## Normalización


La normalización es un proceso utilizado en el preprocesamiento de datos para ajustar los valores de una variable en un rango específico.

La normalización es útil cuando se trabaja con variables numéricas que tienen diferentes rangos y distribuciones. Al normalizar los datos, se puede garantizar que todas las variables estén en el mismo rango, evitando que una variable con valores más grandes o más pequeños domine el análisis.

In [None]:
import pandas as pd
wines = pd.read_csv('./datasets/wine_types.csv')
wines.head()

### Normalización logaritmica

Es una técnica utilizada para transformar variables que tienen una alta varianza


In [None]:
wines.var()

En este caso se aplicara la normalización a la columna *Proline* y a la columna *Magnesium*

In [None]:
import numpy as np
wines[['Proline', 'Magnesium']] = wines[['Proline', 'Magnesium']].agg(np.log)

In [None]:
wines.var()

### Estandarización 

 La estandarización ajusta los valores de una variable para que tengan una media de 0 y una desviación estándar de 1. 
 
 Esto se logra restando la media de la variable y dividiendo por la desviación estándar.

In [None]:
wines.describe()

Podemos observar que los valores minimos y maximos de cada columna estan a escalas diferentes, vamos a arreglar eso estandarizando.

In [None]:
wines = (wines -wines.mean()) / wines.std()
wines.describe()

## Codifiación de variables categorícas

La codificación de variables categóricas, también conocida como "encoding" en inglés, se refiere al proceso de convertir variables categóricas (como texto o etiquetas) en una forma numérica que pueda ser utilizada por algoritmos de aprendizaje automático.

Las variables categóricas representan características o atributos que no tienen un orden inherente, como el género (masculino, femenino), el estado civil (soltero, casado, divorciado), la ciudad de residencia (Nueva York, Los Ángeles, Chicago), etc.

### One Hot Enconding

Es una técnica de codificación de variables categóricas que se utiliza para convertir variables categóricas en una representación binaria numérica. 

Esta técnica crea columnas binarias separadas para cada categoría en la variable categórica.

In [None]:
import pandas as pd
import pandas as pd

data = {
    'Estudiante': ['Estudiante 1', 'Estudiante 2', 'Estudiante 3', 'Estudiante 4', 'Estudiante 5', 'Estudiante 6', 'Estudiante 7', 'Estudiante 8', 'Estudiante 9', 'Estudiante 10'],
    'Nacionalidad': ['España', 'Francia', 'Alemania', 'España', 'Italia', 'Francia', 'España', 'Italia', 'Alemania', 'Francia'],
    'Asignatura': ['Matemáticas', 'Inglés', 'Historia', 'Matemáticas', 'Matemáticas', 'Inglés', 'Historia', 'Matemáticas', 'Inglés', 'Historia'],
    'Calificación': ['A', 'B', 'C', 'B', 'A', 'C', 'B', 'A', 'C', 'B'],
    'Beca': ['No', 'No', 'Sí', 'No', 'Sí', 'Sí', 'No', 'No', 'Sí', 'Sí']
}

df = pd.DataFrame(data)
df

#### Codificación de variables de entrada

Al codificar las variables de entrada se utiliza la tecnica ***drop_first***.

En esta técnica, se elimina una de las columnas binarias generadas durante el One-Hot Encoding para cada variable categórica. Al eliminar una columna, se evita la redundancia.

La columna que se descarta es generalmente la primera columna generada por el One-Hot Encoding. Al descartar esta columna, se asume implícitamente que si todas las demás columnas binarias tienen el valor 0.

In [None]:
pais = df['Nacionalidad'] 
pais = pd.get_dummies(pais, drop_first=True)
pais

#### Codificación de variables de salida



Al codificar las variables de salida la tecnica ***drop_first*** es opcional y se puede utilizar únicamente si se tienen dos categorías de salida.

In [None]:
output = df['Beca']
output = pd.get_dummies(output, drop_first=True)
output

In [None]:
output = df['Beca']
output = pd.get_dummies(output, drop_first=False)
output