# Preprocesamiento de datos

El preprocesamiento de datos es un paso fundamental en el aprendizaje automático. Implica limpiar y transformar los datos sin procesar en un formato adecuado para el modelado.

## Temas tratados:
- Limpieza de datos
- Escalado de características
- Codificación de variables categóricas
- División de datos

## Limpieza de datos

La limpieza de datos implica gestionar los valores faltantes, eliminar duplicados y corregir inconsistencias.

## Escalado de características

El escalado de características garantiza que las características contribuyan de manera equitativa al modelo. Las técnicas comunes incluyen la normalización y la estandarización.

## Codificación de variables categóricas

Los algoritmos de aprendizaje automático requieren una entrada numérica, por lo que las variables categóricas deben codificarse en números.

## División de datos

Normalmente dividimos los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento de nuestro modelo.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Sample Data
data = pd.DataFrame({
    'Edad': [22, 25, 47, 52],
    'Salario': [15000, 29000, 45000, 50000],
    'Compras': ['No', 'Si', 'No', 'Si']
})

# Limpieza de datos (Data Cleaning)
data = data.drop_duplicates()

# Escalado de características (Feature Scaling)
scaler = StandardScaler()
data[['Edad', 'Salario']] = scaler.fit_transform(data[['Edad', 'Salario']])

# Codificación de variables categóricas (Encoding Categorical Variables)
# sparse is deprecated, use sparse_output instead
encoder = OneHotEncoder(sparse_output=False, drop='first')
encoded_features = encoder.fit_transform(data[['Compras']])
encoded_df = pd.DataFrame(encoded_features, columns=encoder.get_feature_names_out())

# Combinando Datos (Combining Data)
data = pd.concat([data[['Edad', 'Salario']], encoded_df], axis=1)

# División de datos (Splitting Data)
X_train, X_test, y_train, y_test = train_test_split(data.drop('Compras_Si', axis=1), data['Compras_Si'], test_size=0.2)

## Ejercicio 1: Limpieza de datos

* Cargue un conjunto de datos ejemplo, un archivo CSV) e identifique los valores faltantes. Trate los valores faltantes de manera adecuada.

## Ejercicio 2: Escalado de características

* Aplique el escalado de características a un conjunto de datos con características numéricas. Compare los resultados antes y después del escalado.

## Ejercicio 3: Codificación de variables categóricas

* Codifique las variables categóricas en un conjunto de datos e incluya las columnas codificadas en el DataFrame final.

## Ejercicio 4: División de datos

* Divida un conjunto de datos en conjuntos de entrenamiento y prueba. Asegúrese de que los datos estén divididos de manera que se mantenga la distribución de las clases de destino.

In [1]:
import pandas as pd
import requests
import zipfile

# URL donde esta el archivo CSV
url = 'https://www.inegi.org.mx/contenidos/programas/enoe/datosabiertos/enoe.zip'


FileNotFoundError: [Errno 2] No such file or directory: '/content/file.zip'

In [None]:
zip_filename = '/content/file.zip'

# Bajar el archivo a la sesion de colab
response = requests.get(url)
with open(zip_filename, 'wb') as f:
    f.write(response.content)

# Extract the ZIP file
with zipfile.ZipFile(zip_filename, 'r') as zip_ref:
    # Extract all the contents into the /content directory
    zip_ref.extractall('/content')

In [None]:
# Solución al ejercicio de limpieza de datos
data =  pd.read_csv(url)
data = data.dropna()  # Manejo de valores faltantes mediante la eliminación de filas

# Explorar el DataFrame
print("Primeras 5 filas:")
print(data.head())

print("\nInformación del DataFrame:")
print(data.info())

print("\nEstadísticas de resumen:")
print(data.describe(include='all'))

print("\nNombres de columnas:")
print(data.columns)

print("\nTipos de datos:")
print(data.dtypes)

print("\nValores faltantes:")
print(data.isnull().sum())

print("\nValores únicos en una columna (p. ej., 'columna_de_ejemplo'):")
print(data['Unidad_involucrada'].unique())

print("\nRecuentos de valores en una columna (p. ej., 'columna_de_ejemplo'):")
print(data['Unidad_involucrada'].value_counts())

print("\nNúmero de filas duplicadas:")
print(data.duplicated().sum())

print("\nMuestra aleatoria de filas:")
print(data.sample(5))

print("\nForma del DataFrame:")
print(data.shape)

ValueError: Multiple files found in ZIP file. Only one file per ZIP: ['2017_enoe_csv.zip', '2018_enoe_csv.zip', '2019_enoe_csv.zip']

In [None]:
# Solución al ejercicio de escalamiento de características
data[['Feature1', 'Feature2']] = scaler.fit_transform(data[['Feature1', 'Feature2']])

# Solución al ejercicio de codificación de variables categóricas
encoded_df = encoder.fit_transform(data[['Dano_agraviado']])
data = pd.concat([data, pd.DataFrame(encoded_df, columns=encoder.get_feature_names_out())], axis=1)

# Solución al ejercicio de división de datos
X_train, X_test, y_train, y_test = train_test_split(data.drop('target', axis=1), data['target'], test_size=0.2)

In [None]:
from ipywidgets import interact

def preprocess_data(option):
    if option == 'Standardize':
        data[['Age', 'Salary']] = scaler.fit_transform(data[['Age', 'Salary']])
    elif option == 'Normalize':
        data[['Age', 'Salary']] = data[['Age', 'Salary']] / data[['Age', 'Salary']].max()

interact(preprocess_data, option=['Standardize', 'Normalize'])