<a href="https://colab.research.google.com/github/SantospemIT/JetBrains/blob/master/pipelines_preprocesamiento_ia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Los pipelines para preprocesamiento son una herramienta poderosa en aprendizaje automático que permite encadenar varias operaciones de preprocesamiento de datos de forma secuencial. Estos pipelines pueden incluir transformaciones como:

Normalización o estandarización de características: Asegura que todas las características tengan la misma escala, lo que es crucial para muchos algoritmos de aprendizaje automático.

Imputación de valores faltantes: Rellena los valores faltantes en los datos con algún valor apropiado, como la media o la mediana de la característica.

Codificación de variables categóricas: Convierte variables categóricas en representaciones numéricas que puedan ser utilizadas por algoritmos de aprendizaje automático.

Selección de características: Selecciona un subconjunto relevante de características para el modelo.

Reducción de dimensionalidad: Reduce la dimensionalidad de los datos manteniendo la mayor cantidad posible de información.

La ventaja clave de utilizar pipelines es que permite encapsular todo el flujo de preprocesamiento en un solo objeto, lo que facilita la replicación del flujo en nuevos conjuntos de datos y la automatización de tareas. Además, los pipelines garantizan que las transformaciones se apliquen de manera coherente y en el orden correcto.

Algunas bibliotecas populares en Python para trabajar con pipelines son scikit-learn y TensorFlow. Estas bibliotecas proporcionan clases y funciones específicas para construir y gestionar pipelines de preprocesamiento de datos.

**Ejemplo:**
Claro, aquí tienes un ejemplo básico de cómo se puede usar Pipeline de scikit-learn en Python para encadenar varias etapas de preprocesamiento de datos y entrenar un modelo de regresión lineal

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

# Supongamos que tienes un conjunto de datos con algunas características (X) y sus etiquetas correspondientes (y)
X = [[1, 2, np.nan], [3, np.nan, 4], [5, 6, 7]]
y = [10, 20, 30]

# Dividimos los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Creamos un pipeline que consta de dos etapas: imputación de valores faltantes y estandarización de características
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),  # Completa los valores faltantes con la media de la columna
    ('scaler', StandardScaler())  # Estandariza las características para que tengan media cero y varianza unitaria
])

# Aplicamos el pipeline al conjunto de entrenamiento y lo transformamos
X_train_transformed = pipeline.fit_transform(X_train)

# Entrenamos un modelo de regresión lineal usando los datos transformados
model = LinearRegression()
model.fit(X_train_transformed, y_train)

# Evaluamos el modelo en el conjunto de prueba
X_test_transformed = pipeline.transform(X_test)
y_pred = model.predict(X_test_transformed)
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio:", mse)


Error cuadrático medio: 56.25000000000006


En este ejemplo:

* Creamos un pipeline con dos etapas: SimpleImputer para imputar valores faltantes y StandardScaler para estandarizar las características.

* Aplicamos el pipeline al conjunto de entrenamiento usando fit_transform.

* Entrenamos un modelo de regresión lineal con los datos transformados.

* Evaluamos el modelo en el conjunto de prueba usando el error cuadrático medio como métrica de evaluación.

Este es solo un ejemplo básico de cómo usar Pipeline en scikit-learn. Dependiendo de los requisitos específicos de tu problema, puedes personalizar y expandir el pipeline con diferentes transformaciones y modelos.

Ejemplo:

* Usamos ColumnTransformer para aplicar diferentes transformaciones a las características numéricas y categóricas.

* Creamos un pipeline que incluye el preprocesamiento de datos y un clasificador RandomForest.

* Dividimos los datos en conjuntos de entrenamiento y prueba.

* Entrenamos el pipeline en los datos de entrenamiento y evaluamos su precisión en los datos de prueba.

Este ejemplo ilustra cómo puedes construir un pipeline más complejo con diferentes transformaciones y modelos en un problema de clasificación.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

# Supongamos que tenemos un conjunto de datos con características numéricas y categóricas, y la variable objetivo es binaria
data = pd.read_csv('datos.csv')

# Dividimos los datos en características (X) y la variable objetivo (y)
X = data.drop(columns=['target'])
y = data['target']

# Definimos las columnas numéricas y categóricas
numeric_features = X.select_dtypes(include=['int', 'float']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# Creamos transformadores para las características numéricas y categóricas
numeric_transformer = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),  # Imputa valores faltantes con la media
    ('scaler', StandardScaler())  # Estandariza las características
])

categorical_transformer = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Imputa valores faltantes con la moda
    ('onehot', OneHotEncoder(handle_unknown='ignore'))  # Codifica las características categóricas en vectores one-hot
])

# Combinamos los transformadores utilizando ColumnTransformer
preprocessor = ColumnTransformer([
    ('num', numeric_transformer, numeric_features),
    ('cat', categorical_transformer, categorical_features)
])

# Creamos el pipeline completo con el preprocesamiento y un clasificador RandomForest
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))
])

# Dividimos los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenamos el pipeline en los datos de entrenamiento
pipeline.fit(X_train, y_train)

# Evaluamos el pipeline en los datos de prueba
y_pred = pipeline.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo:", accuracy)


FileNotFoundError: [Errno 2] No such file or directory: 'datos.csv'

**Problema de aplicación:**

**Problema: Predicción de precios de viviendas**

Supongamos que trabajas para una empresa de bienes raíces y deseas construir un modelo para predecir los precios de las viviendas en función de varias características. Tienes un conjunto de datos que incluye características como el tamaño de la vivienda, el número de habitaciones, la ubicación, el año de construcción, etc.

El conjunto de datos contiene una combinación de características numéricas y categóricas, así como algunos valores faltantes en algunas características.

**Objetivo:**

Construir un modelo predictivo que pueda predecir el precio de una vivienda en función de sus características.

**Pasos a seguir:**


* Preprocesamiento de datos: manejar los valores faltantes: imputar valores faltantes en características numéricas utilizando la media y en características categóricas utilizando la moda.
Codificar características categóricas: utilizar codificación one-hot para convertir características categóricas en variables binarias.
Estandarización: estandarizar características numéricas para que tengan una media de 0 y una desviación estándar de 1.
Entrenamiento del modelo:

* Dividir los datos en conjuntos de entrenamiento y prueba.
Entrenar un modelo de regresión (por ejemplo, regresión lineal, árboles de decisión, random forest) en los datos de entrenamiento.

* Evaluación del modelo: Evaluar el rendimiento del modelo en los datos de prueba utilizando métricas como el error cuadrático medio (MSE), el coeficiente de determinación (R^2), etc.
Ajustar hiperparámetros del modelo si es necesario para mejorar el rendimiento.

* Despliegue del modelo: Implementar el modelo entrenado en producción para que pueda ser utilizado para hacer predicciones sobre el precio de las viviendas nuevas.

* Beneficios: Al construir un modelo predictivo, la empresa de bienes raíces puede ayudar a los clientes a determinar el precio de venta adecuado para sus propiedades.

También puede proporcionar información valiosa sobre qué características influyen más en el precio de una vivienda, lo que puede ser útil para los agentes inmobiliarios y los compradores potenciales.

In [None]:
#Una posible solución
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt

# Cargar los datos
url='https://raw.githubusercontent.com/jofsanchezci/Datos_Explo_IA/main/datos_viviendas.csv'
data = pd.read_csv(url)

# Dividir datos en características (X) y etiquetas (y)
X = data.drop(columns=['PrecioVenta'])
y = data['PrecioVenta']

# Dividir datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Preprocesamiento de datos
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Construir pipeline
pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                            ('regressor', RandomForestRegressor())])

# Entrenar modelo
pipeline.fit(X_train, y_train)

# Predicciones en el conjunto de prueba
y_pred = pipeline.predict(X_test)

# Evaluar modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f'MSE: {mse}')
print(f'R^2: {r2}')

# Visualizar importancia de características
feat_importances = pipeline.named_steps['regressor'].feature_importances_
feature_names = numeric_features.tolist() + \
    list(pipeline.named_steps['preprocessor'].named_transformers_['cat'].named_steps['onehot'].get_feature_names(input_features=categorical_features))

#sorted_idx = np.argsort(feat_importances)[-10:]
plt.figure(figsize=(10, 6))
plt.barh(range(len(sorted_idx)), feat_importances[sorted_idx], align='center')
plt.yticks(range(len(sorted_idx)), [feature_names[i] for i in sorted_idx])
plt.xlabel('Importancia relativa')
plt.title('Importancia de características')
plt.show()
