**Descripción de la actividad**

*   En esta última actividad, aplicará las técnicas de regresión y clasificación en conjuntos de datos.
*   Para poder hacer esto, deberá buscar dos datasets diferentes (debidamente referenciados), uno lo utilizará para realizar regresión, el otro lo utilizará para hacer clasificación.
*   Adicionalmente, deberá buscar una técnica de regresión y clasificación diferentes a las vistas en clase y utilizados en el Taller 4.
*   Se recomienda hacer todo el análisis de datos previo que hemos trabajado para poder tener datos limpios y completos que le permitirán hacer regresión y clasificación.



## Técnica de Clasificación: *Regresión Logistica:*


In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import make_column_transformer
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns


#Para cargar el Dataset desde el drive
from google.colab import drive
drive.mount('/content/drive')
file_path = '/content/drive/MyDrive/train.csv'
bmt_train = pd.read_csv(file_path)
drive.mount('/content/drive')
file_path2 = '/content/drive/MyDrive/test.csv'
bmt_test = pd.read_csv(file_path2)

# Atributos que no aportan información significativa para resolver el problema objetivo (sí existen).
bmt_train = bmt_train.drop(["contact", "month", "day", "duration"], axis=1)
bmt_train.head()
# Identificar la variable objetivo y establecerla como la columna 'y'
y = bmt_train['y']
X = bmt_train.drop(['y'], axis=1)

# Dividir los datos en conjunto de entrenamiento y conjunto de prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


# Seleccionar las características numéricas y categóricas para aplicar diferentes transformaciones
numeric_cols = X_train.select_dtypes(include=["float64", "int64"]).columns
categorical_cols = X_train.select_dtypes(include=["object"]).columns

# Crear una transformación para las características numéricas
numeric_transformer = make_pipeline(StandardScaler())

# Crear una transformación para las características categóricas
categorical_transformer = make_pipeline(OneHotEncoder(handle_unknown="ignore"))

# Combinar las transformaciones numéricas y categóricas en un solo transformador de columnas
preprocessor = make_column_transformer((numeric_transformer, numeric_cols),
                                       (categorical_transformer, categorical_cols))

# Crear el modelo de regresión logística
model = make_pipeline(preprocessor, LogisticRegression())

# Entrenar el modelo
model.fit(X_train, y_train)

# Evaluar el modelo con el conjunto de prueba
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

# Visualizar la matriz de confusión
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, cmap='Blues')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()


## Conclusión
Basándonos en la matriz de confusión y el informe de clasificación, podemos decir que el modelo ha obtenido un rendimiento aceptable en términos de precisión (accuracy) y F1-score, ambos alrededor del 90%.

En cuanto a la matriz de confusión, podemos ver que el modelo clasificó correctamente el 89% de los clientes que no suscribieron un depósito a plazo, y el 71% de los clientes que sí lo hicieron. Sin embargo, también cometió algunos errores en la clasificación, como falsos positivos (clientes que no suscribieron un depósito, pero fueron clasificados como si lo hubieran hecho) y falsos negativos (clientes que suscribieron un depósito, pero fueron clasificados como si no lo hubieran hecho).

En general, podemos decir que el modelo es útil para predecir si un cliente suscribirá un depósito a plazo o no, pero podría mejorarse aún más con una mayor selección de características y una optimización más cuidadosa de los parámetros del modelo.

## Técnica de Regresión: *Regresión Lineal* (Modelo visto en clase de IA)

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos Palmer Penguins
penguins = sns.load_dataset('penguins')

# Eliminar las filas con valores faltantes
penguins.dropna(inplace=True)

# Seleccionar las características y el valor objetivo
X = penguins[['bill_length_mm', 'body_mass_g']]
y = penguins['flipper_length_mm']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print(f"Error cuadrático medio: {mse}")

# Imprimir los coeficientes y el intercepto
print(f"Coeficientes: {model.coef_}")
print(f"Intercepto: {model.intercept_}")


Error cuadrático medio: 42.076084373504045
Coeficientes: [0.60314056 0.01252866]
Intercepto: 121.594446852563


En este ejemplo se va utilizar el modelo de regresión lineal en el conjunto de datos "Palmer Penguins" para predecir la longitud de la aleta de los pingüinos en función de la longitud del pico y la masa corporal.

*   Error cuadrático medio: El valor del error cuadrático medio obtenido es de 42.076, lo cual indica que el modelo tiene una discrepancia promedio de aproximadamente 42 unidades al predecir la longitud de la aleta de los pingüinos.
*   Coeficientes: Los coeficientes del modelo son 0.603 para la longitud del pico y 0.013 para la masa corporal. Estos coeficientes indican que, en promedio, un aumento de una unidad en la longitud del pico está asociado con un aumento de aproximadamente 0.603 unidades en la longitud de la aleta, mientras que un aumento de una unidad en la masa corporal está asociado con un aumento de aproximadamente 0.013 unidades en la longitud de la aleta. Esto sugiere que la longitud del pico tiene una influencia más significativa en la longitud de la aleta en comparación con la masa corporal

*   Intercepto: El valor del intercepto del modelo es 121.594. Esto significa que cuando tanto la longitud del pico como la masa corporal son cero, se espera que la longitud de la aleta sea aproximadamente 121.594 unidades.




