# Preparación de los datos:

In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder

# Carga los datos desde el archivo CSV
data = pd.read_csv("../data/bike_buyers.csv")
data.dropna()
# Lidiar con valores faltantes
imputer = SimpleImputer(strategy='mean')  # Reemplaza los valores faltantes con la media
data['Income'] = imputer.fit_transform(data[['Income']])
data['Children'] = imputer.fit_transform(data[['Children']])
data['Age'] = imputer.fit_transform(data[['Age']])

# Codificar variables categóricas
encoder = OneHotEncoder(drop='first', sparse=False)  # Codifica variables categóricas en variables numéricas
categorical_cols = ['Marital Status', 'Gender', 'Education', 'Occupation', 'Home Owner', 'Commute Distance', 'Region']
encoder = OneHotEncoder(drop='first', sparse=False)
encoded_cols = pd.DataFrame(encoder.fit_transform(data[categorical_cols]))
encoded_cols.columns = encoder.get_feature_names_out(categorical_cols)
data = pd.concat([data.drop(categorical_cols, axis=1), encoded_cols], axis=1)


# Dividir los datos en conjunto de entrenamiento y prueba
X = data.drop('Purchased Bike', axis=1)
y = data['Purchased Bike']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)




# Selección de la técnica de Data Mining:

In [7]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

from sklearn.pipeline import make_pipeline

# Crear un pipeline que incluya la imputación y el modelo de regresión logística
pipeline = make_pipeline(
    SimpleImputer(strategy='mean'),  # Estrategia de imputación para reemplazar NaN con la media
    LogisticRegression()
)

# Entrenar el modelo utilizando el pipeline
pipeline.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = pipeline.predict(X_test)

# Evaluar el modelo
print(classification_report(y_test, y_pred))



              precision    recall  f1-score   support

          No       0.57      0.63      0.60       106
         Yes       0.53      0.47      0.50        94

    accuracy                           0.56       200
   macro avg       0.55      0.55      0.55       200
weighted avg       0.55      0.56      0.55       200

