**Contexto:**

¡Bienvenidos al mundo de las compras en Estambul! Nuestro conjunto de datos contiene información sobre compras realizadas en 10 centros comerciales diferentes entre 2021 y 2023. Hemos recopilado datos de diversos grupos de edad y géneros para ofrecer una visión integral de los hábitos de compra en Estambul. El conjunto de datos incluye información esencial como números de factura, IDs de clientes, edad, género, métodos de pago, categorías de productos, cantidad, precio, fechas de pedido y ubicaciones de los centros comerciales. Esperamos que este conjunto de datos sea un recurso valioso para investigadores, analistas de datos y entusiastas del aprendizaje automático que deseen obtener información sobre las tendencias y patrones de compra en Estambul. ¡Explora el conjunto de datos y descubre el fascinante mundo de las compras en Estambul!

**Contenido:**

**Información de los atributos:**

- **invoice_no:** Número de factura. Nominal. Una combinación de la letra 'I' y un entero de 6 dígitos asignado de manera única a cada operación.
- **customer_id:** Número de cliente. Nominal. Una combinación de la letra 'C' y un entero de 6 dígitos asignado de manera única a cada operación.
- **gender:** Variable de tipo cadena que indica el género del cliente.
- **age:** Variable de tipo entero positivo que indica la edad del cliente.
- **category:** Variable de tipo cadena que indica la categoría del producto comprado.
- **quantity:** Cantidad de cada producto (artículo) por transacción. Numérico.
- **price:** Precio unitario. Numérico. Precio del producto por unidad en Liras Turcas (TL).
- **payment_method:** Variable de tipo cadena que indica el método de pago (efectivo, tarjeta de crédito o tarjeta de débito) utilizado para la transacción.
- **invoice_date:** Fecha de la factura. El día en que se generó la transacción.
- **shopping_mall:** Variable de tipo cadena que indica el nombre del centro comercial donde se realizó la transacción.

In [1]:
import pandas as pd 
import numpy as np

In [9]:
url='/home/julio/jupyter_files/MLM_CustomerShoppingDataset/customer_shopping_data.csv'
df=pd.read_csv(url)

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99457 entries, 0 to 99456
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   invoice_no      99457 non-null  object 
 1   customer_id     99457 non-null  object 
 2   gender          99457 non-null  object 
 3   age             99457 non-null  int64  
 4   category        99457 non-null  object 
 5   quantity        99457 non-null  int64  
 6   price           99457 non-null  float64
 7   payment_method  99457 non-null  object 
 8   invoice_date    99457 non-null  object 
 9   shopping_mall   99457 non-null  object 
dtypes: float64(1), int64(2), object(7)
memory usage: 7.6+ MB


**Importar librerías**

In [10]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [11]:
# Suponiendo que ya has cargado el DataFrame 'df'
X = df.drop(columns=['price'])
y = df['price']

Codificación de variables categóricas y estandarización de variables numéricas

In [12]:
# Identificar las columnas categóricas y numéricas
categorical_cols = ['invoice_no', 'customer_id', 'gender', 'category', 'payment_method', 'invoice_date', 'shopping_mall']
numerical_cols = ['age', 'quantity']

# Preprocesador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_cols),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_cols)
    ])

# Creamos el pipeline con el preprocesador y el modelo de regresión lineal
model = Pipeline(steps=[('preprocessor', preprocessor),
                        ('regressor', LinearRegression())])


In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


**Entrenamiento y evaluación del modelo inicial**

In [15]:
# Entrenar el modelo
model.fit(X_train, y_train)

# Predicciones
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

In [16]:
# Evaluación inicial
def evaluate_model(y_true, y_pred):
    mse = mean_squared_error(y_true, y_pred)
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    return mse, mae, r2

In [17]:
train_metrics = evaluate_model(y_train, y_pred_train)
test_metrics = evaluate_model(y_test, y_pred_test)

print(f'Training Metrics: MSE: {train_metrics[0]}, MAE: {train_metrics[1]}, R2: {train_metrics[2]}')
print(f'Test Metrics: MSE: {test_metrics[0]}, MAE: {test_metrics[1]}, R2: {test_metrics[2]}')

Training Metrics: MSE: 0.04052679598407734, MAE: 0.12137019325537315, R2: 0.9999999540425443
Test Metrics: MSE: 140898.98596985044, MAE: 251.38517937460597, R2: 0.8437492690951172


**Probar otros modelos de regresión (Ridge, Lasso, ElasticNet)**

In [None]:
ridge = Pipeline(steps=[('preprocessor', preprocessor),
                        ('regressor', Ridge())])
# Entrenar los modelos
ridge.fit(X_train, y_train)

In [None]:
lasso = Pipeline(steps=[('preprocessor', preprocessor),
                        ('regressor', Lasso())])
lasso.fit(X_train, y_train)

In [18]:



elasticnet = Pipeline(steps=[('preprocessor', preprocessor),
                             ('regressor', ElasticNet())])
elasticnet.fit(X_train, y_train)

In [None]:
# Entrenar los modelos
ridge.fit(X_train, y_train)
lasso.fit(X_train, y_train)
elasticnet.fit(X_train, y_train)

In [None]:
# Evaluación
ridge_metrics = evaluate_model(y_test, ridge.predict(X_test))
lasso_metrics = evaluate_model(y_test, lasso.predict(X_test))
elasticnet_metrics = evaluate_model(y_test, elasticnet.predict(X_test))

print(f'Ridge Metrics: MSE: {ridge_metrics[0]}, MAE: {ridge_metrics[1]}, R2: {ridge_metrics[2]}')
print(f'Lasso Metrics: MSE: {lasso_metrics[0]}, MAE: {lasso_metrics[1]}, R2: {lasso_metrics[2]}')
print(f'ElasticNet Metrics: MSE: {elasticnet_metrics[0]}, MAE: {elasticnet_metrics[1]}, R2: {elasticnet_metrics[2]}')