In [143]:
import numpy as np
import pandas as pd
import re  # Asegúrate de importar re para el uso de regex en extract_positions
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OneHotEncoder
from math import sqrt

# Configurar las opciones de visualización de pandas (opcional)
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

# Función para limpiar columnas numéricas
def clean_numeric_column(column):
    column_as_str = column.astype(str).str.replace(',', '').str.replace('$', '').str.strip()
    return pd.to_numeric(column_as_str, errors='coerce')

# Extracción de los rangos numéricos de 'Bid Strategy'
def extract_positions(bid_strategy):
    if pd.isna(bid_strategy):
        return np.nan, np.nan
    matches = re.findall(r'\d+', bid_strategy)
    if len(matches) >= 2:
        return int(matches[0]), int(matches[1])
    return np.nan, np.nan

# Rutas completas a los archivos
ruta_train = 'C:/Users/Marcio Pineda/Documents/Archivos Python/datasets/traincase.csv'
ruta_test = 'C:/Users/Marcio Pineda/Documents/Archivos Python/datasets/testcase.csv'

# Cargar los conjuntos de datos
df_train = pd.read_csv(ruta_train)
df_test = pd.read_csv(ruta_test)

# Marcar los conjuntos de datos para poder distinguirlos después de la concatenación
df_train['set'] = 'Not Kaggle'
df_test['set'] = 'Kaggle'

# Concatenar df_train y df_test en df_full
df_full = pd.concat([df_train, df_test], ignore_index=True) 

columns_to_clean = ['Search Engine Bid', 'Impressions', 'Avg. Cost per Click', 'Avg. Pos.']
for column in columns_to_clean:
    df_full[column] = clean_numeric_column(df_full[column])

### 1. Preprocesamiento de Datos en el Dataset de Entrenamiento

In [144]:
# Aplicar limpieza y transformación antes de la división en conjuntos de entrenamiento y prueba
df_train['Search Engine Bid'] = clean_numeric_column(df_train['Search Engine Bid'])
df_train['Impressions'] = clean_numeric_column(df_train['Impressions'])
df_train['Avg. Cost per Click'] = clean_numeric_column(df_train['Avg. Cost per Click'])
df_train['Avg. Pos.'] = clean_numeric_column(df_train['Avg. Pos.'])

df_test['Search Engine Bid'] = clean_numeric_column(df_test['Search Engine Bid'])
df_test['Impressions'] = clean_numeric_column(df_test['Impressions'])
df_test['Avg. Cost per Click'] = clean_numeric_column(df_test['Avg. Cost per Click'])
df_test['Avg. Pos.'] = clean_numeric_column(df_test['Avg. Pos.'])


In [145]:
# Realizar One-Hot Encoding para 'Match Type' y cualquier otra variable categórica necesaria
df_full['Match Type'].fillna('Unknown', inplace=True)
categorical_cols = ['Match Type']
df_full = pd.concat([df_full, pd.get_dummies(df_full[categorical_cols])], axis=1)
df_full.drop(categorical_cols, axis=1, inplace=True)

In [146]:
# Llenar los NaNs restantes en las columnas numéricas con el método forward fill
df_full.fillna(method='ffill', inplace=True)

In [147]:
# Separación en características y objetivo, seguido por la división en entrenamiento y prueba
features_columns = ['Search Engine Bid', 'Impressions', 'Avg. Cost per Click', 'Avg. Pos.'] + [col for col in df_full.columns if col.startswith('Match Type_')]
features = df_full[features_columns]
target = df_full['Clicks']


### 2. Train-Test Split

In [148]:
from sklearn.model_selection import train_test_split

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)


### 3. Modeling

In [149]:
# Ya has importado DecisionTreeRegressor y sqrt

# Entrenar un árbol de decisión
tree_model = DecisionTreeRegressor(random_state=42)
tree_model.fit(X_train, y_train)

# Evaluar el modelo
y_pred_tree = tree_model.predict(X_test)
rmse_tree = sqrt(mean_squared_error(y_test, y_pred_tree))
print(f"RMSE del Árbol de Decisión: {rmse_tree}")


ValueError: could not convert string to float: '2,577'