In [50]:
import numpy as np
import pandas as pd
import re
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from math import sqrt

# Configurar las opciones de visualización de pandas (opcional)
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

# Función para limpiar columnas numéricas
def clean_numeric_column(column):
    column_as_str = column.astype(str).str.replace(',', '').str.replace('$', '').str.strip()
    return pd.to_numeric(column_as_str, errors='coerce')


# Cargar los conjuntos de datos
ruta_train = 'C:/Users/Marcio Pineda/Documents/Archivos Python/datasets/traincase.csv'
ruta_test = 'C:/Users/Marcio Pineda/Documents/Archivos Python/datasets/testcase.csv'
df_train = pd.read_csv(ruta_train)
df_test = pd.read_csv(ruta_test)

# Asegurarse de que 'Match Type' esté presente en los conjuntos de datos
assert 'Match Type' in df_train.columns, "La columna 'Match Type' no está presente en el conjunto de entrenamiento."
assert 'Match Type' in df_test.columns, "La columna 'Match Type' no está presente en el conjunto de prueba."

# Marcar los conjuntos de datos para poder distinguirlos después de la concatenación
df_train['set'] = 'Not Kaggle'
df_test['set'] = 'Kaggle'

# Concatenar df_train y df_test en df_full
df_full = pd.concat([df_train, df_test], ignore_index=True)

# Aplicar la función de limpieza a las columnas numéricas relevantes en df_full
columns_to_clean = ['Search Engine Bid', 'Impressions', 'Avg. Cost per Click', 'Avg. Pos.', 'Clicks']
for column in columns_to_clean:
    df_full[column] = clean_numeric_column(df_full[column])




In [51]:
# Realizar One-Hot Encoding para 'Match Type' y cualquier otra variable categórica necesaria
df_full['Match Type'].fillna('Unknown', inplace=True)
categorical_cols = ['Match Type']
df_full = pd.get_dummies(df_full, columns=categorical_cols)

# Llenar los NaNs restantes en las columnas numéricas con el método forward fill
df_full.fillna(method='ffill', inplace=True)

# Separación en características y objetivo, seguido por la división en entrenamiento y prueba
features_columns = ['Search Engine Bid', 'Impressions', 'Avg. Cost per Click', 'Avg. Pos.'] + \
                   [col for col in df_full.columns if col.startswith('Match Type_')]
features = df_full[df_full['set'] == 'Not Kaggle'][features_columns]
target = df_full[df_full['set'] == 'Not Kaggle']['Clicks']

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

# Entrenar un árbol de decisión
tree_model = DecisionTreeRegressor(random_state=42)
tree_model.fit(X_train, y_train)

# Evaluar el modelo
y_pred_tree = tree_model.predict(X_test)
rmse_tree = sqrt(mean_squared_error(y_test, y_pred_tree))
print(f"RMSE del Árbol de Decisión: {rmse_tree}")


RMSE del Árbol de Decisión: 1699.2864795797498


In [43]:
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# Definir los rangos de los hiperparámetros para muestrear
param_dist = {
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': randint(2, 20),
    'min_samples_leaf': randint(1, 10)
}

# Inicializar RandomizedSearchCV
random_search = RandomizedSearchCV(estimator=tree_model, param_distributions=param_dist, n_iter=100, cv=5, scoring='neg_mean_squared_error', random_state=42)

# Realizar la búsqueda aleatoria
random_search.fit(X_train, y_train)

# Obtener los mejores hiperparámetros
best_params_random = random_search.best_params_
print("Mejores hiperparámetros encontrados mediante Randomized Search:", best_params_random)

# Obtener el mejor modelo
best_tree_model_random = random_search.best_estimator_

# Evaluar el mejor modelo
y_pred_best_random = best_tree_model_random.predict(X_test)
rmse_best_random = sqrt(mean_squared_error(y_test, y_pred_best_random))
print(f"RMSE del mejor modelo de Árbol de Decisión obtenido mediante Randomized Search: {rmse_best_random}")


Mejores hiperparámetros encontrados mediante Randomized Search: {'max_depth': 20, 'min_samples_leaf': 1, 'min_samples_split': 9}
RMSE del mejor modelo de Árbol de Decisión obtenido mediante Randomized Search: 1383.420307755057


In [44]:
from sklearn.model_selection import GridSearchCV

# Definir los parámetros para buscar
param_grid = {
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}
grid_search = GridSearchCV(estimator=DecisionTreeRegressor(random_state=42), param_grid=param_grid, cv=5, scoring='neg_root_mean_squared_error')
grid_search.fit(X_train, y_train)
best_tree_model = grid_search.best_estimator_
y_pred_grid = best_tree_model.predict(X_test)
rmse_grid = sqrt(mean_squared_error(y_test, y_pred_grid))
print(f"RMSE del Árbol de Decisión después de Grid Search: {rmse_grid}")
print("Mejores parámetros encontrados:", grid_search.best_params_)


RMSE del Árbol de Decisión después de Grid Search: 1380.7290550487703
Mejores parámetros encontrados: {'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 10}


In [53]:
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR


models = {
    'Random Forest': RandomForestRegressor(random_state=42),
    'Gradient Boosting': GradientBoostingRegressor(random_state=42),
    'Support Vector Regression': SVR()
}

for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    rmse = sqrt(mean_squared_error(y_test, y_pred))
    print(f"RMSE de {name}: {rmse}")

RMSE de Random Forest: 1220.4306512608287
RMSE de Gradient Boosting: 1428.87882421522
RMSE de Support Vector Regression: 923.0681355297471


In [52]:
# Definición y ajuste del modelo mediante GridSearchCV

model = RandomForestRegressor(random_state=42)
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5,
                           scoring='neg_root_mean_squared_error', verbose=2, n_jobs=-1)
grid_search.fit(X_train, y_train)

# Obtención de los mejores hiperparámetros y el mejor modelo
best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

# Preparación del conjunto de datos de prueba para predicciones finales
df_test_processed = df_full[df_full['set'] == 'Kaggle'][features_columns]

# Generación de predicciones finales para el conjunto de datos de prueba
y_pred_test = best_model.predict(df_test_processed)

Fitting 5 folds for each of 81 candidates, totalling 405 fits


In [54]:
from sklearn.model_selection import cross_val_score

# Definir el modelo con los mejores hiperparámetros encontrados
best_model = RandomForestRegressor(max_depth=10, min_samples_leaf=2, min_samples_split=10, n_estimators=100, random_state=42)

# Realizar validación cruzada
cv_scores = cross_val_score(best_model, X_train, y_train, cv=5, scoring='neg_root_mean_squared_error')

# Calcular el RMSE promedio y la desviación estándar de los puntajes
avg_rmse = -cv_scores.mean()
std_rmse = cv_scores.std()

print(f"RMSE promedio de la validación cruzada: {avg_rmse}")
print(f"Desviación estándar del RMSE de la validación cruzada: {std_rmse}")


RMSE promedio de la validación cruzada: 743.7941138905937
Desviación estándar del RMSE de la validación cruzada: 314.72947669398854


In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# Definir el modelo de regresión
model = RandomForestRegressor(random_state=42)

# Extiende el rango de hiperparámetros
param_dist_extended = {
    'max_depth': [None, 10, 20, 30, 40],
    'min_samples_split': randint(2, 15),
    'min_samples_leaf': randint(1, 10),
    'n_estimators': randint(100, 500)  # Aumentando el rango para n_estimators
}

# Inicializa RandomizedSearchCV con un número mayor de iteraciones
random_search_extended = RandomizedSearchCV(estimator=model, param_distributions=param_dist_extended,
                                             n_iter=200, cv=5, scoring='neg_mean_squared_error',
                                             random_state=42, verbose=2, n_jobs=-1)

random_search_extended.fit(X_train, y_train)

# Mejor modelo y parámetros
best_model_extended = random_search_extended.best_estimator_
print("Mejores hiperparámetros:", random_search_extended.best_params_) 



Fitting 5 folds for each of 200 candidates, totalling 1000 fits


In [56]:
# Creación del DataFrame de submission
submission = pd.DataFrame({
    'entry_id': df_test['entry_id'],  # Asegúrate de que df_test tenga 'entry_id'
    'Clicks': y_pred_test
})

# Exportación del DataFrame de submission a un archivo CSV
submission_filename = 'decision_tree_kaggle_submission_updated1.csv'
submission.to_csv(submission_filename, index=False)

