In [22]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler, PolynomialFeatures, RobustScaler, OneHotEncoder
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import Ridge, Lasso, ElasticNet
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.metrics import mean_squared_error
from scipy import stats

# Cargar los conjuntos de datos
ruta_train = 'C:/Users/Marcio Pineda/Documents/Archivos Python/datasets/traincase.csv'
ruta_test = 'C:/Users/Marcio Pineda/Documents/Archivos Python/datasets/testcase.csv'
df_train = pd.read_csv(ruta_train)
df_test = pd.read_csv(ruta_test)

# TF-IDF para 'Keyword'
df_train['Keyword'] = df_train['Keyword'].str.lower()
all_keywords = pd.concat([df_train['Keyword'], df_test['Keyword']], ignore_index=True)

# TF-IDF para 'Keyword'
tfidf_vectorizer = TfidfVectorizer(max_features=600)
keywords_tfidf = tfidf_vectorizer.fit_transform(all_keywords)
keywords_tfidf_df = pd.DataFrame(keywords_tfidf.toarray(), columns=tfidf_vectorizer.get_feature_names_out())

# Concatenar las características TF-IDF con los datos originales para el conjunto de entrenamiento
df_train = pd.concat([df_train, keywords_tfidf_df.iloc[:len(df_train)]], axis=1)

# Concatenar las características TF-IDF con los datos originales para el conjunto de prueba
df_test = pd.concat([df_test, keywords_tfidf_df.iloc[len(df_train):].reset_index(drop=True)], axis=1)

# Función para limpiar columnas numéricas
def clean_numeric_column(column):
    if column.dtype == 'object':  # Verifica si la columna es de tipo objeto (string)
        column_as_str = column.str.replace(',', '').str.replace('$', '').str.strip()
        return pd.to_numeric(column_as_str, errors='coerce')
    else:
        return column

# Limpiar las columnas numéricas
for col in ['Search Engine Bid', 'Impressions', 'Avg. Cost per Click', 'Avg. Pos.', 'Clicks']:
    df_train[col] = clean_numeric_column(df_train[col])

df_train['Impressions'] = df_train['Impressions'].replace(0, np.nan)  # Reemplaza ceros con NaN

# Aplicar la transformación RobustScaler para manejar outliers en 'Impressions'
scaler = RobustScaler()
df_train['Impressions'] = scaler.fit_transform(df_train['Impressions'].values.reshape(-1, 1))

# Seleccionar características específicas para el modelo
selected_features = ['Search Engine Bid', 'Impressions', 'Avg. Pos.', 'air', 'airfare',
       'airfrance', 'airline', 'com', 'france', 'ticket', 'to', 'travel',
       'vacation']

# Preparar los datos para el modelado
X = df_train[selected_features]  # Selecciona solo las características específicas
y = df_train['Clicks']




In [23]:
# Preparar los datos para el modelado
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

numeric_features = ['Search Engine Bid', 'Impressions', 'Avg. Pos.']
categorical_features = []

# Crear un Pipeline para el preprocesamiento que incluye las transformaciones polinómicas
poly_preprocessor = ColumnTransformer(
    transformers=[
        ('num', PolynomialFeatures(degree=2, include_bias=False), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)
    ])

# Definir modelos con regularización y Pipeline con preprocesamiento polinómico
poly_models = {
    'ridge_poly': Ridge(),
    'lasso_poly': Lasso(),
    'elastic_net_poly': ElasticNet(),
}

# Parámetros para la búsqueda de hiperparámetros con preprocesamiento polinómico
poly_param_grid = {
    'ridge_poly': {'model__alpha': [0.1, 1.0, 10.0]},
    'lasso_poly': {'model__alpha': [0.1, 1.0, 10.0]},
    'elastic_net_poly': {'model__alpha': [0.1, 1.0, 10.0], 'model__l1_ratio': [0.1, 0.5, 0.9]},
}

# Entrenamiento y evaluación de cada modelo con preprocesamiento polinómico
for name, model in poly_models.items():
    # Construir pipeline con preprocesamiento polinómico y modelo
    poly_pipeline = Pipeline([
        ('poly_preprocessor', poly_preprocessor),
        ('model', model)
    ])

    # Grid search para búsqueda de hiperparámetros con preprocesamiento polinómico
    poly_grid_search = GridSearchCV(poly_pipeline, poly_param_grid[name], cv=5, scoring='neg_mean_squared_error', verbose=1)

    # Entrenar el modelo con GridSearchCV
    poly_grid_search.fit(X_train, y_train)

    # Mejores hiperparámetros encontrados
    print(f"Best parameters found for {name}:")
    print(poly_grid_search.best_params_)

    # Predicciones en conjunto de validación
    y_pred = poly_grid_search.predict(X_val)

    # Calcular y mostrar el RMSE
    rmse = np.sqrt(mean_squared_error(y_val, y_pred))
    print(f'RMSE for {name}: {rmse}')

    # Validación cruzada
    cv_scores = cross_val_score(poly_grid_search.best_estimator_, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
    avg_cv_score = np.mean(cv_scores)
    print(f'Average cross-validation RMSE for {name}: {np.sqrt(-avg_cv_score)}')

Fitting 5 folds for each of 3 candidates, totalling 15 fits
Best parameters found for ridge_poly:
{'model__alpha': 0.1}
RMSE for ridge_poly: 1681.737305063579
Average cross-validation RMSE for ridge_poly: 1560.903090595324
Fitting 5 folds for each of 3 candidates, totalling 15 fits


  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


Best parameters found for lasso_poly:
{'model__alpha': 0.1}
RMSE for lasso_poly: 1681.6744738308419
Average cross-validation RMSE for lasso_poly: 1561.0879054697482
Fitting 5 folds for each of 9 candidates, totalling 45 fits


  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


Best parameters found for elastic_net_poly:
{'model__alpha': 0.1, 'model__l1_ratio': 0.9}
RMSE for elastic_net_poly: 1681.003963818397
Average cross-validation RMSE for elastic_net_poly: 1563.8385371148743


  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


In [33]:
# Obtener el mejor modelo entrenado
best_model = advanced_grid_search.best_estimator_

# Seleccionar características específicas para el modelo en el conjunto de prueba
X_test = df_test[selected_features]  # Selecciona solo las características específicas del conjunto de prueba

# Realizar predicciones en el conjunto de datos de prueba
predictions_test = best_model.predict(X_test)

# Crear DataFrame con predicciones
predictions_df = pd.DataFrame({
    'entry_id': df_test['entry_id'],  # Reemplaza 'entry_id' con la columna de identificación en tu conjunto de datos de prueba
    'Clicks': predictions_test  # Cambia el nombre de la columna de predicciones a 'Clicks'
})

# Exportar a CSV
predictions_df.to_csv('predictions5.csv', index=False)
