In [23]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from category_encoders import OneHotEncoder, TargetEncoder
from scipy import stats


# Cargar los conjuntos de datos
ruta_train = 'C:/Users/Marcio Pineda/Documents/Archivos Python/datasets/traincase.csv'
ruta_test = 'C:/Users/Marcio Pineda/Documents/Archivos Python/datasets/testcase.csv'
df_train = pd.read_csv(ruta_train)
df_test = pd.read_csv(ruta_test)

df_train['Keyword'] = df_train['Keyword'].str.lower()  # Convertir a minúsculas
df_test['Keyword'] = df_test['Keyword'].str.lower()

# Preparar los datos para la transformación TF-IDF como se hizo anteriormente
all_keywords = pd.concat([df_train['Keyword'], df_test['Keyword']], ignore_index=True)

features_all_zero_counts = []

# Probar diferentes valores de max_features
for max_features in range(100, 601, 100):
    tfidf_vectorizer = TfidfVectorizer(max_features=max_features)
    tfidf_vectorizer.fit(all_keywords)

    df_train_tfidf = tfidf_vectorizer.transform(df_train['Keyword'])
    df_test_tfidf = tfidf_vectorizer.transform(df_test['Keyword'])


# Convertir las matrices TF-IDF a DataFrames
df_train_tfidf = pd.DataFrame(df_train_tfidf.toarray(), columns=tfidf_vectorizer.get_feature_names_out(), index=df_train.index)
df_test_tfidf = pd.DataFrame(df_test_tfidf.toarray(), columns=tfidf_vectorizer.get_feature_names_out(), index=df_test.index)

features_all_zero = (df_train_tfidf == 0).all().sum()
features_all_zero_counts.append((max_features, features_all_zero))

# Transformar 'Keyword' en el conjunto de entrenamiento y de prueba
df_train_tfidf = tfidf_vectorizer.transform(df_train['Keyword'])
df_test_tfidf = tfidf_vectorizer.transform(df_test['Keyword'])

# Convertir las matrices TF-IDF a DataFrames
df_train_tfidf = pd.DataFrame(df_train_tfidf.toarray(), columns=tfidf_vectorizer.get_feature_names_out(), index=df_train.index)
df_test_tfidf = pd.DataFrame(df_test_tfidf.toarray(), columns=tfidf_vectorizer.get_feature_names_out(), index=df_test.index)

# Concatenar con los conjuntos de datos originales
df_train = pd.concat([df_train.drop('Keyword', axis=1), df_train_tfidf], axis=1)
df_test = pd.concat([df_test.drop('Keyword', axis=1), df_test_tfidf], axis=1)


# Función para limpiar columnas numéricas
def clean_numeric_column(column):
    column_as_str = column.astype(str).str.replace(',', '').str.replace('$', '').str.strip()
    return pd.to_numeric(column_as_str, errors='coerce')

# Limpiar las columnas numéricas
columns_to_clean = ['Search Engine Bid', 'Impressions', 'Avg. Cost per Click', 'Avg. Pos.', 'Clicks']
for column in columns_to_clean:
    df_train[column] = clean_numeric_column(df_train[column])
    # 'Clicks' no está en df_test, así que lo excluimos
    if column != 'Clicks':
        df_test[column] = clean_numeric_column(df_test[column])

# Reemplazar ceros en 'Impressions' para la transformación Box-Cox
min_value = df_train.loc[df_train['Impressions'] > 0, 'Impressions'].min()
df_train['Impressions'] = df_train['Impressions'].replace(0, min_value)
fitted_lambda = stats.boxcox(df_train.loc[df_train['Impressions'] > 0, 'Impressions'])[1]
df_train['Impressions'] = stats.boxcox(df_train['Impressions'], lmbda=fitted_lambda)

# Concatenar con los conjuntos de datos originales
df_train = pd.concat([df_train, df_train_tfidf], axis=1)
df_test = pd.concat([df_test, df_test_tfidf], axis=1)

# Visualizar los primeros registros del conjunto de entrenamiento
df_train.head()



# Después de haber convertido las matrices TF-IDF a DataFrames y concatenado con los conjuntos de datos originales

print(f"Con max_features={max_features}, hay {features_all_zero} características completamente ceros.")

# Al final, tienes un resumen de cuántas características completamente ceros hay para cada valor de max_features
print("Resumen de características completamente ceros por configuración de max_features:", features_all_zero_counts)

Con max_features=600, hay 2 características completamente ceros.
Resumen de características completamente ceros por configuración de max_features: [(600, 2)]


In [27]:
# Asegúrate de tener los datos cargados y las columnas numéricas ya limpias y transformadas

# Dividir los datos en características (X) y objetivo (y)
X = df_train.drop('Clicks', axis=1)
y = df_train['Clicks']

# Dividir los datos en conjuntos de entrenamiento y validación para evitar la fuga de datos
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Aplicar One-Hot Encoding a variables con pocas categorías
one_hot_cols = ['Match Type', 'Bid Strategy', 'Status']
one_hot_encoder = OneHotEncoder(cols=one_hot_cols, use_cat_names=True)
X_train_one_hot = one_hot_encoder.fit_transform(X_train[one_hot_cols])
X_val_one_hot = one_hot_encoder.transform(X_val[one_hot_cols])

# Aplicar Target Encoding a variables con un número moderado de categorías
target_encode_cols = ['Campaign', 'Category', 'Publisher Name', 'Keyword Group']
target_encoder = TargetEncoder(cols=target_encode_cols)
X_train_target_encoded = target_encoder.fit_transform(X_train[target_encode_cols], y_train)
X_val_target_encoded = target_encoder.transform(X_val[target_encode_cols])

# Unir las transformaciones con el resto de datos (excluyendo las columnas originales que ya han sido codificadas)
X_train_processed = X_train.drop(one_hot_cols + target_encode_cols, axis=1).join(X_train_one_hot).join(X_train_target_encoded)
X_val_processed = X_val.drop(one_hot_cols + target_encode_cols, axis=1).join(X_val_one_hot).join(X_val_target_encoded)

# Ahora X_train_processed y X_val_processed están listos para ser usados en el modelado

print("Dimensiones de X_train procesado:", X_train_processed.shape)
print("Dimensiones de X_val procesado:", X_val_processed.shape)

print("Primeras filas de X_train procesado:\n", X_train_processed.head())
print("Primeras filas de X_val procesado:\n", X_val_processed.head())

print("Resumen estadístico de X_train procesado:\n", X_train_processed.describe())



Dimensiones de X_train procesado: (3528, 686)
Dimensiones de X_val procesado: (882, 686)
Primeras filas de X_train procesado:
       entry_id  Search Engine Bid  Impressions  Avg. Pos.  \
2588  mkt_3314              10.00     4.606787       1.00   
2354  mkt_3093               0.78     6.413341       2.45   
655   mkt_1517               6.25     4.202726       1.05   
4339   mkt_928               0.13     6.155182       3.63   
3557  mkt_4214               8.75     5.349669       1.14   

      Avg. Cost per Click  2006  abidjan  abou  aeroport  affaires  ...  \
2588                 0.28   0.0      0.0   0.0       0.0       0.0  ...   
2354                 1.08   0.0      0.0   0.0       0.0       0.0  ...   
655                  1.29   0.0      0.0   0.0       0.0       0.0  ...   
4339                 0.35   0.0      0.0   0.0       0.0       0.0  ...   
3557                 1.25   0.0      0.0   0.0       0.0       0.0  ...   

      Bid Strategy_nan  Status_Live  Status_Paused  Sta

In [28]:
# Para One-Hot Encoding
for col in one_hot_cols:
    print(f"Valores únicos en {col} después de One-Hot Encoding:", len(X_train_processed.filter(like=col).columns))

# Para Target Encoding
for col in target_encode_cols:
    print(f"Valores únicos en {col} después de Target Encoding en entrenamiento:", X_train_processed[col].nunique())
    print(f"Valores únicos en {col} después de Target Encoding en validación:", X_val_processed[col].nunique())


Valores únicos en Match Type después de One-Hot Encoding: 5
Valores únicos en Bid Strategy después de One-Hot Encoding: 9
Valores únicos en Status después de One-Hot Encoding: 5
Valores únicos en Campaign después de Target Encoding en entrenamiento: 24
Valores únicos en Campaign después de Target Encoding en validación: 23
Valores únicos en Category después de Target Encoding en entrenamiento: 93
Valores únicos en Category después de Target Encoding en validación: 72
Valores únicos en Publisher Name después de Target Encoding en entrenamiento: 7
Valores únicos en Publisher Name después de Target Encoding en validación: 7
Valores únicos en Keyword Group después de Target Encoding en entrenamiento: 187
Valores únicos en Keyword Group después de Target Encoding en validación: 148
