In [3]:
from sqlalchemy import create_engine
import pandas as pd
import os
from dotenv import load_dotenv

import pandas as pd
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

load_dotenv()

user = os.getenv("DB_USER")
password = os.getenv("DB_PASSWORD")
host = os.getenv("HOST", "localhost")

# Configura la conexión a la base de datos
database_url = f"mysql+mysqlconnector://{user}:{password}@{host}/meneame"
print(database_url)
engine = create_engine(database_url)

# Cargar los datos desde la base de datos
query_news = "SELECT * FROM news_info_table"
df_news = pd.read_sql(query_news, engine)


mysql+mysqlconnector://root:password123@localhost/meneame


In [4]:
df_news

Unnamed: 0,news_id,title,content,category_id,meneos,clicks,karma,positive_votes,anonymous_votes,negative_votes,comments,published_date,scraped_date,user_id,source_id,source_link,provincia_id
0,1,Ésta es la primera noticia meneada,"Pues sí, a las 5 de la mañana he acabado de su...",7,246,0,11,246,0,0,21,2005-12-07 05:07:36,2025-02-27 13:27:57,376,10739,http://mnm.uib.es/gallir/meneame,1
1,2,Los 84 errores de noxtrum,"Pues sí, noxtrum, el buscador de TPI y Telefón...",1,61,0,11,61,0,0,5,2005-12-07 09:25:02,2025-02-27 13:27:57,6406,15649,http://www.pacoros.net/diario/2005/12/07/los-8...,1
2,3,Prova xfce 4.2.3!,Ara que els de repositoris de totes les distri...,1,34,0,13,34,0,0,0,2005-12-07 10:30:01,2025-02-27 13:27:57,13247,12988,http://www.xfce.org/release_notes/4.2.3.1_chan...,1
3,4,Entrevista de El Mundo a Jose Antonio Marina,2. ¿Es la ética la filosofía del futuro?\r\nSi...,1,18,0,22,18,0,0,0,2005-12-07 11:30:01,2025-02-27 13:27:57,12242,7020,http://www.el-mundo.es/encuentros/invitados/20...,1
4,5,Mini-tutorial: instalar KDE 3.5 en (K)Ubuntu,"Para los amantes del estar a la última, aquí t...",1,35,0,32,35,0,0,0,2005-12-07 13:25:01,2025-02-27 13:27:57,13429,14559,http://bloc.balearweb.net/post/487/8160,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
287558,4033996,"Murcia, entre el meme y el escarnio: “Solo sal...",La imagen de Murcia en el imaginario popular e...,2,91,1300,473,48,43,0,102,2025-03-04 11:45:02,2025-03-04 14:12:38,13434,16347,https://www.eldiario.es/murcia/murcia-meme-esc...,28
287559,4034033,Las comunidades de vecinos cambian para siempr...,Las comunidades de vecinos en España están a p...,7,122,867,433,65,57,0,27,2025-03-04 12:50:03,2025-03-04 14:12:38,13432,1049,https://www.infobae.com/espana/2025/03/02/las-...,1
287560,4034046,Asesinaron a un turista en Canarias al atraves...,los agresores lo acorralaron y le clavaron una...,7,302,2282,406,137,165,4,250,2025-03-04 10:55:03,2025-03-04 14:12:38,13436,454,https://www.laprovincia.es/sucesos/sucesos-en-...,1
287561,4034099,Contra Trump: países nórdicos lanzan un boicot...,Las críticas a las políticas de Donald Trump v...,7,191,810,501,90,101,0,48,2025-03-04 12:50:02,2025-03-04 14:12:38,13433,8431,https://www.rfi.fr/es/europa/20250304-en-respu...,1


In [None]:
# Seleccionar características relevantes
features = ['category_id', 'meneos', 'karma', 'positive_votes', 'negative_votes', 'comments', 'published_date']
df_selected = df_news[features + ['clicks']]  # Incluimos 'clicks' como la variable objetivo


# 1. Preprocesamiento de datos
# Asegúrate de que no haya valores faltantes
df_selected = df_selected.dropna()

# Extraer características útiles de 'published_date'
df_selected['published_date'] = pd.to_datetime(df_selected['published_date'])
df_selected['day_of_week'] = df_selected['published_date'].dt.dayofweek  # Día de la semana (0: lunes, 6: domingo)
df_selected['month'] = df_selected['published_date'].dt.month  # Mes (1: enero, 12: diciembre)
df_selected['year'] = df_selected['published_date'].dt.year  # Año

# Eliminar la columna 'published_date' original
df_selected.drop('published_date', axis=1, inplace=True)

# Crear nuevas características numéricas
df_selected['votes_ratio'] = df_selected['positive_votes'] / (df_selected['negative_votes'] + 1)  # +1 para evitar división por cero
df_selected['votes_diff'] = df_selected['positive_votes'] - df_selected['negative_votes']
df_selected['interaction'] = df_selected['meneos'] * df_selected['karma']

# Verificar los tipos de datos
print(df_selected.dtypes)

# 2. Dividir los datos
X = df_selected.drop('clicks', axis=1)
y = df_selected['clicks']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. Ajuste de hiperparámetros con RandomizedSearchCV
param_dist = {
    'n_estimators': [100, 200, 300, 400],
    'max_depth': [10, 20, 30, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'max_features': ['sqrt', 'log2']  # Corregido: 'auto' reemplazado por 'sqrt'
}

model = RandomForestRegressor(random_state=42)
random_search = RandomizedSearchCV(
    estimator=model,
    param_distributions=param_dist,
    n_iter=50,  # Número de combinaciones a probar
    cv=5,       # Validación cruzada de 5 folds
    scoring='neg_mean_squared_error',
    random_state=42,
    n_jobs=-1
)

random_search.fit(X_train, y_train)

# Mejores hiperparámetros encontrados
print("Mejores hiperparámetros:", random_search.best_params_)

# 4. Entrenar el modelo con los mejores hiperparámetros
best_model = random_search.best_estimator_
best_model.fit(X_train, y_train)

# 5. Evaluación del modelo
y_pred = best_model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Error Cuadrático Medio (MSE): {mse}')
print(f'Error Absoluto Medio (MAE): {mae}')
print(f'Coeficiente de Determinación (R²): {r2}')

# 6. Análisis de residuales
residuals = y_test - y_pred
print("Residuales (media):", np.mean(residuals))
print("Residuales (desviación estándar):", np.std(residuals))

# 7. Guardar el modelo mejorado
import joblib
joblib.dump(best_model, 'modelo_entrenado_mejorado.pkl')


category_id         int64
meneos              int64
karma               int64
positive_votes      int64
negative_votes      int64
comments            int64
clicks              int64
day_of_week         int32
month               int32
year                int32
votes_ratio       float64
votes_diff          int64
interaction         int64
dtype: object




KeyboardInterrupt: 