### WIP

In [1]:
import os
import numpy as np
import pandas as pd 
import pickle
import pymysql
from sqlalchemy import create_engine, text
from dotenv import load_dotenv

### Conectamos con SQL

In [2]:
# Cargar variables de entorno
load_dotenv()

user = os.getenv("DB_USER")
password = os.getenv("DB_PASSWORD")
host = os.getenv("HOST", "localhost")
database = "meneame"

# Crear conexión con SQL
engine = create_engine(f"mysql+pymysql://{user}:{password}@{host}/{database}")

### Cargamos df de Clustering para añadir info de Cluster

In [3]:
directorio_base = os.path.abspath(os.path.join(os.getcwd(), "../../.."))  # Subir dos directorios
directorio_pkl = os.path.join(directorio_base, "src", "00.data", "clustering")

# Obtener todos los archivos .pkl en el directorio de preprocesado
archivos_pkl = [f for f in os.listdir(directorio_pkl) if f.startswith("df_clustering_") and f.endswith(".pkl")]

# Si no se encuentran archivos .pkl, mostramos un mensaje
if not archivos_pkl:
    print("❌ No se encontraron archivos .pkl en el directorio.")
else:
    df_lista = []

    # Cargar todos los archivos .pkl
    for archivo in archivos_pkl:
        ruta_archivo = os.path.join(directorio_pkl, archivo)
        try:
            with open(ruta_archivo, "rb") as f:
                df_lista.append(pickle.load(f))
                print(f"✅ Archivo cargado correctamente: {archivo}")
        except FileNotFoundError:
            print(f"❌ No se encontró el archivo: {archivo}")
        except Exception as e:
            print(f"❌ Error al cargar {archivo}: {e}")

    # Concatenar todos los DataFrames en uno solo
    if df_lista:
        df_clustering = pd.concat(df_lista, ignore_index=True)
        print(f"✅ DataFrame final con {df_clustering.shape[0]} filas y {df_clustering.shape[1]} columnas")
    else:
        print("❌ No se cargaron DataFrames.")

✅ Archivo cargado correctamente: df_clustering_null_clicks.pkl
✅ Archivo cargado correctamente: df_clustering_1.pkl
✅ Archivo cargado correctamente: df_clustering_3.pkl
✅ Archivo cargado correctamente: df_clustering_2.pkl
✅ DataFrame final con 287602 filas y 20 columnas


In [4]:
df_clustering.head(3)

Unnamed: 0,news_id,title,content,meneos,clicks,karma,positive_votes,anonymous_votes,negative_votes,category,comments,published_date,user,source,source_link,scraped_date,provincia,comunidad,cluster,cluster_3
0,1037095,"Topless: mirar o no mirar, ésa es la cuestión",Acabo de retornar de un roadtrip veraniego. Bi...,512,,635,217,295,3,Entretenimiento y Cultura,95,2010-08-31 19:00:02,Kfn,elreferente.es,http://www.elreferente.es/polmiraflors/topless...,2025-02-27 11:25:53,,,0.0,
1,1034957,Elogio del porno,Saber follar es importante pero hay algo que i...,430,,632,180,250,4,Entretenimiento y Cultura,48,2010-08-28 17:25:03,--98342--,lne.es,http://www.lne.es/gijon/2010/08/27/elogio-porn...,2025-02-27 11:26:04,,,0.0,
2,1026190,El 56% de hombres rechaza el topless de sus no...,Un 56% de hombres no está de acuerdo con su pa...,793,,645,269,524,6,Política y Sociedad,100,2010-08-16 00:45:02,cd_autoreverse,noticias24.com,http://www.noticias24.com/gente/noticia/10295/...,2025-02-27 11:26:56,,,0.0,


In [5]:
df_clustering['cluster'].value_counts()

cluster
0.0    73970
2.0     5947
1.0      748
Name: count, dtype: int64

In [6]:
# Crear la tabla de clusters si no existe
create_table_sql = """
CREATE TABLE IF NOT EXISTS cluster_table (
    cluster_id INT PRIMARY KEY,
    cluster_name VARCHAR(50)
);
"""
with engine.connect() as connection:
    connection.execute(text(create_table_sql))

In [7]:
# Insertar nombres de clusters en la tabla
cluster_names = {
    0: "Noticias polémicas",
    1: "Noticias estándar",
    2: "Noticias bien recibidas"
}

with engine.connect() as connection:
    for cluster_id, cluster_name in cluster_names.items():
        insert_sql = text("""
        INSERT INTO cluster_table (cluster_id, cluster_name)
        VALUES (:cluster_id, :cluster_name)
        ON DUPLICATE KEY UPDATE cluster_name = :cluster_name
        """)
        connection.execute(insert_sql, {"cluster_id": cluster_id, "cluster_name": cluster_name})

In [8]:
# Verificar que 'news_id' y 'cluster' están en df_clustering
if not {"news_id", "cluster"}.issubset(df_clustering.columns):
    raise KeyError("Las columnas 'news_id' o 'cluster' no están en df_clustering.")

# Crear diccionario {news_id: cluster_id}
news_cluster_mapping = df_clustering.set_index("news_id")["cluster"].to_dict()

# Asegurar que la columna cluster_id existe en news_info_table
alter_table_sql = """
ALTER TABLE news_info_table 
ADD COLUMN cluster_id INT DEFAULT NULL;
"""
with engine.connect() as connection:
    connection.execute(text(alter_table_sql))

# Actualizar los valores de cluster en la base de datos
update_sql = text("""
    UPDATE news_info_table
    SET cluster_id = :cluster_id
    WHERE news_id = :news_id
""")

with engine.connect() as connection:
    with connection.begin():  # Manejo seguro de la transacción
        for news_id, cluster_id in news_cluster_mapping.items():
            connection.execute(update_sql, {
                "news_id": int(news_id),
                "cluster_id": int(cluster_id)
            })

print("Clusters actualizados en la base de datos.")

ValueError: cannot convert float NaN to integer

In [10]:
query = text("""
    SELECT cluster_id, COUNT(*) as count 
    FROM news_info_table 
    GROUP BY cluster_id
""")

with engine.connect() as connection:
    result = connection.execute(query)
    cluster_counts_sql = dict(result.fetchall())

print(cluster_counts_sql)

{1: 234278, 2: 8955, 0: 44330}
