In [2]:
import pandas as pd
import spacy
import random
from spacy.training.example import Example
from spacy.util import minibatch
from spacy.pipeline.tok2vec import DEFAULT_TOK2VEC_MODEL


In [None]:

# Lee el archivo CSV en un DataFrame de pandas
df = pd.read_csv("dataset_entrenamiento.csv",thousands=',')
# Obtén 1000 filas aleatorias del DataFrame
random_rows = df.sample(n=1000, random_state=42)
# Encuentra las clases únicas en la columna "clase"
unique_classes = random_rows["target"].unique()
unique_classes

# Crea la lista de tuplas con las etiquetas de clases
data_list = []
for _, row in random_rows.iterrows():
    title = row["title"]
    clase = row["target"]
    cats = {cls: 1 if cls == clase else 0 for cls in unique_classes}
    data_list.append((title, {"cats": cats}))
data_list

In [None]:
# Datos de entrenamiento
TRAIN_DATA = data_list
# Inicializar spaCy con el modelo de lenguaje es_core_news_sm
nlp = spacy.load("es_core_news_sm")
train_examples = []

for example in TRAIN_DATA:
    train_examples.append(Example.from_dict(nlp.make_doc(example[0]), example[1]))

def get_examples():
    return train_examples
model = {
            "@architectures": "spacy.TextCatCNN.v2",
            "exclusive_classes": True,
            "tok2vec": DEFAULT_TOK2VEC_MODEL,
        }
# Crear un componente TextCategorizer con un modelo CNN
textcat = nlp.add_pipe("textcat", config={"model": model})
textcat.initialize(get_examples)
from spacy.util import compounding

# Entrenar el modelo
with nlp.select_pipes(enable="textcat"):
    optimizer = nlp.begin_training()
    for epoch in range(100):
        losses = {}
        random.shuffle(TRAIN_DATA)
        # Dividir los datos en lotes y actualizar el modelo
        for batch in minibatch(TRAIN_DATA, size=compounding(4.0, 32.0, 1.001)):
            texts, annotations = zip(*batch)
            example = []
            # Actualizar el modelo con iteraciones
            for i in range(len(texts)):
                doc = nlp.make_doc(texts[i])
                example.append(Example.from_dict(doc, annotations[i]))
            nlp.update(example, drop=0.5, losses=losses)
        print(losses)

In [10]:
# Guardar el modelo entrenado en disco
nlp.to_disk("model_1000_CNNv2")

In [None]:
# Cargar el modelo entrenado
nlp_loaded = spacy.load("model_1000_CNNv2")#modelo_clasificador_noticias")


In [None]:
# Realizar predicciones en nuevos titulares
nuevos_titulares = [
    "El partido de fútbol se jugará mañana",
    "Nueva legislación de impuestos aprobada por el gobierno",
    "Nueva aplicación móvil para seguimiento de ejercicios",
    "Grave accidente de tráfico en la autopista deja varios heridos",
    "Avión se estrella en zona montañosa, sobreviven todos los pasajeros",
    "Incendio en fábrica causa evacuación masiva en la ciudad",
    "Naufragio de embarcación turística en el mar, varios desaparecidos",
    "Accidente de tren en la estación central, servicios suspendidos",
    "Nuevas regulaciones para reducir las emisiones de gases contaminantes en la industria",
    "Los científicos advierten sobre el aumento del nivel del mar debido al deshielo de los polos",
    "Proyecto de reforestación masiva busca combatir la deforestación en la Amazonia",
    "La contaminación del aire en las ciudades alcanza niveles peligrosos para la salud",
    "Descubren una nueva especie en peligro de extinción en la selva tropical",
    "Acuerdo internacional para proteger los océanos y conservar la vida marina",
    "Innovadora tecnología de reciclaje convierte plásticos en materiales reutilizables",
    "Cambio climático: las temperaturas extremas se vuelven más frecuentes y devastadoras",
    "Los esfuerzos de conservación salvan a una especie en peligro crítico de desaparecer",
    "La energía solar y eólica supera a los combustibles fósiles como fuente de electricidad",
]

for titular in nuevos_titulares:
    doc = nlp_loaded(titular)
    print(f"Titular: {titular}")
    print("Categorías predichas:")
    for label, score in doc.cats.items():
        print(f"{label}: {score:.4f}")

In [None]:


noticias = 'test_data2.csv'  
df = pd.read_csv(noticias, encoding='utf-8')


for index in range(len(df)):
    text = df.iloc[index]['text']
    if text:
        doc = nlp_loaded(titular)
        for label, score in doc.cats.items():
            print(f"{label}: {score:.4f}")

