<a href="https://colab.research.google.com/github/gabrielfernandorey/ITBA-NLP/blob/main/ITBA_nlp01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Trabajo Practico NLP - Detección de Tópicos y clasificación
- ITBA 2024
- Alumno: Gabriel Rey
---

## Merged models

In [1]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
pd.set_option('display.max_colwidth', None)
import numpy as np
from matplotlib import pyplot as plt
import os
import json
from datetime import datetime, date
from dateutil.parser import parse
from dotenv import load_dotenv

from NLP_tools import Cleaning_text, top_keywords, top_entities, get_topic_name, best_document, clean_all, topic_documents
from core.functions import *

In [2]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

from tqdm import tqdm

from umap import UMAP
from hdbscan import HDBSCAN
from sentence_transformers import SentenceTransformer
from bertopic import BERTopic
from bertopic.representation import KeyBERTInspired
from bertopic.vectorizers import ClassTfidfTransformer

In [3]:
from opensearch_data_model import Topic, TopicKeyword, News, os_client, TOPIC_INDEX_NAME, NEWS_INDEX_NAME
from opensearchpy import helpers

In [4]:
from openai import OpenAI

### Inicializamos la base vectorial

In [5]:
init_opensearch()



El índice Topic ya existe. Saltando inicialización de base de datos.
El índice News ya existe. Saltando inicialización de base de datos.


### Path

In [6]:
load_dotenv()
PATH_REMOTO='/content/ITBA-NLP/data/'
PATH=os.environ.get('PATH_LOCAL', PATH_REMOTO)
PATH

'C:/Users/gabri/OneDrive/Machine Learning/Github/ITBA-NLP/data/'

In [7]:
if PATH == os.environ.get('PATH_LOCAL'):
    client = OpenAI(api_key= os.environ.get('OPENAI_API_KEY'))
else:
    from google.colab import userdata
    client = OpenAI(api_key= userdata.get('OPENAI_API_KEY'))

### Cargamos noticias de dos chunks

In [37]:
# Read the parquet file | ( lotes de prueba )

df_params = {'0_1000':'0_1000_data.parquet',
             '1000_2000':'1000_2000_data.parquet',
             '2000_3000':'2000_3000_data.parquet',
             'df_joined':'df_joined_2024-04-01 00_00_00.parquet'
            }

chunk = '0_1000'
df_parquet_1 = pd.read_parquet(PATH+df_params[chunk])
data_1 = list(df_parquet_1['in__text'])

chunk = '1000_2000'
df_parquet_2 = pd.read_parquet(PATH+df_params[chunk])
data_2 = list(df_parquet_2['in__text'])

In [38]:
# Unificamos datos
df_parquet = pd.concat([df_parquet_1, df_parquet_2], ignore_index=True)

### Modelo 1

In [9]:
# Cargar modelo 1 
chunk = '0_1000'

topic_model_1 = BERTopic.load(PATH+f"modelos/bertopic_model_{chunk}")
topics_1 = np.load(PATH+f"modelos/topics_{chunk}.npy")
probs_1 = np.load(PATH+f"modelos/probs_{chunk}.npy")

# Cargar los embeddings 
docs_embedding_1 = np.load(PATH+f"modelos/topic_embeddings_{chunk}.npy")

### Modelo 2

In [10]:
# Cargar modelo 2
chunk = '1000_2000'

topic_model_2 = BERTopic.load(PATH+f"modelos/bertopic_model_{chunk}")
topics_2 = np.load(PATH+f"modelos/topics_{chunk}.npy")
probs_2 = np.load(PATH+f"modelos/probs_{chunk}.npy")

# Cargar los embeddings 
docs_embedding_2 = np.load(PATH+f"modelos/topic_embeddings_{chunk}.npy")

### Merge

In [11]:
# Combine all models into one
merged_model = BERTopic.merge_models([topic_model_1, topic_model_2])


## Resultados

In [16]:
print(f"Cantidad de tópicos modelo 1: {len(topic_model_1.get_topic_info())} (incluye topico -1)")
print(f"Cantidad de tópicos modelo 2: {len(topic_model_2.get_topic_info())} (incluye topico -1)")

Cantidad de tópicos modelo 1: 17 (incluye topico -1)
Cantidad de tópicos modelo 2: 18 (incluye topico -1)


In [17]:
print(f"Cantidad de tópicos modelo merge: {len(merged_model.get_topic_info())} (incluye topico -1)")

Cantidad de tópicos modelo merge: 19 (incluye topico -1)


#### Comparamos modelos ordenados por topicos

In [31]:
# Obtener documentos de cada tópico y modelo
topic_freq_1 = topic_model_1.get_topic_freq()
topic_freq_2 = topic_model_2.get_topic_freq()
topic_freq_m = merged_model.get_topic_freq()

# Ordenar los DataFrames por 'Topic'
df1 = topic_freq_1.sort_values(by='Topic').reset_index(drop=True)
df2 = topic_freq_2.sort_values(by='Topic').reset_index(drop=True)
df3 = topic_freq_m.sort_values(by='Topic').reset_index(drop=True)

# Renombrar las columnas 'Count' para diferenciar ambos DataFrames
df1 = df1.rename(columns={'Count': 'Count1'})
df2 = df2.rename(columns={'Count': 'Count2'})
df3 = df3.rename(columns={'Count': 'Merged'})

# Combinar los DataFrames por 'Topic'
df_combined = pd.merge(df1, df2, on='Topic', how='outer')
df_combined = pd.merge(df_combined, df3, on='Topic', how='outer')

df_combined

Unnamed: 0,Topic,Count1,Count2,Merged
0,-1,140.0,119.0,259
1,0,157.0,320.0,326
2,1,130.0,169.0,130
3,2,116.0,57.0,436
4,3,112.0,49.0,183
5,4,84.0,36.0,176
6,5,52.0,34.0,52
7,6,30.0,31.0,30
8,7,27.0,29.0,56
9,8,26.0,26.0,83


### Recuperar todos los topicos y sus etiquetas generadas por el modelo

In [50]:
# docs de 0-1000 primer chunk
# docs de 1000-2000 segundo chunk
docs = [i for i, x in enumerate(merged_model.topics_) if x == 14]
for i in docs:
    print(i, df_parquet.iloc[i]['in__title'])

136 Marzo fue el décimo mes consecutivo en romper récords de altas temperaturas globales
162 Último día del fin de semana largo: cuál es el pronóstico del tiempo para este martes
223 Emiten alerta naranja por viento y lluvia para este martes
254 Pronóstico: para mañana se espera un aumento de la temperatura y alerta por Zonda y sectores del Gan Mendoza
354 El tiempo en Santiago del Estero: máxima de 26ºC y probabilidad de precipitaciones para el inicio de abril
359 Inicio de semana fresco y con un cielo parcialmente nublado - MDZ Online
505 El cielo estará nublado y se esperan lluvias durante toda la jornada en Tucumán
517 Lunes caluroso en Misiones, con pronostico de lluvias y chaparrones aislados
907 Clima en Córdoba: fuerte descenso de la temperatura para el lunes, ¿llega la lluvia?
966 Alerta por viento y lluvia, este martes y miércoles, en Neuquén y Río Negro: habrá ráfagas de 120 km/h
991 🟠 Lanzaron una alerta naranja por fuertes vientos: qué provincias serán afectadas
1085 Prono

### Buscar topicos ingresando un texto en el modelo merged

In [35]:
topic_res = merged_model.find_topics("cambio climatico")
topic_res

([14, 2, 7, 5, 13], [0.5230975, 0.33653283, 0.2686169, 0.25594658, 0.2443951])