<a href="https://colab.research.google.com/github/abxda/python/blob/main/UP_Semana_6_Viernes_y_S%C3%A1bado_02_Noticias_Embedings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install -U duckduckgo_search
!pip install wordcloud matplotlib
!pip install transformers
!pip install sentence-transformers

In [None]:
!pip install flagembedding

In [None]:
# Instalar spaCy
!pip install -U spacy

# Descargar e instalar el modelo en español
!python -m spacy download es_core_news_sm


In [None]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from duckduckgo_search import AsyncDDGS
import asyncio
import pandas as pd
import string
from nltk.corpus import stopwords
import nltk
import spacy

In [None]:

# Configuraciones para la búsqueda de noticias en Aguascalientes
configuraciones = [
    {"idioma": "Español", "keywords": "México", "region": "mx-es"}
]

# Diccionario para almacenar los resultados de noticias por idioma
resultados_noticias = {"Español": []}

async def buscar_noticias(idioma, keywords, region):
    async_ddgs = AsyncDDGS()
    noticias = await async_ddgs.anews(keywords=keywords, region=region, safesearch='moderate', max_results=100)
    return idioma, noticias

async def main():
    tasks = [buscar_noticias(conf['idioma'], conf['keywords'], conf['region']) for conf in configuraciones]
    results = await asyncio.gather(*tasks)
    for idioma, noticias in results:
        resultados_noticias[idioma].extend(noticias)  # Añadir noticias a la lista correspondiente del idioma
        print(f"Resultados para {idioma}: {len(noticias)} noticias encontradas.")

    # Imprimir las listas de noticias por idioma
    for idioma, lista_noticias in resultados_noticias.items():
        print(f"\n{idioma} ({len(lista_noticias)} noticias):")
        print([noticia['title'] for noticia in lista_noticias[:10]])  # Mostrar solo los títulos de las primeras 10 noticias para brevedad

    # Opcional: Concatenar títulos de noticias y generar nube de palabras
    news_text = ' '.join([news['body'] for news in resultados_noticias['Español']])
    wordcloud = WordCloud(width=800, height=400, background_color='white').generate(news_text)

    # Mostrar la nube de palabras
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()

# Luego en otra celda de Jupyter:
await main()


In [None]:
len(resultados_noticias["Español"])

In [None]:
df_noticias = pd.DataFrame(resultados_noticias["Español"])

In [None]:
df_noticias

In [None]:
# Primero, asegúrate de descargar las stopwords
nltk.download('stopwords')

In [None]:
nltk.download('punkt')

In [None]:
df_noticias['clean_body'] = df_noticias['body'].str.lower()
df_noticias['clean_body'] = df_noticias['clean_body'].str.translate(str.maketrans('', '', string.punctuation))
stop_words = set(stopwords.words('spanish'))
df_noticias['clean_body'] = df_noticias['clean_body'].apply(lambda x: ' '.join(word for word in x.split() if word not in stop_words))

In [None]:
df_noticias

In [None]:
def generar_nube_de_palabras(textos_limpios):

    # Unir todos los cuerpos de texto en una sola cadena
    textos_unidos = ' '.join(textos_limpios)

    # Crear la nube de palabras
    wordcloud = WordCloud(width=800, height=400, background_color='white').generate(textos_unidos)

    # Mostrar la nube de palabras
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()

In [None]:
generar_nube_de_palabras(df_noticias['clean_body'])

In [None]:

# Contar noticias por fuente
conteo_fuentes = df_noticias['source'].value_counts()

# Crear gráfica de barras
plt.figure(figsize=(12, 8))  # Ajusta el tamaño para mejor visualización
conteo_fuentes.plot(kind='bar', color='skyblue')  # Puedes cambiar el color si deseas
plt.title('Cantidad de Noticias por Fuente')
plt.xlabel('Fuente')
plt.ylabel('Cantidad de Noticias')
plt.xticks(rotation=90)  # Rota las etiquetas del eje x a 90 grados
plt.tight_layout()  # Ajusta automáticamente los parámetros de la subtrama para dar espacio al contenido
plt.show()

In [None]:
nlp = spacy.load("es_core_news_sm")

# Tokenización y lematización
df_noticias['lemmatized'] = df_noticias['clean_body'].apply(lambda x: ' '.join([token.lemma_ for token in nlp(x)]))

In [None]:
df_noticias

In [None]:
generar_nube_de_palabras(df_noticias['lemmatized'])

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import normalize
from sklearn.cluster import KMeans

In [None]:
# Preprocesar el texto
def preprocess(text):
    doc = nlp(text)
    return " ".join([token.lemma_ for token in doc if not token.is_stop and not token.is_punct])

df_noticias['processed'] = df_noticias['body'].apply(preprocess)


In [None]:
def generar_nube_de_palabras(textos, ax):
    # Un ejemplo de cómo generar una nube de palabras
    # Aquí puedes ajustar los parámetros de la nube de palabras según tus necesidades
    text = ' '.join(textos)
    wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)
    ax.imshow(wordcloud, interpolation='bilinear')
    ax.axis('off')

def visualizar_clusters(df, clusters):
    df['cluster'] = clusters
    cluster_counts = df['cluster'].value_counts()
    num_clusters = (cluster_counts.index > -1).sum()

# Crear una figura con subplots
    fig, axs = plt.subplots(num_clusters, 2, figsize=(20, 50))

# Generar una nube de palabras y listar títulos para cada cluster
    for i in range(num_clusters):
    # Filtrar el DataFrame para obtener textos y títulos del cluster actual
        cluster_data = df[df['cluster'] == i]
        textos_cluster = cluster_data['processed'].tolist()
        titulos_cluster = cluster_data[['title', 'source']].apply(lambda x: f"{x['title']} ({x['source']})", axis=1).tolist()

        if textos_cluster:  # Verificar si la lista no está vacía
            generar_nube_de_palabras(textos_cluster, axs[i, 0])
        # Poner títulos en la segunda columna
            axs[i, 1].text(0.5, 0.5, "\n".join(titulos_cluster), verticalalignment='center', horizontalalignment='left', fontsize=12, family='monospace')
            axs[i, 1].axis('off')

        axs[i, 0].set_title(f'Cluster {i} - Nube de Palabras')
        axs[i, 1].set_title(f'Cluster {i} - Títulos y Fuentes')

    plt.tight_layout(pad=3.0)
    plt.show()

In [None]:
df_noticias

In [None]:
# Vectorización con TF-IDF usando n-gramas de caracteres de 3 a 5 longitudes
vectorizer = TfidfVectorizer(analyzer='char', ngram_range=(3,5))
X = vectorizer.fit_transform(df_noticias['lemmatized'])
# Normalización de vectores
X_normalized = normalize(X)

In [None]:
X.shape

In [None]:
# Clustering
db = DBSCAN(eps=0.8, min_samples=2, metric='cosine')
clusters = db.fit_predict(X_normalized)

In [None]:
visualizar_clusters(df_noticias, clusters)

In [None]:
df_noticias['cluster'] = clusters
cluster_counts = df_noticias['cluster'].value_counts()
print(cluster_counts)


In [None]:
# Clustering con K-means
kmeans = KMeans(n_clusters=8, random_state=42)
clusters = kmeans.fit_predict(X_normalized)

In [None]:
visualizar_clusters(df_noticias, clusters)

In [None]:
df_noticias['cluster'] = clusters
cluster_counts = df_noticias['cluster'].value_counts()
print(cluster_counts)


In [None]:
from FlagEmbedding import BGEM3FlagModel
import numpy as np

In [None]:
# Cargar el modelo BGE-M3
model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=False)

# Función para convertir texto a embeddings usando BGE-M3
def bge_m3_embed(text, model):
    embeddings = model.encode([text])['dense_vecs'][0]
    return embeddings

In [None]:
embeddings_list = []
for text in df_noticias['clean_body']:
    embedding = bge_m3_embed(text, model)
    embeddings_list.append(embedding)

In [None]:
X = np.array(embeddings_list)
X_normalized = X

In [None]:
X_normalized.shape

In [None]:
kmeans = KMeans(n_clusters=8, random_state=42)
clusters = kmeans.fit_predict(X_normalized)

In [None]:
visualizar_clusters(df_noticias, clusters)

In [None]:
df_noticias['cluster'] = clusters
cluster_counts = df_noticias['cluster'].value_counts()
print(cluster_counts)

In [None]:
# Clustering
db = DBSCAN(eps=0.85, min_samples=2, metric='euclidean')
clusters = db.fit_predict(X_normalized)

In [None]:
visualizar_clusters(df_noticias, clusters)

In [None]:
df_noticias['cluster'] = clusters
cluster_counts = df_noticias['cluster'].value_counts()
print(cluster_counts)

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.manifold import TSNE
import seaborn as sns

In [None]:
# Reducir la dimensionalidad con t-SNE
tsne = TSNE(n_components=2, random_state=42)
X_2d = tsne.fit_transform(X_normalized)

In [None]:
df_tsne = pd.DataFrame(X_2d, columns=['x', 'y'])
df_tsne['titulo'] = df_noticias['title']

In [None]:
# Configurar el tamaño de la figura
plt.figure(figsize=(18, 12))

# Crear el scatter plot con transparencia en los puntos
sns.scatterplot(data=df_tsne, x='x', y='y', hue='titulo', palette='viridis', legend=False, alpha=0.7)

# Agregar anotaciones con los títulos, ajustar el tamaño y color del texto
for i in range(df_tsne.shape[0]):
    plt.text(df_tsne.loc[i, 'x'], df_tsne.loc[i, 'y'], df_tsne.loc[i, 'titulo'], fontsize=8, color='black', alpha=0.7, bbox=dict(facecolor='white', alpha=0.5, edgecolor='none'))

plt.title('t-SNE de Embeddings de Noticias')
plt.xlabel('Componente 1')
plt.ylabel('Componente 2')
plt.grid(True)
plt.show()