In [0]:
%pip install stanza


In [0]:
import stanza

# Descargar el modelo en catalán
stanza.download('ca')


In [0]:
#TOPICOS

import json
from azure.storage.blob import BlobServiceClient
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import stanza
import pandas as pd

# Descargar el modelo en catalán para Stanza
stanza.download('ca')

# Cargar el modelo de lematización en catalán
nlp = stanza.Pipeline('ca', processors='tokenize,mwt,pos,lemma')

# Función para lematizar y normalizar texto
def preprocess_text(text):
    doc = nlp(text)
    lemmatized_tokens = [word.lemma for sentence in doc.sentences for word in sentence.words if word.lemma not in stop_words_catalan]
    return " ".join(lemmatized_tokens)


# Stopwords en catalán 
stop_words_catalan = ['a', 'abans', 'abintestat', 'ací', 'adesiara', 'adés', 'adéu', 'adàgio', 'ah', 'ahir', 'ai', 'aitambé', 'aitampoc', 'aitan', 'aitant', 'aitantost', 'aixà', 'això', 'així', 'aleshores', 'algun', 'alguna', 'algunes', 'alguns', 'algú', 'alhora', 'allà', 'allèn', 'allò', 'allí', 'almenys', 'alto', 'altra', 'altre', 'altres', 'altresí', 'altri', 'alça', 'al·legro', 'amargament', 'amb', 'ambdues', 'ambdós', 'amunt', 'amén', 'anc', 'andante', 'andantino', 'anit', 'ans', 'antany', 'apa', 'aprés', 'aqueix', 'aqueixa', 'aqueixes', 'aqueixos', 'aqueixs', 'aquell', 'aquella', 'aquelles', 'aquells', 'aquest', 'aquesta', 'aquestes', 'aquests', 'aquèn', 'aquí', 'ara', 'arran', 'arrera', 'arrere', 'arreu', 'arri', 'arruix', 'atxim', 'au', 'avall', 'avant', 'aviat', 'avui', 'açò', 'bah', 'baix', 'baldament', 'ballmanetes', 'banzim-banzam', 'bastant', 'bastants', 'ben', 'bis', 'bitllo-bitllo', 'bo', 'bé', 'ca', 'cada', 'cal', 'cap', 'car', 'caram', 'catorze', 'cent', 'centes', 'cents', 'cerca', 'cert', 'certa', 'certes', 'certs', 'cinc', 'cinquanta', 'cinquena', 'cinquenes', 'cinquens', 'cinquè', 'com', 'comsevulla', 'contra', 'cordons', 'corrents', 'cric-crac', 'd', 'daixonses', 'daixò', 'dallonses', 'dallò', 'dalt', 'daltabaix', 'damunt', 'darrera', 'darrere', 'davall', 'davant', 'de', 'debades', 'dedins', 'defora', 'dejorn', 'dejús', 'dellà', 'dementre', 'dempeus', 'demés', 'demà', 'des', 'desena', 'desenes', 'desens', 'després', 'dessobre', 'dessota', 'dessús', 'desè', 'deu', 'devers', 'devora', 'deçà', 'diferents', 'dinou', 'dins', 'dintre', 'disset', 'divers', 'diversa', 'diverses', 'diversos', 'divuit', 'doncs', 'dos', 'dotze', 'dues', 'durant', 'ecs', 'eh', 'el', 'ela', 'elis', 'ell', 'ella', 'elles', 'ells', 'els', 'em', 'emperò', 'en', 'enans', 'enant', 'encara', 'encontinents', 'endalt', 'endarrera', 'endarrere', 'endavant', 'endebades', 'endemig', 'endemés', 'endemà', 'endins', 'endintre', 'enfora', 'engir', 'enguany', 'enguanyasses', 'enjús', 'enlaire', 'enlloc', 'enllà', 'enrera', 'enrere', 'ens', 'ensems', 'ensota', 'ensús', 'entorn', 'entre', 'entremig', 'entretant', 'entrò', 'envers', 'envides', 'environs', 'enviró', 'ençà', 'ep', 'era', 'eren', 'eres', 'ergo', 'es', 'escar', 'essent', 'esser', 'est', 'esta', 'estada', 'estades', 'estan', 'estant', 'estar', 'estaran', 'estarem', 'estareu', 'estaria', 'estarien', 'estaries', 'estaré', 'estarà', 'estaràs', 'estaríem', 'estaríeu', 'estat', 'estats', 'estava', 'estaven', 'estaves', 'estem', 'estes', 'esteu', 'estic', 'estiguem', 'estigueren', 'estigueres', 'estigues', 'estiguessis', 'estigueu', 'estigui', 'estiguin', 'estiguis', 'estigué', 'estiguérem', 'estiguéreu', 'estigués', 'estiguí', 'estos', 'està', 'estàs', 'estàvem', 'estàveu', 'et', 'etc', 'etcètera', 'ets', 'excepte', 'fins', 'fora', 'foren', 'fores', 'força', 'fos', 'fossin', 'fossis', 'fou', 'fra', 'fui', 'fóra', 'fórem', 'fóreu', 'fóssim', 'fóssiu', 'gaire', 'gairebé', 'gaires', 'gens', 'girientorn', 'gratis', 'ha', 'hagi', 'hagin', 'hagis', 'haguda', 'hagudes', 'hagueren', 'hagueres', 'haguessin', 'haguessis', 'haguts', 'hagué', 'haguérem', 'haguéreu', 'hagués', 'haguéssim', 'haguéssiu', 'haguí', 'hala', 'han', 'has', 'hauran', 'haurem', 'haureu', 'hauria', 'haurien', 'hauries', 'hauré', 'haurà', 'hauràs', 'hauríem', 'hauríeu', 'havem', 'havent', 'haver', 'haveu', 'havia', 'havien', 'havies', 'havíem', 'havíeu', 'he', 'hem', 'heu', 'hi', 'ho', 'hom', 'hui', 'hàgim', 'hàgiu', 'i', 'igual', 'iguals', 'inclusive', 'ja', 'jamai', 'jo', 'l', 'la', 'leri-leri', 'les', 'li', 'lla', 'llavors', 'llevat', 'lluny', 'llur', 'llurs', 'lo', 'los', 'ls', 'm', 'ma', 'mai', 'mal', 'malament', 'malgrat', 'manco', 'mant', 'manta', 'mantes', 'mantinent', 'mants', 'massa', 'mateix', 'mateixa', 'mateixes', 'mateixos', 'me', 'mentre', 'mentrestant', 'menys', 'mes', 'meu', 'meua', 'meues', 'meus', 'meva', 'meves', 'mi', 'mig', 'mil', 'mitges', 'mitja', 'mitjançant', 'mitjos', 'moixoni', 'molt', 'molta', 'moltes', 'molts', 'mon', 'mos', 'més', 'n', 'na', 'ne', 'ni', 'ningú', 'no', 'nogensmenys', 'només', 'noranta', 'nos', 'nosaltres', 'nostra', 'nostre', 'nostres', 'nou', 'novena', 'novenes', 'novens', 'novè', 'ns', 'nòs', 'nós', 'o', 'oh', 'oi', 'oidà', 'on', 'onsevulga', 'onsevulla', 'onze', 'pas', 'pengim-penjam', 'per', 'perquè', 'pertot', 'però', 'piano', 'pla', 'poc', 'poca', 'pocs', 'poques', 'potser', 'prest', 'primer', 'primera', 'primeres', 'primers', 'pro', 'prompte', 'prop', 'prou', 'puix', 'pus', 'pàssim', 'qual', 'quals', 'qualsevol', 'qualsevulla', 'qualssevol', 'qualssevulla', 'quan', 'quant', 'quanta', 'quantes', 'quants', 'quaranta', 'quart', 'quarta', 'quartes', 'quarts', 'quasi', 'quatre', 'que', 'quelcom', 'qui', 'quin', 'quina', 'quines', 'quins', 'quinze', 'quisvulla', 'què', 'ran', 're', 'rebé', 'renoi', 'rera', 'rere', 'res', 'retruc', 's', 'sa', 'salvament', 'salvant', 'salvat', 'se', 'segon', 'segona', 'segones', 'segons', 'seguida', 'seixanta', 'sempre', 'sengles', 'sens', 'sense', 'ser', 'seran', 'serem', 'sereu', 'seria', 'serien', 'series', 'seré', 'serà', 'seràs', 'seríem', 'seríeu', 'ses', 'set', 'setanta', 'setena', 'setenes', 'setens', 'setze', 'setè', 'seu', 'seua', 'seues', 'seus', 'seva', 'seves', 'si', 'sia', 'siau', 'sic', 'siguem', 'sigues', 'sigueu', 'sigui', 'siguin', 'siguis', 'sinó', 'sis', 'sisena', 'sisenes', 'sisens', 'sisè', 'sobre', 'sobretot', 'sol', 'sola', 'solament', 'soles', 'sols', 'som', 'son', 'sos', 'sota', 'sots', 'sou', 'sovint', 'suara', 'sí', 'sóc', 'són', 't', 'ta', 'tal', 'tals', 'també', 'tampoc', 'tan', 'tanmateix', 'tant', 'tanta', 'tantes', 'tantost', 'tants', 'te', 'tercer', 'tercera', 'terceres', 'tercers', 'tes', 'teu', 'teua', 'teues', 'teus', 'teva', 'teves', 'ton', 'tos', 'tost', 'tostemps', 'tot', 'tota', 'total', 'totes', 'tothom', 'tothora', 'tots', 'trenta', 'tres', 'tret', 'tretze', 'tu', 'tururut', 'u', 'uf', 'ui', 'uix', 'ultra', 'un', 'una', 'unes', 'uns', 'up', 'upa', 'us', 'va', 'vagi', 'vagin', 'vagis', 'vaig', 'vair', 'vam', 'van', 'vares', 'vas', 'vau', 'vem', 'verbigràcia', 'vers', 'vet', 'veu', 'vint', 'vora', 'vos', 'vosaltres', 'vostra', 'vostre', 'vostres', 'vostè', 'vostès', 'vuit', 'vuitanta', 'vuitena', 'vuitenes', 'vuitens', 'vuitè', 'vés', 'vàreig', 'vàrem', 'vàreu', 'vós', 'xano-xano', 'xau-xau', 'xec', 'érem', 'éreu', 'és', 'ésser', 'àdhuc', 'àlies', 'ça', 'ço', 'òlim', 'ídem', 'últim', 'última', 'últimes', 'últims', 'únic', 'única', 'únics', 'úniques','dels','als','fer','fa','anys','anar','tenir','dir']

# Conectar al Blob Storage
blob_service_client = BlobServiceClient.from_connection_string("***************************")
container_name = "*******"
input_blob_name = "articles.json"
output_topics_blob_name = "articles_with_lda_topics_normalized.json"

# Descargar el archivo original
input_blob_client = blob_service_client.get_blob_client(container_name, input_blob_name)
articles_data = input_blob_client.download_blob().readall()
articles = json.loads(articles_data)

# Preprocesar los textos
documents = [preprocess_text(article['text']) for article in articles]

# Vectorización de los textos usando las stopwords en catalán
vectorizer = CountVectorizer(max_df=0.95, min_df=2, stop_words=stop_words_catalan)
doc_term_matrix = vectorizer.fit_transform(documents)

# Entrenamiento del modelo LDA
lda = LatentDirichletAllocation(n_components=10, random_state=0)
lda_topic_matrix = lda.fit_transform(doc_term_matrix)

# Obtener las palabras más significativas para cada tópico
def get_top_words(model, feature_names, n_top_words):
    topics = {}
    for topic_idx, topic in enumerate(model.components_):
        top_words = [feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]]
        topics[topic_idx] = top_words
    return topics

n_top_words = 10
feature_names = vectorizer.get_feature_names_out()
topics = get_top_words(lda, feature_names, n_top_words)

# Crear un DataFrame con los tópicos y sus palabras clave
lda_topic_df = pd.DataFrame(lda_topic_matrix)

# Agregar los tópicos a los artículos
for i, article in enumerate(articles):
    article['lda_topics'] = lda_topic_df.iloc[i].to_dict()

# Agregar las palabras clave de los tópicos a los artículos
for article in articles:
    article['topic_keywords'] = {str(topic_idx): topics[topic_idx] for topic_idx in range(len(topics))}

# Convertir los artículos a JSON
articles_with_topics_json = json.dumps(articles, ensure_ascii=False, indent=4)

# Subir el archivo JSON a Blob Storage
output_blob_client = blob_service_client.get_blob_client(container_name, output_topics_blob_name)
output_blob_client.upload_blob(articles_with_topics_json, overwrite=True)

print(f"Archivo de tópicos subido a: {output_topics_blob_name}")

In [0]:
import json
from azure.storage.blob import BlobServiceClient

# Conectar al Blob Storage
blob_service_client = BlobServiceClient.from_connection_string("************************")
container_name = "*******"
output_topics_blob_name = "articles_with_lda_topics_normalized.json"

# Descargar el archivo de tópicos
output_blob_client = blob_service_client.get_blob_client(container_name, output_topics_blob_name)
topics_data = output_blob_client.download_blob().readall()
articles_with_topics = json.loads(topics_data)

# Mostrar el primer artículo
first_article = articles_with_topics[0]
print(json.dumps(first_article, indent=4, ensure_ascii=False))

# Interpretación del contenido del primer artículo
print("\nInterpretación del contenido del primer artículo:")
print(f"URL: {first_article['url']}")
print(f"Texto: {first_article['text'][:200]}...")  # Mostrar solo los primeros 200 caracteres
print(f"ID de Contenido: {first_article['contentId']}")
print(f"Nombre del Tópico: {first_article['topicName']}")
print("\nDistribuciones de Tópicos:")
for topic_idx, prob in first_article['lda_topics'].items():
    print(f"Tópico {topic_idx}: {prob:.4f}")

print("\nPalabras Clave de los Tópicos:")
for topic_idx, keywords in first_article['topic_keywords'].items():
    print(f"Tópico {topic_idx}: {', '.join(keywords)}")
