In [36]:
import pandas as pd
import spacy
nlp = spacy.load('es_core_news_sm')
from dotenv import load_dotenv
import os
import operator
import gensim
from gensim.corpora import Dictionary
from gensim.models import LdaModel

from pymongo.mongo_client import MongoClient

In [3]:
client = MongoClient()
load_dotenv()
DB_USERNAME = os.getenv("DB_USERNAME")
DB_PASSWORD = os.getenv("DB_PASSWORD")

def db_connection():
    uri = f"mongodb+srv://{DB_USERNAME}:{DB_PASSWORD}@cluster0.k2mhzdx.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0".format(DB_USERNAME, DB_PASSWORD)

    # Create a new client and connect to the server
    client = MongoClient(uri)

    try:
        client.admin.command('ping')
        print("Pinged your deployment. You successfully connected to MongoDB!")
    except Exception as e:
        print(e)
    
    return client

client = db_connection()

Pinged your deployment. You successfully connected to MongoDB!


In [4]:
db = client['Corpusdb']
coll = db['Corpus']

In [5]:
df = pd.DataFrame(list(coll.find({})))
df.head()

Unnamed: 0,_id,fecha,titulo,link,periodico,articulo
0,6639b5f93ba6a75db90758b8,22-Nov-1993,Repuntará TLC la economía,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,PDF Repuntará TLC la economía Estiman especial...
1,6639b5f93ba6a75db90758b9,22-Nov-1993,Reactivará Salinas la economía,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,PDF Reactivará Salinas la economía La aprobaci...
2,6639b5f93ba6a75db90758ba,22-Nov-1993,Debe mantenerse prudencia financiera,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,PDF Debe mantenerse prudencia financiera Neces...
3,6639b5f93ba6a75db90758bb,28-Nov-1993,¿Mutaciones Políticas?,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,PDF ¿Mutaciones Políticas? Ensayo. I. México e...
4,6639b5f93ba6a75db90758bc,29-Nov-1993,Jonathan Heath C./ La Cartera Vencida: Mito y ...,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,PDF Jonathan Heath C./ La Cartera Vencida: Mit...


In [6]:
def clean_date(serie):

    months = {
        'Ene' : '01',
        'Feb' : '02',
        'Mar' : '03', 
        'Abr' : '04',
        'May' : '05',
        'Jun' : '06',
        'Jul' : '07',
        'Ago' : '08',
        'Sep' : '09',
        'Oct' : '10',
        'Nov' : '11',
        'Dic' : '12'
    }

    for old, new in months.items():
        serie = serie.str.replace(old, new, regex=False)

    serie = pd.to_datetime(serie, format='%d-%m-%Y')

    return serie


def clean_df(df):
    corpus = df.sample(100, random_state=91)
    corpus = corpus.set_index('_id')
    corpus['fecha'] = clean_date(corpus['fecha'])
    return corpus

corpus = clean_df(df)
corpus

Unnamed: 0_level_0,fecha,titulo,link,periodico,articulo
_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
663ef5d724121fc8a12bdad2,2003-10-30,Incumplen países ricos promesas.- Annan,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,Incumplen países ricos promesas.- Annan Incump...
663c74cb1cd64bb44b59c36c,1999-06-14,Conservan Acciones su Atractivo,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,PDF Conservan Acciones su Atractivo Se repone ...
6643c87f3e3cbadd952c7c9f,2020-05-17,Endurece México el mercado eléctrico.- WSJ,https://busquedas.gruporeforma.com/mural/Docum...,mural,Endurece México el mercado eléctrico.- WSJ End...
663fdbc524121fc8a12bf954,2018-12-01,Destacan en el mundo toma de AMLO,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,grupo reforma - fotogaleria Destacan en el mun...
6644d84c3e3cbadd952c98fc,2010-06-30,Regresan temores y caen las Bolsas,https://busquedas.gruporeforma.com/elnorte/Doc...,elnorte,PDF Regresan temores y caen las Bolsas Desatan...
...,...,...,...,...,...
663feae524121fc8a12bfbe0,2019-09-29,División no le sirve al País.- Domínguez,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,División no le sirve al País.- Domínguez Divis...
664714403e3cbadd952caf56,2020-02-21,'Miedo avanza más rápido que virus',https://busquedas.gruporeforma.com/elnorte/Doc...,elnorte,'Miedo avanza más rápido que virus' 'Miedo ava...
663effe724121fc8a12bdc80,2004-12-30,Espera AL crecimiento sólido.- Cepal,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,Espera AL crecimiento sólido.- Cepal Espera AL...
6646ffec3e3cbadd952cac0b,2019-02-07,VISIÓN ECONÓMICA / Pausa en las tasas,https://busquedas.gruporeforma.com/elnorte/Doc...,elnorte,PDF VISIÓN ECONÓMICA / Pausa en las tasas Salv...


In [7]:
docs = []

for doc in corpus['articulo']:   # Tonenization (slow)
    docs.append(nlp(doc))

docs

[Incumplen países ricos promesas.- Annan Incumplen países ricos promesas.- Annan El Secretario General de la ONU lamentó que los países  ricos no cumplan con la promesa de la Cumbre de Monterrey de invertir en las naciones pobres. Incumplen países ricos promesas.- Annan El Secretario General de la ONU, Kofi Annan, lamentó hoy que los países industrializados no estén cumpliendo con sus promesas de invertir en las naciones pobres. 
 
 Así lo manifestó en el diálogo de alto nivel que se celebra en la Asamblea General sobre financiación y desarrollo, en el que se analiza los compromisos adoptados en el Cumbre de Monterrey, de marzo del 2002.
 
 Annan se quejó de que la transferencia de recursos financieros de los países desarrollados a los de vía de desarrollo el año pasado fue de 200 mil millones menos que el año anterior.
 
 Señaló que es prioritario "revertir la hoja de balance negativa (de los países pobres) y reformar el sistema para que todos las naciones, especialmente las desfavore

In [8]:
docs = [[w.lemma_
          for w in doc
              if not w.is_stop
              and not w.is_punct
              and not w.like_num] for doc in docs]

docs

[['Incumplen',
  'país',
  'rico',
  'promesas.-',
  'Annan',
  'Incumplen',
  'país',
  'rico',
  'promesas.-',
  'Annan',
  'Secretario',
  'General',
  'ONU',
  'lamentar',
  'país',
  ' ',
  'rico',
  'cumplir',
  'promesa',
  'Cumbre',
  'Monterrey',
  'invertir',
  'nación',
  'pobre',
  'Incumplen',
  'país',
  'rico',
  'promesas.-',
  'Annan',
  'Secretario',
  'General',
  'ONU',
  'Kofi',
  'Annan',
  'lamentar',
  'país',
  'industrializado',
  'estar',
  'cumplir',
  'promesa',
  'invertir',
  'nación',
  'pobre',
  '\n\n',
  'diálogo',
  'alto',
  'nivel',
  'celebrar',
  'Asamblea',
  'General',
  'financiación',
  'desarrollo',
  'analizar',
  'compromiso',
  'adoptado',
  'Cumbre',
  'Monterrey',
  'marzo',
  '\n\n',
  'Annan',
  'quejar',
  'transferencia',
  'recurso',
  'financiero',
  'país',
  'desarrollado',
  'vía',
  'desarrollo',
  'año',
  'millón',
  'año',
  '\n\n',
  'prioritario',
  'revertir',
  'hoja',
  'balance',
  'negativo',
  'país',
  'pobre',
  '

In [9]:
## Delete short words
docs = [[token for token in doc if len(token) > 2] for doc in docs]

## to lowercase
docs = [[token.lower() for token in doc] for doc in docs]

docs

[['incumplen',
  'país',
  'rico',
  'promesas.-',
  'annan',
  'incumplen',
  'país',
  'rico',
  'promesas.-',
  'annan',
  'secretario',
  'general',
  'onu',
  'lamentar',
  'país',
  'rico',
  'cumplir',
  'promesa',
  'cumbre',
  'monterrey',
  'invertir',
  'nación',
  'pobre',
  'incumplen',
  'país',
  'rico',
  'promesas.-',
  'annan',
  'secretario',
  'general',
  'onu',
  'kofi',
  'annan',
  'lamentar',
  'país',
  'industrializado',
  'estar',
  'cumplir',
  'promesa',
  'invertir',
  'nación',
  'pobre',
  'diálogo',
  'alto',
  'nivel',
  'celebrar',
  'asamblea',
  'general',
  'financiación',
  'desarrollo',
  'analizar',
  'compromiso',
  'adoptado',
  'cumbre',
  'monterrey',
  'marzo',
  'annan',
  'quejar',
  'transferencia',
  'recurso',
  'financiero',
  'país',
  'desarrollado',
  'vía',
  'desarrollo',
  'año',
  'millón',
  'año',
  'prioritario',
  'revertir',
  'hoja',
  'balance',
  'negativo',
  'país',
  'pobre',
  'reformar',
  'sistema',
  'nación',
 

In [11]:
bigram = gensim.models.Phrases(docs)
docs = [bigram[doc] for doc in docs]
docs

[['incumplen',
  'país_rico',
  'promesas.-',
  'annan',
  'incumplen',
  'país_rico',
  'promesas.-',
  'annan',
  'secretario',
  'general',
  'onu',
  'lamentar',
  'país_rico',
  'cumplir',
  'promesa',
  'cumbre',
  'monterrey',
  'invertir',
  'nación',
  'pobre',
  'incumplen',
  'país_rico',
  'promesas.-',
  'annan',
  'secretario',
  'general',
  'onu',
  'kofi',
  'annan',
  'lamentar',
  'país',
  'industrializado',
  'estar',
  'cumplir',
  'promesa',
  'invertir',
  'nación',
  'pobre',
  'diálogo',
  'alto',
  'nivel',
  'celebrar',
  'asamblea',
  'general',
  'financiación',
  'desarrollo',
  'analizar',
  'compromiso',
  'adoptado',
  'cumbre',
  'monterrey',
  'marzo',
  'annan',
  'quejar',
  'transferencia',
  'recurso',
  'financiero',
  'país_desarrollado',
  'vía',
  'desarrollo',
  'año',
  'millón',
  'año',
  'prioritario',
  'revertir',
  'hoja',
  'balance',
  'negativo',
  'país',
  'pobre',
  'reformar',
  'sistema',
  'nación',
  'especialmente',
  'desf

In [12]:
dictionary = Dictionary(docs)
dictionary.filter_extremes(no_below=20, no_above=0.5)
bow = [dictionary.doc2bow(doc) for doc in docs]
bow

[[(0, 1),
  (1, 1),
  (2, 1),
  (3, 1),
  (4, 3),
  (5, 4),
  (6, 1),
  (7, 1),
  (8, 10),
  (9, 2),
  (10, 1),
  (11, 1),
  (12, 1),
  (13, 1),
  (14, 1),
  (15, 1),
  (16, 1),
  (17, 1),
  (18, 2),
  (19, 1),
  (20, 1),
  (21, 2),
  (22, 1),
  (23, 1),
  (24, 1),
  (25, 1),
  (26, 1),
  (27, 1),
  (28, 2),
  (29, 2),
  (30, 3),
  (31, 1),
  (32, 1),
  (33, 1),
  (34, 1)],
 [(1, 1),
  (3, 1),
  (4, 1),
  (6, 6),
  (7, 2),
  (11, 4),
  (15, 3),
  (18, 1),
  (24, 1),
  (26, 3),
  (28, 1),
  (29, 2),
  (34, 2),
  (35, 11),
  (36, 1),
  (37, 1),
  (38, 2),
  (39, 4),
  (40, 1),
  (41, 1),
  (42, 1),
  (43, 1),
  (44, 1),
  (45, 1),
  (46, 7),
  (47, 1),
  (48, 1),
  (49, 2),
  (50, 4),
  (51, 7),
  (52, 1),
  (53, 3),
  (54, 1),
  (55, 1),
  (56, 1),
  (57, 1),
  (58, 5),
  (59, 4),
  (60, 1),
  (61, 3),
  (62, 1),
  (63, 1),
  (64, 2),
  (65, 1),
  (66, 1),
  (67, 2),
  (68, 1),
  (69, 6),
  (70, 2),
  (71, 1),
  (72, 1),
  (73, 1)],
 [(0, 3),
  (2, 2),
  (3, 1),
  (4, 1),
  (8, 2),
  (9

In [37]:
num_topics = 6
chunksize = 2000
passes = 20
iterations = 400
eval_every = None  # Perplexity of the model. (takes a long time if activated)
# Make a index to word dictionary.
temp = dictionary[0]  # This is only to "load" the dictionary.
id2word = dictionary.id2token

model = LdaModel(
    corpus=bow,
    id2word=id2word,
    chunksize=chunksize,
    alpha='auto',
    eta='auto',
    iterations=iterations,
    num_topics=num_topics,
    passes=passes,
    eval_every=eval_every
)

In [38]:
doc_topics=[]
for i in range(len(bow)):
    doc_topics.append(model.get_document_topics(bow[i]))

for tup in doc_topics:   # Solamente se toma el tópico con más probabilidad
    tup.sort(key = operator.itemgetter(1), reverse = True)

In [39]:
doc_topics

[[(1, 0.9962743)],
 [(1, 0.6060975), (0, 0.3927145)],
 [(1, 0.78513753), (4, 0.21293081)],
 [(3, 0.9457961), (1, 0.019179532), (0, 0.013484705)],
 [(5, 0.99436307)],
 [(1, 0.9937019)],
 [(1, 0.9965214)],
 [(4, 0.9948782)],
 [(0, 0.42655155), (2, 0.30879447), (4, 0.2621872)],
 [(3, 0.9910896)],
 [(3, 0.9901773)],
 [(5, 0.9942488)],
 [(2, 0.99566895)],
 [(0, 0.99356663)],
 [(4, 0.4127166), (1, 0.30336544), (5, 0.28278542)],
 [(1, 0.99479556)],
 [(0, 0.6443562), (2, 0.35085592)],
 [(1, 0.9917114)],
 [(1, 0.9963393)],
 [(1, 0.7228285), (0, 0.27480188)],
 [(2, 0.9924488)],
 [(4, 0.9962624)],
 [(1, 0.557278), (0, 0.43901876)],
 [(0, 0.56363434), (4, 0.4334384)],
 [(0, 0.9930036)],
 [(3, 0.6065302), (1, 0.38206452)],
 [(1, 0.99536985)],
 [(1, 0.69270617), (2, 0.30622557)],
 [(1, 0.9956574)],
 [(1, 0.5549348), (0, 0.29426706), (4, 0.14902318)],
 [(2, 0.993198)],
 [(0, 0.64793), (4, 0.3459641)],
 [(1, 0.5628585), (0, 0.21999083), (4, 0.21607871)],
 [(2, 0.99804574)],
 [(0, 0.8441022), (2, 0.151

In [40]:
lis_topics = []
for t in range(len(doc_topics)):
    lis_topics.append(doc_topics[t][0][0])

lis_topics

[1,
 1,
 1,
 3,
 5,
 1,
 1,
 4,
 0,
 3,
 3,
 5,
 2,
 0,
 4,
 1,
 0,
 1,
 1,
 1,
 2,
 4,
 1,
 0,
 0,
 3,
 1,
 1,
 1,
 1,
 2,
 0,
 1,
 2,
 0,
 1,
 0,
 0,
 1,
 0,
 4,
 1,
 0,
 1,
 0,
 0,
 0,
 1,
 5,
 1,
 1,
 1,
 5,
 3,
 1,
 0,
 1,
 0,
 0,
 0,
 5,
 2,
 1,
 3,
 3,
 5,
 1,
 0,
 0,
 0,
 5,
 1,
 4,
 1,
 4,
 5,
 1,
 0,
 2,
 4,
 5,
 1,
 1,
 0,
 1,
 1,
 4,
 5,
 5,
 4,
 1,
 1,
 1,
 2,
 0,
 1,
 4,
 1,
 4,
 1]

In [41]:
corpus['topicos'] = lis_topics

In [42]:
corpus

Unnamed: 0_level_0,fecha,titulo,link,periodico,articulo,topicos
_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
663ef5d724121fc8a12bdad2,2003-10-30,Incumplen países ricos promesas.- Annan,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,Incumplen países ricos promesas.- Annan Incump...,1
663c74cb1cd64bb44b59c36c,1999-06-14,Conservan Acciones su Atractivo,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,PDF Conservan Acciones su Atractivo Se repone ...,1
6643c87f3e3cbadd952c7c9f,2020-05-17,Endurece México el mercado eléctrico.- WSJ,https://busquedas.gruporeforma.com/mural/Docum...,mural,Endurece México el mercado eléctrico.- WSJ End...,1
663fdbc524121fc8a12bf954,2018-12-01,Destacan en el mundo toma de AMLO,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,grupo reforma - fotogaleria Destacan en el mun...,3
6644d84c3e3cbadd952c98fc,2010-06-30,Regresan temores y caen las Bolsas,https://busquedas.gruporeforma.com/elnorte/Doc...,elnorte,PDF Regresan temores y caen las Bolsas Desatan...,5
...,...,...,...,...,...,...
663feae524121fc8a12bfbe0,2019-09-29,División no le sirve al País.- Domínguez,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,División no le sirve al País.- Domínguez Divis...,1
664714403e3cbadd952caf56,2020-02-21,'Miedo avanza más rápido que virus',https://busquedas.gruporeforma.com/elnorte/Doc...,elnorte,'Miedo avanza más rápido que virus' 'Miedo ava...,4
663effe724121fc8a12bdc80,2004-12-30,Espera AL crecimiento sólido.- Cepal,https://busquedas.gruporeforma.com/reforma/Doc...,reforma,Espera AL crecimiento sólido.- Cepal Espera AL...,1
6646ffec3e3cbadd952cac0b,2019-02-07,VISIÓN ECONÓMICA / Pausa en las tasas,https://busquedas.gruporeforma.com/elnorte/Doc...,elnorte,PDF VISIÓN ECONÓMICA / Pausa en las tasas Salv...,4


In [44]:
topicos = model.show_topics()
print(topicos)


[(0, '0.042*"precio" + 0.041*"mexicano" + 0.029*"punto" + 0.028*"alza" + 0.025*"caída" + 0.025*"menor" + 0.022*"crecimiento" + 0.022*"pesos" + 0.020*"tasa_interés" + 0.020*"dólar"'), (1, '0.050*"crecimiento" + 0.037*"inversión" + 0.036*"empresa" + 0.021*"desarrollo" + 0.017*"presidente" + 0.017*"crecer" + 0.016*"grupo" + 0.015*"sector" + 0.015*"alto" + 0.015*"ver"'), (2, '0.077*"tasa" + 0.071*"dólar" + 0.059*"banco" + 0.055*"china" + 0.031*"estadounidense" + 0.028*"crecimiento" + 0.027*"banco_central" + 0.023*"deuda" + 0.021*"dato" + 0.019*"mundo"'), (3, '0.084*"reforma" + 0.043*"crisis" + 0.031*"inversión" + 0.028*"situación" + 0.028*"número" + 0.028*"presidente" + 0.026*"empresa" + 0.024*"tener" + 0.022*"momento" + 0.019*"empleo"'), (4, '0.032*"costo" + 0.030*"medida" + 0.029*"decisión" + 0.028*"importante" + 0.028*"banco_central" + 0.026*"banco" + 0.026*"cambio" + 0.024*"tasa_interés" + 0.023*"dejar" + 0.023*"deber"'), (5, '0.046*"china" + 0.043*"comercio" + 0.042*"empresa" + 0.039*