# Word Embedding

## Motivación

¿Cómo representar las dimensiones semánticas de cada palabra?

Ejemplo:

1. Quiero una naranja.
2. Quiero una manzana.

Los métodos que toman en cuenta solo la forma de las palabras no tienen la capacidad de calcular que las frases 1 y 2 tienen un sentido "similar". 

Necesitamos una manera de representar que las palabras 'naranja' y 'manzana' comparten caracterícas semánticas comunes.

**Nota bene**

En tratamiento automático del lenguaje, consideramos que el lenguaje tiene distintos componentes.
- __morfológico__ o __fonológico__: es el componente más básico. Se empieza a reconocer las palabras y asociarlas a un significado. Ejemplo: "manzana"
- __semántico__: Se empieza a conceptualizar y crear relaciones entre las palabras. Ejemplo: "una manzana es una fruta", "las frutas se comen".
- __pragmático-discurso__: Es el componente más avanzado. En ese nivel, se conceptualiza que el lenguaje se utiliza en procesos de comunicación complejos. Según el contexto, los interlocutores, la cultura del entorno, las palabras pueden activar significados implicitos. Por ejemplo: "Blancanieve come la manzana", "es un siete", etc.



- Lectura sugerida: Libro "metaforas de la vida cotidiana" https://en.wikipedia.org/wiki/Metaphors_We_Live_By


## Definición de "Word Embedding"

El concepto de **word embedding** se refiere a un conjunto de técnicas utilizadas para aprender representaciones matemáticas de la "semántica" de cada palabra. El objeto matemático que permite representar la semántica de una palabra es el **vector**.

Una de las técnicas más populares es __Word2Vec__ propuesto por un equipo de investigación de Google en 2013 (Efficient Estimation of Word Representations in Vector Space [Mikolov et al., 2013]). Alternativas populares se basan sobre __GloVe__ (propuesta por la Universidad de Stanford en 2014) y __FastText__ (propuesta por Facebook en 2016), que extende Word2Vec para considerar de mejor manera las palabras con errores ortográficas.

- ¿Qué es un vector?  https://es.wikipedia.org/wiki/Vector

Se puede definir un vector por sus coordenadas en un espacio de N dimensiones. Por ejemplo, el vector V1 = (x1, x2, x3, ... xN)

Se puede realizar operaciones sobre vectores: sumar, restar, similitud coseno, etc.
https://es.wikipedia.org/wiki/Similitud_coseno

<img src="img/word2vec4.png"/>

Habitualmente, en tratamiento automático del lenguaje, se representan las palabras con vectores de 25, 50, 100 o 300 dimensiones.

## Un ejemplo práctico para acercarse al concepto de Word Embedding

La clase <code>word2vec</code> de Gensim permite manejar word embeddings de palabras (ver documentación: https://radimrehurek.com/gensim/models/word2vec.html).

In [2]:
from gensim.models import word2vec

In [3]:
sentences = word2vec.Text8Corpus('data/text8.txt')
model = word2vec.Word2Vec(sentences,vector_size=200,hs=1)



In [4]:
model.save("data/text8_model") ##genera un archivo

In [5]:
model=word2vec.Word2Vec.load("data/text8_model")

In [6]:
print(model)

Word2Vec<vocab=71290, vector_size=200, alpha=0.025>


- Ver el vector de palabras específicas. Por ejemplo "computer", "life", etc.

In [7]:
model.wv['life']

array([ 1.3873779 ,  0.1056964 , -0.3053595 ,  1.171956  ,  0.3055249 ,
       -0.84019136, -0.5626532 , -2.2368627 ,  0.28729212, -0.89245397,
        0.61564857, -0.6777192 , -1.2230296 , -0.22269729, -0.42155948,
        1.3475755 ,  0.7505848 ,  0.5244604 ,  0.23606025, -0.10441615,
        0.52621716, -0.8517971 ,  0.9095824 , -0.91438764, -0.33761966,
        0.0536961 , -0.4012095 ,  0.52302116,  0.54558456,  1.1046392 ,
        0.55384856,  0.22020715,  0.67722607, -0.09324903, -1.5977795 ,
        0.6101115 , -0.07452983, -0.83004165, -0.4831778 , -1.1570542 ,
        0.5061614 ,  0.89520156, -0.99571615,  0.05514246,  0.8484273 ,
        0.9056322 , -1.4072984 ,  0.07584541, -0.37658918,  1.7351568 ,
       -0.34726325,  1.1219136 , -0.8722527 ,  0.73101497, -0.5615551 ,
       -0.35945734, -0.93074733,  0.60748845,  0.4232592 , -0.8004978 ,
        0.9805693 ,  0.4879509 , -0.77131426,  1.113893  ,  0.19963044,
       -1.6719896 , -0.813534  , -1.176427  , -0.57572275, -0.45

**Nota bene**: Los parámetros de cada vector fueron aprendidos a través de un proceso de aprendizaje supervisado de una red neuronal, utilizando una dataset de entrenamiento. Las técnicas más comunes para aprender vectores de palabras se llaman CBOW (continuous bag of words) y Skip gram.

- Similitud coseno con otras palabras. Por ejemplo: "computer", "life", "country", "conflict", "violence", etc.

In [8]:
model.wv.most_similar(positive=['country'],topn=5)

[('nation', 0.6593830585479736),
 ('region', 0.5040891766548157),
 ('economy', 0.5014099478721619),
 ('area', 0.469865083694458),
 ('countries', 0.46323835849761963)]

- Similitud coseno combinado con suma y resta

In [9]:
model.wv.most_similar(positive=["conflict","weapon"])

[('confrontation', 0.5700017213821411),
 ('warfare', 0.53067946434021),
 ('fighting', 0.5236008763313293),
 ('weapons', 0.5219336152076721),
 ('struggle', 0.5084656476974487),
 ('conflicts', 0.4944647252559662),
 ('rifle', 0.4906761348247528),
 ('ammunition', 0.47907423973083496),
 ('hostilities', 0.47682955861091614),
 ('firearm', 0.46863725781440735)]

In [10]:
model.wv.most_similar(positive=["conflict"],negative=["weapon"])

[('clashes', 0.5515434741973877),
 ('disagreements', 0.49949419498443604),
 ('disputes', 0.4911406338214874),
 ('conflicts', 0.46809038519859314),
 ('antagonism', 0.45737114548683167),
 ('dispute', 0.4514462947845459),
 ('tensions', 0.4422266483306885),
 ('hostilities', 0.43313947319984436),
 ('negotiations', 0.42855796217918396),
 ('confrontations', 0.4209641218185425)]

In [11]:
model.wv.most_similar(positive=["life"],negative=["money"])

[('childhood', 0.37460124492645264),
 ('conceptions', 0.33074602484703064),
 ('career', 0.3266163766384125),
 ('conception', 0.3138331472873688),
 ('adolescence', 0.31189069151878357),
 ('personality', 0.30845925211906433),
 ('incarnation', 0.3079698383808136),
 ('experiences', 0.30784663558006287),
 ('ueshiba', 0.30640435218811035),
 ('reincarnation', 0.29660722613334656)]

In [12]:
model.wv.most_similar(positive=["life","money"])

[('profits', 0.4879935681819916),
 ('fortune', 0.4817259907722473),
 ('debts', 0.46840110421180725),
 ('happiness', 0.45951107144355774),
 ('donations', 0.45232293009757996),
 ('funds', 0.44312596321105957),
 ('estate', 0.4292449951171875),
 ('pay', 0.4292184114456177),
 ('payment', 0.4280931055545807),
 ('work', 0.42395466566085815)]

In [13]:
model.wv.most_similar(positive=["life","empathy","love","joy"])

[('happiness', 0.5343194007873535),
 ('compassion', 0.5234131813049316),
 ('affection', 0.5205956697463989),
 ('soul', 0.51023268699646),
 ('tenderness', 0.5058153867721558),
 ('kindness', 0.505096435546875),
 ('immortality', 0.5021739602088928),
 ('righteousness', 0.4938393235206604),
 ('honesty', 0.4806627333164215),
 ('passion', 0.4802379310131073)]

In [14]:
model.wv.most_similar(positive=["chile"])

[('colombia', 0.6741729378700256),
 ('bolivia', 0.659771740436554),
 ('argentina', 0.624168336391449),
 ('ecuador', 0.6209368109703064),
 ('brazil', 0.6157621145248413),
 ('cuba', 0.590907633304596),
 ('venezuela', 0.5787310004234314),
 ('peru', 0.5775383114814758),
 ('uruguay', 0.572866678237915),
 ('paraguay', 0.5351102948188782)]

In [15]:
model.wv.most_similar(positive=["chile","conflict"])

[('bolivia', 0.5771245956420898),
 ('argentina', 0.5529646277427673),
 ('clashes', 0.546391487121582),
 ('colombia', 0.5433990359306335),
 ('nicaragua', 0.5288110375404358),
 ('confrontation', 0.522767961025238),
 ('cuba', 0.5227411985397339),
 ('hostilities', 0.5185894966125488),
 ('ecuador', 0.5162156224250793),
 ('frictions', 0.5050657391548157)]

- Palabras que se alejan de otras palabras

In [16]:
model.wv.doesnt_match("breakfast cereal dinner lunch".split())

'cereal'

In [17]:
model.wv.doesnt_match("brazil chile france peru argentina".split())

'france'

In [18]:
model.wv.doesnt_match("apple pear banana hammer".split())

'apple'

- Similaridad entre dos vectores

In [19]:
model.wv.similarity('chile','france')

0.32366294

In [20]:
model.wv.similarity('chile','argentina')

0.62416834

In [21]:
model.wv.similarity('belgium','france')

0.6177416

In [22]:
model.wv.similarity('belgium','chile')

0.22398093

In [23]:
model.wv.similarity('man','engineer')

0.12207272

In [24]:
model.wv.similarity('woman','engineer')

0.023269093

In [25]:
model.wv.similarity('man','power')

0.0521269

In [26]:
model.wv.similarity('woman','power')

-0.030348618

## Cargar un modelo Word2Vec pre-entrenado para el español

ver: https://github.com/dccuchile/spanish-word-embeddings

In [27]:
from gensim.models import KeyedVectors

model = KeyedVectors.load_word2vec_format('./data/SBW-vectors-300-min5.bin.gz', binary=True)

In [28]:
dog = model['perro']
print(dog.shape)
print(dog[:10])

(300,)
[ 0.1051706  -0.27460352 -0.21322592  0.261666    0.09946854 -0.02449877
  0.12955804 -0.34066245  0.3385692  -0.09923615]


## ¿Cómo aprender vectores de palabras para el español?

In [29]:
import pandas as pd
from gensim.models import word2vec
from tqdm import tqdm, trange

In [30]:
import spacy

nlp = spacy.load('es_core_news_sm')
spacy_stopwords = spacy.lang.es.stop_words.STOP_WORDS

In [35]:
archivo = "biodiversidad_chile_2010-01-01_2021-12-31.csv"
corpus = pd.read_csv(archivo)
corpus

Unnamed: 0.1,Unnamed: 0,id_news,country,media_outlet,url,title,text,date,search
0,0,22000913.0,chile,elciudadano,https://www.elciudadano.com/actualidad/disponi...,Disponible online importante catálogo con semi...,"La Fundación BIODIVERSIDAD ALIMENTARIA, señala...",2021-09-16,biodiversidad
1,1,6414845.0,chile,latercera,https://www.latercera.com/que-pasa/noticia/no-...,"""No es suficiente"": Informe reconoce que Chile...","""Si el 2019 fue el año del cambio climático, s...",2020-01-20,biodiversidad
2,2,15637554.0,chile,emol,https://www.emol.com/noticias/Tecnologia/2016/...,Caída de la biodiversidad en el planeta supera...,MADRID.- La biodiversidad del planeta ha caído...,2016-07-14,biodiversidad
3,3,5157141.0,chile,elciudadano,https://www.elciudadano.com/chile/congreso-ava...,Congreso: Avanza votación de proyecto que crea...,La Comisión de Medio Ambiente de la Cámara de ...,2020-11-12,biodiversidad
4,4,21494220.0,chile,elrepuertero,https://www.elrepuertero.cl/noticia/sociedad/e...,En Santo Tomás abordarán la temática del manej...,Porque cada vez se hace más necesario analizar...,2017-11-20,biodiversidad
...,...,...,...,...,...,...,...,...,...
4075,4278,4946124.0,chile,elciudadano,https://www.elciudadano.com/politica/debate-pr...,"Debate Presidencial en Chile, ¿Qué intereses r...","El Ciudadano entrega aquí las voces, los argu...",2013-06-24,biodiversidad
4076,4279,5006851.0,chile,elciudadano,https://www.elciudadano.com/medio-ambiente/la-...,La renovación de la crítica al desarrollo y el...,De a poco el Buen Vivir ha ido permeando las ...,2012-03-27,biodiversidad
4077,4280,5703004.0,chile,elciudadano,https://www.elciudadano.com/organizacion-socia...,Poderes populares en América Latina: pistas es...,Compartimos la Introducción del libro colect...,2013-04-13,biodiversidad
4078,4281,5654115.0,chile,ahoranoticiasmega,https://www.meganoticias.cl/nacional/226074-cu...,Cuenta Pública: Discurso completo del Presiden...,MENSAJE PRESIDENCIAL CUENTA PÚBLICA 01/JUNIO/2...,2018-06-01,biodiversidad


In [36]:
noticias = corpus.text.values.tolist()

In [37]:
sentences=[]

for index, noticia in enumerate(noticias):
    doc=nlp(noticia)
    
        
    sentence=[]
    for token in doc:
        if (str(token.pos_)!="SPACE" and str(token.pos_)!="PUNCT"):
            sentence.append(token.text.lower())
            sentences.append(sentence)

In [38]:
print(sentences[0])

['la', 'fundación', 'biodiversidad', 'alimentaria', 'señala', '“', 'este', 'es', 'nuestro', 'segundo', 'catálogo', 'de', 'semillas', 'tradicionales', 'del', 'país', 'y', 'estamos', 'felices', 'de', 'compartirlo', 'con', 'ustedes', 'lo', 'pueden', 'observar', 'de', 'manera', 'gratuita', 'en', 'nuestra', 'página', '”', 'asimismo', 'adelantan', 'que', 'dicho', 'trabajo', 'esperan', 'tenerlo', 'impreso', 'a', 'fines', 'de', 'octubre', 'y', 'seguir', '“', 'incluyendo', 'muchas', 'nuevas', 'variedades', 'tradicionales', 'que', 'tenemos', 'que', 'recuperar', 'y', 'conservar', '”', 'indica', 'biodiversidad', 'alimentaria', 'biodiversidad', 'alimentaria', 'señala', 'te', 'invitamos', 'a', 'recorrer', 'junto', 'a', 'nosotros', 'estas', 'páginas', 'llenas', 'de', 'semillas', 'tradicionales', 'historias', 'y', 'biodiversidad', 'una', 'continuación', 'de', 'nuestro', 'primer', 'catálogo', '2020', 'con', 'aún', 'más', 'biodiversidad', 'por', 'conocer', 'nuestro', 'segundo', 'catálogo', 'de', 'semill

In [39]:
len(sentences)

3008725

In [40]:
sentences_short = sentences[:100000]

In [41]:
model = word2vec.Word2Vec(sentences_short,vector_size=100,hs=1)

In [42]:
import pandas as pd
import numpy as np
from pandasql import sqldf
import spacy
from spacy.matcher import Matcher

corpus['url'].duplicated().any()

corpus = corpus.drop_duplicates(subset='url', keep='first')



#result = sqldf("SELECT media_outlet,count(*) FROM corpus GROUP BY media_outlet ORDER BY count(*) DESC")
###
result = sqldf("SELECT * FROM corpus WHERE date BETWEEN 2021 and 2022 AND media_outlet IN ('elaustral', 'elheraldoaustral', 'laestrelladechiloe', 'segundos33', 'elinsular', 'soychiloe')")

result

Unnamed: 0.1,Unnamed: 0,id_news,country,media_outlet,url,title,text,date,search
0,0,22000913.0,chile,elciudadano,https://www.elciudadano.com/actualidad/disponi...,Disponible online importante catálogo con semi...,"La Fundación BIODIVERSIDAD ALIMENTARIA, señala...",2021-09-16,biodiversidad
1,5,21954726.0,chile,elciudadano,https://www.elciudadano.com/medio-ambiente/cur...,Curso Jardines por la Biodiversidad promuve la...,Cada vez es más necesaria cualquier acción que...,2021-12-09,biodiversidad
2,34,21385311.0,chile,elinsular,https://elinsular.cl/noticias/chiloe/2021/12/0...,Realizan donación de libros a Biblioteca Públi...,Un grupo de profesionales del Instituto de Eco...,2021-12-03,biodiversidad
3,43,21958354.0,chile,elciudadano,https://www.elciudadano.com/chile/proyecto-que...,Proyecto que crea el Servicio de Biodiversidad...,"Este jueves 6 de mayo, el proyecto de ley que ...",2021-05-06,biodiversidad
4,44,22231130.0,chile,biobiochile,https://www.biobiochile.cl/noticias/economia/n...,Anglo American apoya creación de un parque en ...,La compañía se compromete a no hacer uso produ...,2021-10-27,biodiversidad
...,...,...,...,...,...,...,...,...,...
682,4268,21948528.0,chile,emol,https://www.emol.com/noticias/Nacional/2021/05...,Streaming y entrevistas: La programación de es...,"#nota_tabla_emol .tablaennoticia tr td,#nota_...",2021-05-29,biodiversidad
683,4269,21954835.0,chile,elciudadano,https://www.elciudadano.com/mineria/andacollo-...,Andacollo: Los impactos de la mega minería a l...,Desde que se instaló la mega minería transnaci...,2021-12-02,biodiversidad
684,4271,21908057.0,chile,emol,https://www.emol.com/noticias/Nacional/2021/12...,Streaming y entrevistas: La programación de es...,"#nota_tabla_emol .tablaennoticia tr td,#nota_...",2021-12-10,biodiversidad
685,4272,21905255.0,chile,emol,https://www.emol.com/noticias/Nacional/2021/12...,Streaming y entrevistas: La programación de es...,"#nota_tabla_emol .tablaennoticia tr td,#nota_...",2021-12-20,biodiversidad


In [43]:
# Gensim
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel

# Plotting tools
import pyLDAvis
import pyLDAvis.gensim_models  # don't skip this
import matplotlib.pyplot as plt
%matplotlib inline

#
matcher = Matcher(nlp.vocab)
#
pattern_1 = [{"POS": "NOUN"},{"LOWER": "de"}, {"POS": "NOUN"}]
matcher.add("NOUN-de-NOUN", [pattern_1])

pattern_2 = [{"POS": "NOUN"}, {"POS": "ADJ"}]
matcher.add("NOUN-ADJ", [pattern_2])
#
def text_to_list(noticia):
    list_of_words = []
    
    try:
        doc = nlp(noticia)

        for token in doc:
            if (token.pos_=="NOUN"):
                list_of_words.append(token.text)

        for ent in doc.ents:
            if (ent.label_ == "PER" and " " in ent.text):
                list_of_words.append(ent.text)

        matches = matcher(doc)

        for match_id, start, end in matches:
            span = doc[start:end]  # The matched span
            list_of_words.append(span.text)
    
    except Exception as e: 
        print(noticia)
        print(e)
    
    return list_of_words
#

noticias_procesadas = []

for index, noticia in enumerate(noticias):
    noticia_procesada = text_to_list(noticia)
    noticias_procesadas.append(noticia_procesada)

# Create Dictionary
id2word = corpora.Dictionary(noticias_procesadas)
id2word

  from imp import reload


<gensim.corpora.dictionary.Dictionary at 0x7f7b10f91fa0>

In [44]:
N=5
texts = noticias_procesadas
dataset = [id2word.doc2bow(noticia_procesada) for noticia_procesada in noticias_procesadas]
lda_model = gensim.models.ldamodel.LdaModel(corpus=dataset,
                                           id2word=id2word,
                                           num_topics=5, 
                                           random_state=100,
                                           update_every=1,
                                           chunksize=100,
                                           passes=10,
                                           alpha='auto',
                                           per_word_topics=True)

In [45]:
from pprint import pprint

# Visualize the topics
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(lda_model, dataset, id2word)
vis

  default_term_info = default_term_info.sort_values(
  from imp import reload
  from imp import reload


In [46]:
from gensim.models import LdaModel

def compute_coherence_values(dictionary, corpus, texts, limit, start=2, step=3):
    """
    Compute c_v coherence for various number of topics

    Parameters:
    ----------
    dictionary : Gensim dictionary
    corpus : Gensim corpus
    texts : List of input texts
    limit : Max num of topics

    Returns:
    -------
    model_list : List of LDA topic models
    coherence_values : Coherence values corresponding to the LDA model with respective number of topics
    """
    coherence_values = []
    model_list = []
    for num_topics in range(start, limit, step):
        print(num_topics)
        
        model = gensim.models.ldamodel.LdaModel(corpus=dataset,
                                           id2word=id2word,
                                           num_topics=num_topics, 
                                           random_state=100,
                                           update_every=1,
                                           chunksize=100,
                                           passes=10,
                                           alpha='auto',
                                           per_word_topics=True)
        
        model_list.append(model)
        coherencemodel = CoherenceModel(model=model, texts=texts, dictionary=dictionary, coherence='c_v')
        coherence_values.append(coherencemodel.get_coherence())

    return model_list, coherence_values

start=2
limit=15
step=2
model_list, coherence_values = compute_coherence_values(dictionary=id2word, corpus=dataset, texts=noticias_procesadas, start=start, limit=limit, step=step)


optimal_model = model_list[4]
optimal_model.save(archivo)
optimal_model = LdaModel.load(archivo, mmap='r')

def format_topics_documents(ldamodel=None, corpus=corpus, texts=texts):
    # Init output
    sent_topics_df = pd.DataFrame()

    # Get main topic in each document
    for i, row_list in enumerate(ldamodel[corpus]):
        row = row_list[0] if ldamodel.per_word_topics else row_list            
        # print(row)
        row = sorted(row, key=lambda x: (x[1]), reverse=True)
        # Get the Dominant topic, Perc Contribution and Keywords for each document
        for j, (topic_num, prop_topic) in enumerate(row):
            if j == 0:  # => dominant topic
                wp = ldamodel.show_topic(topic_num)
                topic_keywords = ", ".join([word for word, prop in wp])
                sent_topics_df = sent_topics_df.append(pd.Series([int(topic_num), round(prop_topic,4), topic_keywords]), ignore_index=True)
            else:
                break
    sent_topics_df.columns = ['Dominant_Topic', 'Perc_Contribution', 'Topic_Keywords']

    # Add original text to the end of the output
    contents = pd.Series(texts)
    sent_topics_df = pd.concat([sent_topics_df, contents], axis=1)
    return(sent_topics_df)


df_topic_sents_keywords = format_topics_documents(ldamodel=optimal_model, corpus=dataset, texts=noticias)

# Format
df_dominant_topic = df_topic_sents_keywords.reset_index()
df_dominant_topic.columns = ['Document_No', 'Dominant_Topic', 'Topic_Perc_Contrib', 'Keywords', 'Text']
df_dominant_topic.head(10)

2
4
6
8
10
12
14


  sent_topics_df = sent_topics_df.append(pd.Series([int(topic_num), round(prop_topic,4), topic_keywords]), ignore_index=True)


Unnamed: 0,Document_No,Dominant_Topic,Topic_Perc_Contrib,Keywords,Text
0,0,6,0.8253,"proyecto, parte, país, desarrollo, comunidades...","La Fundación BIODIVERSIDAD ALIMENTARIA, señala..."
1,1,9,0.7065,"cambio, mundo, años, países, millones, crisis,...","""Si el 2019 fue el año del cambio climático, s..."
2,2,9,0.896,"cambio, mundo, años, países, millones, crisis,...",MADRID.- La biodiversidad del planeta ha caído...
3,3,6,0.7846,"proyecto, parte, país, desarrollo, comunidades...",La Comisión de Medio Ambiente de la Cámara de ...
4,4,6,0.6167,"proyecto, parte, país, desarrollo, comunidades...",Porque cada vez se hace más necesario analizar...
5,5,6,0.6601,"proyecto, parte, país, desarrollo, comunidades...",Cada vez es más necesaria cualquier acción que...
6,6,6,0.6673,"proyecto, parte, país, desarrollo, comunidades...",Una nueva sesión del grupo de trabajo “Biodi...
7,7,9,0.6024,"cambio, mundo, años, países, millones, crisis,...",La Diversidad Biológica o biodiversidad hace r...
8,8,6,0.6165,"proyecto, parte, país, desarrollo, comunidades...","El agua, el aire que respiramos y los alimento..."
9,9,9,0.6367,"cambio, mundo, años, países, millones, crisis,...",La Cumbre sobre Biodiversidad de Naciones Unid...


In [47]:
media_outlet = corpus.filter(['media_outlet'], axis=1)
df_dominant_topic=df_dominant_topic.join(media_outlet)
df_dominant_topic

Unnamed: 0,Document_No,Dominant_Topic,Topic_Perc_Contrib,Keywords,Text,media_outlet
0,0,6,0.8253,"proyecto, parte, país, desarrollo, comunidades...","La Fundación BIODIVERSIDAD ALIMENTARIA, señala...",elciudadano
1,1,9,0.7065,"cambio, mundo, años, países, millones, crisis,...","""Si el 2019 fue el año del cambio climático, s...",latercera
2,2,9,0.8960,"cambio, mundo, años, países, millones, crisis,...",MADRID.- La biodiversidad del planeta ha caído...,emol
3,3,6,0.7846,"proyecto, parte, país, desarrollo, comunidades...",La Comisión de Medio Ambiente de la Cámara de ...,elciudadano
4,4,6,0.6167,"proyecto, parte, país, desarrollo, comunidades...",Porque cada vez se hace más necesario analizar...,elrepuertero
...,...,...,...,...,...,...
4075,4075,6,0.7018,"proyecto, parte, país, desarrollo, comunidades...","El Ciudadano entrega aquí las voces, los argu...",elciudadano
4076,4076,6,0.6792,"proyecto, parte, país, desarrollo, comunidades...",De a poco el Buen Vivir ha ido permeando las ...,elciudadano
4077,4077,6,0.5558,"proyecto, parte, país, desarrollo, comunidades...",Compartimos la Introducción del libro colect...,elciudadano
4078,4078,6,0.7080,"proyecto, parte, país, desarrollo, comunidades...",MENSAJE PRESIDENCIAL CUENTA PÚBLICA 01/JUNIO/2...,ahoranoticiasmega


In [48]:
media_outlets=["elllanquihue","elaustral","laestrelladechiloe","elheraldoaustral","radiosago",
               "elrepuertero","elvacanudo","elhuemul","seminariolocal","elquellonino","elinsular",
               "radiopudeto","radioacogida","elcalbucano","segundos33",
               "prensadelestuario","fresiaahora","soychiloe"]

result = sqldf("SELECT * FROM corpus WHERE date BETWEEN 2021 and 2022 AND media_outlet IN ('elaustral', 'elheraldoaustral', 'laestrelladechiloe', 'segundos33', 'elinsular', 'soychiloe')")

result

Unnamed: 0.1,Unnamed: 0,id_news,country,media_outlet,url,title,text,date,search
0,34,21385311.0,chile,elinsular,https://elinsular.cl/noticias/chiloe/2021/12/0...,Realizan donación de libros a Biblioteca Públi...,Un grupo de profesionales del Instituto de Eco...,2021-12-03,biodiversidad
1,59,21401712.0,chile,elinsular,https://elinsular.cl/noticias/chiloe/2021/03/2...,Dialogarán sobre la historia de la propiedad d...,Como parte de las actividades del Programa de ...,2021-03-29,biodiversidad
2,109,22594270.0,chile,laestrelladechiloe,https://www.laestrellachiloe.cl/impresa/2021/0...,Piden protección en biodiversidad de las aguas...,Una veintena de investigadores de centros de E...,2021-06-06,biodiversidad
3,129,21427064.0,chile,elheraldoaustral,https://www.eha.cl/noticia/regional/inscripcio...,Inscripciones abiertas a Café Científico sobre...,La actividad abierta y gratuita se realizará a...,2021-07-06,biodiversidad
4,131,21449864.0,chile,elheraldoaustral,https://www.eha.cl/noticia/actualidad/consejo-...,Consejo de Ministros para la Sustentabilidad a...,"Bajo la figura de parque marino, el área ubica...",2021-12-03,biodiversidad
...,...,...,...,...,...,...,...,...,...
187,3929,22335420.0,chile,laestrelladechiloe,https://www.laestrellachiloe.cl/impresa/2021/1...,Detectan volcanes activos bajo el mar desde Ch...,¿Podría una erupción volcánica submarina provo...,2021-11-10,biodiversidad
188,3935,22332620.0,chile,laestrelladechiloe,https://www.laestrellachiloe.cl/impresa/2021/1...,Chiloé Silvestre espera aportes de los municip...,Por medio de una carta para la totalidad de al...,2021-10-24,biodiversidad
189,3995,22396809.0,chile,elaustral,https://www.australosorno.cl/impresa/2021/11/1...,"LOS sorprendentes 16 Ganadores regionales de ""...",Y a están los proyectos de los 16 equipos fina...,2021-11-10,biodiversidad
190,3997,22323617.0,chile,laestrelladechiloe,https://www.laestrellachiloe.cl/impresa/2021/0...,Agricultores buscan frenar ataques de perros a...,Preocupación ha generado entre agricultores de...,2021-08-01,biodiversidad


In [49]:
############# TAREA1 -- RESUMIDO -- HACER RUN ALL
import pandas as pd
import numpy as np
import elasticsearch
from datetime import datetime
from pandasql import sqldf

############# Extraer las noticias del (año 2021)* especifica en los medios de la region de Los Lagos

result = sqldf("SELECT * FROM corpus WHERE date BETWEEN 2021 and 2022 AND media_outlet IN ('elaustral', 'elheraldoaustral', 'laestrelladechiloe', 'segundos33', 'elinsular', 'soychiloe')")
result

Unnamed: 0.1,Unnamed: 0,id_news,country,media_outlet,url,title,text,date,search
0,34,21385311.0,chile,elinsular,https://elinsular.cl/noticias/chiloe/2021/12/0...,Realizan donación de libros a Biblioteca Públi...,Un grupo de profesionales del Instituto de Eco...,2021-12-03,biodiversidad
1,59,21401712.0,chile,elinsular,https://elinsular.cl/noticias/chiloe/2021/03/2...,Dialogarán sobre la historia de la propiedad d...,Como parte de las actividades del Programa de ...,2021-03-29,biodiversidad
2,109,22594270.0,chile,laestrelladechiloe,https://www.laestrellachiloe.cl/impresa/2021/0...,Piden protección en biodiversidad de las aguas...,Una veintena de investigadores de centros de E...,2021-06-06,biodiversidad
3,129,21427064.0,chile,elheraldoaustral,https://www.eha.cl/noticia/regional/inscripcio...,Inscripciones abiertas a Café Científico sobre...,La actividad abierta y gratuita se realizará a...,2021-07-06,biodiversidad
4,131,21449864.0,chile,elheraldoaustral,https://www.eha.cl/noticia/actualidad/consejo-...,Consejo de Ministros para la Sustentabilidad a...,"Bajo la figura de parque marino, el área ubica...",2021-12-03,biodiversidad
...,...,...,...,...,...,...,...,...,...
187,3929,22335420.0,chile,laestrelladechiloe,https://www.laestrellachiloe.cl/impresa/2021/1...,Detectan volcanes activos bajo el mar desde Ch...,¿Podría una erupción volcánica submarina provo...,2021-11-10,biodiversidad
188,3935,22332620.0,chile,laestrelladechiloe,https://www.laestrellachiloe.cl/impresa/2021/1...,Chiloé Silvestre espera aportes de los municip...,Por medio de una carta para la totalidad de al...,2021-10-24,biodiversidad
189,3995,22396809.0,chile,elaustral,https://www.australosorno.cl/impresa/2021/11/1...,"LOS sorprendentes 16 Ganadores regionales de ""...",Y a están los proyectos de los 16 equipos fina...,2021-11-10,biodiversidad
190,3997,22323617.0,chile,laestrelladechiloe,https://www.laestrellachiloe.cl/impresa/2021/0...,Agricultores buscan frenar ataques de perros a...,Preocupación ha generado entre agricultores de...,2021-08-01,biodiversidad


In [50]:
############# Extraer los topicos utilizando LDA (hecho mas arriba)
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(lda_model, dataset, id2word)
vis

  default_term_info = default_term_info.sort_values(
  from imp import reload
  from imp import reload


In [52]:
noticias2 = result.text.values.tolist()
comunas=[]

sentences2=[]

for index, noticia in enumerate(noticias2):
    print(index)
    doc=nlp(noticia)
    
        
    sentence=[]
    for token in doc:
        if (str(token.pos_)!="SPACE" and str(token.pos_)!="PUNCT"):
            sentence.append(token.text.lower())
            sentences2.append(sentence)



0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191


In [None]:
##### Topicos mas relevantes

df_dominant_topic
result = sqldf("SELECT * FROM df_dominant_topic ORDER BY Dominant_Topic DESC")
result.head(10)

In [4]:
##### Aca intente encontrar la comuna de la noticia con una busqueda que va por la mas similar.

ComunasDetectadas=[]
Semejanza=0
index=0
indexComparativo=0
indexSemejante=0
for comunaposible in sentences2:
    for comunaposible2 in comunaposible:
        if model.wv.similarity('chile',comunaposible2) > Semejanza:
            Semejanza = model.wv.similarity('chile',comunaposible2)
            indexSemejante=indexComparativo
        indexComparativo=indexComparativo+1
    ComunasDetectadas.append(comunaposible[indexSemejante])
    Semejanza=0
    indexComparativo=0
    index=index+1

#### Mi idea era detectar las comunas de cada noticia para poder hacerles join en la consulta SQL, agrupandolas por comunas y denotando solo el topico mas relevante,
#### Pero no encontre la documentacion para lograr hacer JOIN con una lista y acabe confundiendome mucho....

NameError: name 'sentences2' is not defined