# Interpretación de texto  
En este notebook vemos como podemos empezar a interpretar texto. 
Los análisis se basan  en información de las palabras guardadas en largas bases de datos. Estas bases de texto se llaman **corpus**. Un corpus es un conjunto de textos o de palabras que se han recopilado y que suelen ir acompañados de anotaciones como categoría léxica, definición, etc.  

Con esa información también se entrenan modelos de ML para evaluar palabras fuera del corpus.

## 1. Tagging
Para empezar a procesar texto y dilucidar su significado nos puede convenir identificar a qué categoría gramatical pertenece cada palabra.

In [6]:
import nltk
from nltk.tag import pos_tag
nltk.download('averaged_perceptron_tagger')
f = open('data/text2.txt','r')
text = f.read()
tokens = nltk.word_tokenize(text)

# nos da la categoría léxica de cada palabra
nltk.pos_tag(tokens)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/casaponsa/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


[('The', 'DT'),
 ('cosmic', 'JJ'),
 ('microwave', 'NN'),
 ('background', 'NN'),
 ('(', '('),
 ('CMB', 'NNP'),
 (',', ','),
 ('CMBR', 'NNP'),
 (')', ')'),
 (',', ','),
 ('in', 'IN'),
 ('Big', 'NNP'),
 ('Bang', 'NNP'),
 ('cosmology', 'NN'),
 (',', ','),
 ('is', 'VBZ'),
 ('electromagnetic', 'JJ'),
 ('radiation', 'NN'),
 ('which', 'WDT'),
 ('is', 'VBZ'),
 ('a', 'DT'),
 ('remnant', 'NN'),
 ('from', 'IN'),
 ('an', 'DT'),
 ('early', 'JJ'),
 ('stage', 'NN'),
 ('of', 'IN'),
 ('the', 'DT'),
 ('universe', 'NN'),
 (',', ','),
 ('also', 'RB'),
 ('known', 'VBN'),
 ('as', 'IN'),
 ('``', '``'),
 ('relic', 'JJ'),
 ('radiation', 'NN'),
 ("''", "''"),
 ('.', '.'),
 ('[', 'VB'),
 ('1', 'CD'),
 (']', 'IN'),
 ('The', 'DT'),
 ('CMB', 'NNP'),
 ('is', 'VBZ'),
 ('faint', 'JJ'),
 ('cosmic', 'JJ'),
 ('background', 'NN'),
 ('radiation', 'NN'),
 ('filling', 'VBG'),
 ('all', 'DT'),
 ('space', 'NN'),
 ('.', '.'),
 ('It', 'PRP'),
 ('is', 'VBZ'),
 ('an', 'DT'),
 ('important', 'JJ'),
 ('source', 'NN'),
 ('of', 'IN'),
 (

En este [link](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html) podéis ver el significado de cada tag. 

## 2. Name Entity Recognition
También nos puede ser útil identificar los **nombres** en distintas categorías, por ejemplo: nombre propio, lugar, fecha
con el paquete `SpaCy`. Este paquete es interesantes para NLP también. 

In [7]:
#!pip3 install spacy
import spacy
from spacy import displacy
#!python3 -m spacy download en_core_web_sm
#!python3 -m spacy download es_core_news_sm


NER = spacy.load("en_core_web_sm")

In [8]:
text1 = NER(text)

for word in text1.ents:
    print(word.text,word.label_)
    
# Ents son las entidades que según el modelo entrenado (en_core_web_sm) lo son, 
# puede haber errores

CMB ORG
CMBR ORG
Big Bang GPE
CMB ORG
CMB ORG
1965 DATE
American NORP
Arno Penzias PERSON
Robert Wilson[2][3 PERSON
the 1940s DATE
1978 DATE
Nobel Prize WORK_OF_ART
Physics ORG
CMB ORG
Thomson ORG
first ORDINAL
Planck ORG


In [9]:
text1.ents

(CMB,
 CMBR,
 Big Bang,
 CMB,
 CMB,
 1965,
 American,
 Arno Penzias,
 Robert Wilson[2][3,
 the 1940s,
 1978,
 Nobel Prize,
 Physics,
 CMB,
 Thomson,
 first,
 Planck)

In [10]:
# lo podemos visualizar
displacy.render(text1, style="ent", jupyter=True)


In [11]:
spacy.explain("ORDINAL")

'"first", "second", etc.'

In [12]:
from spacy.lang.en.examples import sentences  # ejemplos
print(sentences[0])


Apple is looking at buying U.K. startup for $1 billion


In [13]:
doc = NER(sentences[0])
displacy.render(doc,style="ent",jupyter=True)

También podemos usar **Spacy** para más cosas como categorías gramaticales: 

In [77]:
for token in doc:
    print(token.text, token.pos_)

Apple PROPN
is AUX
looking VERB
at ADP
buying VERB
U.K. PROPN
startup VERB
for ADP
$ SYM
1 NUM
billion NUM


In [78]:
for token in doc:
    print(token.text, token.lemma_)

Apple Apple
is be
looking look
at at
buying buy
U.K. U.K.
startup startup
for for
$ $
1 1
billion billion


## 3. Significado de las palabras
Para saber el significado una palabra se usan bases de datos, en inglés el más extenso y utilizado es [wordnet](https://wordnet.princeton.edu). Lo que llamamos **corpus**. Sobre el corpus wordnet se ha trabajado mucho y hay mucha información de dichas palabras. Además se ha usado para entrenar modelos y predecir información de palabras que no estén en dicho corpus.

Lo cargamos desde `nltk`y usamos la función `synsets` que nos devuelve una lista con las acepciones de una palabra. 

In [14]:
from nltk.corpus import wordnet as wn
wn.synsets('drink')

[Synset('drink.n.01'),
 Synset('drink.n.02'),
 Synset('beverage.n.01'),
 Synset('drink.n.04'),
 Synset('swallow.n.02'),
 Synset('drink.v.01'),
 Synset('drink.v.02'),
 Synset('toast.v.02'),
 Synset('drink_in.v.01'),
 Synset('drink.v.05')]

In [15]:
wn.synset('woman.n.01').definition()

'an adult female person (as opposed to a man)'

In [12]:
wn.synset('woman.n.02').definition()

'a female person who plays a significant role (wife or mistress or girlfriend) in the life of a particular man'

También nos permite obtener una lista de **sinónimos** y **antónimos**

In [82]:
woman = wn.synset('woman.n.01')
woman.lemma_names()

['woman', 'adult_female']

In [83]:
woman.lemmas()[0].antonyms()

[Lemma('man.n.01.man')]

También podemos obtener **hyperónimos**, grupo al que pertenece la palabra y **hipónimos**, subgrupos o ejemplos específicos de dicha acepción de la palabra

In [84]:
woman.hypernyms()

[Synset('adult.n.01'), Synset('female.n.02')]

In [16]:
woman.hyponyms()

[Synset('amazon.n.01'),
 Synset('b-girl.n.01'),
 Synset('bachelor_girl.n.01'),
 Synset('baggage.n.02'),
 Synset('ball-buster.n.01'),
 Synset('black_woman.n.01'),
 Synset('bluestocking.n.01'),
 Synset('bridesmaid.n.01'),
 Synset('broad.n.01'),
 Synset('cat.n.03'),
 Synset('cinderella.n.01'),
 Synset('coquette.n.01'),
 Synset('dame.n.02'),
 Synset('debutante.n.01'),
 Synset('divorcee.n.01'),
 Synset('dominatrix.n.01'),
 Synset('donna.n.01'),
 Synset('enchantress.n.01'),
 Synset('ex-wife.n.01'),
 Synset('eyeful.n.01'),
 Synset('geisha.n.01'),
 Synset('girl.n.01'),
 Synset('girl.n.05'),
 Synset('girlfriend.n.01'),
 Synset('girlfriend.n.02'),
 Synset('gold_digger.n.02'),
 Synset('gravida.n.02'),
 Synset('heroine.n.02'),
 Synset('inamorata.n.01'),
 Synset('jezebel.n.02'),
 Synset('jilt.n.01'),
 Synset('lady.n.01'),
 Synset('maenad.n.01'),
 Synset('maenad.n.02'),
 Synset('matriarch.n.01'),
 Synset('matriarch.n.02'),
 Synset('matron.n.03'),
 Synset('mestiza.n.01'),
 Synset('mistress.n.01'),
 S

Esto te puede permitir encontrar relaciones entre palabras:

In [17]:
wn.synset('woman.n.01').lowest_common_hypernyms(wn.synset('man.n.01'))

[Synset('adult.n.01')]

In [85]:
wn.synset('cat.n.01').lowest_common_hypernyms(wn.synset('dog.n.01'))

[Synset('carnivore.n.01')]

In [86]:
wn.synset('cat.n.01').lowest_common_hypernyms(wn.synset('daisy.n.01'))

[Synset('organism.n.01')]

## 4. Similitud entre palabras
Podemos calcular como de parecidas son dos palabras, para eso tenemos algunas definiciones de distancias:

### 4.1 Comparación de carácteres
 - **Levenshtein distance.**
Nos indica el número de ediciones que tenemos que hacer para pasar de una palabra a la otra. Es decir, los carácteres que tenemos que cambiar, añadir o quitar para pasar de una *string1* a *string2*. Es una distancia basada en los carácteres no tiene en cuenta la similitud de significado. 

In [163]:
nltk.edit_distance("easy", "easily")   # quitar l e y

2

In [164]:
nltk.edit_distance("make it easy", "make it smart")  ## seay --> smay --> smar --> smart

4

In [165]:
nltk.edit_distance("calor", "colar")  # un cambio a por o y otro por a

2

 -  **Jaro Similarity**
 Otra medida de similitud de carácteres que está entre 0 y 1 y depende de carácteres iguales (m), el número de transposiciones (2t) y la longitud de las *strings* (s1,s2). Es más interesante que la anterior para frases o palabras largas, porque va pesada por la longitud. 
 
<img src = img/jaro.png width = 400 />

In [71]:
from nltk.metrics import distance as dist
dist.jaro_similarity("easy", "easily")

0.8888888888888888

In [72]:
dist.jaro_similarity("make it easy", "meak it smart")

0.8008547008547009

In [73]:
dist.jaro_similarity("calor", "colar")

0.7333333333333334

### 4.2 Similitud de significado palabras 
Para calcular la similitud en significado de dos palabras podemos usar distintas distancias:

 - **Path-similarity** 
 
devuelve valores entre 0 y 1, dependiendo del camino más corto que conecta los sentidos de dos palabras mirando a los hiperónimos e hipónimos. 

$ Path_similarity = 1 / (pasos + 1)$. 

1 paso  path_similarity = 0.5

<img src = img/pasos.jpg /> 

In [17]:
dog = wn.synset('dog.n.01')
cat = wn.synset('cat.n.01')
crab = wn.synset('crab.n.01')
spoon = wn.synset('spoon.n.01')

In [18]:
elephant = wn.synset('elephant.n.01')

In [19]:
dog.path_similarity(cat)

0.2

In [20]:
dog.path_similarity(crab)

0.125

In [21]:
dog.path_similarity(spoon)

0.1

In [22]:
wolf = wn.synset('wolf.n.01')
dog.path_similarity(wolf)

0.3333333333333333

In [23]:
puppy = wn.synset('puppy.n.01')
puppy.definition()

'a young dog'

In [24]:
dog.path_similarity(puppy)

0.5

  - **Wu-Palmer Similarity**
  
  Depende del tamaño de la clase a la que pertenezcan
  
  $ Wu = \frac{2*depth(LCS)}{depth(s1)+depth(s2)}$ 
  
  Depth sería el número de pasos desde arriba del árbol hasta la palabra. El árbol de wordnet se organiza más o menos así :


  <img src = img/WordNetTree.png width = 400 />

In [29]:
list2 = ['cat.n.01', 'crab.n.01', 'spoon.n.01', 'wolf.n.01', 'puppy.n.01']

wu_dict = {'wu distance dog.n.01 with ' + s2 : wn.wup_similarity(dog, wn.synset(s2)) for s2 in list2}

wu_dict

{'wu distance dog.n.01 with cat.n.01': 0.8571428571428571,
 'wu distance dog.n.01 with crab.n.01': 0.6666666666666666,
 'wu distance dog.n.01 with spoon.n.01': 0.47058823529411764,
 'wu distance dog.n.01 with wolf.n.01': 0.9285714285714286,
 'wu distance dog.n.01 with puppy.n.01': 0.896551724137931}

In [30]:
for s2 in enumerate(list2):
    print(s2)

(0, 'cat.n.01')
(1, 'crab.n.01')
(2, 'spoon.n.01')
(3, 'wolf.n.01')
(4, 'puppy.n.01')


## 4 Sentiment analysis
Son las técnicas que se usan para saber la connotación de una palabra, si es negativa, positiva o neutra. 

In [31]:
from nltk.corpus import sentiwordnet as swn
from nltk.sentiment import SentimentAnalyzer
nltk.download('sentiwordnet')

[nltk_data] Downloading package sentiwordnet to
[nltk_data]     /Users/casaponsa/nltk_data...
[nltk_data]   Package sentiwordnet is already up-to-date!


True

In [32]:
wn.synsets('sadness')[0].definition()

'emotions experienced when not in a state of well-being'

In [33]:
sadness = swn.senti_synset('sadness.n.01')
sadness.pos_score()

0.0

In [34]:
print(sadness.neg_score())
print(sadness.obj_score())

0.75
0.25


In [274]:
clock = swn.senti_synset('clock.n.01')
clock.pos_score()
print(clock.neg_score())
print(clock.neg_score())
print(clock.obj_score())

0.0
0.0
1.0


## 5. Word Embedding
Cuando queremos entrenar un modelo de machine learning, necesitaremos pasar las palabras a números. Se pueden usar las relaciones citadas arriba, pero a veces es necesario incluir el texto en sí, como en un chatbot. Para trabajar con texto hay distintas técnicas pero la más utilizada ahora mismo es *word embedding*. Usaremos aquí el modelo de `Word2Vec`. Este modelo pasa una palabra a un vector, pero ha sido entrenado para que aprenda de palabras parecidas.  De tal manera que palabras parecidas estén cerca en el espacio vectorial. 

podéis ver algo más [aquí](https://medium.com/@zafaralibagh6/a-simple-word2vec-tutorial-61e64e38a6a1)


In [282]:
!pip3 install gensim
https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html

You should consider upgrading via the '/usr/local/opt/python@3.9/bin/python3.9 -m pip install --upgrade pip' command.[0m


[nltk_data] Downloading package brown to /Users/casaponsa/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.


True

Usamos un modelo preentrenado con datos de Google news:

In [None]:
import gensim.downloader as api
wv = api.load('word2vec-google-news-300')
for index, word in enumerate(wv.index_to_key):
    if index == 10:
        break
    print(f"word #{index}/{len(wv.index_to_key)} is {word}")




In [None]:
vec_king = wv['king']
vec_king

Puede dar errores en palabras alejadas de las vistas en el training set.

Al haber definido un espacio vectorial podemos calcular distancias entre palabras:

In [None]:
pairs = [
    ('dog', 'puppy'),   
    ('dog', 'wolf'),   
    ('dog', 'cat'),     
    ('dog', 'crab'),    
    ('dog', 'spoon'),
]
for w1, w2 in pairs:
    print('%r\t%r\t%.2f' % (w1, w2, wv.similarity(w1, w2)))

## Ejemplo: NLP techinques + Redes neuronales (u otro clasificador de ML)
Tenemos un data set con las entradas que ponemos en un buscador, las respuestas que nos da (título y descripción), y  como de bueno es el resultado de la búsqueda del 1,2, 3 y 4. Donde 4 es que ha acertado y 1 que no se parece en nada. ¿Cómo lo haríais?  

<img src = img/crowdflower.png />

https://www.kaggle.com/c/crowdflower-search-relevance

## Ejercicios

1. (ejercicio 3.1 notebook anterior)

In [None]:
# codigo

2. Lee el siguiente archivo data/text_ner.txt y busca la entidad de los nombre que salen en él.

In [None]:
# código

3. Busca el primer nombre (NN o NNS) y el primer verbo (VB) del siguiente mismo texto y para cada uno encuentra la acepción que corresponde a ese contexto y escribe la definición y un sinónimo.

In [1]:
texto = " Richard and Sonia Muller make documentaries about wildlife, particularly dangerous animals, like the big cats found in Africa. Film-making for them is a way to bring the message of the importance of understanding wildlife to international audiences, with their last film, Staying Alive, exploring relationships between lions and other wildlife in one African region. When Richard and Sonia were invited to help with a special project run by a wildlife organisation that was providing information about the falling numbers of big cats, especially lions, they immediately agreed to take part."
texto += "Richard grew up near a wildlife park and as a child was keen on filming what he saw. The couple were introduced at university in Cape Town, and quickly realised how much they had in common. They were both curious about the natural world and Sonia soon discovered a similar talent for filmmaking. As a child in South Africa Sonia often ran off alone to explore the wild areas surrounding her home, despite her parents’ fears."
texto += "When asked what they found hardest about their work, Sonia and Richard have the same answer - leaving an area and finishing a project. Sonia adds that the hours required can be hard, and things like the heat, dust, and bugs make it very tiring. The excitement of her work comes from not knowing what will happen, perhaps even discovering something new for science, while Richard takes most interest in spending time with individual animals, getting to know their character."
texto += "The pair visit schools around the world, and notice that students with access to lots of information don’t always have as much understanding about geography as students in countries where access is limited. “Students without the internet constantly available actually look at maps, they want to find out where they are and often end up with a better idea of place,” Richard says. A major part of their work is explaining to students the importance of a fuller understanding of various environments by studying the climate, animals and culture of a specific location."
texto += "If you’d like a similar career, Richard suggests studying various different areas of biology, rather than learning about the latest film- making technology, as an understanding of the natural world will last forever. The couple also give general advice for those wanting to help protect the environment. Sonia explains that it’s important to allow yourself to concentrate. “Turning off personal electronic items gets you closer to the natural world,” she says. “You can watch nature, instead of listening for your mobile phone.” Most importantly they agree that if urgent action isn’t taken, more animals might be lost. However, the fact that more teenagers are getting involved offers some hope for the future."

In [None]:
#código

4. Definir una función que de una idea de si un texto es en general positivo o negativo. Usa distintas frases para comprobarlo.  (Es dificil hacer algo que funcione bien con poco rato, pero como ejercicio nos sirve) 