# Standford CS224N: NLP with Deep Learning
##### Winter 2019 | [aula 1](https://youtu.be/8rXD5-xhemo) 
### Introdução e Vetor de palavras

## Como nos representamos o significado das palavras?

A definição de palavra, no dicionário webster é:
> A ideia que é representada por uma palavra, frase, etc.
> A ideia que uma pessoa quer expressar usando palavras, signos, etc.
> A ideia expressa atraves de trabalhos artisticos, escrita e etc.
>
> | Significante (simbolo) | < = > | significado (ideia ou coisa) |

## Como representamos signifcaos uteís no computador?

Solução comum: Usar uma **Wordnet**, usando toda lista de significados e hiperídeas.

In [9]:
# importante bibliotecas
from nltk.corpus import wordnet as wn
import pandas as pd


In [6]:
#import nltk
#nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\thali\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


True

In [8]:
#Conjunto de synonimos contendo "good"

poses = {'n': 'noun', 'v': 'verb', 's': 'adj (s)', 'a': 'adj', 'r': 'adv'}
for synset in wn.synsets("good"):
    print("{}: {}".format(poses[synset.pos()],
                          ", ".join([l.name() for l in synset.lemmas()])))

noun: good
noun: good, goodness
noun: good, goodness
noun: commodity, trade_good, good
adj: good
adj (s): full, good
adj: good
adj (s): estimable, good, honorable, respectable
adj (s): beneficial, good
adj (s): good
adj (s): good, just, upright
adj (s): adept, expert, good, practiced, proficient, skillful, skilful
adj (s): good
adj (s): dear, good, near
adj (s): dependable, good, safe, secure
adj (s): good, right, ripe
adj (s): good, well
adj (s): effective, good, in_effect, in_force
adj (s): good
adj (s): good, serious
adj (s): good, sound
adj (s): good, salutary
adj (s): good, honest
adj (s): good, undecomposed, unspoiled, unspoilt
adj (s): good
adv: well, good
adv: thoroughly, soundly, good


In [10]:
#Palavras com hiponímia (hypernyms) de "panda"
panda =  wn.synset("panda.n.01")
hyper = lambda s: s.hypernyms()
list(panda.closure(hyper))

[Synset('procyonid.n.01'),
 Synset('carnivore.n.01'),
 Synset('placental.n.01'),
 Synset('mammal.n.01'),
 Synset('vertebrate.n.01'),
 Synset('chordate.n.01'),
 Synset('animal.n.01'),
 Synset('organism.n.01'),
 Synset('living_thing.n.01'),
 Synset('whole.n.02'),
 Synset('object.n.01'),
 Synset('physical_entity.n.01'),
 Synset('entity.n.01')]

## Problemas de usar o *wordnet*:
- Apesar de uma grande fonte de recursos, ele não tem as nuances da fala;
    - Exemplo: "proficient" está marcado como sinonimo de "good", o que só é verdade em alguns casos.
- A falta de neologismos:
    - por exemplo "wicked", "badass", "ninja", etc;
    - impossivel de estar sempre atualizado.
- Subjetivo;
- Requer trabalho humano pra criar e adptar;
- não processa com segurança palavras muito semelhantes.



## Representando palavras como simbolos discretos

No **NLP** * tradicional, nós designamos as palavras à simbolos discretos, por exemplo

> Hotel, Conference, Motel -- Uma represenatação ** Localista**

--- 
| **One-Hot Vectors** | Meaning one 1, the rest 0s |


> Palavras podem ser representadas por **one-hot vector**:

| Motel | 000000000010000 |
| - | - |
| Hotel | 000000010000000 |




Mas temos um problema aqui:
*linguas tem **MUITAS** palavras.*

** Se fizermos uma busca por "Moteis em Seatle", nos vamos querer também o resultado para "Hoteis em Seatle", afinal, são categorias semelhantes.**
porem 

| Motel | 000000000010000 |
| - | - |
| Hotel | 000000010000000 |

Esses dois vetores são ortogonais, ou seja, não existe uma noção de silimaridade entre os dois para um **one-hot vetor**.

**Soluções:**
- Podemos tentar confiar na lista de sinominos por similariedade do Wordnet?
    - A tecnica tende a falha por ser muito incompleta.
- Podemos tambem tentar encondar a similaridade em cada vetor, como o google fez em 2005.
    - O problema seria o tamanho do vetor (500000 me média)

----
 * *NLP aplicada até antes de 2012. As tecnicas mudaram com a introdução das tecnicas de neuronet style* 

## Representando palavras pelo Contexto

- **Distribuição semântica:**  O significado de uma palavra é 'dado' pela frequencia com que as palavras mencionadas junto.
    - um dos modelos estatísticos mais bem sucedidos da *NLP moderna*. 
- Quando a palavra **P** aparece em um texto, seu contexto o conjunto de palavras que a acomanha (em uma dada janela de informação).
- Exemplo:
 > "*... government debt problems turning into **banking** crises as happen in 2009 ...*"   
 > "*... saying that Europe need unified **banking** regulation to replace the hodgepodge ...*"  
 > "*... India has just given its **banking** system a shot in the arm...*"    
                                               
                    ⬆     Essas palavras ditarão o contexto    ⬆ 



## Vector de Palavras
Vamos construir um vector denso para cada palavras, escolhendo um 

In [13]:
banking = {0.286, 0.792, -0.177, -0.107, 0.109, -0.542, 0.349, 0.271}
banking

{-0.542, -0.177, -0.107, 0.109, 0.271, 0.286, 0.349, 0.792}

{-0.542, -0.177, -0.107, 0.109, 0.271, 0.286, 0.349, 0.792}