# Languaging Modeling

A detecção de padrões é o núcleo do mundo da linguagem natural.

A detecção de padrões permite classificar documentos.

A classificação dos documentos pode ser supervisionada ou não supervisionada.

A aprendizagem supervisionada usa técnicas como:

     1. Classificação de Naybe Bayes
     2. Árvores de decisão (ID3 ou C45)
     3. Tf-idf
     4. Semântica latente
     5. indeing LSI
     6. SVM
     7. Redes neurais
         a) Algumas topologias são focadas no conceito de aprendizagem profunda
         b) Algumas técnicas não usam redes para reconhecer padrões
    
Uma pergunta que tenho que responder é:

Como sé que dos textos o palabras son semejantes? 

Pode-se interpretar que a extração da semântica identificará se as palavras são semelhantes.

## 1. Extraindo Semântica: Para este propósito é necessário representar os documentos para que os algoritmos que usamos possam entendê-lo.

A Semântica de informação não estruturada (fora de contexto), usa técnicas que criam modelos treinados a partir de um conjunto de documentos. Cada modelo cria uma representação vetorial. Este vetor contém uma série de valores, representando se um termo aparece no documento. Cada modelo tem um significado diferente do que é um termo que pode ser:

     1. uma palavra
     2. Uma frase
     3. Um parágrafo, etc.

Por exemplo, espaços vetoriais são usados para ver a distância entre vetores e saber se são semelhantes ou não (próximos ou distantes). Para saber quais palavras estão próximas, a "distância de cosseno" ou semelhança de cosseno será aplicada.

Como existem muitas irregularidades lingüísticas, podemos aplicar operações vetoriais para extrair propriedades interessantes.

Para representar textos temos 2 caminhos: a) localmente eb) continuamente

    1. Localmente: palavras isoladas e representadas como um conjunto de termos índice ou palavras-chave (n-gramas, saco de palavras) NÃO TEM NENHUMA RELAÇÃO ENTRE TERMOS.

    2. Continuamente: Eles são representados como matrizes ou vetores de junção e até mesmo nós (representações LSA ou LSI, LDS, LDA, distribuídas ou preditivas usando redes neurais). TOMA EM CONTA O CONTEXTO DAS PALAVRAS E A RELAÇÃO ENTRE ELES.
    
Para extrair a semântica, em nosso primer experimento tentaremos uma representação contínua chamada (distributed representations of words). E funcionam através do uso de um algoritmo para treinar um conjunto de vetores de comprimento fixo, denso e contínuo, com base em um grande corpus de textos.

Essa representação aprende representações vetoriais de palavras, ou seja, teremos um espaço multidimensional no qual uma palavra é representada como um vetor. A representação do espaço vetorial de palavras fornece uma projeção em que palavras com significados semelhantes são agrupadas localmente no espaço.

   1. Esses vetores são capazes de extrair características relevantes, tais como: i) propriedades sintáticas, ii) propriedades semânticas das palavras (Turian 2010) Referenciar bem.

   2. O outro é o aprendizado de máquina é feito com dados de entrada NÃO LABELADOS, isto é, NÃO É SUPERVISIONADO.
    
Esses vetores são usados como entrada para muitas aplicações de PNL ou Machine Learning.
Para aplicar essa técnica, usamos a ferramenta Word2Vec (Mikolov Google 2013) https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf, que usa como entrada um corpus de textos ou qualquer documentação. Obter vetores de saída representando as palavras.

A arquitetura na qual o Word2vec se baseia são as redes neurais para aprender essas representações. Você também pode obter vetores que representam frases, parágrafos ou mesmo documentos completos (Le & Mikolov 2014)

No nosso caso, vamos nos concentrar no nível de palavras.

Para a implementação do Python, precisaremos da biblioteca gesim.

Word2Vec Tem dois tipos de algoritmos, como: Skip-gram y Bags-of-words (CBOW).

    1.Para skip-gram. O modelo é a palavra objetiva, enquanto as saídas são as palavras que cercam a palavra objetiva.
    
    Exemplo: 
        I have a cute dog
    Input : "a" 
    Output: I have cute dog
    Tamanho da janela: 5
   2. Continuos Bag-of-Word CBOW. O modelo prevê a palavra atual a partir de uma janela de palavras de contexto adjacentes. A ordem das palavras de contexto não influencia na previsão.

In [None]:
Vamos hacer un ejemplo con 5 frases: 
    1. "Era uma vez uma menininha chamada Alice"
    2. "Um dia ela teve um sonho muito estranho"
    3. "Voce gostaria de saber como foi o sonho dela?"
    4. "Bem, vamos comecar pelo comeco!"
    5. "A primeira coisa que ela viu no tal sonho foi um Coelho Branco muito apressado e correndo"

In [None]:
from gensim.models import Word2Vec
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

sentences = [['Era', 'uma', 'vez', 'uma', 'menininha', 'chamada', 'Alice'],
			['Um', 'dia', 'ela', 'teve', 'um','sonho','muito', 'estranho'],
			['Voce', 'gostaria', 'de', 'saber', 'como', 'foi', 'o', 'sonho', 'dela'],
			['Bem', 'vamos', 'comecar', 'pelo', 'comeco'],
			['A', 'primeira', 'coisa', 'que', 'ela', 'viu', 'no', 'tal', 'sonho', 'foi', 'um', 'Coelho', 'Branco', 'muito', 'apressado', 'e', 'correndo']]

# train model
model = Word2Vec(sentences, min_count=1)

# summarize the loaded model
print(model)

# summarize vocabulary
words = list(model.wv.vocab)
print(words)

# access vector for one word
print(model['Alice'])

# save model
model.save('model.bin')

# load model
new_model = Word2Vec.load('model.bin')
print(new_model)

#Podemos recuperar todos os vetores de um modelo treinado da seguinte maneira:
X = model[model.wv.vocab]

#adicionando a criação de um modelo PCA bidimensional da palavra vetores usando a classe PCA scikit-learn da seguinte maneira.
pca = PCA(n_components=2)
result = pca.fit_transform(X)
print (result)

#A adição à plotagem pode ser plotada usando o matplotlib da seguinte maneira, extraindo as duas dimensões como coordenadas x e y.
plt.scatter(result[:, 0], result[:, 1])
#plt.show()

#Podemos ir um passo além e anotar os pontos no gráfico com as próprias palavras.
words = list(model.wv.vocab)
for i, word in enumerate(words):
	plt.annotate(word, xy=(result[i, 0], result[i, 1]))

plt.show()

#pasos seguidos em https://machinelearningmastery.com/develop-word-embeddings-python-gensim/

Archivo en mi maquina las primeras lineas eran de un ejemplo que no funciono para NILC porque los enlaces del corpus estan rotos
Mi aquivo python se llama ...... uspW2Vprueba1.py que tiene un ejemplo con 5 frases de mis cuentos.


