# Coding Dojo (Word embedding)

Como fazer um coding dojo?

Papéis:
SENSEI: é a pessoa que traz o desafio e ministra a edição do evento;
PILOTO: é a pessoa que está programando;
CO-PILOTO: é o par do piloto na rodada atual, que tem como principal função auxiliar no entendimento do problema.

Preparando o ambiente:
Precisamos ter uma forma rápida e fácil de instalar as dependências do dojo nos computadores de todos os envolvidos. Então ter um tutorial bem estruturado é essencial em um dojo.

Escrevendo o desafio:
Quando iniciamos o desafio, fazemos uma breve introdução do que é o tema, e o que iremos fazer. Logo após isso, é essencial que você explique o passo a passo o que os participantes têm que fazer. O ideal é que você vá transmitindo o seu código e fazendo junto com eles. É no final deixar uns 10 minutos para quaisquer dúvidas.


2. Preparando o ambiente:

pip install spacy

python -m spacy download pt_core_news_sm

pip install unidecode


In [None]:
import string
import re
from unidecode import unidecode

import spacy
nlp = spacy.load("pt_core_news_sm")

### Função para pré-processamento:
Antes de importarmos os dados, é interressante criar uma função de **pre-processamento** para limpar a base de dados. Lembrando que essa parte é essencial quando queremos trabalhar com análise de textos, principalmente quando queremos aplicar um modelo de predição ou outros métodos estatísticos. São muitos os métodos de pré-processamento, mas aqui vamos realizar apenas alguns:
- Transformam todos os caracteres em minusculas;
- Remove as acentuações
- Remove as pontuações
- Remove números

In [None]:
def cleaner(texto):
        texto = unidecode(texto)
        texto = texto.lower()
        texto = texto.translate(str.maketrans('','', string.punctuation))
        texto = re.sub(r'[0-9]+', '', texto)
        return texto

Agora vamos importar os dados, vamos deixar a vontade para que você coloque o texto que quiser nos dois campos abaixo:

In [None]:
texto_01 = "Coloque algum texto aqui"
texto_02 = "Coloque algum texto aqui"

Após ter colocado os dois textos, vamos tratar eles. Tirando as palavras que não agregam nenhum valor semântico no texto. Elas são chamadas de "**STOP WORDS**"

### Remoção de Stop Words

In [None]:
cleaner(texto_01)
cleaner(texto_02)

words = nlp.Defaults.stop_words

def stopWords(texto_01):
    texto_01 = [word for word in texto_01.split() if word not in list(words)]
    return ' '.join(texto_01)

def stopWords(texto_02):
    texto_02 = [word for word in texto_02.split() if word not in list(words)]
    return ' '.join(texto_02)

print(texto_01)
print(texto_02)

### Word embedding

precisamos transformar o texto em uma informação numérica, mais especificamente um vetor. Existem, várias formas de se fazer isso, aqui utilizatrmos o TF-IDF. 

Agora chegamos na parte que queriamos, fazer a assimilaridade entre dois textos.

### Como calcular a similaridade entre dois textos usando word embedding?


Vamos criar uma função para dizer essa similaridade, no Spacy já temos uma ferramenta que faz isso. Então o processo já fica bastante fácil.

In [None]:
def calcular_similaridade(texto1, texto2):
    doc1 = nlp(texto1)
    doc2 = nlp(texto2)

    similaridade = doc1.similarity(doc2)

    return similaridade

In [None]:
resultado = calcular_similaridade(texto_01, texto_02)
print(f"A similaridade entre os textos é: {resultado}")