<a href="https://colab.research.google.com/github/luisahamon/MedRoom.AI.Test/blob/develop/Compara%C3%A7%C3%A3o_de_Textos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Esse projeto visa comparar uma frase original com outras 3 possíveis alternativas de frases que poderiam ser usadas no contexto da anamnese clínica e consequentemente integrar as situações que o software da MedRoom simula 

#Importação das Bibliotecas

In [20]:
import numpy as np
import sklearn

#Criação das variáveis

In [21]:
texto_original = "Olhando para a escala na parede, qual valor indicaria melhor a sua dor hoje?"
texto_comparativo1 = "De acordo com a escala de dor ali na parede, qual valor você acha que mais representa a sua dor?"
texto_comparativo2 = "De 0 a 10, qual o nível de intensidade da sua dor atualmente?"
texto_comparativo3 = "Qual a intensidade da sua dor?"

#Criação do Vocabulário

O computador não compreende a linguagem human, em nenhum de seus idiomas, então devemos transformar as palavras em números, que são entidades compreendidas pela máquina 

Como quero comparar cada palavra presente nas fases vou usar o unigrama

In [22]:
from sklearn.feature_extraction.text import CountVectorizer

In [23]:
n = 1
palavras = CountVectorizer(analyzer='word', ngram_range=(n,n))

In [24]:
vocab1 = palavras.fit([texto_comparativo1, texto_original]).vocabulary_

In [25]:
print(vocab1)

{'de': 4, 'acordo': 1, 'com': 3, 'escala': 6, 'dor': 5, 'ali': 2, 'na': 11, 'parede': 14, 'qual': 15, 'valor': 19, 'você': 20, 'acha': 0, 'que': 16, 'mais': 9, 'representa': 17, 'sua': 18, 'olhando': 12, 'para': 13, 'indicaria': 8, 'melhor': 10, 'hoje': 7}


In [26]:
vocab2 = palavras.fit([texto_comparativo2, texto_original]).vocabulary_

In [27]:
print(vocab2)

{'de': 3, '10': 0, 'qual': 15, 'nível': 11, 'intensidade': 8, 'da': 2, 'sua': 16, 'dor': 4, 'atualmente': 1, 'olhando': 12, 'para': 13, 'escala': 5, 'na': 10, 'parede': 14, 'valor': 17, 'indicaria': 7, 'melhor': 9, 'hoje': 6}


In [28]:
vocab3 = palavras.fit([texto_comparativo3, texto_original]).vocabulary_

In [29]:
print(vocab3)

{'qual': 11, 'intensidade': 5, 'da': 0, 'sua': 12, 'dor': 1, 'olhando': 8, 'para': 9, 'escala': 2, 'na': 7, 'parede': 10, 'valor': 13, 'indicaria': 4, 'melhor': 6, 'hoje': 3}


#Transformação dos Vocabulários em Arrays

In [32]:
array1 = palavras.fit_transform([texto_comparativo1, texto_original]).toarray()

In [33]:
print(array1)

[[1 1 1 1 2 2 1 0 0 1 0 1 0 0 1 1 1 1 1 1 1]
 [0 0 0 0 0 1 1 1 1 0 1 1 1 1 1 1 0 0 1 1 0]]


Equivalências, ou seja números que se repetiram na mesma posição em ambas as frases: 6 ocorrências

In [34]:
array2 = palavras.fit_transform([texto_comparativo2, texto_original]).toarray()

In [35]:
print(array2)

[[1 1 1 2 1 0 0 0 1 0 0 1 0 0 0 1 1 0]
 [0 0 0 0 1 1 1 1 0 1 1 0 1 1 1 1 1 1]]


Equivalências: 3 ocorrências

In [36]:
array3 = palavras.fit_transform([texto_comparativo3, texto_original]).toarray()

In [37]:
print(array3)

[[1 1 0 0 0 1 0 0 0 0 0 1 1 0]
 [0 1 1 1 1 0 1 1 1 1 1 1 1 1]]


Equivalências: 3 ocorrências

#Criando uma Medida de Similaridade

Vou pegar as interseções entre os arrays

In [49]:
interseccoes1 = np.sum(np.amin(array1, axis=0))
interseccoes1

7

In [50]:
interseccoes2 = np.sum(np.amin(array2, axis=0))
interseccoes2

3

In [51]:
interseccoes3 = np.sum(np.amin(array3, axis=0))
interseccoes3

3

O texto_comparativo1 tem 7 semelhanças e os outros têm 3 semelhanças cada

#Score de Semelhança

In [67]:
divisor = palavras.fit_transform([texto_original]).toarray()

In [68]:
index = 0
count1 = np.sum(divisor[index])
count1

12

In [69]:
interseccoes1/count1

0.5833333333333334

In [72]:
interseccoes2/count1

0.25

In [73]:
interseccoes3/count1

0.25

**Conclusão**

- O texto comparativo 1 se mostrou o melhor apresentando uma semelhança de 58,33% com a frase original

- O texto comparativo 2 apresentou 25% de semelhança

- O mesmo aconteceu com o texto 3, tem 25% de semelhança