<a href="https://colab.research.google.com/github/ern85/NeuralNetworks/blob/main/tf_idf.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Importações**

In [None]:
#importacoes
import nltk #Natural Language Tool Kit
import re # Regular Expressions
nltk.download('rslp') #Removedor de Sufixos da Lingua Portuguesa
from nltk import word_tokenize # Pacote para tokenização
from nltk.stem import RSLPStemmer #Removedor de Sufixos da Língua Portuguesa
nltk.download('punkt') # Pacote para alguns comandos de tokenização
nltk.download('stopwords') #Retirada de palavras de parada



[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
# Entrada do texto que depois será uma chamada de arquivo
texto = """Em relação a compra não achei muito satisfatória pois mesmo com os produtos disponíveis no site informando estar a pronta entrega eles demoraram muito a chegar."""

# **Inciando o pré-processamento**

In [None]:
# Remove pontuação
texto = re.sub(r'[^\w\s]','',texto)
print(texto)

Em relação a compra não achei muito satisfatória pois mesmo com os produtos disponíveis no site informando estar a pronta entrega eles demoraram muito a chegar


In [None]:
#tokenização de palavras

dataset = nltk.word_tokenize(texto, language='portuguese')
print (dataset)

['Em', 'relação', 'a', 'compra', 'não', 'achei', 'muito', 'satisfatória', 'pois', 'mesmo', 'com', 'os', 'produtos', 'disponíveis', 'no', 'site', 'informando', 'estar', 'a', 'pronta', 'entrega', 'eles', 'demoraram', 'muito', 'a', 'chegar']


In [None]:
#função Stemming
def Stemming(sentence):
    stemmer = RSLPStemmer()
    phrase = []
    for word in sentence:
        phrase.append(stemmer.stem(word.lower()))
    return phrase



In [None]:
#Chamada Stemming (para não ficar lento, chama a função)
dataset = Stemming(dataset)
print(dataset)

['em', 'relaç', 'a', 'compr', 'não', 'ach', 'muit', 'satisfatór', 'poi', 'mesm', 'com', 'os', 'produt', 'dispon', 'no', 'sit', 'inform', 'est', 'a', 'pront', 'entreg', 'ele', 'demor', 'muit', 'a', 'cheg']


In [None]:
#função Retirar Stopwords
def RemoveStopWords(sentence):
    stopwords = nltk.corpus.stopwords.words('portuguese')
    phrase = []
    for word in sentence:
        if word not in stopwords:
            phrase.append(word)
    return phrase

In [None]:
#Chamada para retirar as stopwords
dataset = RemoveStopWords(dataset)
print(dataset)

['relaç', 'compr', 'ach', 'muit', 'satisfatór', 'poi', 'mesm', 'produt', 'dispon', 'sit', 'inform', 'est', 'pront', 'entreg', 'demor', 'muit', 'cheg']


# **Fim do pré-processamento**

-------------------------------------------------------------------------

# **Iniciando a preparação para os cálculos TF-IDF**

In [None]:
# criando um histograma

word2count = {}
for data in dataset:
    words = nltk.word_tokenize(data)
    for word in words:
        if word not in word2count.keys():
            word2count[word] = 1
        else:
            word2count[word] += 1
            
print (word2count)

{'relaç': 1, 'compr': 1, 'ach': 1, 'muit': 2, 'satisfatór': 1, 'poi': 1, 'mesm': 1, 'produt': 1, 'dispon': 1, 'sit': 1, 'inform': 1, 'est': 1, 'pront': 1, 'entreg': 1, 'demor': 1, 'cheg': 1}


In [None]:
# biblioteca para ordenação
import heapq

# ordena a lista para saber qual é a palavra que mais se repete
freq_words = heapq.nlargest(50,word2count, key=word2count.get)
print (freq_words)

['muit', 'relaç', 'compr', 'ach', 'satisfatór', 'poi', 'mesm', 'produt', 'dispon', 'sit', 'inform', 'est', 'pront', 'entreg', 'demor', 'cheg']


In [None]:
# criando o IDF
import numpy as np 

word_idfs = {}
for word in freq_words:
    doc_count = 0 
    for data in dataset:
        if word in nltk.word_tokenize(data):
            doc_count += 1
    word_idfs[word] = np.log((len(dataset)/doc_count)+1)
    
print (word_idfs)

{'muit': 2.2512917986064953, 'relaç': 2.8903717578961645, 'compr': 2.8903717578961645, 'ach': 2.8903717578961645, 'satisfatór': 2.8903717578961645, 'poi': 2.8903717578961645, 'mesm': 2.8903717578961645, 'produt': 2.8903717578961645, 'dispon': 2.8903717578961645, 'sit': 2.8903717578961645, 'inform': 2.8903717578961645, 'est': 2.8903717578961645, 'pront': 2.8903717578961645, 'entreg': 2.8903717578961645, 'demor': 2.8903717578961645, 'cheg': 2.8903717578961645}


In [None]:
# calculando a frequencia de cada palavra no documento

tf_matrix = {}
print(dataset)
for word in freq_words:
    doc_tf = []
    for data in dataset:
        frequency = 0
        for w in nltk.word_tokenize(data):
            if w == word:
                frequency += 1
        tf_word = frequency/len(nltk.word_tokenize(data))
        doc_tf.append(tf_word)
    tf_matrix[word] = doc_tf

print (tf_matrix)


['relaç', 'compr', 'ach', 'muit', 'satisfatór', 'poi', 'mesm', 'produt', 'dispon', 'sit', 'inform', 'est', 'pront', 'entreg', 'demor', 'muit', 'cheg']
{'muit': [0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0], 'relaç': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], 'compr': [0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], 'ach': [0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], 'satisfatór': [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], 'poi': [0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], 'mesm': [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], 'produt': [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], 'dispon': [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0,

In [None]:
# TF-IDF cálculo

tfidf_matrix = []
print(freq_words)
for word in tf_matrix.keys():
    tfidf = []
    for value in tf_matrix[word]:
        score = value * word_idfs[word]
        tfidf.append(score)
    tfidf_matrix.append(word)    
    tfidf_matrix.append(tfidf)
    
#print (tfidf_matrix)

for i in range(0, len(tfidf_matrix), 2):
    print(tfidf_matrix[i:i+2])

['muit', 'relaç', 'compr', 'ach', 'satisfatór', 'poi', 'mesm', 'produt', 'dispon', 'sit', 'inform', 'est', 'pront', 'entreg', 'demor', 'cheg']
['muit', [0.0, 0.0, 0.0, 2.2512917986064953, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2.2512917986064953, 0.0]]
['relaç', [2.8903717578961645, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]]
['compr', [0.0, 2.8903717578961645, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]]
['ach', [0.0, 0.0, 2.8903717578961645, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]]
['satisfatór', [0.0, 0.0, 0.0, 0.0, 2.8903717578961645, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]]
['poi', [0.0, 0.0, 0.0, 0.0, 0.0, 2.8903717578961645, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]]
['mesm', [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2.8903717578961645, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]]
['produt', [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2.8903717578