<font size="6"><center>UNIVERSIDADE DE SÃO PAULO</center></font>
<font size="6"><center>INSTITUTO DE CIÊNCIAS MATEMÁTICAS E DE COMPUTAÇÃO</center></font>

<font size="4"><center><b>Disciplina: SCC0633/5908 – Processamento de Linguagem Natural</b></center></font>
  
<font size="3"><center>Profs. Renato M. Silva e Thiago A. S. Pardo</center></font>
<br/>

# <center>Técnicas tradicionais de representação de texto</center>

Neste exercício, usaremos técnicas tradicionais para representar os textos de uma base de dados.

### Objetivos de aprendizagem
- Entender como fazer o pré-processamento de textos
- Implementar as principais técnicas de representação de texto
- Entender como calcular similaridade de coseno 

 
Primeiro, vamos importar as bibliotecas que serão usadas neste exercício.

In [None]:
import os # biblioteca usada para realizar tarefas específicas ao SO
import re # biblioteca para expressoes regulares

import numpy as np # biblioteca usada para trabalhar com vetores e matrizes
import pandas as pd # biblioteca usada para trabalhar com dataframes e análise de dados

from zipfile import ZipFile # biblioteca para arquivos zipados

Vamos baixar uma base de dados. 

- Link: <https://github.com/sidleal/porsimplessent>

In [None]:
import os
import subprocess

def download(url, path):

    # comando para fazer o download
    cmd = ['wget', '-q', url, '-O', '%s' %(path)]

    # executa o comando sem exibir a saída na tela
    processo = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)

    # aguarda o término do download
    stdout, stderr = processo.communicate()

    # Verifica se o processo foi concluído com sucesso (código de retorno zero)
    if processo.returncode == 0:
        print(f'Processo finalizado.')
    else:
        print(f'Houve um erro: {stderr.decode("utf-8")}')
    
# especifica o local onde ficarao os arquivos
pathFiles = 'dados/'

# cria uma pasta onde ficarao os arquivos
if not os.path.isdir(pathFiles):
    os.mkdir(pathFiles)

url = 'https://www.dropbox.com/scl/fi/qnlwhpcqsgoy0m8y23mgz/porsimplessent-master.zip?rlkey=5lb3au2irlz4uv9d6tkbmza0j&st=ko7ho91c&dl=0' 
pathDataset1 = pathFiles + '/porsimplessent-master.zip'
download(url, pathDataset1)

Vamos descompactar o arquivo que contém a base de dados.

In [None]:
def unzip(path, pathFolder):

    try:
        # descompacta ao arquivo
        z = ZipFile(path, 'r')
        z.extractall(pathFolder)
        z.close()

        print("Arquivo descompactado com sucesso!")
    except:
        print("Houve um erro ao tentar descompactar o arquivo")
    
unzip(pathDataset1, pathFiles)

Vamos importar os dados da base de dados.

In [None]:
def import_dataset(path):
    
    ########################## COMPLETE O CÓDIGO AQUI  ########################





    
    
    ##########################################################################
    
    return dataset

# importa a base de dados de noticias falsas
dataset = import_dataset('dados/porsimplessent-master/porsimples/porsimples_sentences.tsv')
print('Dados importados com sucesso')

print('\nQtd. de sentenças: %d' %len(dataset))

print('\nPrimeiras sentenças: \n')
for sent in dataset[0:10]:
    print('\n')
    print(sent)

Agora, vamos tratar os textos importados da base de dados. Como o texto está na língua portuguesa, devemos usar uma função de estemização apropriada para a língua portuguesa. Iremos também remover os acentos das palavras. 

Usaremos alguns módulos da biblioteca [NLTK](https://www.nltk.org/). Para que eles possam ser executados, é necessário fazer o download das bases de dados e pacotes complementares usados pela biblioteca. Para fazer o download de todas os pacotes, use o script `nltk.download('all')`. Para fazer o download apenas do pacote de stopwords e de stemming, use, respecitivamente: `nltk.download('stopwords')` e `nltk.download('rslp')`

In [None]:
!pip install nltk

import nltk
import unicodedata # sera usada para remover acentos dos documentos em lingua portuguesa

# Download the stopwords corpus
nltk.download('stopwords')

# Download the RSLPStemmer
nltk.download('rslp')

from nltk.stem import RSLPStemmer # para fazer a estemização em documentos da lingua portuguesa

def preprocessing_portuguese(text, stemming = False, stopwords = False):
    """
    Funcao usada para tratar textos escritos na lingua portuguesa
    
    Parametros: 
        text: variavel do tipo string que contem o texto que devera ser tratado
        
        stemming: variavel do tipo boolean que indica se a estemizacao deve ser aplicada ou nao
        
        stopwords: variavel do tipo boolean que indica se as stopwords devem ser removidas ou nao
    """
    
    # Lower case
    text = text.lower()
    
    # remove os acentos das palavras
    nfkd_form = unicodedata.normalize('NFKD', text)
    text = u"".join([c for c in nfkd_form if not unicodedata.combining(c)])
    
    # remove tags HTML
    regex = re.compile('<[^<>]+>')
    text = re.sub(regex, " ", text) 
    
    # normaliza as URLs
    regex = re.compile('(http|https)://[^\s]*')
    text = re.sub(regex, "<URL>", text)

    # normaliza emails
    regex = re.compile('[^\s]+@[^\s]+')
    text = re.sub(regex, "<EMAIL>", text)
    
    # converte todos os caracteres não-alfanuméricos em espaço
    regex = re.compile('[^A-Za-z0-9]+') 
    text = re.sub(regex, " ", text)
    
    # normaliza os numeros 
    regex = re.compile('[0-9]+.[0-9]+')
    text = re.sub(regex, "NUMERO", text)
    
    # normaliza os numeros 
    regex = re.compile('[0-9]+,[0-9]+')
    text = re.sub(regex, "NUMERO", text)
    
    # normaliza os numeros 
    regex = re.compile('[0-9]+')
    text = re.sub(regex, "NUMERO", text)

    
    # substitui varios espaçamentos seguidos em um só
    text = ' '.join(text.split())

    # separa o texto em palavras
    words = text.split() 
        
    # remove stopwords
    if stopwords:

        ########################## COMPLETE O CÓDIGO AQUI  ########################
        


        ##########################################################################
    
    # aplica estemização
    if stemming: 

        ########################## COMPLETE O CÓDIGO AQUI  ########################
        


        ##########################################################################
        
    # remove palavras compostas por apenas um caracter
    words = text.split() # separa o texto em palavras
    words = [ w for w in words if len(w)>1 ]
    text = " ".join( words )
    
    return text

exemplo_noticia = 'Quase 30 anos depois, banhistas assustados estão se afastando do principal balneário de Uruguaiana, na Fronteira Oeste. '
print('Antes do preprocessamento: \n', exemplo_noticia)

# executa a função de pré-processsamento para tratar a amostra de texto
exemplo_noticia = preprocessing_portuguese(exemplo_noticia, stemming = True, stopwords = True)

print('\nDepois do preprocessamento: \n', exemplo_noticia)

Iremos aplicar a pré-processamento em todos os documentos. 

In [None]:
########################## COMPLETE O CÓDIGO AQUI  ########################





    
##########################################################################

print("\n\nPrimeira amostra")
print(dataset2[10])  

Iremos dar uma análisada na base de dados usando uma nuvem de palavras.

In [None]:
import matplotlib.pyplot as plt
!pip install wordcloud

from wordcloud import WordCloud

########################## COMPLETE O CÓDIGO AQUI  ########################






##########################################################################

# Plote a nuvem de palavras
plt.imshow(wc)
plt.axis("off")
plt.show()

Iremos transformar o texto em um vetor de atributos com valores numéricos. Uma das formas de fazer isso é considerar que cada palavra (ou token) da base de dados de treinamento é um atributo que armazena o número de vezes que uma determinada palavra aparece no texto. Na biblioteca `scikit-learn` podemos fazer essa conversão de texto para um vetor de atributos usando a função `skl.feature_extraction.text.CountVectorizer()`. Essa função gera um modelo de vetorização que pode ser ajustado com a base nos dados de treinamento usando a função `fit_transform()`.

In [None]:
import sklearn as skl
from sklearn import feature_extraction

########################## COMPLETE O CÓDIGO AQUI  ########################









##########################################################################

print('20 primeiras palavras do vocabulário obtido a partir dos dados de treinamento:\n')
print(vectorizer.get_feature_names_out()[0:20])

print('\nDimensão dos dados vetorizados: ', X.shape)

print(X[0,:])

Vamos converter para TF-IDF

In [None]:
########################## COMPLETE O CÓDIGO AQUI  ########################








##########################################################################

print(X_tfidf[0,:])

Vamos converter para binário

In [None]:
X_bin = X.copy()

########################## COMPLETE O CÓDIGO AQUI  ########################







##########################################################################

print(X_bin)

Busque os documentos mais relevantes para o termo "praia".

In [None]:
from sklearn import metrics

text = "carro na praia"

########################## COMPLETE O CÓDIGO AQUI  ########################








##########################################################################

# Imprime os 10 documentos mais próximos
for i in range(10):
    print("\n"+20*"="+"\n")

    idxAtual = idxOrd[i]
    print(dataset[idxAtual])