# Teste NLP - Birdie

Autor: Rafael Augusto Monteiro

rafaelmonteiro95@gmail.com


## Enunciado do Problema
Usando as ferramentas e bibliotecas que considerar mais adequadas, faça um programa que recebe um texto de reviews descritos em linguagem natural (PT-BR) e retorna a classe gramatical de cada palavra no texto

Aplique seu programa sobre o conjunto de reviews no arquivo "test.txt"

Por fim, identifique todos os trechos de reviews que seguem um dos padrões:

SUBSTANTIVO + ADJETIVO ou

SUBSTANTIVO + VERBO + ADJETIVO

Por exemplo, em "O celular tem uma tela boa", o trecho "tela boa" deveria ser extraído porque segue o padrão SUBSTANTIVO + ADJETIVO.

## Abordagem
A abordagem descrita aqui usa o POS Tagger da biblioteca Spacy para etiquetar cada palavra com a sua classe gramatical. Spacy é uma biblioteca de processamento de linguagem natural de fácil acesso que possui modelos para o PT-BR.

O procedimento consiste em etiquetar todas as palavras dos textos, gerar uma lista de tags, fazer o match entre cada padrão e as tags de cada linha, e extrair o texto onde houver match. Um caractere '/' é inserido após cada trecho extraído para separá-lo dos demais trechos extraídos daquele review.

O resultado obtido é um arquivo de texto, com o mesmo número de linhas que o arquivo de entrada, contendo o texto extraído. As linhas que não tiveram texto extraído são mantidas em branco para facilitar o pareamento do arquivo iniciar e dos resultados obtidos.

### Req. 1
Usando as ferramentas e bibliotecas que considerar mais adequadas, faça um programa que recebe um texto de reviews descritos em linguagem natural (PT-BR) e retorna a classe gramatical de cada palavra no texto

In [1]:
# Importing tagger
import spacy
# Loading pt-br model
nlp = spacy.load('pt_core_news_sm')

In [2]:
def tag_string(string, nlp = None):
    # Loads the model if none is passed
    if(nlp == None):
        nlp = spacy.load('pt_core_news_sm')
        
    # Calls nlp on string, which returns a list of tokens. 
    # Then, creates two lists, one with words and another with the POS tag of each word
    text, tags = zip(*[ (token.text, token.pos_) for token in nlp(string) ])
    
    # Returns the two lists
    return (list(text), list(tags))


def tag_list(list_of_strings, nlp = None):
    result = []
    # Loads the model if none is passed
    if(nlp == None):
        nlp = spacy.load('pt_core_news_sm')
        
    # calls the tagging function for each string in list_of_strings
    tagged_strings = [tag_string(string, nlp) for string in list_of_strings]
    
    # returns the list of processed strings
    return tagged_strings

In [3]:
string = "Isso é um teste"
tagged_string = tag_string(string, nlp)
print('Teste com uma frase')
print(tagged_string, end='\n\n')

string2 = "Isso é mais um teste muito grande"
string3 = "Vamos testar com outra frase"
tagged_list = tag_list([string, string2, string3], nlp)
print('Teste com lista de frases')
print(*tagged_list, sep='\n')

Teste com uma frase
(['Isso', 'é', 'um', 'teste'], ['PRON', 'VERB', 'DET', 'NOUN'])

Teste com lista de frases
(['Isso', 'é', 'um', 'teste'], ['PRON', 'VERB', 'DET', 'NOUN'])
(['Isso', 'é', 'mais', 'um', 'teste', 'muito', 'grande'], ['PRON', 'VERB', 'ADV', 'DET', 'NOUN', 'ADV', 'ADJ'])
(['Vamos', 'testar', 'com', 'outra', 'frase'], ['AUX', 'VERB', 'ADP', 'DET', 'NOUN'])


### Req. 2
Aplique seu programa sobre o conjunto de reviews no arquivo "data.txt"

In [4]:
with open('data.txt', 'r', encoding='utf8') as f:
    reviews = f.read().split('\n')
    
# tagging all reviews
tagged_result = tag_list(reviews, nlp)

In [5]:
tagged_result[:5]

[(['Muito', 'bonito', '!'], ['ADV', 'NOUN', 'PUNCT']),
 (['Muito', 'bom'], ['ADV', 'ADJ']),
 (['Ótimo', 'livro'], ['ADJ', 'NOUN']),
 (['Excelente'], ['ADJ']),
 (['Surpreso'], ['PROPN'])]

### Req 3
Por fim, identifique todos os trechos de reviews que seguem um dos padrões:

SUBSTANTIVO + ADJETIVO ou

SUBSTANTIVO + VERBO + ADJETIVO


In [6]:
# function that extracts the text in tagged_string matching the patterns given
# Returns a string with text that matches patterns
# Returns an empty string if text does not match
def extract_patterns(tagged_string, patterns):
    result = []
    # unpacking tags and texts from tagged_strings
    text, tags = tagged_string
    # checking for each pattern
    for pattern in patterns:
        # uses a "sliding window" method for checking the pattern
        stride = len(pattern)
        for i in range(len(tags) - stride + 1):
            if(tags[i:i+stride] == pattern):
                result += text[i:i+stride] + ['/']
    # joins all the matching text into a string
    return ' '.join(result)

# function that extracts the text from a list of tagged_strings matching the patterns given
def extract_patterns_from_list(tagged_strings, patterns):
    return [extract_patterns(string, patterns)  for string in tagged_strings]

In [7]:
patterns = [['NOUN','ADJ'],['NOUN', 'VERB', 'ADJ']]
print(f'Padrões: {patterns}',end='\n\n')

# Executando em dois exemplos
print(f'Review 6: {" ".join(tagged_result[6][0])}')
print(f'Tags: {tagged_result[6][1]}')
print(f'Texto extraído: {extract_patterns(tagged_result[6],patterns)}', end='\n\n')

print(f'Review 6: {" ".join(tagged_result[12][0])}')
print(f'Tags: {tagged_result[12][1]}')
print(f'Texto extraído: {extract_patterns(tagged_result[12],patterns)}')

Padrões: [['NOUN', 'ADJ'], ['NOUN', 'VERB', 'ADJ']]

Review 6: Muito bom
Tags: ['ADV', 'ADJ']
Texto extraído: 

Review 6: Leitura excelente
Tags: ['NOUN', 'ADJ']
Texto extraído: Leitura excelente /


In [8]:
# Extracting text from all reviews
extracted_texts = extract_patterns_from_list(tagged_result, patterns)

In [12]:
for i, element in enumerate(extracted_texts[100:150]):
    print(f'Review {i:2d}: {element}')

Review  0: 
Review  1: 
Review  2: 
Review  3: 
Review  4: 
Review  5: 
Review  6: 
Review  7: preço bacana /
Review  8: 
Review  9: 
Review 10: 
Review 11: Fixação ruim /
Review 12: zoom é ruim /
Review 13: 
Review 14: 
Review 15: Entrega rápida / leitura ótima /
Review 16: 
Review 17: 
Review 18: 
Review 19: 
Review 20: 
Review 21: 
Review 22: ficção científica /
Review 23: 
Review 24: 
Review 25: 
Review 26: 
Review 27: 
Review 28: 
Review 29: 
Review 30: 
Review 31: 
Review 32: Produto ótimo /
Review 33: 
Review 34: 
Review 35: 
Review 36: 
Review 37: 
Review 38: 
Review 39: 
Review 40: teclas básicas /
Review 41: 
Review 42: 
Review 43: 
Review 44: 
Review 45: 
Review 46: 
Review 47: 
Review 48: Produto menor /
Review 49: Entrega rápida / produto bom /


In [10]:
# saving results in a file
with open('result.txt','w', encoding='utf8') as f:
    print(*extracted_texts, sep='\n', end='', file=f)