In [1]:
import pandas as pd
import numpy as np
import re
from nltk.corpus import stopwords
from nltk import RSLPStemmer
import spacy
import requests
import json

In [2]:
df = pd.read_excel('BD_analises_funcionais.xlsx')

In [3]:
df.head()

Unnamed: 0,antecedente,comportamento,consequencia,processo,efeito
0,Problemas / conflitos nos relacionamentos inte...,"“Conversar, aproximar-se, expressar sentimento...",Críticas / represálias,p+,TRISTEZA
1,Problemas / conflitos nos relacionamentos inte...,"“Conversar, aproximar-se, expressar sentimento...",Os problemas continuam,p+,INSEGURANÇA
2,Problemas / conflitos nos relacionamentos inte...,"“Conversar, aproximar-se, expressar sentimento...",Pouco interesse e pouca atenção das pessoas,ext,FRUSTRAÇÃO
3,“Conflitos no relacionamento amoroso ; Prese...,Patrícia conversa com o namorado sobre o que a...,"“Ele muda de assunto, diz que prefere deixar a...",ext,“TRISTEZA ; \nFRUSTRAÇÃO ; \nINSEGURANÇA”\n
4,“Conflitos no relacionamento amoroso ; Prese...,Patrícia conversa com o namorado sobre o que a...,Repetição de problemas ou ocorrência de novos ...,p+,“TRISTEZA ; \nFRUSTRAÇÃO ; \nINSEGURANÇA”\n


### Passo 1: Converte números para sua representação por extenso

In [4]:
numbers = []
for (_,serie) in df.iterrows():
    if type(serie['antecedente']) == str:
        antecedente = re.findall("\d+[\.\,]?\d*", serie['antecedente'])
        
    if type(serie['comportamento']) == str:
        comportamento = re.findall("\d+[\.\,]?\d*", serie['comportamento'])
        
    if type(serie['consequencia']) == str:
        consequencia = re.findall("\d+[\.\,]?\d*", serie['consequencia'])
    
        
    if type(serie['efeito']) == str:
        efeito = re.findall("\d+[\.\,]?\d*", serie['efeito'])
    
    numbers.extend(antecedente)
    numbers.extend(comportamento)
    numbers.extend(consequencia)
    numbers.extend(efeito)

In [5]:
numbers = list(set(numbers))
print(numbers)

['3.000', '20', '1']


In [6]:
numbers_map = {
    '3.000': 'três mil',
    '1': 'um',
    '20': 'vinte'
}

In [7]:
def replace_number_by_str(x):
    if type(x)!=str:
        return x
    
    result = x
    for i in range(len(numbers)):
        result = re.sub(numbers[i], numbers_map[numbers[i]], result)
    
    return result

In [8]:
df_step_1 = df.applymap(lambda x: replace_number_by_str(x))

In [9]:
numbers_2 = []
for (_,serie) in df_step_1.iterrows():
    if type(serie['antecedente']) == str:
        antecedente = re.findall("\d+[\.\,]?\d*", serie['antecedente'])
        
    if type(serie['comportamento']) == str:
        comportamento = re.findall("\d+[\.\,]?\d*", serie['comportamento'])
        
    if type(serie['consequencia']) == str:
        consequencia = re.findall("\d+[\.\,]?\d*", serie['consequencia'])
    
        
    if type(serie['efeito']) == str:
        efeito = re.findall("\d+[\.\,]?\d*", serie['efeito'])
    
    numbers_2.extend(antecedente)
    numbers_2.extend(comportamento)
    numbers_2.extend(consequencia)
    numbers_2.extend(efeito)

In [10]:
set(numbers_2)

set()

### Passo 2: Correção gramatical e léxica

In [13]:
def spell_check(x):
    if type(x)!=str:
        return x
    
    api_key = '2236a91b9bae4723a7f027ff30adfb8e'
    endpoint = "https://api.bing.microsoft.com/v7.0/SpellCheck"
    data = {
        'text': x
    }
    params = {
        'mkt': 'pt-BR',
        'mode': 'proof'
    }
    headers = {
        'Content-Type': 'application/x-www-form-urlencoded',
        'Ocp-Apim-Subscription-Key': api_key,
    }
    
    response = requests.post(endpoint, headers=headers, params=params, data=data)
    json_response = response.json()
    
    for token in json_response['flaggedTokens']:
        start_idx = token['offset']
        end_idx = start_idx + len(token['token'])
        
        suggestion = token['suggestions'][0]['suggestion']
        
        x = x[:start_idx] + suggestion + x[end_idx:]
      
    return x

In [16]:
try:
    df_step_2 = pd.read_excel("preprocessed_partial.xlsx")
except :
    df_step_2 = df_step_1.applymap(lambda x: spell_check(x))
    df_step_2.to_excel('preprocessed_partial.xlsx')

In [18]:
df_step_2['processo'] = df_step_1['processo']

In [19]:
df_step_2.head()

Unnamed: 0,antecedente,comportamento,consequencia,processo,efeito
0,Problemas / conflitos nos relacionamentos inte...,"“Conversar, aproximar-se, expressar sentimento...",Críticas / represálias,p+,TRISTEZA
1,Problemas / conflitos nos relacionamentos inte...,"“Conversar, aproximar-se, expressar sentimento...",Os problemas continuam,p+,INSEGURANÇA
2,Problemas / conflitos nos relacionamentos inte...,"“Conversar, aproximar-se, expressar sentimento...",Pouco interesse e pouca atenção das pessoas,ext,FRUSTRADO
3,“Conflitos no relacionamento amoroso ; Prese...,Patrícia conversa com o namorado sobre o que a...,"“Ele muda de assunto, diz que prefere deixar a...",ext,“TRISTEZA ; \nFRUSTRAÇÃO ; \nINSEGURANÇA”\n
4,“Conflitos no relacionamento amoroso ; Prese...,Patrícia conversa com o namorado sobre o que a...,Repetição de problemas ou ocorrência de novos ...,p+,“TRISTEZA ; \nFRUSTRAÇÃO ; \nINSEGURANÇA”\n


### Passo 3: Alterar todos caracteres para minúsculo

### Passo 3.1: Lemmatization

In [14]:
def lemmatize(x):
    if type(x)!=str:
        return x
    
    nlp = spacy.load('pt_core_news_sm')
    doc = nlp(x)
    
    partial_result = [token.lemma_ for token in doc]
    
    return " ".join(partial_result)

In [15]:
df_step_3_v1 = df_step_3.applymap(lambda x: lemmatize(x))
df_step_3_v1['processo'] = df_step_3['processo']

KeyboardInterrupt: 

In [None]:
df_step_3_l.head()

## Passo 4: Remover caracteres especiais

In [None]:
def reduce_to_letters_and_spaces(x):
    if type(x)!=str:
        return x
    
    return re.sub('[^a-záàâãéèêíïóôõöúçñ ]', ' ', x)

In [None]:
df_step_4 = df_step_3.applymap(lambda x: reduce_to_letters_and_spaces(x))
df_step_4['processo'] = df_step_3['processo']

In [None]:
df_step_4_v1 = df_step_3_v1.applymap(lambda x: reduce_to_letters_and_spaces(x))
df_step_4_v1['processo'] = df_step_3_v1['processo']

In [None]:
df_step_4.head()

In [None]:
df_step_4_v1.head()

## Passo 5: Reduzir espaços

In [None]:
def reduce_spaces(x):
    if type(x)!=str:
        return x
    
    partial_result = x.strip()
    
    return " ".join(partial_result.split())

In [None]:
df_step_5 = df_step_4.applymap(lambda x: reduce_spaces(x))

In [None]:
df_step_5_v1 = df_step_4_v1.applymap(lambda x: reduce_spaces(x))

In [None]:
df_step_5.head()

In [None]:
df_step_5_v1.head()

## Passo 5.1: Stemming

In [None]:
def stem(x):
    if type(x)!=str:
        return x
    
    stemmer = RSLPStemmer()
    text_words = x.split()
    
    partial_result = [stemmer.stem(word) for word in text_words]
    
    return " ".join(partial_result)

In [None]:
df_step_5_v2 = df_step_5.applymap(lambda x: stem(x))
df_step_5_v2['processo'] = df_step_5['processo']

In [None]:
df_step_5_v2.head()

## Passo 6: Remover stop words

In [None]:
def remove_stop_words(x):
    if type(x)!=str:
        return x
    
    stop_words = stopwords.words('portuguese')
    text_words = x.split()
    
    partial_result = [word for word in text_words if word not in stop_words]
    
    return " ".join(partial_result)

In [None]:
df_step_6_v1 = df_step_5_v1.applymap(lambda x: remove_stop_words(x))
df_step_6_v1['processo'] = df_step_5_v1['processo']

In [None]:
df_step_6_v2 = df_step_5_v2.applymap(lambda x: remove_stop_words(x))
df_step_6_v2['processo'] = df_step_5_v2['processo']

In [None]:
df_step_6_v1.head()

In [None]:
df_step_6_v2.head()

In [None]:
df_step_6_v1.to_excel('preprocessed_lemmatization.xlsx')
df_step_6_v2.to_excel('preprocessed_stemming.xlsx')