# Bibliotecas

## Instalação



* Modelo de PLN Spacy para o idioma Português

In [None]:
!python -m spacy download pt_core_news_sm

* Biblioteca para Manipulação Planilhas de Excel

In [None]:
!pip install openpyxl

## Importação

In [3]:
# Manipulação df
import pandas as pd
import numpy as np

# Manipulação texto
import re
import unicodedata

# Contagem de tokens
from collections import Counter

# Modelo Manipulação PLN
import nltk
from nltk.tokenize import word_tokenize

# Modelo PLN
import spacy
from spacy.lang.pt import Portuguese

# Manipulação de Arquivos no Colab
from google.colab import files



# Upload

In [4]:
df = files.upload()

Saving MOTIVOS DE PENDÊNCIA.xlsx to MOTIVOS DE PENDÊNCIA.xlsx


# Fluxo de Tratamento (EXEC)

In [6]:
df = pd.read_excel('MOTIVOS DE PENDÊNCIA.xlsx')

* Limpeza de texto com regex:

  - No sistema, o campo observações possui escrita livre. Portanto, não existe nenhum padrão para que possa ser filtrado.

  - Foi observado que, geralmente, o principal motivo é descrito nas primeiras duas frases.

  - Dentro do que foi observado, utilizamos regex para realizar a primeira etapa limpeza e padronização do texto.

In [7]:
def Limpeza_Regex(texto):
  # tira acentos
  texto = unicodedata.normalize('NFD', texto)
  texto = texto.encode('ascii', 'ignore').decode('utf-8', 'ignore')

  # lower case
  texto = texto.lower()

  # remove todos os asteriscos
  texto = re.sub(r'\*+', '', texto)

  # remove todos os '>'
  texto = re.sub(r'\>+', '', texto)

  # remove quebras de linha do início
  texto = re.sub(r'^(\s*(_x000d_|\n))+', '', texto)

    # tratamento especial para o padrão "_x000D_\n_x000D_\n"
  if re.search(r'_x000d_\s*_x000d_\s*', texto):
      # remove o "_x000d_" e espaços extras
      texto = re.sub(r'_x000d_\s*_x000d_\s*', ' ', texto)
      # mantém só até a primeira quebra de linha depois disso
      texto = texto.split('\n')[0]
  else:
      # separa por quebras de linha normalmente
      texto = re.split(r'\n', texto, maxsplit=2)
      texto = '\n'.join(texto[:2])

  # remove códigos tipo _x000d_
  texto = re.sub(r'_x000d_', '', texto)

  # remove quebras de linha no início e no fim
  texto = texto.strip()

  # remove espaços extras
  texto = re.sub(r'\s+', ' ', texto).strip()

  return texto


In [8]:
df['Limpeza_Regex'] = df['obs'].fillna('').apply(lambda x: Limpeza_Regex(x))

* Stop Words

  -   Objeto com lista de que não possuem significado na frase (stop_words)


In [9]:
stop_words = spacy.lang.pt.stop_words.STOP_WORDS

In [10]:
def no_stopwords(texto):
  doc = nlp_pt(texto)
  return " ".join(x.text for x in doc if x.text not in stop_words)

* Lemmatization

  - Retorna as palavras a sua forma base, respeitando gramática e contexto

In [11]:
# carrega modelo pré treinado Spacy para Português
nlp_pt = spacy.load('pt_core_news_sm')

In [12]:
def lemmatization(texto):
  doc = nlp_pt(texto)
  return ' '.join([token.lemma_ for token in doc])

* Applying

In [13]:
df['no_stopwords'] = df['Limpeza_Regex'].apply( lambda x: no_stopwords(x))

In [14]:
df['lemmatization'] = df['no_stopwords'].apply( lambda x: lemmatization(x))

* Segunda limpeza

  - tirando palavras frequentes que não agregam significado, acentos e excesso de espaços.

In [15]:
def Limpeza_Regex2(texto):

  # excluir palavra enviar
  texto = re.sub(r'enviar', '', texto)

  # excluir word 'anexar'
  texto = re.sub(r'anexar', '', texto)

  # excluir word 'prezar'
  texto = re.sub(r'prezar', '', texto)

  # excluir simbolo '/'
  texto = re.sub(r'/', '', texto)

  # excluir simbolo ':'
  texto = re.sub(r':', '', texto)

  # excluir simbolo ','
  texto = re.sub(r',', '', texto)

  # remover espaços duplos ou mais
  texto = re.sub(r'\s{2,}', ' ', texto)

  # substituir '-'
  texto = re.sub(r'-', ' ', texto)

  return texto

In [16]:
df['Limpeza_Regex2'] = df['lemmatization'].apply( lambda x: Limpeza_Regex2(x))

## Estatísticas de texto

### Frequencia de tokens com N-Grams

* Processamento de tokens

In [17]:
words = " ".join(df['Limpeza_Regex2'])

* Tokenizador pré treinado do nltk

In [None]:
nltk.download('punkt_tab')

* Separa o texto em tokens

In [19]:
tokens = word_tokenize(words)

* Unigrams

In [20]:
unigrams = nltk.ngrams(tokens, 1)

In [21]:
print(Counter(unigrams).most_common(50))

[(('video',), 13647), (('.',), 11722), (('extrato',), 10290), (('valor',), 9407), (('confirmar',), 4958), (('comprovante',), 4157), (('af',), 4078), (('documento',), 4006), (('$',), 3980), (('R',), 3945), (('cliente',), 3491), (('alteracao',), 3470), (('ok',), 3306), (('nao',), 3151), ((';',), 3099), (('seguir',), 2997), (('identificacao',), 2896), (('pmt',), 2870), (('12x',), 2845), (('print',), 2772), (('conforme',), 2736), (('contrato',), 2613), (('cred',), 2584), (('app',), 2436), (('pdf',), 2372), (('anexo',), 2330), (('pix',), 2263), (('master',), 1948), (('dia',), 1822), (('informacao',), 1747), (('saldo',), 1698), (('contar',), 1499), (('script',), 1456), (('validar',), 1400), (('detalhamento',), 1388), (('pendente',), 1384), (('validacao',), 1347), (('constar',), 1310), (('audio',), 1268), (('senhar',), 1250), (('vlr',), 1230), (('8x',), 1185), (('=',), 1176), (('proximo',), 1162), (('ctt',), 1156), (('3',), 1147), (('dado',), 1122), (('ultimo',), 1083), (('limite',), 1073), (

* Bigrams

In [22]:
bigrams = nltk.ngrams(tokens, 2)

In [23]:
print(Counter(bigrams).most_common(50))

[(('video', 'confirmar'), 4491), (('R', '$'), 3945), (('alteracao', 'valor'), 3321), (('confirmar', 'alteracao'), 3307), (('documento', 'identificacao'), 2796), (('.', 'video'), 2134), (('video', 'ok'), 2103), (('valor', 'video'), 2024), (('valor', 'af'), 2017), (('cred', 'pix'), 2009), (('extrato', 'pdf'), 1735), (('print', 'app'), 1724), (('seguir', 'pendente'), 1360), (('comprovante', 'cred'), 1219), (('vlr', 'pmt'), 1215), (('seguir', 'valor'), 1188), (('valor', 'conforme'), 1177), (('confirmar', 'valor'), 1176), (('af', 'R'), 1103), (('extrato', 'extrato'), 1053), (('senhar', 'master'), 1017), (('pdf', 'analisar'), 975), (('extrato', 'informacao'), 968), (('analisar', 'ok'), 919), (('conforme', 'script'), 918), (('ultimo', 'extrato'), 913), ((';', 'extrato'), 909), (('video', 'Confirmacoes'), 899), (('3', 'ultimo'), 883), (('12x', 'video'), 869), (('sujeito', 'reprovacao'), 842), (('dado', 'valor'), 827), (('pendente', 'proximo'), 807), (('video', 'video'), 803), (('.', '12x'), 79

* Concatenar frases:

  - Concatenar frase para valer como tokens únicos

In [24]:
def frases(texto):


  # frase 1
  texto = re.sub(r'alteracao valor', 'alteracao_valor', texto)
  # frase 2
  texto = re.sub(r'confirmar valor', 'confirmar_valor', texto)
  # frase 3
  texto = re.sub(r'documento identificacao', 'documento_identificacao', texto)
  # frase 4
  texto = re.sub(r'3 ultimo extrato', '3_ultimo_extrato', texto)
  # frase 5
  texto = re.sub(r'video ok', '', texto)
  # frase 6
  texto = re.sub(r'selfie legivel', '', texto)

  return texto

In [25]:
df['Limpeza_Regex2'] = df['Limpeza_Regex2'].apply( lambda x: frases(x))

* Listar Palavras Chave para cada Tópico

In [26]:
palavras_topicos = {

    'SELFIE': ['selfie'],
    'ALTERAÇÃO DE VALORES': ['alteracao_valor','confirmar_valor','alteracao', 'alteracoes'],
    'DOCUMENTOS': ['documento_identificacao','3_ultimo_extrato','contrato','extrato','comprovante','documento','detalhamento','print','copia','autorizar','pdf','pdfer','legivel','extrato'],
    'VÍDEO/ÁUDIO PENDENTE': ['script','inaudivel','audio','gravacao','video']}


* Classificação de texto simples baseada em Palavras Chave

  - A ordem dos tópicos importa para a classificação.
  - É importante qual tópico é mais importante, em caso de multiplos motivos.

In [27]:
def atribuir_topico_com_palavras_chave(texto, palavras_topicos):
    for i, (topico, palavras) in enumerate(palavras_topicos.items()):
        if any(palavra in texto for palavra in palavras):
            return topico  # Retorna o tópico
    return  'DOCUMENTOS'

In [28]:
# Criar coluna de rótulo
df["rótulo_tópico"] = df["Limpeza_Regex2"].apply(lambda x: atribuir_topico_com_palavras_chave(x, palavras_topicos))

* Data Frame Head

In [35]:
df[['obs','Limpeza_Regex2','rótulo_tópico']].head(5)

Unnamed: 0,obs,Limpeza_Regex2,rótulo_tópico
0,"ENVIAR OS 3 ÚLTIMOS EXTRATOS COMPLETOS, CONTIN...",3_ultimo_extrato completo continuo Cortes Cal...,DOCUMENTOS
1,_x000D_\nENVIAR NOVO VIDEO CONFIRMANDO ALTERAÇ...,video confirmar alteracao_valor extrato extra...,ALTERAÇÃO DE VALORES
2,ENVIAR COMPROVANTE DE RENDA/DETALHAMENTO_x000D...,comprovante renda detalhamento 3_ultimo_extra...,DOCUMENTOS
3,ENVIAR EXTRATO_x000D_\n_x000D_\n>>_x000D_\n_x...,extrato limite cheque especial extrato outubr...,DOCUMENTOS
4,ENVIAR DOCUMENTO DE IDENTIFICAÇÃO_x000D_\n_x00...,documento_identificacao extrato documento_ide...,DOCUMENTOS


* DF para Excel

In [30]:
df.to_excel('Pendencias.xlsx', index=False)

* Download

In [31]:
files.download('Pendencias.xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>