Ref principal: https://github.com/eduonix/nlptextclassification/blob/master/NLP%20for%20Text%20Classification%20(Jupyter%20Notebook).ipynb

### Imports

In [57]:
import re
import nltk
#import ftfy 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder

### Carregar dataset

In [45]:
df = pd.read_excel('datasets/Chamados.xlsx')
df.head()

Unnamed: 0,Classificação,Assunto,Descricao
0,Inc - Con,PROBLEMA DE CONECTIVIDADE,PROBLEMA DE CONECTIVIDADE
1,Inc - Con,PC SEM INTERNET,raquel do bag de dr renato informou que está c...
2,Inc - Con,PC SEM INTERNET,"vanessa , gab dr carlos barros informou proble..."
3,Inc - Con,COMPUTADOR SEM ACESSO A INTERNET,Usuário informa que o computador está sem aces...
4,Inc - Con,COMPUTADOR NÃO ESTÁ LOGANDO,COMPUTADOR NÃO ESTÁ LOGANDO.


### Análise inicial

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3195 entries, 0 to 3194
Data columns (total 3 columns):
Classificação    2788 non-null object
Assunto          3195 non-null object
Descricao        3195 non-null object
dtypes: object(3)
memory usage: 75.0+ KB


- Criando um dataset com os valores nulos da coluna "Classificação"

In [17]:
df[df['Classificação'].isnull()].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 407 entries, 2788 to 3194
Data columns (total 3 columns):
Classificação    0 non-null object
Assunto          407 non-null object
Descricao        407 non-null object
dtypes: object(3)
memory usage: 12.7+ KB


In [19]:
df[df['Classificação'].isnull()].to_excel('datasets/Chamados_Não_Classificados.xlsx', index=False)

- Removendo linhas com a coluna classificação nula

In [46]:
df.dropna(inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2788 entries, 0 to 2787
Data columns (total 3 columns):
Classificação    2788 non-null object
Assunto          2788 non-null object
Descricao        2788 non-null object
dtypes: object(3)
memory usage: 87.1+ KB


### Verificando a distribuição de classes

In [47]:
df['Classificação'].value_counts()

Req - Equ    1194
Req - Sis     962
Inc - Sis     284
Inc - Equ     170
Outros         71
Inc - Con      55
Req - Con      52
Name: Classificação, dtype: int64

- Deixando as classes de forma binária, apenas Equipamento e Sistema

In [48]:
df = df[(df['Classificação'] != 'Outros') & (df['Classificação'] != 'Inc - Con') & (df['Classificação'] != 'Req - Con')]
display(df.info())
df['Classificação'].value_counts()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2610 entries, 55 to 2787
Data columns (total 3 columns):
Classificação    2610 non-null object
Assunto          2610 non-null object
Descricao        2610 non-null object
dtypes: object(3)
memory usage: 81.6+ KB


None

Req - Equ    1194
Req - Sis     962
Inc - Sis     284
Inc - Equ     170
Name: Classificação, dtype: int64

In [49]:
df['Classificação'] = df['Classificação'].apply(lambda c: 'Equipamento' if 'Equ' in c else 'Sistema')
display(df.info())
df['Classificação'].value_counts()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2610 entries, 55 to 2787
Data columns (total 3 columns):
Classificação    2610 non-null object
Assunto          2610 non-null object
Descricao        2610 non-null object
dtypes: object(3)
memory usage: 81.6+ KB


None

Equipamento    1364
Sistema        1246
Name: Classificação, dtype: int64

### Transformando os dados

In [51]:
le = LabelEncoder()
df['Classificação'] = le.fit_transform(df['Classificação'])
df['Classificação'].value_counts()

0    1364
1    1246
Name: Classificação, dtype: int64

0 para equipamento e 1 para sistema

### Usando Regex para remoção de caracteres especiais

In [66]:
# tags html
df['Descricao Atualizada'] = df['Descricao'].str.replace(r'<[^>]*>', '') #<[^>]*> <.*?>
# email 
df['Descricao Atualizada'] = df['Descricao Atualizada'].str.replace(r'^.+@[^\.].*\.[a-z]{2,}$',
                                 'email')
# URLs 
df['Descricao Atualizada'] = df['Descricao Atualizada'].str.replace(r'^http\://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(/\S*)?$',
                                  'link')
# cifrões de dinheiro 
df['Descricao Atualizada'] = df['Descricao Atualizada'].str.replace(r'£|\$', 'cifrao') 
# número telefone
df['Descricao Atualizada'] = df['Descricao Atualizada'].str.replace(r'^\(?[\d]{3}\)?[\s-]?[\d]{3}[\s-]?[\d]{4}$',
                                  'telefone') 
# números em geral
df['Descricao Atualizada'] = df['Descricao Atualizada'].str.replace(r'\d+(\.\d+)?', 'numero')
# pontuação
df['Descricao Atualizada'] = df['Descricao Atualizada'].str.replace(r'[^\w\d\s]', ' ')

df['Descricao Atualizada'] = df['Descricao Atualizada'].str.replace(r'[º]', '')
# dois espaços ou mais
df['Descricao Atualizada'] = df['Descricao Atualizada'].str.replace(r'\s+', ' ')

df['Descricao Atualizada'] = df['Descricao Atualizada'].str.replace(r'^\s+|\s+?$', ' ')
# minusculo
df['Descricao Atualizada'] = df['Descricao Atualizada'].str.lower()
df['Descricao Atualizada']

55      coloquei para imprimir frente e verso querendo...
56             usuário informa que o computador não liga 
57      usuária entrou em contato alegando que a impre...
58      usuário informa que o excel não está funcionando 
59      usuário entrou em contato alegando que o compu...
                              ...                        
2783    aprovação de solicitação de funcionalidades có...
2784    aprovação de solicitação de funcionalidades có...
2785    aprovação de solicitação de funcionalidades có...
2786    venho através deste solicitar a publicação sis...
2787    cadastramento de diário oficial tce data publi...
Name: Descricao Atualizada, Length: 2610, dtype: object

In [67]:
# COMPARAR COM O ORIGINAL
df['Descricao Atualizada'].to_csv('teste.csv')

  """Entry point for launching an IPython kernel.


- Convertendo caracteres para UTF-8

In [62]:
df['Descricao Atualizada'] = df['Descricao Atualizada'].apply(lambda d: d.decode(encoding='UTF-8'))
df['Descricao Atualizada']

AttributeError: 'str' object has no attribute 'decode'

In [0]:
import ftfy 

descricoes = [ftfy.fix_text(descricao) for descricao in processed.values]

descricoes

ModuleNotFoundError: ignored

- Remover StopWords

In [70]:
nltk.download('stopwords')

pt_stopwords = set(nltk.corpus.stopwords.words("portuguese"))

df['Descricao Atualizada'] = df['Descricao Atualizada'].apply(lambda d: ' '.join(term for term in d.split() if term not in pt_stopwords))

df['Descricao Atualizada']                                                              

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\gfeli\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


55      coloquei imprimir frente verso querendo econom...
56                        usuário informa computador liga
57      usuária entrou contato alegando impressora loc...
58                      usuário informa excel funcionando
59      usuário entrou contato alegando computador lig...
                              ...                        
2783    aprovação solicitação funcionalidades código n...
2784    aprovação solicitação funcionalidades código n...
2785    aprovação solicitação funcionalidades código n...
2786    venho através deste solicitar publicação siste...
2787    cadastramento diário oficial tce data publicaç...
Name: Descricao Atualizada, Length: 2610, dtype: object

- Stemming

In [71]:
nltk.download('rslp')

stemmer = nltk.stem.RSLPStemmer()

df['Descricao Atualizada'] = df['Descricao Atualizada'].apply(lambda x: ' '.join(stemmer.stem(term) for term in x.split()))

df['Descricao Atualizada']

[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\gfeli\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping stemmers\rslp.zip.


55      coloq imprim frent vers quer econom papel agor...
56                                  usu inform comput lig
57      usuár entr contat aleg impres local recepç dam...
58                               usu inform excel funcion
59      usu entr contat aleg comput lig entretant brea...
                              ...                        
2783    aprov solicit funcional códig numer nom mirn a...
2784    aprov solicit funcional códig numer nom henriq...
2785    aprov solicit funcional códig numer nom joã ed...
2786    venh através dest solic public sistem etc api ...
2787    cadastr diári ofic tce dat public numer numer ...
Name: Descricao Atualizada, Length: 2610, dtype: object

# PAREI AQUI

### Obter características

In [0]:
from nltk.tokenize import word_tokenize
nltk.download('punkt')

all_words = []

for message in processed:
    words = word_tokenize(message)
    for w in words:
        all_words.append(w)
        
all_words = nltk.FreqDist(all_words)

print('Total de palavras: {}'.format(len(all_words)))
print('Mais comuns: {}'.format(all_words.most_common(5)))

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
Total de palavras: 3671
Mais comuns: [('numer', 1237), ('solicit', 685), ('process', 653), ('configur', 448), ('inform', 422)]


In [0]:
#numero de features
word_features = list(all_words.keys())[:1500]

In [0]:
def find_features(message):
    words = word_tokenize(message)
    features = {}
    for word in word_features:
        features[word] = (word in words)

    return features

In [0]:
features = find_features(processed[0])
for key, value in features.items():
    if value == True:
        print(key)

problem
conect


In [0]:
chamados = list(zip(processed, encoded_classes))

seed = 1
np.random.seed = seed
np.random.shuffle(chamados)

featuresets = [(find_features(text), label) for (text, label) in chamados]

In [0]:
featuresets[0]

({'problem': False,
  'conect': False,
  'raquel': False,
  'bag': False,
  'dr': False,
  'renat': False,
  'inform': True,
  'dificuldad': False,
  'escut': False,
  'radi': False,
  'plenari': False,
  'gost': False,
  'sab': False,
  'q': False,
  'faz': False,
  'usuár': False,
  'are': False,
  'restrit': False,
  'pass': False,
  'instabil': False,
  'vaness': False,
  'gab': False,
  'carl': False,
  'barr': False,
  'acess': False,
  'internet': False,
  'serviç': False,
  'restaur': False,
  'necess': False,
  'fech': False,
  'abr': False,
  'naveg': False,
  'sistem': False,
  'retorn': False,
  'norm': False,
  'usu': False,
  'comput': False,
  'log': False,
  'resolv': False,
  'red': False,
  'bom': False,
  'dia': False,
  'consegu': False,
  'sit': False,
  'tce': False,
  'rn': False,
  'conseg': False,
  'wif': False,
  'solicit': False,
  'apoi': False,
  'verific': True,
  'bloquei': False,
  'email': False,
  'malici': False,
  'cheg': False,
  'caix': False,
  '

In [0]:
from sklearn import model_selection

training, testing = model_selection.train_test_split(featuresets, test_size = 0.25, random_state=seed)

print("Treino:", len(training))
print("Teste:", len(testing))

Treino: 2091
Teste: 697
