# Mentoria Data Science Academy

## Imports

In [1]:
import numpy as np
import pandas as pd
import re
import string
import nltk
import os

from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, precision_score, cohen_kappa_score, classification_report, confusion_matrix

import seaborn as sns
import matplotlib.pyplot as plt

# Downloads do pacote NLTK
nltk.download('stopwords')
nltk.download('rslp')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\asepulveda\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\asepulveda\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

## 0.0 Carregando os Dados

In [2]:
data_path = 'dados'
df1 = pd.read_csv(os.path.join(data_path, 'posts.csv'), sep = '|')
df2 = pd.read_csv(os.path.join(data_path, 'posts_2.csv'), sep = '|')
df3 = pd.read_csv(os.path.join(data_path, 'posts_3.csv'), sep = '|')

In [6]:
df1.head()

Unnamed: 0,title,date,answers,visits,url,post,area
0,recurso cabível exceção de preexecutividade re...,11 de Março de 2021,1,1,threads/recurso-cabivel-excecao-de-preexecutiv...,"\r\n\t\t\t\t\t\r\n\t\t\t\t\tBoas tardes, caros...",direito-do-trabalho.17
1,Liquidez - Reforma Trabalhista,06 de Março de 2021,0,6,threads/liquidez-reforma-trabalhista.23092/,"\r\n\t\t\t\t\t\r\n\t\t\t\t\tBoa noite, colegas...",direito-do-trabalho.17
2,Rito Sumário - sentença irrecorrível?,06 de Março de 2021,0,6,threads/rito-sumario-sentenca-irrecorrivel.23091/,"\r\n\t\t\t\t\t\r\n\t\t\t\t\tOlá, colegas.\r\n\...",direito-do-trabalho.17
3,DISPENSA DE FUNCIONARIO AFASTADO EM ESPECIE DE...,27 de Janeiro de 2021,0,9,threads/dispensa-de-funcionario-afastado-em-es...,"\r\n\t\t\t\t\t\r\n\t\t\t\t\tPrezados, Drs.\r\n...",direito-do-trabalho.17
4,Cálculo Trabalhista - contador ou advogado?,03 de Maio de 2018,8,1,threads/calculo-trabalhista-contador-ou-advoga...,"\r\n\t\t\t\t\t\r\n\t\t\t\t\tQueridos (as),\r\n...",direito-do-trabalho.17


In [7]:
df = pd.concat([df1, df2, df3], axis = 0)

In [8]:
# As colunas visits e likes não estão presentes em todos os dfs, então vamos remove-las 
df.drop(columns=['visits', 'likes'], inplace=True)

In [9]:
df.head()

Unnamed: 0,title,date,answers,url,post,area
0,recurso cabível exceção de preexecutividade re...,11 de Março de 2021,1,threads/recurso-cabivel-excecao-de-preexecutiv...,"\r\n\t\t\t\t\t\r\n\t\t\t\t\tBoas tardes, caros...",direito-do-trabalho.17
1,Liquidez - Reforma Trabalhista,06 de Março de 2021,0,threads/liquidez-reforma-trabalhista.23092/,"\r\n\t\t\t\t\t\r\n\t\t\t\t\tBoa noite, colegas...",direito-do-trabalho.17
2,Rito Sumário - sentença irrecorrível?,06 de Março de 2021,0,threads/rito-sumario-sentenca-irrecorrivel.23091/,"\r\n\t\t\t\t\t\r\n\t\t\t\t\tOlá, colegas.\r\n\...",direito-do-trabalho.17
3,DISPENSA DE FUNCIONARIO AFASTADO EM ESPECIE DE...,27 de Janeiro de 2021,0,threads/dispensa-de-funcionario-afastado-em-es...,"\r\n\t\t\t\t\t\r\n\t\t\t\t\tPrezados, Drs.\r\n...",direito-do-trabalho.17
4,Cálculo Trabalhista - contador ou advogado?,03 de Maio de 2018,8,threads/calculo-trabalhista-contador-ou-advoga...,"\r\n\t\t\t\t\t\r\n\t\t\t\t\tQueridos (as),\r\n...",direito-do-trabalho.17


In [10]:
df['area'] = df['area'].apply(lambda x: x.split('.')[0])

## 1.0 Descrição dos dados

### 1.1 Dimensão dos dados

In [11]:
print("Número de exemplos:", df.shape[0])
print("Número de colunas:", df.shape[1])

Número de exemplos: 39016
Número de colunas: 6


### 1.2 Tipo das colunas

In [12]:
# Mostra o tipo de cada variável
df.dtypes

title      object
date       object
answers     int64
url        object
post       object
area       object
dtype: object

### 1.3 Variável target 

### 1.3.1 Classes únicas


In [13]:
# Check de quais classes o dataset possui
df['area'].unique()

array(['direito-do-trabalho', 'direito-de-familia',
       'direito-administrativo',
       'direito-civil-empresarial-e-do-consumidor',
       'direito-penal-e-processo-penal', 'empresarial',
       'direito-administrativo/', 'direito-do-trabalho/',
       'direito-penal/', 'direito-processual-penal/', 'direito-civil/',
       'direito-do-consumidor/', 'direito-de-familia/'], dtype=object)

In [14]:
print("Número de classes diferentes: ", len(df['area'].unique()))

Número de classes diferentes:  13


In [15]:
print('Número de observações por classe:')
df.groupby('area')['area'].count()

Número de observações por classe:


area
direito-administrativo                        368
direito-administrativo/                      9000
direito-civil-empresarial-e-do-consumidor    1974
direito-civil/                               3000
direito-de-familia                           1634
direito-de-familia/                          1500
direito-do-consumidor/                       1500
direito-do-trabalho                          1172
direito-do-trabalho/                         7500
direito-penal-e-processo-penal                668
direito-penal/                               6000
direito-processual-penal/                    4500
empresarial                                   200
Name: area, dtype: int64

## Classes

Algumas classes estão com textos diferentes porém indicam a mesma coisa (Ex. 'direito-do-trabalho' e 'direito-do-trabalho/'). Iremos padronizar os textos para seguir com os seguintes labels:

- Administrativo
- Civil, Empresarial e do Consumidor
- Familia
- Trabalho
- Penal

In [16]:
df['area'] = [
    'Administrativo' if any(x in area for x in ['administrativo']) else
    'Civil, Empresarial e do Consumidor' if any(x in area for x in ['civil', 'empresarial', 'consumidor']) else
    'Familia' if any(x in area for x in ['familia']) else
    'Trabalho' if any(x in area for x in ['trabalho']) else
    'Penal' if any(x in area for x in ['penal']) else
    area
    for area in df['area']
]

In [17]:
df.groupby('area')['area'].count()

area
Administrativo                         9368
Civil, Empresarial e do Consumidor     6674
Familia                                3134
Penal                                 11168
Trabalho                               8672
Name: area, dtype: int64

In [61]:
print("Número de classes diferentes: ", len(df['area'].unique()))

Número de classes diferentes:  5


### 1.3.2 Verificando o balanceamento das classes

In [62]:
# Verifica em porcentagem o balanço das classes
df['area'].value_counts(normalize=True)*100

Penal                                 29.768632
Administrativo                        24.970679
Trabalho                              23.115471
Civil, Empresarial e do Consumidor    17.789743
Familia                                4.355475
Name: area, dtype: float64

**Observações:** As classes empresarial e direito admnistrativo são as que apresentam menos classes.

 ## 2.0 Limpeza dos dados

### 2.1 Visualizando os dados em formato RAW

In [None]:
# Printando as 10 primeiras strings em formato raw
for i, post in enumerate(df['post'][:10]):
    print(repr(df['post'].iloc[i]))
    print('\n')

## 2.2 Criando um Pipeline de Limpeza

In [None]:
# Essa função substitui mais de um espaço em sequência (\n\t\t\t\t) por apenas um espaço
def remove_seq_breaklines(text):
    clean_text = re.sub('\s{2,}', ' ', text)
    return clean_text

In [None]:
# Essa função substitui \n por um espaço
def remove_breaklines(text):
    clean_text = re.sub('\n', ' ', text)
    return clean_text

In [None]:
def remove_seq_spaces(text):
    clean_text = re.sub('[ ]{2,}', '', text)
    return clean_text

In [None]:
remove_seq_spaces('eu  eu')

In [None]:
# Essa função remove os espaços que existem no fim e no inicio
def remove_spaces(text):
    clean_text = text.strip(' ')
    clean_text
    return clean_text

In [None]:
# Essa função remove as pontuações e os números (ex: datas serão removidas)
def remove_punctuation(text):
    clean_text  = "".join([char for char in text if char not in string.punctuation])
    clean_text = re.sub('[0-9]+', '', clean_text)
    clean_text = clean_text.replace('º', '')
    return clean_text

In [None]:
# Essa função converte textos em textos lowercase 
def convert_to_lower(text):
    return text.lower()

In [None]:
# Essa função remove as stopwords
def remove_stopwords(text):
    stopwords = nltk.corpus.stopwords.words('portuguese')
    clean_text = [word for word in text.split(' ') if word not in stopwords]
   
    return " ".join(clean_text)


In [None]:
# Essa função aplica o stemming nas palavras
def stemmatization(text):
    stemmer = nltk.stem.RSLPStemmer()
    split_text = text.split(' ')
    stem_text = [stemmer.stem(word) for word in split_text if word != ""]
    stem_text = " ".join(stem_text)
    
    return stem_text

In [None]:
# Função que aplica o pipeline
def run_clean_pipeline(text):
    clean_text = remove_breaklines(text)
    clean_text = remove_seq_breaklines(clean_text)
    clean_text = remove_spaces(clean_text)
    clean_text = remove_punctuation(clean_text)
    clean_text = convert_to_lower(clean_text)
    clean_text = remove_stopwords(clean_text)
    clean_text = stemmatization(clean_text)

    return clean_text
    

In [None]:
# Fazendo a limpeza das linhas através do pipeline
clean_posts = list(df['post'].apply(run_clean_pipeline))

In [None]:
# Printa os 10 primeiras posts após a limpeza
for post in clean_posts[:10]:
    print(post)
    print('\n')

In [None]:
df['clean_posts'] = clean_posts

## 3.0 Filtragem dos Dados

No contexto das classes, conforme discutido em reunião, iremos excluir as classes com menos dados:

- direito-administrativo

- empresarial


In [None]:
df = df[(df['area'] != 'empresarial') & (df['area'] != 'direito-administrativo')]

## 3.0 Preparação dos Dados

### 3.1 Split train/test

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df.drop('area', axis = 1), df['area'], test_size=0.33, shuffle = True, random_state = 42)

### 3.2 Transformação TF-IDF

In [None]:
tfidf_vectorizer = TfidfVectorizer()

train_tfidf = tfidf_vectorizer.fit_transform((X_train['clean_posts'])) 
test_tfidf = tfidf_vectorizer.transform((X_test['clean_posts']))

### 3.3 Codificação por Label

In [None]:
label_enc = {'direito-de-familia':0, 'direito-do-trabalho': 1,'direito-penal-e-processo-penal':2,'direito-civil-empresarial-e-do-consumidor': 3}
y_train = y_train.map(label_enc)
y_test = y_test.map(label_enc)

## 4.0 Modelo de Machine Learning

In [None]:
model = MultinomialNB()
model.fit(train_tfidf, y_train)

In [None]:
ypred_nb = model.predict(test_tfidf)

## 5.0 Avaliação dos Modelos

Optei por utilizar Accuracy, Precision e Kappa Score por ser um problema de classificação multi-classe.

- Accuracy mede o quão bem o modelo está fazendo as previsões.
- Precision mede o quão bem o modelo está fazendo as predições dos True Positives
- Kappa score é uma medida de concordância entre 2 estimadores, no caso, o modelo e o y_test.

### 5.1 Avaliação Individual do Modelo

In [None]:
print('Accuracy:', accuracy_score(y_test, ypred_nb))
print('Precision:', precision_score(y_test, ypred_nb, average = 'macro' ))
print('Kappa Score:', cohen_kappa_score(y_test, ypred_nb))

In [None]:
print(classification_report(y_test, ypred_nb))

In [None]:
sns.heatmap(confusion_matrix(y_test, ypred_nb),fmt = 'd', annot = True)
plt.xlabel('Predictions')
plt.ylabel('True Labels')

### 5.2 Cross-Validation

In [None]:
num_folds = 5
kfold = StratifiedKFold(n_splits = num_folds, shuffle = True, random_state = 42)

accuracy_list = []
precision_list = []
kappa_list = []

i = 1

for train_ix, val_ix in kfold.split(df.drop('area', axis = 1), df['area']):
    print('Fold: {} / {}'.format(i, num_folds))
    
    X_train_fold = df.iloc[train_ix]
    y_train_fold = df['area'].iloc[train_ix]
    
    X_val_fold = df.iloc[val_ix]
    y_val_fold = df['area'].iloc[val_ix]
    
    tfidf_vectorizer = TfidfVectorizer()

    train_tfidf_fold = tfidf_vectorizer.fit_transform((X_train_fold['clean_posts'])) 
    val_tfidf_fold = tfidf_vectorizer.transform((X_val_fold['clean_posts']))
    
    model = MultinomialNB()
    model.fit(train_tfidf_fold, y_train_fold)
    
    y_pred_cv = model.predict(val_tfidf_fold)
    
    #metrics
    
    #Accuracy
    acc = accuracy_score(y_val_fold, y_pred_cv)
    accuracy_list.append(acc)
    
    #Precision
    prec = precision_score(y_val_fold, y_pred_cv, average = 'macro')
    precision_list.append(prec)
    
    #Kappa
    kappa = cohen_kappa_score(y_val_fold, y_pred_cv)
    kappa_list.append(kappa)
    
    
    i+=1
    
    

In [None]:
print('Cross-Validation Evaluation:')
print('Accuracy: {:.2f} +/- {:.2f}'.format(np.mean(accuracy_list),np.std(accuracy_list)))
print('Precision: {:.2f} +/- {:.2f}'.format(np.mean(precision_list),np.std(precision_list)))
print('Kappa Score: {:.2f} +/- {:.2f}'.format(np.mean(kappa_list),np.std(kappa_list)))

## Sugestões de Melhorias:

- Utilização de Bigramas ou Trigramas antes da transformação TF-IDF com o próprio MultinomialNB
- Utilização de SVM c/ Linear Kernel
- Utilização de Redes Neurais - LSTM
- SMOTE para um melhor balanceamento das classes
- Análise da Nuvem de palavras pra cada classe, a fim de identificar quais termos aparecem com mais frequência dependendo da classe.