### 1. Carrega o arquivo com as sentenças, features e classificação

In [1]:
import pandas as pd

data_frame = pd.read_csv('dataset_sentencas_processadas.csv')

# sentenca_original = sentenças obtidas do trabalho de Gabriela
# sentenca_processada1 = remoção das anotações feitas por Gabriela
# sentenca_processada2 = sem pontuações
# sentenca_processada3_1 = sem acentos
# sentenca_processada3_2 = sem stopwords
# sentenca_processada3_3 = letras minúsculas
# sentenca_processada3_4 = apenas as raizes das palavras (stemmer)

In [2]:
data_frame.head(1)

Unnamed: 0,sentenca_original,sentenca_processada1,classificacao,sentenca_processada2,sentenca_processada3_1,sentenca_processada3_2,sentenca_processada3_3,sentenca_processada3_4
0,"A Folha, sempre [tão solícita]P6, só fez junta...","A Folha, sempre tão solícita, só fez juntar os...",1,A Folha sempre tão solícita só fez juntar os d...,A Folha sempre tao solicita so fez juntar os d...,A Folha sempre tao solicita fez juntar dois de...,a folha sempre tao solicita fez juntar dois de...,a folh sempr tao solicit fez junt doi desafet ...


In [3]:
print(data_frame['classificacao'].value_counts())

1    2000
0    2000
Name: classificacao, dtype: int64


### 2. TF-IDF (Term Frequency–Inverse Document Frequency)

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

vetorizar = TfidfVectorizer(lowercase=False)

tfidf = vetorizar.fit_transform(data_frame['sentenca_processada3_4'].values.astype('U'))

vocabulario = vetorizar.get_feature_names()

In [5]:
print(tfidf.shape)

(4000, 5776)


#### 2.1. Utiliza conjunto de treino/teste (80/20% e 90/10%) para cálculo Precisão, Acurácia, F1-Score e Recall

In [11]:
from sklearn.model_selection import train_test_split
from sklearn import tree
import numpy as np
from sklearn import metrics

max_f1 = 0
max_precision = 0
max_i_f1 = 0
max_i_precision = 0

for i in range(100):
    # Separa o corpus em conjunto de dados de treino e de teste.
    treino, teste, classe_treino, classe_teste = train_test_split(tfidf, data_frame['classificacao'], random_state = i, test_size = 0.1)

    # Treina o modelo usando o conjunto de dados de treino:
    classificador = tree.DecisionTreeClassifier()
    classificador.fit(treino, classe_treino)

    # realiza a classificação usando os dados de teste e o modelo treinado anteriormente:
    previsao = classificador.predict_proba(teste)

    # transforma as saídas classificadas de acordo com um limiar:
    previsao_bool = previsao[:,1] >= 0.5

    # transforma as saídas classificadas (booleanas) em valores inteiros:
    previsao_int = previsao_bool.astype(np.int)
    
    f1_score = metrics.f1_score(classe_teste, previsao_int)
    accuracy = metrics.accuracy_score(classe_teste, previsao_int)
    precision = metrics.precision_score(classe_teste, previsao_int)
    recall = metrics.recall_score(classe_teste, previsao_int)
    
    if(max_f1 < f1_score): 
        max_f1 = f1_score
        max_i_f1 = i
        
    if(max_precision < precision): 
        max_precision = precision
        max_i_precision = i

    # Apresenta os resultados de avaliação do algoritmo de classificação
    print(i, '\t', round(accuracy,2), '\t', round(recall,2), '\t', round(precision,2), '\t', round(f1_score,2))
    
print(max_i_precision, round(max_precision, 2), max_i_f1, round(max_f1, 2))

0 	 0.6 	 0.52 	 0.63 	 0.57
1 	 0.62 	 0.54 	 0.67 	 0.6
2 	 0.61 	 0.52 	 0.65 	 0.58
3 	 0.6 	 0.54 	 0.61 	 0.57
4 	 0.57 	 0.46 	 0.63 	 0.53
5 	 0.59 	 0.45 	 0.61 	 0.52
6 	 0.6 	 0.52 	 0.61 	 0.56
7 	 0.61 	 0.54 	 0.66 	 0.59
8 	 0.62 	 0.55 	 0.69 	 0.61
9 	 0.6 	 0.52 	 0.67 	 0.58
10 	 0.61 	 0.57 	 0.61 	 0.59
11 	 0.56 	 0.48 	 0.57 	 0.52
12 	 0.6 	 0.53 	 0.61 	 0.57
13 	 0.63 	 0.55 	 0.7 	 0.62
14 	 0.58 	 0.53 	 0.58 	 0.55
15 	 0.62 	 0.53 	 0.67 	 0.59
16 	 0.61 	 0.49 	 0.69 	 0.57
17 	 0.59 	 0.49 	 0.61 	 0.54
18 	 0.6 	 0.51 	 0.65 	 0.57
19 	 0.6 	 0.52 	 0.63 	 0.57
20 	 0.58 	 0.46 	 0.6 	 0.52
21 	 0.62 	 0.56 	 0.67 	 0.61
22 	 0.62 	 0.5 	 0.6 	 0.55
23 	 0.62 	 0.6 	 0.65 	 0.62
24 	 0.6 	 0.49 	 0.64 	 0.56
25 	 0.6 	 0.49 	 0.58 	 0.54
26 	 0.62 	 0.55 	 0.68 	 0.61
27 	 0.6 	 0.53 	 0.62 	 0.57
28 	 0.6 	 0.48 	 0.67 	 0.56
29 	 0.66 	 0.56 	 0.71 	 0.63
30 	 0.57 	 0.51 	 0.59 	 0.54
31 	 0.62 	 0.53 	 0.65 	 0.58
32 	 0.57 	 0.48 	 0.53 	 0.51
33 	

In [13]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import numpy as np
from sklearn import metrics

max_f1 = 0
max_precision = 0
max_i_f1 = 0
max_i_precision = 0

for i in range(100):
    # Separa o corpus em conjunto de dados de treino e de teste.
    treino, teste, classe_treino, classe_teste = train_test_split(tfidf, data_frame['classificacao'], random_state = i, test_size = 0.1)

    # Treina o modelo usando o conjunto de dados de treino:
    classificador = LogisticRegression()
    classificador.fit(treino, classe_treino)

    # realiza a classificação usando os dados de teste e o modelo treinado anteriormente:
    previsao = classificador.predict_proba(teste)

    # transforma as saídas classificadas de acordo com um limiar:
    previsao_bool = previsao[:,1] >= 0.5

    # transforma as saídas classificadas (booleanas) em valores inteiros:
    previsao_int = previsao_bool.astype(np.int)
    
    f1_score = metrics.f1_score(classe_teste, previsao_int)
    accuracy = metrics.accuracy_score(classe_teste, previsao_int)
    precision = metrics.precision_score(classe_teste, previsao_int)
    recall = metrics.recall_score(classe_teste, previsao_int)
    
    if(max_f1 < f1_score): 
        max_f1 = f1_score
        max_i_f1 = i
        
    if(max_precision < precision): 
        max_precision = precision
        max_i_precision = i

    # Apresenta os resultados de avaliação do algoritmo de classificação
    print(i, '\t', round(accuracy,2), '\t', round(recall,2), '\t', round(precision,2), '\t', round(f1_score,2))
    
print(max_i_precision, round(max_precision, 2), max_i_f1, round(max_f1, 2))

0 	 0.72 	 0.76 	 0.71 	 0.74
1 	 0.72 	 0.77 	 0.72 	 0.74
2 	 0.64 	 0.6 	 0.66 	 0.63
3 	 0.7 	 0.76 	 0.68 	 0.72
4 	 0.68 	 0.7 	 0.7 	 0.7
5 	 0.72 	 0.73 	 0.7 	 0.71
6 	 0.67 	 0.69 	 0.66 	 0.67
7 	 0.7 	 0.71 	 0.71 	 0.71
8 	 0.68 	 0.7 	 0.71 	 0.71
9 	 0.73 	 0.75 	 0.75 	 0.75
10 	 0.71 	 0.74 	 0.69 	 0.72
11 	 0.66 	 0.68 	 0.67 	 0.67
12 	 0.69 	 0.73 	 0.67 	 0.7
13 	 0.7 	 0.7 	 0.73 	 0.71
14 	 0.66 	 0.71 	 0.63 	 0.67
15 	 0.7 	 0.71 	 0.71 	 0.71
16 	 0.68 	 0.67 	 0.71 	 0.69
17 	 0.71 	 0.72 	 0.7 	 0.71
18 	 0.65 	 0.67 	 0.66 	 0.66
19 	 0.68 	 0.72 	 0.68 	 0.7
20 	 0.69 	 0.7 	 0.68 	 0.69
21 	 0.72 	 0.75 	 0.73 	 0.74
22 	 0.71 	 0.72 	 0.68 	 0.7
23 	 0.7 	 0.75 	 0.7 	 0.72
24 	 0.68 	 0.71 	 0.67 	 0.69
25 	 0.73 	 0.78 	 0.68 	 0.73
26 	 0.69 	 0.65 	 0.74 	 0.69
27 	 0.76 	 0.8 	 0.74 	 0.77
28 	 0.71 	 0.76 	 0.72 	 0.74
29 	 0.7 	 0.72 	 0.7 	 0.71
30 	 0.72 	 0.8 	 0.69 	 0.74
31 	 0.69 	 0.69 	 0.69 	 0.69
32 	 0.67 	 0.67 	 0.63 	 0.65
33 	 0.72

In [12]:
from sklearn.model_selection import train_test_split
from sklearn import svm
import numpy as np
from sklearn import metrics

max_f1 = 0
max_precision = 0
max_i_f1 = 0
max_i_precision = 0

for i in range(100):
    # Separa o corpus em conjunto de dados de treino e de teste.
    treino, teste, classe_treino, classe_teste = train_test_split(tfidf, data_frame['classificacao'], random_state = i, test_size = 0.1)

    # Treina o modelo usando o conjunto de dados de treino:
    classificador = svm.SVC(gamma='auto', C=1.0, kernel='linear', probability=True)
    classificador.fit(treino, classe_treino)

    # realiza a classificação usando os dados de teste e o modelo treinado anteriormente:
    previsao = classificador.predict_proba(teste)

    # transforma as saídas classificadas de acordo com um limiar:
    previsao_bool = previsao[:,1] >= 0.5

    # transforma as saídas classificadas (booleanas) em valores inteiros:
    previsao_int = previsao_bool.astype(np.int)
    
    f1_score = metrics.f1_score(classe_teste, previsao_int)
    accuracy = metrics.accuracy_score(classe_teste, previsao_int)
    precision = metrics.precision_score(classe_teste, previsao_int)
    recall = metrics.recall_score(classe_teste, previsao_int)
    
    if(max_f1 < f1_score): 
        max_f1 = f1_score
        max_i_f1 = i
        
    if(max_precision < precision): 
        max_precision = precision
        max_i_precision = i

    # Apresenta os resultados de avaliação do algoritmo de classificação
    print(i, '\t', round(accuracy,2), '\t', round(recall,2), '\t', round(precision,2), '\t', round(f1_score,2))
    
print(max_i_precision, round(max_precision, 2), max_i_f1, round(max_f1, 2))

0 	 0.7 	 0.72 	 0.7 	 0.71
1 	 0.73 	 0.75 	 0.73 	 0.74
2 	 0.64 	 0.62 	 0.65 	 0.64
3 	 0.67 	 0.7 	 0.66 	 0.68
4 	 0.67 	 0.69 	 0.68 	 0.69
5 	 0.71 	 0.7 	 0.7 	 0.7
6 	 0.65 	 0.7 	 0.63 	 0.66
7 	 0.7 	 0.69 	 0.72 	 0.7
8 	 0.69 	 0.68 	 0.72 	 0.7
9 	 0.71 	 0.75 	 0.73 	 0.74
10 	 0.68 	 0.68 	 0.67 	 0.68
11 	 0.68 	 0.69 	 0.68 	 0.68
12 	 0.68 	 0.7 	 0.67 	 0.68
13 	 0.68 	 0.68 	 0.72 	 0.7
14 	 0.67 	 0.73 	 0.64 	 0.68
15 	 0.68 	 0.69 	 0.68 	 0.69
16 	 0.66 	 0.66 	 0.68 	 0.67
17 	 0.7 	 0.7 	 0.7 	 0.7
18 	 0.67 	 0.67 	 0.69 	 0.68
19 	 0.67 	 0.69 	 0.68 	 0.68
20 	 0.69 	 0.69 	 0.69 	 0.69
21 	 0.72 	 0.72 	 0.73 	 0.73
22 	 0.72 	 0.74 	 0.69 	 0.71
23 	 0.7 	 0.72 	 0.7 	 0.71
24 	 0.66 	 0.67 	 0.66 	 0.67
25 	 0.7 	 0.78 	 0.65 	 0.71
26 	 0.69 	 0.65 	 0.73 	 0.69
27 	 0.72 	 0.75 	 0.71 	 0.73
28 	 0.72 	 0.77 	 0.73 	 0.75
29 	 0.7 	 0.7 	 0.7 	 0.7
30 	 0.72 	 0.78 	 0.7 	 0.74
31 	 0.68 	 0.69 	 0.68 	 0.69
32 	 0.66 	 0.65 	 0.62 	 0.64
33 	 0.74 	

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
import numpy as np
from sklearn import metrics

max_f1 = 0
max_precision = 0
max_i_f1 = 0
max_i_precision = 0

for i in range(50):
    # Separa o corpus em conjunto de dados de treino e de teste.
    treino, teste, classe_treino, classe_teste = train_test_split(tfidf, data_frame['classificacao'], random_state = i, test_size = 0.2)

    max_f1_j = 0
    max_precision_j = 0
    max_j_f1 = 0
    max_j_precision = 0

    for j in range(50):
        # Treina o modelo usando o conjunto de dados de treino:
        classificador = MLPClassifier(activation='relu', solver='adam', max_iter=10000, alpha=1e-10, random_state=j)
        classificador.fit(treino, classe_treino)

        # realiza a classificação usando os dados de teste e o modelo treinado anteriormente:
        previsao = classificador.predict_proba(teste)

        # transforma as saídas classificadas de acordo com um limiar:
        previsao_bool = previsao[:,1] >= 0.5

        # transforma as saídas classificadas (booleanas) em valores inteiros:
        previsao_int = previsao_bool.astype(np.int)

        f1_score = metrics.f1_score(classe_teste, previsao_int)
        accuracy = metrics.accuracy_score(classe_teste, previsao_int)
        precision = metrics.precision_score(classe_teste, previsao_int)
        recall = metrics.recall_score(classe_teste, previsao_int)

        if(max_f1_j < f1_score): 
            max_f1_j = f1_score
            max_j_f1 = j

        if(max_precision_j < precision): 
            max_precision_j = precision
            max_j_precision = j

        # Apresenta os resultados de avaliação do algoritmo de classificação
        print(i, '\t', j, '\t', round(accuracy,2), '\t', round(recall,2), '\t', round(precision,2), '\t', round(f1_score,2))

    print(max_j_precision, round(max_precision_j, 2), max_j_f1, round(max_f1_j, 2))
    
    if(max_f1 < max_f1_j): 
        max_f1 = max_f1_j
        max_i_f1 = i

    if(max_precision < max_precision_j): 
        max_precision = max_precision_j
        max_i_precision = i
    
print(max_i_precision, round(max_precision, 2), max_i_f1, round(max_f1, 2))

0 	 0 	 0.65 	 0.58 	 0.68 	 0.63
0 	 1 	 0.65 	 0.59 	 0.68 	 0.64
0 	 2 	 0.66 	 0.61 	 0.69 	 0.65
0 	 3 	 0.65 	 0.59 	 0.68 	 0.63


In [6]:
# !pip install xgboost

from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
import numpy as np
from sklearn import metrics

max_f1 = 0
max_precision = 0
max_i_f1 = 0
max_i_precision = 0

for i in range(100):
    # Separa o corpus em conjunto de dados de treino e de teste.
    treino, teste, classe_treino, classe_teste = train_test_split(tfidf, data_frame['classificacao'], random_state = i, test_size = 0.1)

    # Treina o modelo usando o conjunto de dados de treino:
    classificador = XGBClassifier()
    classificador.fit(treino, classe_treino)

    # realiza a classificação usando os dados de teste e o modelo treinado anteriormente:
    previsao = classificador.predict_proba(teste)

    # transforma as saídas classificadas de acordo com um limiar:
    previsao_bool = previsao[:,1] >= 0.5

    # transforma as saídas classificadas (booleanas) em valores inteiros:
    previsao_int = previsao_bool.astype(np.int)
    
    f1_score = metrics.f1_score(classe_teste, previsao_int)
    accuracy = metrics.accuracy_score(classe_teste, previsao_int)
    precision = metrics.precision_score(classe_teste, previsao_int)
    recall = metrics.recall_score(classe_teste, previsao_int)
    
    if(max_f1 < f1_score): 
        max_f1 = f1_score
        max_i_f1 = i
        
    if(max_precision < precision): 
        max_precision = precision
        max_i_precision = i

    # Apresenta os resultados de avaliação do algoritmo de classificação
    print(i, '\t', round(accuracy,2), '\t', round(recall,2), '\t', round(precision,2), '\t', round(f1_score,2))
    
print(max_i_precision, round(max_precision, 2), max_i_f1, round(max_f1, 2))

0 	 0.66 	 0.83 	 0.63 	 0.71
1 	 0.64 	 0.81 	 0.61 	 0.7
2 	 0.62 	 0.78 	 0.6 	 0.68
3 	 0.62 	 0.8 	 0.59 	 0.68
4 	 0.62 	 0.8 	 0.6 	 0.69
5 	 0.65 	 0.81 	 0.6 	 0.69
6 	 0.61 	 0.73 	 0.58 	 0.65
7 	 0.66 	 0.81 	 0.64 	 0.72
8 	 0.68 	 0.81 	 0.67 	 0.73
9 	 0.64 	 0.83 	 0.62 	 0.71
10 	 0.64 	 0.81 	 0.6 	 0.69
11 	 0.62 	 0.75 	 0.6 	 0.67
12 	 0.64 	 0.83 	 0.6 	 0.7
13 	 0.64 	 0.78 	 0.64 	 0.7
14 	 0.58 	 0.78 	 0.55 	 0.64
15 	 0.62 	 0.76 	 0.6 	 0.67
16 	 0.66 	 0.79 	 0.65 	 0.71
17 	 0.64 	 0.8 	 0.61 	 0.69
18 	 0.6 	 0.79 	 0.59 	 0.68
19 	 0.64 	 0.81 	 0.62 	 0.7
20 	 0.62 	 0.8 	 0.59 	 0.68
21 	 0.66 	 0.81 	 0.63 	 0.71
22 	 0.64 	 0.78 	 0.59 	 0.67
23 	 0.64 	 0.83 	 0.62 	 0.71
24 	 0.62 	 0.78 	 0.6 	 0.68
25 	 0.65 	 0.82 	 0.59 	 0.69
26 	 0.66 	 0.81 	 0.64 	 0.72
27 	 0.64 	 0.81 	 0.61 	 0.7
28 	 0.66 	 0.81 	 0.64 	 0.72
29 	 0.66 	 0.79 	 0.63 	 0.7
30 	 0.66 	 0.84 	 0.62 	 0.71
31 	 0.62 	 0.78 	 0.6 	 0.68
32 	 0.6 	 0.82 	 0.54 	 0.65
33 	 0.6