In [None]:
# Importando biblioteca Pandas para a criação e manipulação de DataFrames.
import pandas as pd

# Importando o Numpy.
import numpy as np

# Importando o método PLT para visualizar graficamente os dados, cálculos e regressões que aplicarmos.
import matplotlib.pylab as plt

# Importando modelos para a realização dos testes de treino.
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import MultinomialNB

# Importando métricas de avaliações para os modelos.
from sklearn.metrics import confusion_matrix, f1_score, auc, roc_auc_score, roc_curve

# Importando o método de validação cruzada K-Fold, pontuação do modelo e o separador de dados para treino e teste.
from sklearn.model_selection import KFold, cross_val_score,train_test_split

In [None]:
# Importando dataset de dados de treino da vetorização TF:
dados_treino_idf = pd.read_csv("tweets_vetorizados_tf_agrupados.csv", sep=",", header=None)
dados_treino_idf.head()

# Separação dos dados:
dados_treino_idf.columns = [dados_treino_idf.loc[0]]
dados_treino_idf = dados_treino_idf.drop(dados_treino_idf.index [[0]])


In [None]:
# Importando dataset de dados de treino da vetorização IDF:
dados_treino_idf = pd.read_csv("tweets_vetorizados_idf_agrupados.csv", sep=",", header=None)
dados_treino_idf.head()

# Separação dos dados:
dados_treino_idf.columns = [dados_treino_idf.loc[0]]
dados_treino_idf = dados_treino_idf.drop(dados_treino_idf.index [[0]])

In [None]:
# Importando dataset de dados de treino da vetorização TF_IDF:
dados_treino_tf_idf = pd.read_csv("vetorizacao_tf_idf.csv", sep=",", header=None)
dados_treino_tf_idf.head()

## Modelo de Regressão Logística (Logistic Regression)

### TF

In [None]:
# Separação dos dados:
dados_treino_tf.columns = [dados_treino_tf.loc[0]]
dados_treino_tf = dados_treino_tf.drop(dados_treino_tf.index [[0]])

X = dados_treino_tf.drop(['Cluster'], axis=1).values
y = dados_treino_tf['Cluster'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 4)

# Criação e treino do modelo de Regressão Logística:
model = LogisticRegression(penalty = 'l2', C = 1e42, solver = 'liblinear')
model.fit(X_train, y_train)
lr_pred = model.predict(X)

In [None]:
# Aplicação da validação cruzada K-Fold:
kfold_validation = KFold(10)
result = cross_val_score(model, X_test, y_test, cv = kfold_validation)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', result)
print('\nMédia dos resultados:', np.mean(result))
print('\nPredições feitas:\n', lr_pred)

In [None]:
# Criação da matriz de confusão:
print('Matriz de confusão:')
c_matrix = confusion_matrix(y, model.predict(X))
c_matrix

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', c_matrix[0, 0] / sum(c_matrix[0, :]), '\n')
print('Precisão (Precision): ', c_matrix[0, 0] / sum(c_matrix[:, 0]), '\n')
print('Especificidade (Specificity): ', c_matrix[1, 1] / sum(c_matrix[1, :]), '\n')
print('F1 Macro: ', f1_score(y, model.predict(X), average='macro'), '\n')
print('F1 Micro: ', f1_score(y, model.predict(X), average='micro'))

### IDF

In [None]:
# Separação dos dados:
dados_treino_idf.columns = [dados_treino_idf.loc[0]]
dados_treino_idf = dados_treino_tf.drop(dados_treino_idf.index [[0]])

X = dados_treino_tf.drop(['Cluster'], axis=1).values
y = dados_treino_tf['Cluster'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 4)

# Criação e treino do modelo de Regressão Logística:
model = LogisticRegression(penalty = 'l2', C = 1e42, solver = 'liblinear')
model.fit(X_train, y_train)
lr_pred = model.predict(X)

In [None]:
# Aplicação da validação cruzada K-Fold:
kfold_validation = KFold(10)
result = cross_val_score(model, X_test, y_test, cv = kfold_validation)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', result)
print('\nMédia dos resultados:', np.mean(result))
print('\nPredições feitas:\n', lr_pred)

In [None]:
# Criação da matriz de confusão:
print('Matriz de confusão:')
c_matrix = confusion_matrix(y, model.predict(X))
c_matrix

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', c_matrix[0, 0] / sum(c_matrix[0, :]), '\n')
print('Precisão (Precision): ', c_matrix[0, 0] / sum(c_matrix[:, 0]), '\n')
print('Especificidade (Specificity): ', c_matrix[1, 1] / sum(c_matrix[1, :]), '\n')
print('F1 Macro: ', f1_score(y, model.predict(X), average='macro'), '\n')
print('F1 Micro: ', f1_score(y, model.predict(X), average='micro'))

### TF-IDF

In [None]:
# Separação dos dados:
dados_treino_tf_idf.columns = [dados_treino_tf.loc[0]]
dados_treino_tf_idf = dados_treino_tf.drop(dados_treino_tf.index [[0]])

X = dados_treino_tf.drop(['Cluster'], axis=1).values
y = dados_treino_tf['Cluster'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 4)

# Criação e treino do modelo de Regressão Logística:
model = LogisticRegression(penalty = 'l2', C = 1e42, solver = 'liblinear')
model.fit(X_train, y_train)
lr_pred = model.predict(X)

In [None]:
# Aplicação da validação cruzada K-Fold:
kfold_validation = KFold(10)
result = cross_val_score(model, X_test, y_test, cv = kfold_validation)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', result)
print('\nMédia dos resultados:', np.mean(result))
print('\nPredições feitas:\n', lr_pred)

In [None]:
# Criação da matriz de confusão:
print('Matriz de confusão:')
c_matrix = confusion_matrix(y, model.predict(X))
c_matrix

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', c_matrix[0, 0] / sum(c_matrix[0, :]), '\n')
print('Precisão (Precision): ', c_matrix[0, 0] / sum(c_matrix[:, 0]), '\n')
print('Especificidade (Specificity): ', c_matrix[1, 1] / sum(c_matrix[1, :]), '\n')
print('F1 Macro: ', f1_score(y, model.predict(X), average='macro'), '\n')
print('F1 Micro: ', f1_score(y, model.predict(X), average='micro'))

## Modelo kNN

In [None]:
# Separação dos dados:
X = dadosTreinoBalanceados.drop([85], axis=1)
y = dadosTreinoBalanceados[85]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 4)

# Criação e treino do modelo kNN:
model = KNeighborsClassifier(n_neighbors=20)
model.fit(X_train, y_train)
knn_pred = model.predict(X)

# Aplicação da validação cruzada K-Fold:
kfold_validation = KFold(10)
result = cross_val_score(model, X_test, y_test, cv = kfold_validation)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', result)
print('\nMédia dos resultados:', np.mean(result))
print('\nPredições feitas:\n', knn_pred)

## # Criação da matriz de confusão:
print('Matriz de confusão:')
c_matrix = confusion_matrix(y, model.predict(X))
c_matrix

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', c_matrix[0, 0] / sum(c_matrix[0, :]), '\n')
print('Precisão (Precision): ', c_matrix[0, 0] / sum(c_matrix[:, 0]), '\n')
print('Especificidade (Specificity): ', c_matrix[1, 1] / sum(c_matrix[1, :]), '\n')
print('F1 Macro: ', f1_score(y, model.predict(X), average='macro'), '\n')
print('F1 Micro: ', f1_score(y, model.predict(X), average='micro'))

## Modelo Árvore de Decisão (Decision Tree)

In [None]:
# Separação dos dados para teste e treino:
X = dadosTreinoBalanceados.drop([85], axis=1)
y = dadosTreinoBalanceados[85]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=4)

# Criação e treino do modelo da Árvore de Decisão:
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
dt_pred = model.predict(X)

# Aplicação da validação cruzada K-Fold:
kfold_validation = KFold(10)
result = cross_val_score(model, X_test, y_test, cv = kfold_validation)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', result)
print('\nMédia dos resultados:', np.mean(result))
print('\nPredições feitas:\n', dt_pred)


In [None]:
# Criação da matriz de confusão:
print('Matriz de confusão:')
c_matrix = confusion_matrix(y, model.predict(X))
c_matrix

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', c_matrix[0, 0] / sum(c_matrix[0, :]), '\n')
print('Precisão (Precision): ', c_matrix[0, 0] / sum(c_matrix[:, 0]), '\n')
print('Especificidade (Specificity): ', c_matrix[1, 1] / sum(c_matrix[1, :]), '\n')
print('F1 Macro: ', f1_score(y, model.predict(X), average='macro'), '\n')
print('F1 Micro: ', f1_score(y, model.predict(X), average='micro'))

## Modelo Naive Bayes

In [None]:
# Separação dos dados para teste e treino:
X = dadosTreinoBalanceados.drop([85], axis=1)
y = dadosTreinoBalanceados[85]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=4)

# Criação e treino do modelo Naive Bayes:
model = MultinomialNB(alpha=0.01, fit_prior=True)
model.fit(X_train, y_train)
nb_pred = model.predict(X)

# Aplicação da validação cruzada K-Fold:
kfold_validation = KFold(10)
result = cross_val_score(model, X_test, y_test, cv = kfold_validation)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', result)
print('\nMédia dos resultados:', np.mean(result))
print('\nPredições feitas:\n', nb_pred)

In [None]:
# Criação da matriz de confusão:
print('Matriz de confusão:')
c_matrix = confusion_matrix(y, model.predict(X))
c_matrix

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', c_matrix[0, 0] / sum(c_matrix[0, :]), '\n')
print('Precisão (Precision): ', c_matrix[0, 0] / sum(c_matrix[:, 0]), '\n')
print('Especificidade (Specificity): ', c_matrix[1, 1] / sum(c_matrix[1, :]), '\n')
print('F1 Macro: ', f1_score(y, model.predict(X), average='macro'), '\n')
print('F1 Micro: ', f1_score(y, model.predict(X), average='micro'))