In [None]:
# Importando biblioteca Pandas para a criação e manipulação de DataFrames.
import pandas as pd

# Importando o Numpy.
import numpy as np

# Importando o método PLT para visualizar graficamente os dados, cálculos e regressões que aplicarmos.
import matplotlib.pylab as plt

# Importando modelos para a realização dos testes de treino.
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import MultinomialNB

# Importando métricas de avaliações para os modelos.
from sklearn.metrics import confusion_matrix, f1_score, auc, roc_auc_score, roc_curve

# Importando o método de validação cruzada K-Fold, pontuação do modelo e o separador de dados para treino e teste.
from sklearn.model_selection import KFold, cross_val_score,train_test_split

In [None]:
# Importando dataset de dados de treino da vetorização TF:
dados_treino_tf = pd.read_csv("tweets_vetorizados_tf_agrupados.csv", sep = ",", header = None)
dados_treino_tf.head()


In [None]:
# Separação dos dados:
dados_treino_tf.columns = [dados_treino_tf.loc[0]]
dados_treino_tf = dados_treino_tf.drop(dados_treino_tf.index [[0]])

In [None]:
# Importando dataset de dados de treino da vetorização IDF:
dados_treino_idf = pd.read_csv("tweets_vetorizados_idf_agrupados.csv", sep = ",", header = None)
dados_treino_idf.head()

In [None]:
# Separação dos dados:
dados_treino_idf.columns = [dados_treino_idf.loc[0]]
dados_treino_idf = dados_treino_idf.drop(dados_treino_idf.index [[0]])

In [None]:
# Importando dataset de dados de treino da vetorização TF_IDF:
dados_treino_tf_idf = pd.read_csv("tweets_vetorizados_tf_idf_agrupados.csv", sep = ",", header = None)
dados_treino_tf_idf.head()


In [None]:
# Separação dos dados:
dados_treino_tf_idf.columns = [dados_treino_tf_idf.loc[0]]
dados_treino_tf_idf = dados_treino_tf_idf.drop(dados_treino_tf_idf.index [[0]])

## Modelo de Regressão Logística (Logistic Regression)

### TF

In [None]:
variaveis_preditoras = dados_treino_tf.drop(['Cluster'], axis=1).values
variavel_predicao = dados_treino_tf['Cluster'].values
variaveis_preditoras_treino, variaveis_preditoras_teste, variavel_predicao_treino, variavel_predicao_teste = train_test_split(variaveis_preditoras, variavel_predicao, test_size = 0.3, random_state = 4)

# Criação e treino do modelo de Regressão Logística:
modelo_tf = LogisticRegression(penalty = 'l2', C = 1e42, solver = 'liblinear')
modelo_tf.fit(variaveis_preditoras_treino, variavel_predicao_treino)
predicao_regressao_logistica = modelo_tf.predict(variaveis_preditoras)

In [None]:
# Aplicação da validação cruzada K-Fold:
validacao_kfold = KFold(10)
resultado_tf = cross_val_score(modelo_tf, variaveis_preditoras_teste, variavel_predicao_teste, cv = validacao_kfold)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', resultado_tf)
print('\nMédia dos resultados:', np.mean(resultado_tf))
print('\nPredições feitas:\n', predicao_regressao_logistica)

In [None]:
# Criação da matriz de confusão:
print('Matriz de confusão:')
matriz_confusao_tf = confusion_matrix(variavel_predicao, modelo_tf.predict(variaveis_preditoras))
matriz_confusao_tf

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', matriz_confusao_tf[0, 0] / sum(matriz_confusao_tf[0, :]), '\n')

print('Precisão (Precision): ', matriz_confusao_tf[0, 0] / sum(matriz_confusao_tf[:, 0]), '\n')

print('Especificidade (Specificity): ', matriz_confusao_tf[1, 1] / sum(matriz_confusao_tf[1, :]), '\n')

print('F1 Macro: ', f1_score(variavel_predicao, modelo_tf.predict(variaveis_preditoras), average='macro'), '\n')

print('F1 Micro: ', f1_score(variavel_predicao, modelo_tf.predict(variaveis_preditoras), average='micro'))

### IDF

In [None]:
dados_treino_idf = dados_treino_idf.replace(np.nan, 0)

variaveis_preditoras = dados_treino_idf.drop(['Cluster'], axis=1).values
variavel_predicao = dados_treino_tf['Cluster'].values

variaveis_preditoras_treino, variaveis_preditoras_teste, variavel_predicao_treino, variavel_predicao_teste = train_test_split(variaveis_preditoras, variavel_predicao, test_size = 0.3, random_state = 4)

# Criação e treino do modelo de Regressão Logística:
modelo_idf = LogisticRegression(penalty = 'l2', C = 1e42, solver = 'liblinear')
modelo_idf.fit(variaveis_preditoras_treino, variavel_predicao_treino)
lr_pred = modelo_idf.predict(variaveis_preditoras)

In [None]:
# Aplicação da validação cruzada K-Fold:
validacao_kfold = KFold(10)
resultado_idf = cross_val_score(modelo_idf, variaveis_preditoras_teste, variavel_predicao_teste, cv = validacao_kfold)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', resultado_idf)
print('\nMédia dos resultados:', np.mean(resultado_idf))
print('\nPredições feitas:\n', predicao_regressao_logistica)

In [None]:
# Criação da matriz de confusão:
print('Matriz de confusão:')
matriz_confusao_idf = confusion_matrix(variavel_predicao, modelo_idf.predict(variaveis_preditoras))
matriz_confusao_idf

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', matriz_confusao_idf[0, 0] / sum(matriz_confusao_idf[0, :]), '\n')

print('Precisão (Precision): ', matriz_confusao_idf[0, 0] / sum(matriz_confusao_idf[:, 0]), '\n')

print('Especificidade (Specificity): ', matriz_confusao_idf[1, 1] / sum(matriz_confusao_idf[1, :]), '\n')

print('F1 Macro: ', f1_score(variavel_predicao, modelo_idf.predict(variaveis_preditoras), average='macro'), '\n')

print('F1 Micro: ', f1_score(variavel_predicao, modelo_idf.predict(variaveis_preditoras), average='micro'))

### TF-IDF

In [None]:
variaveis_preditoras = dados_treino_tf_idf.drop(['Cluster'], axis=1).values
variavel_predicao = dados_treino_tf['Cluster'].values

variaveis_preditoras_treino, variaveis_preditoras_teste, variavel_predicao_treino, variavel_predicao_teste = train_test_split(variaveis_preditoras, variavel_predicao, test_size = 0.3, random_state = 4)


# Criação e treino do modelo de Regressão Logística:
modelo_tf_idf = LogisticRegression(penalty = 'l2', C = 1e42, solver = 'liblinear')
modelo_tf_idf.fit(variaveis_preditoras_treino, variavel_predicao_treino)
lr_pred = modelo_tf_idf.predict(variaveis_preditoras)

In [None]:
# Aplicação da validação cruzada K-Fold:
validacao_kfold = KFold(10)
resultado_tf_idf = cross_val_score(modelo_idf, variaveis_preditoras_teste, variavel_predicao_teste, cv = validacao_kfold)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', resultado_tf_idf)
print('\nMédia dos resultados:', np.mean(resultado_tf_idf))
print('\nPredições feitas:\n', predicao_regressao_logistica)

In [None]:
# Criação da matriz de confusão:
print('Matriz de confusão:')
matriz_confusao_tf_idf = confusion_matrix(variavel_predicao, modelo_idf.predict(variaveis_preditoras))
matriz_confusao_tf_idf

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', matriz_confusao_tf_idf[0, 0] / sum(matriz_confusao_tf_idf[0, :]), '\n')

print('Precisão (Precision): ', matriz_confusao_tf_idf[0, 0] / sum(matriz_confusao_tf_idf[:, 0]), '\n')

print('Especificidade (Specificity): ', matriz_confusao_tf_idf[1, 1] / sum(matriz_confusao_tf_idf[1, :]), '\n')

print('F1 Macro: ', f1_score(variavel_predicao, modelo_idf.predict(variaveis_preditoras), average='macro'), '\n')

print('F1 Micro: ', f1_score(variavel_predicao, modelo_idf.predict(variaveis_preditoras), average='micro'))

## Modelo Naive Bayes

### TF

In [None]:
# Separação dos dados para teste e treino:
variaveis_preditoras = dados_treino_tf.drop(['Cluster'], axis=1).values
variavel_predicao = dados_treino_tf['Cluster'].values
variaveis_preditoras_treino, variaveis_preditoras_teste, variavel_predicao_treino, variavel_predicao_teste = train_test_split(variaveis_preditoras, variavel_predicao, test_size = 0.3, random_state = 4)

# Criação e treino do modelo Naive Bayes:
modelo_tf = MultinomialNB(alpha=0.01, fit_prior=True)
modelo_tf.fit(variaveis_preditoras_treino, variavel_predicao_treino)
predicao_naive_bayes = modelo_tf.predict(variaveis_preditoras)

# Aplicação da validação cruzada K-Fold:
validacao_kfold = KFold(10)
resultado_tf = cross_val_score(modelo_idf, variaveis_preditoras_teste, variavel_predicao_teste, cv = validacao_kfold)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', resultado_tf)
print('\nMédia dos resultados:', np.mean(resultado_tf))
print('\nPredições feitas:\n', predicao_naive_bayes)

In [None]:
# Criação da matriz de confusão:
print('Matriz de confusão:')
matriz_confusao_tf = confusion_matrix(variavel_predicao, modelo_idf.predict(variaveis_preditoras))
matriz_confusao_tf

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', matriz_confusao_tf[0, 0] / sum(matriz_confusao_tf[0, :]), '\n')

print('Precisão (Precision): ', matriz_confusao_tf[0, 0] / sum(matriz_confusao_tf[:, 0]), '\n')

print('Especificidade (Specificity): ', matriz_confusao_tf[1, 1] / sum(matriz_confusao_tf[1, :]), '\n')

print('F1 Macro: ', f1_score(variavel_predicao, modelo_idf.predict(variaveis_preditoras), average='macro'), '\n')

print('F1 Micro: ', f1_score(variavel_predicao, modelo_idf.predict(variaveis_preditoras), average='micro'))

### IDF

In [None]:
dados_treino_idf = dados_treino_idf.replace(np.nan, 0)

# Separação dos dados para teste e treino:
variaveis_preditoras = dados_treino_idf.drop(['Cluster'], axis=1).values
variavel_predicao = dados_treino_tf['Cluster'].values
variaveis_preditoras_treino, variaveis_preditoras_teste, variavel_predicao_treino, variavel_predicao_teste = train_test_split(variaveis_preditoras, variavel_predicao, test_size = 0.3, random_state = 4)


# Criação e treino do modelo Naive Bayes:
modelo_idf = MultinomialNB(alpha=0.01, fit_prior=True)
modelo_idf.fit(variaveis_preditoras_treino, variavel_predicao_treino)
predicao_naive_bayes = modelo_idf.predict(variaveis_preditoras)

# Aplicação da validação cruzada K-Fold:
validacao_kfold = KFold(10)
resultado_idf = cross_val_score(modelo_idf, variaveis_preditoras_teste, variavel_predicao_teste, cv = validacao_kfold)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', resultado_idf)
print('\nMédia dos resultados:', np.mean(resultado_idf))
print('\nPredições feitas:\n', predicao_naive_bayes)

In [None]:
# Criação da matriz de confusão:
print('Matriz de confusão:')
matriz_confusao_idf = confusion_matrix(variavel_predicao, modelo_idf.predict(variaveis_preditoras))
matriz_confusao_idf

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', matriz_confusao_idf[0, 0] / sum(matriz_confusao_idf[0, :]), '\n')

print('Precisão (Precision): ', matriz_confusao_idf[0, 0] / sum(matriz_confusao_idf[:, 0]), '\n')

print('Especificidade (Specificity): ', matriz_confusao_idf[1, 1] / sum(matriz_confusao_idf[1, :]), '\n')

print('F1 Macro: ', f1_score(variavel_predicao, modelo_idf.predict(variaveis_preditoras), average='macro'), '\n')

print('F1 Micro: ', f1_score(variavel_predicao, modelo_idf.predict(variaveis_preditoras), average='micro'))

### TF-IDF

In [None]:
# Separação dos dados para teste e treino:
variaveis_preditoras = dados_treino_tf_idf.drop(['Cluster'], axis=1).values
variavel_predicao = dados_treino_tf['Cluster'].values
variaveis_preditoras_treino, variaveis_preditoras_teste, variavel_predicao_treino, variavel_predicao_teste = train_test_split(variaveis_preditoras, variavel_predicao, test_size = 0.3, random_state = 4)

# Criação e treino do modelo Naive Bayes:
modelo_tf_idf = MultinomialNB(alpha=0.01, fit_prior=True)
modelo_tf_idf.fit(variaveis_preditoras_treino, variavel_predicao_treino)
predicao_naive_bayes = modelo_tf_idf.predict(variaveis_preditoras)

# Aplicação da validação cruzada K-Fold:
validacao_kfold = KFold(10)
resultado_tf_idf = cross_val_score(modelo_idf, variaveis_preditoras_teste, variavel_predicao_teste, cv = validacao_kfold)

# Exibição dos resultados da validação:
print('Resultados do modelo:\n', resultado_tf_idf)
print('\nMédia dos resultados:', np.mean(resultado_tf_idf))
print('\nPredições feitas:\n', predicao_naive_bayes)

In [None]:
# Criação da matriz de confusão:
print('Matriz de confusão:')
matriz_confusao_tf_idf = confusion_matrix(variavel_predicao, modelo_idf.predict(variaveis_preditoras))
matriz_confusao_tf_idf

In [None]:
# Exibição das métricas de avaliação do modelo:
print('Revocação (Recall): ', matriz_confusao_tf_idf[0, 0] / sum(matriz_confusao_tf_idf[0, :]), '\n')

print('Precisão (Precision): ', matriz_confusao_tf_idf[0, 0] / sum(matriz_confusao_tf_idf[:, 0]), '\n')

print('Especificidade (Specificity): ', matriz_confusao_tf_idf[1, 1] / sum(matriz_confusao_tf_idf[1, :]), '\n')

print('F1 Macro: ', f1_score(variavel_predicao, modelo_idf.predict(variaveis_preditoras), average='macro'), '\n')

print('F1 Micro: ', f1_score(variavel_predicao, modelo_idf.predict(variaveis_preditoras), average='micro'))