In [1]:
# Imports
import numpy as np
from nltk.corpus import stopwords
from sklearn.datasets import load_files
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier, StackingClassifier
from sklearn.metrics import accuracy_score

In [2]:
# Carregando os dados
noticias = load_files('dados', encoding = 'utf-8', decode_error = 'replace')

In [3]:
# Separando variáveis de entrada e saída
X = noticias.data
y = noticias.target


In [4]:
# Lista de stop words
my_stop_words = set(stopwords.words('english'))

In [5]:
# Divisão em treino e teste (70/30)
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size = 0.30, random_state = 93)

In [6]:
# Vetorização
vectorizer = TfidfVectorizer(norm = None, stop_words = my_stop_words, max_features = 1000, decode_error = "ignore")


In [7]:
# Aplicamos a vetorização.
# Observe que treinamos e aplicamos em treino e apenas aplicamos em teste
X_treino_vectors = vectorizer.fit_transform(X_treino)
X_teste_vectors = vectorizer.transform(X_teste)

In [8]:
# Inicializando os modelos base
modelos_base = [('rf', RandomForestClassifier(n_estimators = 100, random_state = 42)), ('nb', MultinomialNB())]


In [9]:
# Stacking
# https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.StackingClassifier.html
# https://scikit-learn.org/stable/modules/ensemble.html#stacking
stacking_model = StackingClassifier(estimators = modelos_base, final_estimator = LogisticRegression(multi_class = 'multinomial', random_state = 30, max_iter = 1000))
print("\nModelo de Votação:\n")
print(stacking_model)


Modelo de Votação:

StackingClassifier(estimators=[('rf', RandomForestClassifier(random_state=42)),
                               ('nb', MultinomialNB())],
                   final_estimator=LogisticRegression(max_iter=1000,
                                                      multi_class='multinomial',
                                                      random_state=30))


In [10]:
# Treinamento
acuracia = stacking_model.fit(X_treino_vectors.todense(), y_treino).score(X_teste_vectors.todense(), y_teste)




In [11]:
# Lista para o resultado
resultado = []
resultado.append(acuracia)

In [12]:
# Print
print('\nAcurácia do Modelo:', acuracia, '\n')
print('\n')


Acurácia do Modelo: 0.9820359281437125 



