# Introdução a NLP
Nessa atividade vocês irão trabalhar em um problema de classificação de texto multiclasse. Considere o conjunto de dados sobre fetch_20newsgroups  

"The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups. To the best of our knowledge, it was originally collected by Ken Lang, probably for his paper “Newsweeder: Learning to filter netnews,” though he does not explicitly mention this collection. The 20 newsgroups collection has become a popular data set for experiments in text applications of machine learning techniques, such as text classification and text clustering."

Esse conjunto de dados pode ser carregado através so scikit-learn

from sklearn.datasets import fetch_20newsgroups

twenty_train = fetch_20newsgroups(subset='train',
                                  shuffle=True, random_state=42)

twenty_test = fetch_20newsgroups(subset='test', 
                                 shuffle=True, random_state=42)

Dado esse contexto, escolha um único classificador, sem otimizar hiperparametros, treine e teste modelos considerando
- Bag of Words (contagem), sem pré-processamento
- TF-IDF, sem pré-processamento 
- Bag of Words, com pré-processamento
- TF-IDF, com pré-processamento
- Considere a métrica da acurácia e compare os resultados em uma tabela.

As etapas de pré-processamento devem conter pelo menos:
- lowercase
- remoção de pontuação
- remoção de números 
- remoção de stopwords (dica: utilize a biblioteca NLTK)
- lematização ou stemming (apenas um dos dois)

Outras etapas que você julgar necessárias podem ser utilizadas. Crie uma função para cada etapa e uma função chamada preprocess() que chame todas as etapas.

In [109]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [110]:
import nltk
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ruann\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\ruann\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\ruann\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [149]:
from sklearn.datasets import fetch_20newsgroups

twenty_train = fetch_20newsgroups(subset='train', shuffle=True, random_state=42)

twenty_test = fetch_20newsgroups(subset='test', shuffle=True, random_state=42)

In [150]:
twenty_train.keys()

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])

In [151]:
text_train = twenty_train['data']
y_train = twenty_train['target']
text_test = twenty_test['data']
y_test = twenty_test['target']

In [152]:
text_train;

### Fazendo extração
Dado esse contexto, escolha um único classificador, sem otimizar hiperparametros, treine e teste modelos considerando
- Bag of Words (contagem), sem pré-processamento
- TF-IDF, sem pré-processamento 

In [153]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
bagwords = CountVectorizer()
tfidf = TfidfVectorizer()

In [154]:
X_train_b = bagwords.fit_transform(text_train)
X_text_b = bagwords.transform(text_test)
X_train_tf = tfidf.fit_transform(text_train)
X_text_tf = tfidf.transform(text_test)

In [179]:
d_train_b = X_train_b.shape
d_train_tf = X_train_tf.shape

In [147]:
X_train_b;
X_train_tf;

### Classificador Escolhido: Regressão Logística

In [118]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(max_iter=1000)
model.fit(X_train_b, y_train)

LogisticRegression(max_iter=1000)

In [119]:
model2 = LogisticRegression()
model2.fit(X_train_tf, y_train)

LogisticRegression()

In [120]:
from sklearn.metrics import accuracy_score
from sklearn import metrics
y_pred = model.predict(X_text_b)
y_pred2 = model2.predict(X_text_tf)
acuracia1 = round(accuracy_score(y_test,y_pred)*100,2)
acuracia2 = round(accuracy_score(y_test,y_pred2)*100,2)
print('A acurácia do bagwords, foi:' ,acuracia1)
print('A acurácia do tf-idf, foi:' ,acuracia2)

A acurácia do bagwords, foi: 78.93
A acurácia do tf-idf, foi: 82.74


### Pré-Processamento 

As etapas de pré-processamento devem conter pelo menos:
- lowercase
- remoção de pontuação
- remoção de números 
- remoção de stopwords (dica: utilize a biblioteca NLTK)
- lematização ou stemming (apenas um dos dois)

In [121]:
def lowering(texto):
    return texto.lower()

In [122]:
import string
def remocao_pontuacao(texto):
    pontuacao_retirada = "".join([i for i in texto if i not in string.punctuation])
    return pontuacao_retirada

In [123]:
import re
def remocao_numeros(texto):
    number_regex = '\d+'
    x = re.sub(number_regex, '', texto)
    return x

In [124]:
def remocao_stopwords(texto):
    stopwords = nltk.corpus.stopwords.words('english')
    texto_stopwords = [j for j in texto.split() if j not in stopwords]
    frase = " ".join(texto_stopwords)
    return frase 

In [125]:
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
def lemmatizacao(texto):
    lemm_texto = [wordnet_lemmatizer.lemmatize(word) for word in texto.split()]
    frase = " ".join(lemm_texto)
    return frase

In [126]:
def preprocessamento(texto):
    LO = lowering(texto)
    RP = remocao_pontuacao(LO)
    RN = remocao_numeros(RP)
    RS = remocao_stopwords(RN)
    LE = lemmatizacao(RS)
    return LE

In [127]:
X_train_p = []
for i in range(len(text_train)):
    p_process = preprocessamento(text_train[i])
    X_train_p.append(p_process)

In [128]:
X_test_p = []
for i in range(len(text_test)):
    p_process = preprocessamento(text_test[i])
    X_test_p.append(p_process)

In [129]:
text_train[0];

In [130]:
X_train_p[0];

In [131]:
text_test[0];

In [132]:
X_test_p[0];

### Fazendo extração
Dado esse contexto, escolha um único classificador, sem otimizar hiperparametros, treine e teste modelos considerando
- Bag of Words, com pré-processamento
- TF-IDF, com pré-processamento

In [173]:
X_train_pb = bagwords.fit_transform(X_train_p)
X_text_pb = bagwords.transform(X_test_p)
X_train_ptf = tfidf.fit_transform(X_train_p)
X_text_ptf = tfidf.transform(X_test_p)

(11314, 111379)

In [177]:
d_train_b_pre = X_train_pb.shape
d_train_tf_pre = X_train_ptf.shape

In [169]:
d_train_preprocessada = X_train_pb.shape
d_test_preprocessada = X_text_pb.shape

### Classificador Escolhido: Regressão Logística

In [134]:
model3 = LogisticRegression(max_iter=1000)
model3.fit(X_train_pb, y_train)

LogisticRegression(max_iter=1000)

In [135]:
model4 = LogisticRegression()
model4.fit(X_train_ptf, y_train)

LogisticRegression()

In [136]:
from sklearn.metrics import accuracy_score
from sklearn import metrics
y_pred3 = model3.predict(X_text_pb)
y_pred4 = model4.predict(X_text_ptf)
acuracia3 = round(accuracy_score(y_test,y_pred3)*100,2)
acuracia4 = round(accuracy_score(y_test,y_pred4)*100,2)
print('A acurácia do bagwords após pre-processamento, foi:' ,acuracia3)
print('A acurácia do tf-idf após pre-processamento, foi:' ,acuracia4)

A acurácia do bagwords após pre-processamento, foi: 79.63
A acurácia do tf-idf após pre-processamento, foi: 83.23


### Comparação de Resultados - Tabela

In [183]:
#Criando um dataframe para apresentar os resultados
# Ainda vou colocar o terceiro
resultado1 = pd.Series({'Resultados': 'Acurácia BoW Sem Pré-Processamento', 'Acurácia': acuracia1, 'Dimensões': d_train_b})
resultado2 = pd.Series({'Resultados': 'Acurácia TF-IDF Sem Pré-Processamento', 'Acurácia': acuracia2, 'Dimensões': d_train_tf})
resultado3 = pd.Series({'Resultados': 'Acurácia BoW Com Pré-Processamento', 'Acurácia': acuracia3, 'Dimensões': d_train_b_pre})
resultado4 = pd.Series({'Resultados': 'Acurácia TF-IDF Com Pré-Processamento', 'Acurácia': acuracia4, 'Dimensões': d_train_tf_pre})


df_resultados = pd.DataFrame([resultado1,resultado2,resultado3,resultado4])
df_resultados

Unnamed: 0,Resultados,Acurácia,Dimensões
0,Acurácia BoW Sem Pré-Processamento,78.93,"(11314, 130107)"
1,Acurácia TF-IDF Sem Pré-Processamento,82.74,"(11314, 130107)"
2,Acurácia BoW Com Pré-Processamento,79.63,"(11314, 111379)"
3,Acurácia TF-IDF Com Pré-Processamento,83.23,"(11314, 111379)"
