## Regressão Logística

De volta pro assunto de classificação, o objetivo desse conteúdo é explorar a representação de texto em computadores e utilizar regressão logística para categorizar os documentos. Além disso, tem um desafio no final para implementar otimização através de algoritmos genéticos.

In [None]:
import pandas as pd
import numpy  as np

df = pd.read_csv('movie_reviews.tsv', sep='\t', index_col=None)

df.columns

In [None]:
X = df.review
y = df.sentiment

In [None]:
X.shape

In [None]:
print(X[0])

In [None]:
from collections import Counter

# reune todas as palavras/tokens das amostras
palavras = []
for s in X.values:
    palavras += s.lower().split()

dicionario = Counter(palavras)
print(dicionario.most_common(20))

In [None]:
# separa qual sera o vocabulario
vocab = []
for palavra, contagem in dicionario.most_common(100):
    vocab.append(palavra)

print(vocab)

In [None]:
# cria a amostra marcando quais palavras aparecem naquela sentença (bag of words)

X_bow = []
for _ in range(df.review.shape[0]):
    s = df.review.values[0]
    sample = []
    for p in vocab:
        if p in s:
            sample.append(1.0)
        else:
            sample.append(0.0)
    X_bow.append(sample)

X_bow = np.array(X_bow)

In [None]:
# separa em treino e teste

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_bow, y, test_size=0.33, random_state=42)

In [None]:
# regressão logística e funções auxiliares

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def loss(model, X, y):
    X = add_bias(X)
    z = np.dot(X, model)
    h = sigmoid(z)
    return (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean()

def add_bias(X):
    bias = np.ones((X.shape[0], 1))
    return np.concatenate((bias, X), axis=1)

def fit(X, y, lr = 0.01, num_iter = 5):
    
    X = add_bias(X)
    
    theta = np.zeros(X.shape[1])
    
    for _ in range(num_iter):
        z = np.dot(X, theta)
        h = sigmoid(z)
        gradient = np.dot(X.T, (h - y)) / y.size
        theta -= lr * gradient
        theta[-1] = np.sum(h-y)
            
    return theta

def predict(X, theta):
    X = add_bias(X)
    return sigmoid(np.dot(X, theta)).round()

In [None]:
model = fit(X_train, y_train, num_iter = 1)
print(model[:30])

print(loss(model, X_train, y_train))

preds = predict(X_test, model)
(preds == y_test).mean()

In [None]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(X_train, y_train)
preds = model.predict(X_test)

print((preds == y_test).mean())

model.intercept_, model.coef_

### Exercício

1. Utilizando a mesma base de dados, encontre o vocabulário apenas na parte de treino e aplique a transformação na parte de teste também. Da forma como foi implementado originalmente, o vocabulário está sendo encontrado em todo o conjunto de dados.

2. Implemente o método de otimização por algoritmo genético e veja se consegue resultados melhores que a regressão logística com os parâmetros default do scikit-learn. Considere no algoritmo genético que o cruzamento será feito de forma uniforme, utilizando um valor aleatório para definir qual gene será herdado de cada pai; também considere que a geração seguinte só deve ser feita de filhos da geração anterior. Inicialize os pesos de forma aleatória utilizando a função própria para isso do numpy e torne fixo o fator de aleatoriedade.

3. Pesquise sobre o conceito de stopwords e aplique-o, analisando se traz melhoras ou pioras para o modelo. Faça a análise considerando a Regressão Logística do scikit-learn e sua versão com algoritmos genéticos.

4. Pesquise sobre o conceito TF-IDF e aplique-o, analisando se traz melhoras ou pioras para o modelo. Também faça a análise considerando utilizando os dois métodos: Regressão Logística do scikit-learn e sua versão com algoritmos genéticos.