Universidade Federal de Santa Catarina<br>
Departamento de Engenharia Elétrica e Eletrônica<br>
EEL7514/EEL7513 - Introdução ao Aprendizado de Máquina
$\newcommand{\bX}{\mathbf{X}}$
$\newcommand{\bw}{\mathbf{w}}$
$\newcommand{\by}{\mathbf{y}}$
$\newcommand{\bx}{\mathbf{x}}$


# Exercício 3: Regressão Logística


# 0. Instruções gerais

Nas questões abaixo (exceto na questão opcional), **todo o conjunto de dados** será usado como conjunto de treinamento. Não usaremos conjunto de validação ou teste.

Em todas as questões, além da implemenação você deve incluir também uma **análise** dos resultados.

# 1. Conjunto de dados #1

O primeiro conjunto de dados que usaremos, disponibilizado no arquivo `data1.txt`, fornece a pontuação de alunos em dois exames e a decisão se o aluno é aceito em uma universidade.

1. Treine um classificador por regressão logística sem regularização e trace um gráfico mostrando o conjunto de dados e as regiões de decisão. Reporte também a taxa de erro (= # de classificações erradas / tamanho do conjunto). Note que taxa de erro é diferente de função custo do treinamento.

2. Repita o item anterior adicionando mais atributos até obter 100% de acerto.

Para efetuar a otimização, usaremos o otimizador do SciPy, o que, além de implementar métodos mais eficientes que o método do gradiente, possui a vantagem de não precisarmos escolher a taxa de aprendizagem. 

Utilize a seguinte chamada:

```python
import scipy.optimize as opt
def train(X,y):
    w = opt.minimize(fun=cost, x0=np.zeros(X.shape[1]), jac=gradient, args=(X,y)).x
    return w
```

onde as funções

```python
def cost(w, X, y):
    return J

def gradient(w, X, y):
    return grad_J.flatten()
```

devem aceitar vetores 1-D como `w` (utilize `reshape` quando necessário). Da mesma forma, o vetor `w` retornado pelo otimizador é um vetor 1-D.

As seguintes funções podem ser úteis:

```python
import numpy as np
import matplotlib.pyplot as plt
def plotDataset(X, y):
    y = y.flatten()
    plt.plot(X[y==0,1],X[y==0,2],'bo',X[y==1,1],X[y==1,2],'rx')

def plotBoundary(X, w, N=1000):
    x1 = np.linspace(X[:,1].min(), X[:,1].max(), N)
    x2 = np.linspace(X[:,2].min(), X[:,2].max(), N)
    xx1, xx2 = np.meshgrid(x1, x2)
    X = np.column_stack((xx1.reshape(-1),xx2.reshape(-1)))
    X = mapFeature(X)
    y_hat = predict(X,w).reshape(xx1.shape)
    y_hat = (y_hat>=0.5)*2-1
    plt.contourf(xx1,xx2,y_hat,cmap=plt.cm.bwr,vmin=-5,vmax=5)
```

as quais assumem que os atributos originais estão nas colunas 1 e 2 e que o mapeamento de atributos (incluindo adição de 1's) é dado pela função `mapFeature`.

**Obs:** Caso deseje realizar normalização de atributos, isto **não** deve ser feito pela função `mapFeature`, mas sim internamente à função `train`, retornando um vetor de parâmetros que possa ser usado com os atributos não-normalizados.

# 2. Conjunto de dados #2

O segundo conjunto de dados que usaremos, disponibilizado no arquivo `data2.txt`, relaciona os resultados de dois testes realizados em microchips, bem como a decisão se o microchip passou ou não no controle de qualidade.

1. Treine um classificador por regressão logística sem regularização e trace um gráfico mostrando o conjunto de dados e as regiões de decisão. Reporte também a taxa de erro (= # de classificações erradas / tamanho do conjunto).

2. Repita o item anterior adicionando atributos polinomiais, incluindo termos cruzados (até no máximo grau 6).

3. Adicione regularização no treinamento, ajuste o parâmetro de regularização e verifique qualitativamente a variação das regiões de decisão, bem como da taxa de acerto.

# 3. Conjunto de dados #3

O terceiro conjunto de dados que usaremos pode ser encontrado aqui:

https://www.kaggle.com/uciml/iris/data

O objetivo é implementar um classificador para classificar entre três tipos de plantas. Implemente apenas regressão logística sem regularização com os atributos originais, e reporte a taxa de erro.

# 4. (OPCIONAL) Conjunto de dados #4

O último conjunto de dados, disponibilizado no arquivo `modulations.csv`, consiste de atributos extraídos de sinais de telecomunicações que utilizam dois tipos de modulação digital (PSK=0 ou FSK=1). O objetivo é classificar a modulação usada.

Separe 20% dos dados como conjunto de teste e tente minimizar a taxa de erro neste conjunto, usando regressão logística.