# 0.0 Import Library

Os comandos `%matplotlib inline` e `%matplotlib notebook` são exemplos de "magic commands". No jupyter notebook "magic commands" são caracterizados pelo sinal de porcentagem `%` e são utilizados para mudar o comportamento ou indicar uma ação para o IPython Shell (kernel que executa os comandos do Python).

* `%matplotlib inline` - diz ao kernel para plotar o gráfico imediatamente após a execução da célula - **gráficos estáticos**.

* `%matplotlib notebook` - gera **gráficos interativos**.

[mais detalhes](https://www.scaler.com/topics/matplotlib/matplotlib-inline/)

[Quais são as diferenças entre plt e ax](https://towardsdatascience.com/what-are-the-plt-and-ax-in-matplotlib-exactly-d2cf4bf164a9)

[Axes class em matplotlib](https://www.geeksforgeeks.org/matplotlib-axes-class/)

In [3]:
#%matplotlib inline
%matplotlib notebook

In [4]:
from sklearn import datasets as ds
from sklearn import model_selection as ms
from sklearn import linear_model as lm
from sklearn import metrics as mt

from matplotlib import pyplot as plt

import numpy as np

In [5]:
from mpl_toolkits import mplot3d  # permite façamos plots em 3d ao usarmos o parâmetro "projection='3d'"

# 1.0 Load dataset

In [6]:
X, y = ds.make_classification(

        n_samples=100,           # número de registros do dataset
        n_features=2,            # número de features
        n_informative=1,         # número de features importantes para fazer a classificação
        n_redundant=0,           # número de features altamente correlacionadas (não ajudam na classificação)
        n_clusters_per_class=1,
        random_state=42,
)

In [7]:
X.shape

(100, 2)

In [8]:
X[:10,:]

array([[ 0.48240906,  0.47383292],
       [-0.71508153, -0.03471177],
       [ 1.28804649,  0.71400049],
       [ 0.94900079,  0.62566735],
       [ 1.29443245, -0.44651495],
       [ 1.27886873, -0.07282891],
       [-0.96132573,  0.17457781],
       [-1.05190674,  0.75193303],
       [-1.08204625, -0.34271452],
       [ 0.81987919, -0.68002472]])

In [9]:
y.shape

(100,)

In [10]:
y

array([1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1,
       0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0,
       1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0])

Vamos criar um scatterplot no espaço de features para ver como ficou a disposição dos dados.

In [13]:
plt.scatter(X[:,0], X[:,1], c=y)

plt.xlabel('$x_1$')
plt.ylabel('$x_2$');

<IPython.core.display.Javascript object>

[3D plotting tutorial](https://jakevdp.github.io/PythonDataScienceHandbook/04.12-three-dimensional-plotting.html)

No exemplo acima as coordenadas armazenadas na array `X` nos dá posição no gráfico e o valor (classe) em `y` foi usada para pintar os pontos e determinarmos as classes.

Na prática, cada registro pode ser identificado por 3 informações $x_1$, $x_2$ e $y$, ou seja, para termos uma visão geral do conjunto de dados temos que um plot em 3 dimensões. 

In [14]:
fig = plt.figure()
ax = plt.axes(projection='3d')

<IPython.core.display.Javascript object>

In [15]:
ax = plt.axes(projection='3d')

ax.scatter3D(X[:,0], X[:,1], y)

<mpl_toolkits.mplot3d.art3d.Path3DCollection at 0x7f2d01870130>

In [19]:
x_points = np.linspace(-2, 2, 20)
y_points = np.linspace(-2, 2, 20)

# responsável por gerar um grid com os dados das array passadas
x_plot, y_plot = np.meshgrid(x_points, y_points)

fig = plt.figure()
ax = plt.axes()

ax.scatter(x_plot, y_plot)


<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x7f2d004c0190>

In [21]:
x_plot[:5]

array([[-2.        , -1.78947368, -1.57894737, -1.36842105, -1.15789474,
        -0.94736842, -0.73684211, -0.52631579, -0.31578947, -0.10526316,
         0.10526316,  0.31578947,  0.52631579,  0.73684211,  0.94736842,
         1.15789474,  1.36842105,  1.57894737,  1.78947368,  2.        ],
       [-2.        , -1.78947368, -1.57894737, -1.36842105, -1.15789474,
        -0.94736842, -0.73684211, -0.52631579, -0.31578947, -0.10526316,
         0.10526316,  0.31578947,  0.52631579,  0.73684211,  0.94736842,
         1.15789474,  1.36842105,  1.57894737,  1.78947368,  2.        ],
       [-2.        , -1.78947368, -1.57894737, -1.36842105, -1.15789474,
        -0.94736842, -0.73684211, -0.52631579, -0.31578947, -0.10526316,
         0.10526316,  0.31578947,  0.52631579,  0.73684211,  0.94736842,
         1.15789474,  1.36842105,  1.57894737,  1.78947368,  2.        ],
       [-2.        , -1.78947368, -1.57894737, -1.36842105, -1.15789474,
        -0.94736842, -0.73684211, -0.52631579, -

In [22]:
x_points

array([-2.        , -1.78947368, -1.57894737, -1.36842105, -1.15789474,
       -0.94736842, -0.73684211, -0.52631579, -0.31578947, -0.10526316,
        0.10526316,  0.31578947,  0.52631579,  0.73684211,  0.94736842,
        1.15789474,  1.36842105,  1.57894737,  1.78947368,  2.        ])

# 2.0 Training the model

In [23]:
X_train, X_test, y_train, y_test = ms.train_test_split(X, y, test_size=0.2, random_state=42)

In [24]:
# define
model = lm.LogisticRegression()

# training
model.fit(X_train, y_train)

# performance
yhat_test = model.predict(X_test)


f1 = mt.f1_score(y_test, yhat_test)
print(f'F1-score: {f1}')

F1-score: 1.0


In [25]:
yhat_test

array([0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1])

# 3.0 Decision Boundary

No algoritmo de regressão logística queremos prever o valor de uma classe ($\hat{y}$) a partir dos dados de um registro ( $(x_1,x_2,...,x_n)$ ), isso é feito através da fórmula:

$\hat{y} = f(x_1,x_2,...,x_n) = \frac{1}{1 \;+\; e^{-\theta}} = \frac{1}{1 \;+\; e^{-(\theta_0 + \sum_{i=1}^{n}\theta_ix_i)}}$

Onde:

$\theta = \theta_0 + \sum_{i=1}^{n}\theta_ix_i = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n$

Após treinarmos o algo conseguimos verificar quais são os valores de $\theta_{i}$ que melhor se ajustam aos dados do dataset, isso é feito utilizando-se acessando os valores do atributos `.coef_` e `.intercept_` do modelo treinado (objeto).

In [26]:
model.coef_

array([[3.31951901, 0.14980712]])

In [27]:
model.intercept_

array([0.42765485])

Nesse problema temos 2 features, portanto:

$\theta = \theta_0 + \theta_1x_1 + \theta_2x_2$

In [28]:
theta0 = model.intercept_[0]
theta1, theta2 = model.coef_[0]

Com os valores dos parâmetros conseguimos ver a curva ajustada:

In [35]:
def sigmoid(x, y):
    return 1 / (1 + np.exp(-(theta0 + theta1*x + theta2*y)))


fig1 = plt.figure()
ax1 = plt.axes(projection='3d')

ax1.scatter3D(X[:,0], X[:,1], y, c=y)
ax1.plot_surface(x_plot, y_plot, sigmoid(x_plot, y_plot))

ax1.set_xlabel('$x_1$')
ax1.set_ylabel('$x_2$');

<IPython.core.display.Javascript object>

Com os valores dos parâmetros de ajuste $\theta_{i}$ podemos encontar a região de separação entre as classes dentro do espaço de features. Como não definimos nenhum threshold, por padrão o algoritmo utilizar $\hat{y}=0.5$, o que pelo modelo de regressão implica em:

$\hat{y} = \frac{1}{2} = \frac{1}{1+e^{-\theta}} \;\;\;\; \Rightarrow \;\;\;\; \theta = 0$

A decision boundary será dada pelo par de pontos $(x_1, x_2)$ que satisfazer a equação abaixo:

$\theta \; = \theta_0 + \theta_1 x_1 + \theta_2 x_2 = 0$

Resolvendo a equação para $x_2$ obtemos:

$x_2 = -(\theta_1 / \theta_2)x_1 - \theta_0 / \theta_2 $


Comparando com a equação da reta $y=mx+b$ obtemos os coeficientes linear e angular:

* $m = -\;(\theta_1 / \theta_2)$
* $b = -\;(\theta_0 / \theta_2)$

In [34]:
m = -(theta1/theta2)
b = -(theta0/theta2)


x_line = np.linspace(-2, 2, 100)
y_line = m*x_line + b

fig = plt.figure()
ax = plt.axes()

ax.plot(x_line, y_line, lw=1, ls='--')
ax.scatter(X[:,0], X[:,1], c=y)

ax.set_ylim(-4, 4)

ax.set_xlabel('$x_1$')
ax.set_ylabel('$x_2$')
ax.set_title('Decision Boundary para um threshold de 0.5');

<IPython.core.display.Javascript object>

# 4.0 Decision Boundary Probability

[Diferenças entre `np.meshgrid()` e `np.megrid[]`](https://stackoverflow.com/questions/12402045/mesh-grid-functions-in-python-meshgrid-mgrid-ogrid-ndgrid)

In [36]:
# a função 'np.megrid' funciona de maneira bem parecida com 'np.meshgrid()' usada anteriormente, só que
# ao contrário de meshgrid onde tínhamos que usar aos vetores criados por alguma outra função ('np.linspace()'),
# com megrid podemos criar um grid passando o formato do grid através de fancy indexing.
np.mgrid[-2:2.5:0.01, -2:3.0:0.01]

array([[[-2.  , -2.  , -2.  , ..., -2.  , -2.  , -2.  ],
        [-1.99, -1.99, -1.99, ..., -1.99, -1.99, -1.99],
        [-1.98, -1.98, -1.98, ..., -1.98, -1.98, -1.98],
        ...,
        [ 2.47,  2.47,  2.47, ...,  2.47,  2.47,  2.47],
        [ 2.48,  2.48,  2.48, ...,  2.48,  2.48,  2.48],
        [ 2.49,  2.49,  2.49, ...,  2.49,  2.49,  2.49]],

       [[-2.  , -1.99, -1.98, ...,  2.97,  2.98,  2.99],
        [-2.  , -1.99, -1.98, ...,  2.97,  2.98,  2.99],
        [-2.  , -1.99, -1.98, ...,  2.97,  2.98,  2.99],
        ...,
        [-2.  , -1.99, -1.98, ...,  2.97,  2.98,  2.99],
        [-2.  , -1.99, -1.98, ...,  2.97,  2.98,  2.99],
        [-2.  , -1.99, -1.98, ...,  2.97,  2.98,  2.99]]])

In [42]:
xx, yy = np.mgrid[-2:2.5:0.01, -2:3.0:0.01]
grid = np.c_[xx.ravel(), yy.ravel()]

In [43]:
xx

array([[-2.  , -2.  , -2.  , ..., -2.  , -2.  , -2.  ],
       [-1.99, -1.99, -1.99, ..., -1.99, -1.99, -1.99],
       [-1.98, -1.98, -1.98, ..., -1.98, -1.98, -1.98],
       ...,
       [ 2.47,  2.47,  2.47, ...,  2.47,  2.47,  2.47],
       [ 2.48,  2.48,  2.48, ...,  2.48,  2.48,  2.48],
       [ 2.49,  2.49,  2.49, ...,  2.49,  2.49,  2.49]])

In [44]:
# o método 'ravel()' transforma uma array de duas dimensões em uma array unidimensional, na prática essa função
# pega linha de baixo coloca ao final da linha de cima e repete esse processo até termos uma única 'linha'.
xx.ravel()

array([-2.  , -2.  , -2.  , ...,  2.49,  2.49,  2.49])

In [45]:
# o comando 'np.c_[]' utilizado duas linhas acimas criou uma array bidimensional em que cada array passada (xx, yy)
# se tornou uma coluna da matriz (2d array). O resultado do comando foi guardado na variável 'grid' 
grid

array([[-2.  , -2.  ],
       [-2.  , -1.99],
       [-2.  , -1.98],
       ...,
       [ 2.49,  2.97],
       [ 2.49,  2.98],
       [ 2.49,  2.99]])

Utilizando o conjunto de pontos criados e armazenados na variável `grid` vamos estimar qual seria a probabilidade de cada ponto desse conjunto de pertencer a classe `1`.

In [59]:
print(f'Shape xx:\t\t {xx.shape}')
print(f'Shape xx.ravel():\t {xx.ravel().shape}')

Shape xx:		 (450, 500)
Shape xx.ravel():	 (225000,)


In [60]:
grid.shape

(225000, 2)

In [64]:
# estamos calculando a probabilidade de cada ponto do grid pertencer a classe 0 ou 1, e selecionando as 
# probabilidades referentes à classe 1. Após fazermos a predição, mudamos o shape de vetor que seria de (225000,)
# para (450,500) de modo que tenha as mesma dimensões de 'xx' e 'yy', isso nos permitirá plotar um mapa de contorno.
probs = model.predict_proba(grid)[:, 1].reshape(xx.shape)

In [65]:
probs.shape

(450, 500)

In [66]:
probs

array([[0.00148479, 0.00148701, 0.00148924, ..., 0.00312106, 0.00312573,
        0.0031304 ],
       [0.00153483, 0.00153712, 0.00153942, ..., 0.00322607, 0.00323089,
        0.00323571],
       [0.00158655, 0.00158892, 0.0015913 , ..., 0.00333459, 0.00333957,
        0.00334456],
       ...,
       [0.99975822, 0.99975858, 0.99975895, ..., 0.99988515, 0.99988532,
        0.9998855 ],
       [0.99976612, 0.99976647, 0.99976681, ..., 0.9998889 , 0.99988907,
        0.99988923],
       [0.99977375, 0.99977409, 0.99977443, ..., 0.99989253, 0.99989269,
        0.99989285]])

In [77]:
fig, ax = plt.subplots(figsize=(8,6))

contour = ax.contourf(xx, yy, probs, 25, cmap='RdBu', vmin=0, vmax=1)

barra_lateral = fig.colorbar(contour)
barra_lateral.set_label('P(y=1)')

ax.scatter(X_train[:,0], X_train[:,1], c=y_train)

ax.set(
    aspect='equal',
    xlim=(-2, 2.5),
    ylim=(-2, 3.0),
    xlabel='$x_1$',
    ylabel='$x_2$',
);

<IPython.core.display.Javascript object>

In [78]:
type(barra_lateral)

matplotlib.colorbar.Colorbar

In [79]:
type(ax)

matplotlib.axes._axes.Axes

In [81]:
np.c_?