<h1 style='font-size:40px'>Supervised Machine Learning - Part 2</h1>

<h2 style='font-size:30px'> Naive Bayes Classifiers</h2>

<div>
    <ul style='font-size:20px'>
        <li>
            O Naïve Bayes é um algoritmo cuja premissa é que as diferentes features das instâncias do dataset não são correlacionadas (por isso diz-se que ele é ingênuo).
        </li>
        <li>
            Ele é bastante eficiente em seu processo de aprendizado e tem uma alta performance em algumas tarefas, mas sua suposição inicial pode levá-lo a ter piores resultados do que outros classificadores.
        </li>
        <li>
            O algoritmo possui três <em>flavours </em>, o Gaussian, o Bernoulli e o Multinomial. Por ora, nos atentaremos apenas ao primeiro, enquanto os dois últimos serão abordados no curso de NLP.
        </li>
    </ul>
</div>

In [8]:
from sklearn.datasets import make_classification#, make_blobs, make_friedman1, make_regression
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
# Criando um dataset fictício para classificação.
X_C2, y_C2 = make_classification(n_samples = 100, n_features=2,
                                n_redundant=0, n_informative=2,
                                n_clusters_per_class=1, flip_y = 0.1,
                                class_sep = 0.5, random_state=0)

# Segregando os dados com 'train_test_split'
X_train, X_test, y_train, y_test = train_test_split(X_C2, y_C2, random_state=0)
gaussian = GaussianNB().fit(X_train, y_train)
gaussian.score(X_test, y_test)

0.84

<center>
    <h1>Prós e Contras de Naïve Bayes</h1>
    <img src='bayes1.png'>
</center>

<div>
    <hr>
    <h2 style='font-size:30px'> Random Forests</h2>   
</div>

<div>
    <ul style='font-size:20px'>
        <li>
            O Random Forests consiste na realização de várias Decision Trees em um único dataset. Pode ser utilizado tanto para classificação, quanto regressão.
        </li>
        <li>
            A quantidade de árvores da floresta será definida pelo parâmetro <em>n_estimator</em>. Por fim, os parâmetros de segregação de dados (os que criam os diferentes nodes da árvore) também serão definidos ao acaso; no entanto, podemos definir a quantidade de parâmetros a serem utilizados em cada árvore com o argumento <em>max_features</em>.
        </li>
        <li>
            Vale ressaltar que cada árovre terá o seu próprio dataset de treino, contendo linhas aletórias e até mesmo repetidas do <em>X_train</em>.
        </li>
    </ul>
</div>
<div>
    <h3 style='font-size:30px;font-style:italic'> Resultado do algoritmo</h3>
    <ul style='font-size:20px'> 
        <li>
            Para regressão, o valor final da instância será a média de todas as previsões das árvores. Já com a classificação, se pegará as probabilidades de ocorrência de cada classe retornadas pelas árvores. Ao final, se calculará a média delas e a categoria com o maior probabilidade média será designada à instância.
        </li>
        <li>
            É importante destacar que o objetivo do Random Forests é de criar um <em> ensemble</em> de modelos. Com isso, as forças de cada um serão combinadas e suas fraquezas minimizadas (como, por exemplo, a alta probabilidade de overfitting de uma única Decision Tree) . Isso é uma prática comum em ML.
        </li>
    </ul>
</div>

In [24]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

# Utilizando o dataset de frutas.
fruits = pd.read_table('fruit_data_with_colors (1).txt')
X, y = fruits[['mass', 'width', 'height', 'color_score']], fruits['fruit_label']
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 0)

# Definindo vários números de árvores para as florestas.
for n_estimators in [5, 10, 50, 100]:
    clf = RandomForestClassifier(n_estimators=n_estimators, random_state=0).fit(X_train, y_train)
    # Verificando a precisão de cada floresta.
    print(f'Test score when n_estimators={n_estimators}: {clf.score(X_test, y_test):.2%}')

Test score when n_estimators=5: 80.00%
Test score when n_estimators=10: 86.67%
Test score when n_estimators=50: 80.00%
Test score when n_estimators=100: 86.67%


In [13]:
# Agora, teremos a aplicação do Random Forests no dataset de câncer de mama.
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_breast_cancer

X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=0)

# Criando o modelo de Random Forests com algumas regularizations.
clf = RandomForestClassifier(n_estimators = 10, max_features=8).fit(X_train, y_train)
print(f'Score em treino: {clf.score(X_train, y_train) :.1%}')
print(f'Score em teste: {clf.score(X_test, y_test) :.1%}')

Score em treino: 99.8%
Score em teste: 95.1%


<center>
    <h1>Prós e Contras do Random Forest </h1>
    <img src='random_forest1.png'>
</center>

<center>
    <h1>Principais parâmetros do Random Forest </h1>
    <img src='random_forest2.png'>
</center>

<div>
    <hr>
    <h2 style='font-size:30px'>Gradient Boosted Decision Trees </h2>
</div>

<div>
    <ul style='font-size:20px'>
        <li>
            O Gradient Boosted Decision Trees é um outro algoritmo que produz múltiplas Árvores de Decisão. No entanto, diferentemente do Random Forest, elas não são criadas de maneira aleaória. Cada nova árvore gerada tentará corrigir os erros da anterior.
        </li>
        <li>
            O quão rigoroso será esse aperfeiçoamento é definido pelo parâmetro <em>learning rate</em>.
        </li>
    </ul>
</div>

In [1]:
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier

X_D2, y_D2 = make_blobs(n_samples = 100, n_features = 2,
                       centers = 8, cluster_std = 1.3,
                       random_state = 4)
y_D2 = y_D2 % 2

# Segregando os dados.
X_train, X_test, y_train, y_test = train_test_split(X_D2, y_D2, random_state=0)
clf = GradientBoostingClassifier().fit(X_train, y_train)
clf.score(X_test, y_test)

0.76

In [27]:
# Agora, aplicando o algoritmo no dataset de câncer de mama.
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier

X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

clf = GradientBoostingClassifier(random_state=0).fit(X_train, y_train)
print(f'Score de treino: {clf.score(X_train, y_train) :.2%}')
print(f'Score de teste: {clf.score(X_test, y_test) :.2%}')

Score de treino: 100.00%
Score de teste: 96.50%


In [28]:
# Agora, vamos modificar alguns parâmetros do modelo.
clf = GradientBoostingClassifier(learning_rate=0.01, max_depth=2, random_state=0).fit(X_train, y_train)
print(f'Score de treino: {clf.score(X_train, y_train) :.2%}')
print(f'Score de teste: {clf.score(X_test, y_test) :.2%}')

Score de treino: 97.42%
Score de teste: 96.50%


<center>
    <h1> Prós e Contras do Gradient Boosting</h1>
    <img src='gradient1.png'>
</center>

<center>
    <h1> Principais Parâmetros do Gradient Boosting</h1>
    <img src='gradient2.png'>
</center>

<div>
    <hr>
    <h2 style='font-size:30px'> Neural Networks</h2>
</div>

<h3 style='font-size:30px;font-style:italic'>Relembrando Conceitos</h3>
<center>
    <img src='neural1.png'>
</center>
<div>
    <ul style='font-size:20px'>
        <li>
            Aprendemos que os algoritmos de Regressão criam uma fórmula em que cada <em>feature</em> presente no dataset tem um peso correspondente à sua relevância na previsão dos números. Ao olharmos para as regressões logísticas, notamos que elas dão um passo além, aplicando a fórmula da regressão linear à função <em>logistic </em>, o que vai fazer com que todos os seus outputs estejam no intervalo [0,1].
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'>As redes neurais</h3>
<center>
    <img src='neural2.png'>
</center>
<div>
    <ul style='font-size:20px'> 
        <li>
            As redes neurais, por sua vez, vão ainda mais além, em termos de complexidade, do que a regressão logística. Os valores de input são aplicados a uma camada do algoritmo conhecida como <em>hidden layer</em>; para cada camada, um coeficiente diferente é associado à variável, o que dará origem a uma fórmula de soma ponderada. Essa soma será aplicada a uma função conhecida como <em>activation function</em>. Por último, o output da <em>activation function</em> de cada camada será associado a um novo coeficiente, o que se resultará em uma nova fórmula de soma ponderada. Essa última fórmula é aquela com que o modelo fará as suas previsões.
        </li>
    </ul>
</div>

<center>
    <h1> Algumas das <em>Activation Functions</em> utilizáveis</h1>
    <img src='neural3.png'>
</center>

In [11]:
# Aqui, trabalharemos com os Perceptrons.
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier

X_D2, y_D2 = make_blobs(n_samples = 100, n_features = 2,
                       centers = 8, cluster_std = 1.3,
                       random_state = 4)
X_train, X_test, y_train, y_test = train_test_split(X_D2, y_D2, random_state=0)

# O argumento 'hidden_layer_sizes' definirá o número de 'hidden units' da 'hidden layer' (os bloquinhos
# h1, h2, etc da penúltima imagem). Isso, por consequência, definirá a quantidade de argumentos que a função final
# da rede neural receberá.

# O 'solver' do modelo terá o papel de definir os coeficientes da função do modelo. Para datasets volumosos,
# 'adam' é a escolha indicada; para os menores 'lbfgs' tende a ser mais rápido.

# Os coeficientes do modelo são inicializados aleatoriamente, influenciados pela semente
# do argumento 'random_state'.
clf = MLPClassifier(hidden_layer_sizes=[10], solver='lbfgs', random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


0.72

<center>
    <img src='neural4.png'>
</center>
<ul style='font-size:20px'>
    <li>
        É possível criarmos mais de uma <em>hidden layer</em> para o algoritmo também.
    </li>
</ul>

In [12]:
# Criando um Multi-Layer Perceptron
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
X_D2, y_D2 = make_blobs(n_samples = 100, n_features = 2,
                       centers = 8, cluster_std = 1.3,
                       random_state = 4)
X_train, X_test, y_train, y_test = train_test_split(X_D2, y_D2, random_state=0)

# O procedimento é o mesmo da última célula, com o diferencial que 'hidden_layer_sizes' receberá mais 
# de uma integer.
clf = MLPClassifier(hidden_layer_sizes=[10, 10], solver='lbfgs', random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


0.72

<h3 style='font-size:30px;font-style:italic'>As consequências de múltiplas hidden layers</h3>
<div>
    <ul style='font-size:20px'>
        <li>
            É preciso ser cauteloso com o número de camadas que nossa rede neural terá. Ao tornar o modelo mais complexo, o risco de <em>overfitting</em> aumenta, sendo conveniente a aplicação de regularizações.
        </li>
        <li>
            A imagem abaixo apresenta as áreas de decisão para dois MLP, um com uma única camada, e o outro com uma segunda <em>hidden layer</em>.
        </li>
    </ul>
</div>
<center>
    <img src='neural5.png'>
</center>

In [8]:
# O objeto MLPClassifier possui, assim como os métodos de regressão, um argumento 'alpha', que é capaz
# de restringir a complexidade do algoritmo.
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_blobs
X_D2, y_D2 = make_blobs(n_samples = 100, n_features = 2, centers = 8, 
                        cluster_std = 1.3, random_state = 4)
X_train, X_test, y_train, y_test = train_test_split(X_D2, y_D2, random_state=0)

# Criando Multi-Layer Perceptrions com diferentes valores de 'alpha'.
for alpha in [0.01, 0.1, 1.0, 5.0]:
    clf = MLPClassifier(hidden_layer_sizes=[100,100], activation='tanh', solver='lbfgs', 
                      alpha=alpha, random_state=0).fit(X_train, y_train)
    print(f'Score no set de treino quando alpha={alpha}: {clf.score(X_train, y_train)}')
    print(f'Score no set de teste quando alpha={alpha}: {clf.score(X_test, y_test)}')

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


Score no set de treino quando alpha=0.01: 0.9866666666666667
Score no set de teste quando alpha=0.01: 0.76


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


Score no set de treino quando alpha=0.1: 0.9866666666666667
Score no set de teste quando alpha=0.1: 0.72


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


Score no set de treino quando alpha=1.0: 0.9333333333333333
Score no set de teste quando alpha=1.0: 0.72
Score no set de treino quando alpha=5.0: 0.8666666666666667
Score no set de teste quando alpha=5.0: 0.76


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


<center>
    <h1>Impacto de <em>alpha</em> nas fronteiras de decisão</h1>
    <img src='neural6.png'>
</center>

In [16]:
# Aplicação final de um MLPClassifier em um dataset real.
from sklearn.datasets import load_breast_cancer
from sklearn.metrics import recall_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
X, y = load_breast_cancer(return_X_y=True)

# Aplicando um MinMaxScaler em X.
scaler = MinMaxScaler()
X_min_max = scaler.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_min_max, y, random_state=0)

# Criando o MLPClassifier
clf = MLPClassifier(hidden_layer_sizes=[100,100],activation='tanh', solver='lbfgs',
           alpha=5, random_state=0).fit(X_train, y_train)
print(f'Score set de treino {clf.score(X_train, y_train)}')
print(f'Score set de teste {clf.score(X_test, y_test)}')

Score set de treino 0.9835680751173709
Score set de teste 0.965034965034965


<h3 style='font-size:30px;font-style:italic'>MLPRegressor</h3>
<div>
    <ul style='font-size:20px'>
        <li>
            Os Multi Layer Perceptrons também são aplicáveis a problemas de Regressão. Faremos brevemente um exemplo de uso do MLPRegressor.
        </li>
    </ul>
</div>

In [24]:
from sklearn.datasets import make_regression 
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPRegressor


X_R1, y_R1 = make_regression(n_samples = 100, n_features=1, n_informative=1, bias = 150.0,
                            noise = 30, random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X_R1, y_R1, random_state=0)

for activation in ['tanh', 'relu']:
    for alpha in [0.01, 0.1, 1.0, 5.0]:
        reg = MLPRegressor(hidden_layer_sizes=[100,100], activation=activation, solver='lbfgs',
                          alpha=alpha, random_state=0).fit(X_train, y_train)
        y_predict = reg.predict(X_test)
        print(f'Mean Squared Error quando alpha={alpha} e activation={activation}: {mean_squared_error(y_test, y_predict)}')

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


Mean Squared Error quando alpha=0.01 e activation=tanh: 1246.362648845935


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


Mean Squared Error quando alpha=0.1 e activation=tanh: 1423.4965262385622


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


Mean Squared Error quando alpha=1.0 e activation=tanh: 1327.34559786546


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


Mean Squared Error quando alpha=5.0 e activation=tanh: 1278.1597756154995


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


Mean Squared Error quando alpha=0.01 e activation=relu: 1275.7502426033227


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


Mean Squared Error quando alpha=0.1 e activation=relu: 1236.6394415677203
Mean Squared Error quando alpha=1.0 e activation=relu: 1205.8426210543153
Mean Squared Error quando alpha=5.0 e activation=relu: 1238.170940050707


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


<center>
    <h1> Prós e contras das redes neurais</h1>
    <img src='neural7.png'>
</center>

<div>
    <hr>
    <h2 style='font-size:30px'> Deep Learning</h2>
</div>

<div>
    <ul style='font-size:20px'>
        <li>
            O Deep Learning é uma área do aprendizado de máquina cuja origem provém de uma das maiores dificuldades do campo: a engenharia de dados. Ou seja, o processo que almeja a seleção e recorte dos dados que melhor alimentem o modelo escolhido
        </li>
        <li>
            Os algoritmos de Deep Learning são capazes de, por conta própria, segmentar o dataset e buscar as combinações que melhor preparem o algoritmo.
        </li>
    </ul>
</div>

<center> 
    <img src='deep1.png'>
</center>
<div>
    <ul style='font-size:20px'> 
        <li>
            No reconhecimento de faces, as fotografias do dataset de treino são quebradas em pedaços minúsculos. Dessa forma, cada camada do modelo fará pequenas combinações entre esses fragmentos ate que sejam capazes de formar imagens verossímeis de rostos.
        </li>
    </ul>
</div>

<center> 
    <h1> Prós e Contras do Deep Learning</h1>
    <img src='deep2.png'>
</center>


<div>
    <hr>
    <h2 style='font-size:30px'> Data Leakage</h2>
</div>

<div>
    <ul style='font-size:20px'> 
        <li>
            O Data Leakage é a situação em que dados sobre o que estamos tentando prever surgem durante a fase de treino do modelo. Ademais, deve-se considerar que essas mesmas informações não estarão dsponíveis ao nosso modelo no momento em que ele for colocado em ação.
        </li>
        <li>
            Deve-se suspeitar a ocorrênca de um Leakage quando o algoritmo tem uma performance muito pior no seu deployment do que quando na fase de treino e teste.
        </li>
        <li> 
            Casos de Data Leakage:
            <ul style='list-style-type:lower-alpha'> 
                <li>
                    O rótulo ou valor das instâncias do dataset de treino (y_train) surgem como features no X_train.
                </li>
                <li>
                    Instâncias do dataset de teste estão contidas no dataset de treino.
                </li>
                <li>
                    Features do dataset de treino/teste que não estarão ao dispor do modelo quando posto em ação. Por exemplo, se queremos ter um sistema que prevê se um usuário abandonará o site que está visitando enquanto o navega, ter um dataset com o tempo total de navegação de usuários anteriores não é algo legítmo. Afinal de contas, essa feature não existirá enquanto o indivíduo não sair do site.
                </li>
                <li>
                    Features que, indiretamente, já indicam o valor ou categoria do dado que queremos prever. Neste caso, é necessário ter bastante atenção e raciocínio quando se observa o dataset. 
                </li>
                <li>
                    Informações decodificadas. Às vezes, decodificar dados no dataset pode ser inútil ou prejudicial, pois essas informações podem não estar presentes ao modelo quando em ação justamente por virem criptografadas ou escondidas. 
                </li>
            </ul>
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'>Como identificar data leakages</h3>
<div>
    <ul style='font-size:20px'>
        <li>
            Verificar features muito correlatas com o valor-alvo.
        </li>
        <li>
            Features com pesos muito altos podem ser um indicativo de Leakage.
        </li>
        <li>
            Checar se a performance do nosso modelo é muito superior à de outros algoritmos no mesmo dataset.
        </li>
        <li>
            Colocar o modelo em vigor. Caso o desempenho seja muito pior do que durante a fase de treino e teste, um Leakage é altamente provável de ter acontecido.
        </li>
    </ul>
</div>

REVER A PALESTRA DE DATA LEAKAGE

In [29]:
! mv /Users/felipeveiga/Desktop/Screen\ Shot\ 2022-04-12\ at\ 13.02.56.png ./deep2.png