<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Desenvolvimento e Deploy de Modelos de Machine Learning</font>
## <font color='blue'>Projeto 3</font>
### <font color='blue'>Deploy de Modelo de Machine Learning na Nuvem AWS Para Gestão de Escolas</font>

## Pacotes Python Usados no Projeto

In [1]:
!pip install -q -U watermark

In [2]:
# Imports
import sklearn
import pickle
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, roc_auc_score, classification_report

In [3]:
%reload_ext watermark
%watermark -a "Data Science Academy"

Author: Data Science Academy



## Carregando os Dados

In [4]:
# Carregando o dataset
df_dsa = pd.read_csv('dataset.csv')

In [5]:
# Tipo de objeto
type(df_dsa)

pandas.core.frame.DataFrame

In [6]:
# Shape
df_dsa.shape

(300, 4)

In [7]:
# Info
df_dsa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 4 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nota_exame_ingles        300 non-null    float64
 1   valor_qi                 300 non-null    int64  
 2   nota_exame_psicotecnico  300 non-null    int64  
 3   admitido                 300 non-null    int64  
dtypes: float64(1), int64(3)
memory usage: 9.5 KB


In [8]:
# Amostra dos dados
df_dsa.head()

Unnamed: 0,nota_exame_ingles,valor_qi,nota_exame_psicotecnico,admitido
0,5.41,115,54,0
1,7.36,105,77,1
2,7.76,96,62,1
3,5.51,112,51,0
4,7.19,97,47,1


## Pré-Processamento

In [9]:
# Separamos X e y
X = df_dsa.drop(columns=['admitido'])
y = df_dsa['admitido']

In [10]:
# Dividmos os dados em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size = 0.2, random_state = 2)

In [11]:
# Cria o padronizador
dsa_scaler = StandardScaler()

In [12]:
# Fazemos fit e transform somente em treino
X_treino_scaled = dsa_scaler.fit_transform(X_treino)

In [13]:
# Fazemos transform em teste
X_teste_scaled = dsa_scaler.transform(X_teste)

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
## Versão 1 do Modelo com Regressão Logística

A Regressão Logística é um algoritmo de aprendizado de máquina usado para prever a probabilidade de uma variável dependente categórica. Embora o nome sugira regressão, é mais comumente usado em problemas de classificação binária, onde o objetivo é prever uma das duas classes possíveis (como "sim" ou "não", "1" ou "0", "positivo" ou "negativo"). O algoritmo modela a probabilidade de que uma determinada entrada pertença a uma categoria específica.

O funcionamento da Regressão Logística é baseado no conceito de função logística, também conhecida como função sigmoide. Essa função tem uma curva em forma de "S", que pode mapear qualquer número real para um valor entre 0 e 1, tornando-a adequada para estimar probabilidades. O modelo calcula a probabilidade de a entrada pertencer a uma classe específica e se essa probabilidade for maior que um limiar definido (geralmente 0,5), a entrada é classificada naquela classe. A função logística transforma a saída linear (uma combinação linear de variáveis independentes ponderadas por coeficientes, mais um termo de interceptação) em uma probabilidade.

Em termos de treinamento, a Regressão Logística envolve o ajuste dos coeficientes das variáveis independentes. Isso é feito através da maximização da função de verossimilhança, que busca encontrar os coeficientes que tornam as probabilidades previstas mais próximas dos resultados observados (reais). Essencialmente, o algoritmo tenta traçar uma linha de decisão que melhor separa as classes. Para avaliar a performance do modelo, são usadas métricas como a acurácia, a matriz de confusão, o AUC-ROC (Área sob a Curva - Característica de Operação do Receptor) e outras. 

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

In [14]:
# Cria o modelo
modelo_dsa_v1 = LogisticRegression()

In [15]:
# Treina o modelo
modelo_dsa_v1.fit(X_treino_scaled, y_treino)

In [16]:
# Obtém a previsão de classe
y_pred_v1 = modelo_dsa_v1.predict(X_teste_scaled)
y_pred_v1

array([1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0,
       1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0,
       0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1], dtype=int64)

In [17]:
# Obtém as probabilidades das previsões
y_pred_proba_v1 = modelo_dsa_v1.predict_proba(X_teste_scaled)[:, 1]
y_pred_proba_v1

array([0.98022782, 0.00853758, 0.99728018, 0.92060719, 0.98892818,
       0.91209264, 0.28416158, 0.98112584, 0.994874  , 0.09503492,
       0.95299449, 0.29556171, 0.98998317, 0.92906866, 0.99198539,
       0.87820868, 0.97886576, 0.29048839, 0.81421244, 0.82474907,
       0.02983432, 0.02217034, 0.95288716, 0.29612132, 0.52262812,
       0.05732346, 0.99835783, 0.73443083, 0.24605156, 0.75985974,
       0.92472025, 0.94307055, 0.87640117, 0.05571551, 0.00289766,
       0.96973285, 0.96381592, 0.21160734, 0.9922066 , 0.04271532,
       0.13577308, 0.94727191, 0.20214398, 0.12629434, 0.17176687,
       0.95695546, 0.93632496, 0.10081499, 0.88607713, 0.99830271,
       0.08631244, 0.08880899, 0.06172264, 0.12501502, 0.00634014,
       0.23687371, 0.18384315, 0.03732839, 0.02151441, 0.99482193])

In [18]:
# Calcula a acurácia
acc_v1 = accuracy_score(y_teste, y_pred_v1)
print(f"\nAcurácia: {acc_v1}")

# Calcula o AUC
auc_v1 = roc_auc_score(y_teste, y_pred_proba_v1)
print(f"\nAUC: {auc_v1}")

# Gera o relatório de classificação
class_report_v1 = classification_report(y_teste, y_pred_v1)
print("\nRelatório de Classificação:\n", class_report_v1)


Acurácia: 0.9

AUC: 0.98

Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.93      0.87      0.90        30
           1       0.88      0.93      0.90        30

    accuracy                           0.90        60
   macro avg       0.90      0.90      0.90        60
weighted avg       0.90      0.90      0.90        60



<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
## Versão 2 do Modelo com RandomForest

O algoritmo RandomForest, parte da família dos métodos de ensemble (conjunto), é um dos algoritmos de aprendizado de máquina mais populares e versáteis, usado tanto para tarefas de classificação quanto de regressão. Sua principal característica é a construção de um conjunto de árvores de decisão durante o treinamento e a saída do modelo é determinada pela média das previsões de todas as árvores no caso de regressão, ou pela votação majoritária no caso de classificação. O nome "RandomForest" deriva da maneira como o algoritmo cria uma "floresta" de árvores de decisão aleatórias durante o treinamento.

Cada árvore na floresta aleatória é construída a partir de uma amostra aleatória dos dados de treinamento (com substituição), conhecida como bootstrapping, o que confere ao modelo a propriedade de ser um "ensemble bagging". Além disso, em cada divisão de uma árvore, um subconjunto aleatório de características é selecionado para consideração, aumentando a diversidade entre as árvores e tornando o modelo mais robusto contra o overfitting. Essa aleatoriedade ajuda a melhorar a precisão do modelo e reduzir a variância, fornecendo uma solução eficaz para lidar com datasets grandes e complexos. As árvores individuais tendem a aprender e se adaptar excessivamente aos dados de treinamento (overfitting), mas quando combinadas em uma floresta aleatória, os erros de uma árvore são compensados pelos acertos das outras, resultando em um desempenho geral melhorado.

O RandomForest é amplamente apreciado por sua facilidade de uso, pois requer pouca configuração de hiperparâmetros e geralmente produz bons resultados com as configurações padrão. É também menos propenso ao overfitting do que uma única árvore de decisão. Além disso, oferece uma boa interpretabilidade através da importância das características, que mede o quanto cada característica contribui para a precisão da previsão do modelo. No entanto, apesar de suas muitas vantagens, pode ser computacionalmente intensivo e menos eficiente em termos de tempo e memória, especialmente com um número muito grande de árvores ou um dataset muito grande. 

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

In [19]:
# Cria o modelo
modelo_dsa_v2 = RandomForestClassifier()

In [20]:
# Treinamento do modelo
modelo_dsa_v2.fit(X_treino_scaled, y_treino)

In [21]:
# Obtém a previsão de classe
y_pred_v2 = modelo_dsa_v2.predict(X_teste_scaled)
y_pred_v2

array([1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0,
       1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1], dtype=int64)

In [22]:
# Obtém as probabilidades das previsões
y_pred_proba_v2 = modelo_dsa_v2.predict_proba(X_teste_scaled)[:, 1]
y_pred_proba_v2

array([1.  , 0.  , 0.99, 0.73, 1.  , 0.96, 0.16, 0.99, 1.  , 0.11, 1.  ,
       0.35, 0.94, 0.58, 1.  , 0.97, 0.96, 0.2 , 0.93, 0.87, 0.  , 0.  ,
       0.97, 0.31, 0.74, 0.07, 1.  , 0.26, 0.03, 0.55, 1.  , 0.99, 0.98,
       0.01, 0.02, 0.85, 0.45, 0.1 , 0.99, 0.07, 0.09, 0.57, 0.05, 0.09,
       0.07, 0.98, 0.94, 0.04, 1.  , 0.93, 0.06, 0.09, 0.05, 0.01, 0.07,
       0.32, 0.05, 0.01, 0.09, 1.  ])

In [23]:
# Calcula a acurácia
acc_v2 = accuracy_score(y_teste, y_pred_v2)
print(f"\nAcurácia: {acc_v2}")

# Calcula o AUC
auc_v2 = roc_auc_score(y_teste, y_pred_proba_v2)
print(f"\nAUC: {auc_v2}")

# Gera o relatório de classificação
class_report_v2 = classification_report(y_teste, y_pred_v2)
print("\nRelatório de Classificação:\n", class_report_v2)


Acurácia: 0.9

AUC: 0.9527777777777778

Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.90      0.90      0.90        30
           1       0.90      0.90      0.90        30

    accuracy                           0.90        60
   macro avg       0.90      0.90      0.90        60
weighted avg       0.90      0.90      0.90        60



<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
## Versão 3 do Modelo com Support Vector Machines (SVM)

Support Vector Machines (SVM) é um algoritmo de aprendizado de máquina poderoso e versátil, usado principalmente para tarefas de classificação, mas também aplicável em regressão. Em sua forma mais simples e mais comumente usada, o SVM é empregado para classificação binária. 

O objetivo principal do SVM é encontrar um hiperplano em um espaço N-dimensional (N sendo o número de características) que classifica distintamente os pontos de dados em duas categorias. Este hiperplano é escolhido de modo a ter a maior distância possível dos pontos de dados mais próximos de cada classe, conhecidos como vetores de suporte. Esta abordagem ajuda a maximizar a margem entre as classes, contribuindo para um modelo mais robusto e com melhor capacidade de generalização.

Uma das principais forças do SVM é sua capacidade de trabalhar eficientemente em espaços de alta dimensão e com margens claras de separação entre as classes. No entanto, quando os dados não são linearmente separáveis, o SVM utiliza uma técnica chamada "kernel trick". Essa técnica transforma os dados em um espaço de maior dimensão onde é possível realizar a separação linear. Os kernels mais comuns são o polinomial, o radial basis function (RBF) e o sigmoide. Essa abordagem torna o SVM particularmente eficaz em casos complexos, onde a relação entre as características e as classes não é imediatamente aparente.

Apesar de suas vantagens, o SVM pode ser desafiador em termos de escolha e ajuste dos parâmetros corretos, como o tipo de kernel e os parâmetros do kernel, que têm um impacto significativo no desempenho do modelo. Além disso, o SVM tende a ser menos eficiente em termos de memória e computacionalmente mais intensivo, especialmente com grandes conjuntos de dados. Também pode ser menos eficaz em situações com um número elevado de características em relação ao número de amostras ou em casos de classes muito desbalanceadas. Apesar desses desafios, sua eficácia em separar classes complexas o torna uma escolha popular para problemas de classificação em diversos campos.

https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

In [24]:
# Cria o modelo
modelo_dsa_v3 = SVC(verbose=True, probability=True)

In [25]:
# Treina o modelo
modelo_dsa_v3.fit(X_treino_scaled, y_treino)

[LibSVM]

In [26]:
# Obtém a previsão de classe
y_pred_v3 = modelo_dsa_v3.predict(X_teste_scaled)
y_pred_v3

array([1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0,
       1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0,
       0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1], dtype=int64)

In [27]:
# Obtém as probabilidades das previsões
y_pred_proba_v3 = modelo_dsa_v3.predict_proba(X_teste_scaled)[:, 1]
y_pred_proba_v3

array([0.97667326, 0.07431799, 0.93616277, 0.95182499, 0.95672822,
       0.95989468, 0.19277721, 0.96950993, 0.88457552, 0.05023584,
       0.96600943, 0.270436  , 0.95891901, 0.65651483, 0.94677837,
       0.94636238, 0.94112029, 0.20454044, 0.91798889, 0.91226595,
       0.04466563, 0.04971247, 0.96924584, 0.19850823, 0.59112444,
       0.03879536, 0.93075256, 0.26915997, 0.06173944, 0.68676854,
       0.9662023 , 0.9724277 , 0.9519965 , 0.04726536, 0.09681212,
       0.9561291 , 0.83517812, 0.14325964, 0.94787984, 0.03679532,
       0.06018417, 0.80503327, 0.32953112, 0.04905396, 0.06083334,
       0.96755702, 0.97041495, 0.06032899, 0.95680264, 0.92361611,
       0.04812172, 0.06994969, 0.02896016, 0.15992285, 0.07799991,
       0.36821549, 0.08852867, 0.03526055, 0.04252864, 0.94488003])

In [28]:
# Calcula a acurácia
acc_v3 = accuracy_score(y_teste, y_pred_v3)
print(f"\nAcurácia: {acc_v3}")

# Calcula o AUC
auc_v3 = roc_auc_score(y_teste, y_pred_proba_v3)
print(f"\nAUC: {auc_v3}")

# Gera o relatório de classificação
class_report_v3 = classification_report(y_teste, y_pred_v3)
print("\nRelatório de Classificação:\n", class_report_v3)


Acurácia: 0.9166666666666666

AUC: 0.9633333333333334

Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.93      0.90      0.92        30
           1       0.90      0.93      0.92        30

    accuracy                           0.92        60
   macro avg       0.92      0.92      0.92        60
weighted avg       0.92      0.92      0.92        60



Vamos escolher o modelo com maior AUC. Aqui estão algumas razões para optar por um modelo com maior AUC:

**Medida de Desempenho Abrangente**: A AUC-ROC é uma medida que considera todos os limiares de classificação possíveis, fornecendo uma visão geral do desempenho do modelo em diferentes níveis de sensibilidade e especificidade. Um modelo com uma AUC mais alta geralmente indica que tem uma melhor capacidade de distinguir entre as classes positivas e negativas em vários limiares.

**Robustez a Classes Desbalanceadas**: Em muitos problemas reais, o número de observações em uma classe é muito maior do que o outro, o que pode levar a um modelo tendencioso. A AUC-ROC é menos afetada pelo desbalanceamento de classes do que outras métricas, como a precisão, porque ela avalia o desempenho do modelo em todos os limiares de classificação, não apenas na decisão de corte padrão.

**Equilíbrio entre Sensibilidade e Especificidade**: A escolha de um modelo com a maior AUC implica que o modelo não apenas identifica corretamente os verdadeiros positivos (sensibilidade) mas também exclui corretamente os verdadeiros negativos (especificidade). Isso é fundamental em muitas aplicações práticas, como no diagnóstico médico, onde tanto os falsos negativos quanto os falsos positivos podem ter consequências graves.

**Comparação de Modelos**: A AUC oferece uma única métrica que pode ser usada para comparar a performance de diferentes modelos em um problema de classificação. Isso simplifica a escolha entre modelos, já que uma AUC mais alta indica, de maneira geral, um modelo que desempenha melhor a tarefa de classificar as observações corretamente.

**Independência de Decisão de Corte**: Diferentemente de métricas que dependem de um ponto de corte específico (como precisão, recall e F1-Score), a AUC considera a performance do modelo em todos os possíveis pontos de corte. Isso significa que a AUC reflete a qualidade do modelo em termos de sua capacidade de ranquear previsões corretamente, independentemente de como o limiar de decisão é posteriormente escolhido.

**Previsão de Probabilidades**: A curva ROC e, consequentemente, a AUC são particularmente úteis quando estamos interessados em prever probabilidades de classe em vez de classificações binárias. Um modelo que produz probabilidades calibradas e discriminativas entre as classes terá uma AUC mais alta.

In [29]:
# Salva o modelo em disco
pickle.dump(modelo_dsa_v1, open('modelo_dsa_final.pkl', 'wb'))

In [30]:
# Salva o padronizador
pickle.dump(dsa_scaler, open('scaler_final.pkl', 'wb'))

**Crie sua conta na AWS para acompanhar as aulas do deploy do modelo com aplicação web na nuvem**.

In [31]:
%watermark -a "Data Science Academy"

Author: Data Science Academy



In [32]:
#%watermark -v -m

In [33]:
#%watermark --iversions

# Fim