### Sobre o notebook

Esse notebook contém diversas atividades envolvendo os aprendizados de cada aula. É um notebook construído com o enunciado de cada atividade e com espaço para construir e executar suas soluções. Se for necessário adicionar mais células de código para resolver a atividade, fique à vontade para acrescentar.

Vamos praticar o que foi apresentado na aula a partir de algumas atividades, porém usando um conjunto de dados diferente: **dados de pacientes a serem diagnosticados com diabetes ou não**.

## Aula 1

### Atividade 1

A primeira etapa em um projeto de Machine Learning é a obtenção de dados. A partir disso, podemos fazer a leitura dos dados para explorar os dados. Como tarefa inicial, faça o upload do arquivo de dados para o Google Colab, importe a biblioteca `Pandas` e faça a leitura da base de dados.

In [2]:
import pandas as pd

df = pd.read_csv('dados_diabetes.csv')
df.head()

Unnamed: 0,glicemia,pressao_sanguinea,dobra_cutanea_triceps,insulina,imc,idade,diabetes
0,89,66,23,94,28.1,21,
1,137,40,35,168,43.1,33,
2,78,50,32,88,31.0,26,sim
3,197,70,45,543,30.5,53,
4,189,60,23,846,30.1,59,sim


### Atividade 2

Após realizar a leitura da base de dados, é importante checar a presença de dados nulos, que podem trazer barreiras para a construção de modelos de Machine Learning. Nesta tarefa, vasculhe os dados usando o método `info()` para verificar a presença de dados nulos.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 394 entries, 0 to 393
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   glicemia               394 non-null    int64  
 1   pressao_sanguinea      394 non-null    int64  
 2   dobra_cutanea_triceps  394 non-null    int64  
 3   insulina               394 non-null    int64  
 4   imc                    394 non-null    float64
 5   idade                  394 non-null    int64  
 6   diabetes               265 non-null    object 
dtypes: float64(1), int64(5), object(1)
memory usage: 21.7+ KB


In [4]:
df.isna().sum()

glicemia                   0
pressao_sanguinea          0
dobra_cutanea_triceps      0
insulina                   0
imc                        0
idade                      0
diabetes                 129
dtype: int64

In [5]:
df['diabetes'].value_counts(dropna=False)

nao    173
NaN    129
sim     92
Name: diabetes, dtype: int64

Podemos verificar presença de valores nulos na variável alvo. Não há valores nulos nas outras colunas.

### Atividade 3

Dados inconsistentes podem interferir no aprendizado de um modelo de Machine Learning, fazendo com que aprenda com padrões que não existem na realidade. Utilize o método
`describe()` para checar a inconsistência nos dados em cada uma das variáveis numéricas.

In [6]:
df.describe()

Unnamed: 0,glicemia,pressao_sanguinea,dobra_cutanea_triceps,insulina,imc,idade
count,394.0,394.0,394.0,394.0,394.0,394.0
mean,122.304569,70.654822,29.106599,155.548223,32.988579,30.814721
std,31.396725,12.469919,10.504273,118.775855,7.21016,10.198971
min,0.0,24.0,7.0,14.0,0.0,21.0
25%,99.0,62.0,21.0,76.25,28.325,23.0
50%,119.0,70.0,29.0,125.0,33.2,27.0
75%,143.0,78.0,36.75,190.0,37.075,36.0
max,198.0,110.0,63.0,846.0,67.1,81.0


Dos dados apresentados, com exceção da idade, não tenho conhecimentos para saber se eles estão dentro de um intervalo consistente. A coluna idade parece estar consistente, com valores de idade no intervalo de 21 a 81 anos. Valor mínimo 0 para glicemia e IMC me parece estranho, mas não sei dizer se pode ou não ocorrer. O ideal neste caso seria conversar com alguém da área.

## Aula 2

### Atividade 1

Para o treinamento de um modelo de classificação supervisionado, é preciso de variáveis explicativas que contêm características importantes dos dados e de uma variável alvo, contendo as respostas. Os dados da variável alvo não podem ser nulos, uma vez que, com isso, o modelo não pode compreender qual é a regra necessária para se chegar ao resultado. Na base de dados fornecida, a coluna 'diabetes' é a variável alvo e contém dados nulos.

Sendo assim, remova os dados nulos da variável alvo e divida o conjunto de dados entre variáveis explicativas (x) e variável alvo (y), para que possam ser usadas para treinamento de um modelo de classificação.

In [7]:
df_labelled = df.dropna()
df_labelled.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 265 entries, 2 to 393
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   glicemia               265 non-null    int64  
 1   pressao_sanguinea      265 non-null    int64  
 2   dobra_cutanea_triceps  265 non-null    int64  
 3   insulina               265 non-null    int64  
 4   imc                    265 non-null    float64
 5   idade                  265 non-null    int64  
 6   diabetes               265 non-null    object 
dtypes: float64(1), int64(5), object(1)
memory usage: 16.6+ KB


In [8]:
X = df_labelled.drop('diabetes', axis=1)
y = df_labelled['diabetes']

### Atividade 2

Para gerar um modelo de Machine Learning, certos requisitos precisam ser cumpridos. A depender do algoritmo utilizado, os dados precisam estar em um formato numérico e no caso do SVM, os dados das variáveis explicativas precisam estar em uma mesma escala, para que não gerem um impacto diferente no cálculo de distâncias.

Por conta disso, realize a transformação dos dados da variável alvo ('diabetes') para o formato numérico usando o método [`LabelEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html) e transforme as variáveis explicativas para a mesma escala usando o método [`MinMaxScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html).

Vou primeiro separar os dados em treino e teste, para que o fit da normalização não seja feito com os dados de teste.

In [9]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, MinMaxScaler

encoder = LabelEncoder()
y = encoder.fit_transform(y)

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=10)

scaler = MinMaxScaler()
X_train_norm = pd.DataFrame(scaler.fit_transform(X_train), columns=X.columns)
X_test_norm = pd.DataFrame(scaler.transform(X_test), columns=X.columns)

### Atividade 3

A partir de dados tratados e transformados, é possível treinar um modelo de Machine Learning e avaliar o desempenho do modelo treinado.

Utilizando os dados da atividade anterior, faça a divisão dos dados entre treinamento e teste, usando o método [`train_test_split`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) de forma estratificada e depois ajuste um modelo de classificação SVM a partir dos dados de treinamento, avaliando o desempenho com o [`classification_report`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html) a partir dos dados de teste e das previsões geradas pelo modelo.

In [10]:
from sklearn.svm import SVC
from sklearn.metrics import classification_report

svm = SVC(kernel='linear', random_state=10)
svm.fit(X_train_norm, y_train)
supervised_results = classification_report(y_test, svm.predict(X_test_norm))
print(supervised_results)

              precision    recall  f1-score   support

           0       0.84      0.95      0.89        44
           1       0.88      0.65      0.75        23

    accuracy                           0.85        67
   macro avg       0.86      0.80      0.82        67
weighted avg       0.85      0.85      0.84        67



## Aula 3

### Atividade 1

A abordagem semi supervisionada consiste em utilizar dados não rotulados para melhorar a performance de um modelo de Machine Learning. Nesta tarefa, selecione os dados não rotulados da base de dados de diabetes e faça a transformação dos dados para a mesma escala usando o MinMaxScaler.

In [11]:
X_unlabelled = df[df['diabetes'].isna()].drop('diabetes', axis=1)
X_unlabelled

Unnamed: 0,glicemia,pressao_sanguinea,dobra_cutanea_triceps,insulina,imc,idade
0,89,66,23,94,28.1,21
1,137,40,35,168,43.1,33
3,197,70,45,543,30.5,53
6,118,84,47,230,45.8,31
11,125,70,26,115,31.1,41
...,...,...,...,...,...,...
373,149,68,29,127,29.3,42
382,102,44,20,94,30.8,26
384,153,88,37,140,40.6,39
386,81,74,41,57,46.3,32


In [12]:
X_unlabelled_norm = pd.DataFrame(scaler.transform(X_unlabelled), columns=X_unlabelled.columns)

### Atividade 2

A partir dos dados normalizados, é possível utilizar os dados para o modelo Pseudo Labeling, mas antes é necessário obter os pseudo rótulos a partir das previsões. Nesta atividade, utilize o modelo SVM supervisionado para fazer a previsão dos dados não rotulados e depois utilize o [`pd.concat()`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) para concatenar os dados rotulados com os pseudo rótulos, gerando uma nova base de treinamento.

In [13]:
y_pseudolabelled = svm.predict(X_unlabelled_norm)

In [14]:
X_train_expanded = pd.concat([X_train_norm, X_unlabelled_norm], ignore_index=True)

In [15]:
y_train_expanded = pd.concat([pd.Series(y_train), pd.Series(y_pseudolabelled)], ignore_index=True)

### Atividade 3

A partir de dados de treinamento, é possível ajustar um modelo de Machine Learning. Nesta tarefa, utilize os dados da atividade anterior para treinar um modelo Pseudo Labeling com o algoritmo SVM. Compare os resultados com o modelo anterior utilizando o [`classification_report`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html).

In [16]:
pseudo_labelling = SVC(kernel='linear', random_state=10)
pseudo_labelling.fit(X_train_expanded, y_train_expanded)
pseudo_labelling_results = classification_report(y_test, pseudo_labelling.predict(X_test_norm))
print('Resultados treinamento supervisionado')
print(supervised_results)
print('Resultados com Pseudo Labeling')
print(pseudo_labelling_results)

Resultados treinamento supervisionado
              precision    recall  f1-score   support

           0       0.84      0.95      0.89        44
           1       0.88      0.65      0.75        23

    accuracy                           0.85        67
   macro avg       0.86      0.80      0.82        67
weighted avg       0.85      0.85      0.84        67

Resultados com Pseudo Labeling
              precision    recall  f1-score   support

           0       0.84      0.98      0.91        44
           1       0.94      0.65      0.77        23

    accuracy                           0.87        67
   macro avg       0.89      0.81      0.84        67
weighted avg       0.88      0.87      0.86        67



Comparando com o modelo anterior, vemos que o modelo semi-supervisionado conseguiu obter uma acurácia melhor, um melhor valor de recall para a classe negativa e um melhor valor de precisão para a classe positiva (e consequentemente melhores valores de f1-score).

## Aula 4

### Atividade 1

Para se treinar um modelo usando a técnica Self Training, é necessário selecionar os rótulos mais confiantes das previsões geradas por um modelo de Machine Learning a partir de dados não rotulados. Nesta tarefa, treine um modelo usando o algoritmo SVM e utilize o método [`predict_proba`](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC.predict_proba) para construir uma tabela de probabilidades com as previsões de cada uma das classes da variável alvo 'diabetes'. A tabela deve conter as colunas: probabilidade da classe 0, probabilidade da classe 1, valor da previsão e probabilidade máxima da previsão.

In [17]:
svm_proba = SVC(kernel='linear', probability=True, random_state=10)
svm_proba.fit(X_train_norm, y_train)
proba_results = svm_proba.predict_proba(X_unlabelled_norm)

In [18]:
proba_df = pd.DataFrame(proba_results, columns=['Proba não-diabetes', 'Proba diabetes'])
proba_df['Previsão'] = svm_proba.predict(X_unlabelled_norm)
proba_df['Proba máxima'] = proba_df[['Proba não-diabetes', 'Proba diabetes']].max(axis=1)
proba_df.head()

Unnamed: 0,Proba não-diabetes,Proba diabetes,Previsão,Proba máxima
0,0.902977,0.097023,0,0.902977
1,0.470062,0.529938,1,0.529938
2,0.113433,0.886567,1,0.886567
3,0.543517,0.456483,0,0.543517
4,0.655637,0.344363,0,0.655637


### Atividade 2

Com os resultados de probabilidade das previsões, é possível filtrar os dados e gerar um novo conjunto de treinamento com dados rotulados e pseudo rótulos. Nesta atividade, faça um filtro da base de dados não rotulada em que a probabilidade de previsão dada pelo modelo tenha uma confiança maior do que 0.75. Crie um novo conjunto de treinamento, com variáveis explicativas e variável alvo, contendo os dados rotulados e pseudo rótulos com confiança maior que 0.75 usando o método [`concat()`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html).

In [19]:
high_proba = proba_df['Proba máxima'] > .75
X_train_expanded = pd.concat([X_train_norm, X_unlabelled_norm[high_proba]], ignore_index=True)
y_train_expanded = pd.concat([pd.Series(y_train), proba_df.loc[high_proba, 'Previsão']], ignore_index=True)

In [20]:
print(f'X treino rotulado: {X_train_norm.shape[0]} linhas')
print(f'X treino expandido: {X_train_expanded.shape[0]} linhas')

X treino rotulado: 198 linhas
X treino expandido: 267 linhas


### Atividade 3

Prosseguindo com os resultados da atividade anterior, treine um modelo SVM utilizando os dados de treinamento e obtenha o resultado das métricas com o `classification_report`, comparando os resultados com o modelo SVM supervisionado que foi gerado nas aulas anteriores.

In [21]:
self_training_1 = SVC(kernel='linear', random_state=10)
self_training_1.fit(X_train_expanded, y_train_expanded)
self_training_1_results = classification_report(y_test, self_training_1.predict(X_test_norm))
print('Resultados treinamento supervisionado')
print(supervised_results)
print('Resultados com Pseudo Labeling')
print(pseudo_labelling_results)
print('Resultados com Self Training (1 iteração)')
print(self_training_1_results)

Resultados treinamento supervisionado
              precision    recall  f1-score   support

           0       0.84      0.95      0.89        44
           1       0.88      0.65      0.75        23

    accuracy                           0.85        67
   macro avg       0.86      0.80      0.82        67
weighted avg       0.85      0.85      0.84        67

Resultados com Pseudo Labeling
              precision    recall  f1-score   support

           0       0.84      0.98      0.91        44
           1       0.94      0.65      0.77        23

    accuracy                           0.87        67
   macro avg       0.89      0.81      0.84        67
weighted avg       0.88      0.87      0.86        67

Resultados com Self Training (1 iteração)
              precision    recall  f1-score   support

           0       0.84      0.95      0.89        44
           1       0.88      0.65      0.75        23

    accuracy                           0.85        67
   macro avg     

Os resultados com uma iteração do self-training foram semelhantes ao do aprendizado supervisionado.

### Atividade 4

A biblioteca Scikit-Learn facilita os processos de treinamento de modelos de Machine Learning, incluindo algoritmos de aprendizado semi-supervisionado. Nesta tarefa, utilize o algoritmo [`SelfTraining`]() da biblioteca Scikit-Learn a partir de um algoritmo SVM. Para treinamento do modelo, é necessário utilizar um conjunto de treinamento em que os dados não rotulados recebem o rótulo -1, portanto gere um conjunto de treinamentos com essas características antes de realizar o treinamento. Obtenha o resultado das métricas e compare com o algoritmo Self Training com apenas 1 estágio da atividade anterior.


In [22]:
from sklearn.semi_supervised import SelfTrainingClassifier

self_training_classifier = SelfTrainingClassifier(
    base_estimator=SVC(kernel='linear', probability=True, random_state=10),
    verbose=True
)

self_training_classifier.fit(
    pd.concat([X_train_norm, X_unlabelled_norm], ignore_index=True),
    pd.concat([pd.Series(y_train), pd.Series([-1]*X_unlabelled_norm.shape[0])], ignore_index=True)
)

End of iteration 1, added 69 new labels.
End of iteration 2, added 11 new labels.
End of iteration 3, added 2 new labels.
End of iteration 4, added 1 new labels.


In [23]:
self_training_classifier_results = classification_report(y_test, self_training_classifier.predict(X_test_norm))
print('Resultados treinamento supervisionado')
print(supervised_results)
print('Resultados com Pseudo Labeling')
print(pseudo_labelling_results)
print('Resultados com Self Training (1 iteração)')
print(self_training_1_results)
print('Resultados com SelfTrainingClassifier')
print(self_training_classifier_results)

Resultados treinamento supervisionado
              precision    recall  f1-score   support

           0       0.84      0.95      0.89        44
           1       0.88      0.65      0.75        23

    accuracy                           0.85        67
   macro avg       0.86      0.80      0.82        67
weighted avg       0.85      0.85      0.84        67

Resultados com Pseudo Labeling
              precision    recall  f1-score   support

           0       0.84      0.98      0.91        44
           1       0.94      0.65      0.77        23

    accuracy                           0.87        67
   macro avg       0.89      0.81      0.84        67
weighted avg       0.88      0.87      0.86        67

Resultados com Self Training (1 iteração)
              precision    recall  f1-score   support

           0       0.84      0.95      0.89        44
           1       0.88      0.65      0.75        23

    accuracy                           0.85        67
   macro avg     

O SelfTrainingClassifier fez 4 iterações e o modelo final obteve resultados semelhantes ao do modelo com pseudo-labelling.

## Aula 5

### Atividade 1

O [`LabelPropagation`](https://scikit-learn.org/stable/modules/generated/sklearn.semi_supervised.LabelPropagation.html) é um algoritmo semi supervisionado que propaga os rótulos da base de dados para os dados que não possuem rótulos a partir da similaridade entre os registros. Nesta atividade, treine um modelo `LabelPropagation` a partir dos dados de treinamento que foram utilizados para treinar o modelo `SelfTraining`, obtendo o resultado do desempenho deste modelo usando o `classification_report` com os dados de teste.

In [24]:
from sklearn.semi_supervised import LabelPropagation

lpc = LabelPropagation()

lpc.fit(
    pd.concat([X_train_norm, X_unlabelled_norm], ignore_index=True),
    pd.concat([pd.Series(y_train), pd.Series([-1]*X_unlabelled_norm.shape[0])], ignore_index=True)
)

lpc_results = classification_report(y_test, lpc.predict(X_test_norm))
print('Resultados com SelfTrainingClassifier')
print(self_training_classifier_results)
print('Resultados com Label Propagation')
print(lpc_results)

Resultados com SelfTrainingClassifier
              precision    recall  f1-score   support

           0       0.84      0.98      0.91        44
           1       0.94      0.65      0.77        23

    accuracy                           0.87        67
   macro avg       0.89      0.81      0.84        67
weighted avg       0.88      0.87      0.86        67

Resultados com Label Propagation
              precision    recall  f1-score   support

           0       0.80      0.98      0.88        44
           1       0.92      0.52      0.67        23

    accuracy                           0.82        67
   macro avg       0.86      0.75      0.77        67
weighted avg       0.84      0.82      0.81        67



Para este conjunto de dados, vemos que a estratégia do Label Propagation **não** produziu resultados melhores dos que o já encontrados pelas estratégias anteriores.

### Atividade 2

Em um projeto de Machine Learning, temos o intuito de obter um modelo que faça a classificação da melhor maneira possível para que seja utilizado em produção. Nesta atividade, compare os resultados do modelo `LabelPropagation` com o modelo `SelfTraining` e selecione o modelo que tem o melhor desempenho. Utilize a biblioteca [`pickle`](https://docs.python.org/3/library/pickle.html) para armazenar o resultado do modelo de classificação e do modelo de normalização de dados `MinMaxScaler`.

In [25]:
import pickle

with open('desafio_scaler.pkl', 'wb') as file:
    pickle.dump(scaler, file)

with open('desafio_model.pkl', 'wb') as file:
    pickle.dump(self_training_classifier, file)

### Atividade 3

A partir de arquivos de modelos serializados, é possível utilizar os modelos em produção para fazer classificação de novos dados. Nesta tarefa, simule a previsão de um novo dado a partir dos modelos armazenados na atividade anterior, fazendo a leitura dos modelos, normalização dos dados para a mesma escala e usando o método `predict` para realizar a predição do seguinte dado:

```
novo_dado = {
    'glicemia':[98],
    'pressao_sanguinea':[75],
    'dobra_cutanea_triceps':[29],
    'insulina':[124],
    'imc':[24.3],
    'idade':[34]
}
```


In [26]:
scaler = pd.read_pickle('./desafio_scaler.pkl')
model = pd.read_pickle('./desafio_model.pkl')
new_data = pd.DataFrame({
    'glicemia':[98],
    'pressao_sanguinea':[75],
    'dobra_cutanea_triceps':[29],
    'insulina':[124],
    'imc':[24.3],
    'idade':[34]
})
model.predict(pd.DataFrame(scaler.transform(new_data), columns=new_data.columns))

array([0], dtype=int64)