In [21]:
# importacao de bibliotecas necessarias

# bibliotecas de redes neurais
import tensorflow as tf
from tensorflow import keras
from keras.utils.vis_utils import plot_model
import sklearn

# bibliotecas de manipulacao de variaveis de ambiente e acesso a diretorios
import os, warnings
import glob

# bibliotecas de manipulacao e visualizacao de dados
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Preparação dos Dados

Retomamos a mesma preparação dos dados abordada na [primeira entrega](https://github.com/GFerrazzo/INE5644/blob/main/Primeira%20Entrega%20-%20Trabalho%20Final.ipynb). Dessa vez, retiramos os blocos de código com propósito de visualização da preparação.

In [2]:
# df = pd.read_csv('https://raw.githubusercontent.com/GFerrazzo/INE5644/main/KaggleV2-May-2016.csv', sep = ',')

df = pd.read_csv('KaggleV2-May-2016.csv', sep = ',')

In [3]:
df['ScheduledDay'] = pd.to_datetime(df['ScheduledDay'])
df['AppointmentDay'] = pd.to_datetime(df['AppointmentDay'])

In [4]:
df['Gender'] = df['Gender'].map({'M' : 1, 'F' : 0})
df['No-show'] = df['No-show'].map({'Yes' : 1, 'No' : 0})

# esse bloco foi alterado para nao utilizarmos mais o dtype boolean. o Keras teve algum problema em trabalhar com esse dtype.

In [5]:
df['ScheduleToAppointment'] = (df['AppointmentDay'] - df['ScheduledDay']).astype('timedelta64[D]') + 1

In [6]:
df['ScheduleWeekDay'] = df['ScheduledDay'].dt.weekday

In [7]:
df.drop(columns=['PatientId','AppointmentID','ScheduledDay','AppointmentDay'], inplace=True)

In [8]:
df.drop(df[df['Age'] < 0].index, inplace=True)

In [9]:
df.drop(df[df['ScheduleToAppointment'] < 0].index, inplace=True)

In [10]:
df[df['No-show'] == True].shape[0]/df.shape[0]

0.2018982817745044

In [11]:
df.drop(columns=['Neighbourhood'], inplace=True)

In [12]:
df['Age'] = pd.cut(df['Age'], bins=29, precision=0)

In [13]:
# df['Handcap'] = df['Handcap'].map({1 : True, 2 : True, 3 : True, 4 : True, 0 : False})

In [14]:
df['ScheduleToAppointment'] = pd.cut(df['ScheduleToAppointment'], bins=30, precision=0)

In [15]:
df.sample(5)

Unnamed: 0,Gender,Age,Scholarship,Hipertension,Diabetes,Alcoholism,Handcap,SMS_received,No-show,ScheduleToAppointment,ScheduleWeekDay
95112,1,"(75.0, 79.0]",0,0,0,0,0,0,0,"(24.0, 30.0]",0
98130,1,"(-0.0, 4.0]",0,0,0,0,0,0,0,"(-0.0, 6.0]",3
104409,1,"(20.0, 24.0]",1,0,0,0,0,1,1,"(18.0, 24.0]",1
72625,0,"(56.0, 59.0]",0,0,0,0,0,1,1,"(-0.0, 6.0]",4
63909,0,"(44.0, 48.0]",0,0,0,0,0,0,1,"(-0.0, 6.0]",2


In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 110521 entries, 0 to 110526
Data columns (total 11 columns):
 #   Column                 Non-Null Count   Dtype   
---  ------                 --------------   -----   
 0   Gender                 110521 non-null  int64   
 1   Age                    110521 non-null  category
 2   Scholarship            110521 non-null  int64   
 3   Hipertension           110521 non-null  int64   
 4   Diabetes               110521 non-null  int64   
 5   Alcoholism             110521 non-null  int64   
 6   Handcap                110521 non-null  int64   
 7   SMS_received           110521 non-null  int64   
 8   No-show                110521 non-null  int64   
 9   ScheduleToAppointment  110521 non-null  category
 10  ScheduleWeekDay        110521 non-null  int64   
dtypes: category(2), int64(9)
memory usage: 8.6 MB


In [17]:
df['Age'] = df['Age'].cat.codes
df['ScheduleToAppointment'] = df['ScheduleToAppointment'].cat.codes

# Primeiro Modelo

In [18]:
df_model = df.copy()

In [19]:
target = df_model.pop('No-show')

In [20]:
dataset = tf.data.Dataset.from_tensor_slices((df_model.values, target.values))

In [21]:
train_dataset = dataset.shuffle(len(df_model)).batch(32)

Começaremos com um modelo bem simples. Composto apenas por três camadas.

In [22]:
model1 = tf.keras.Sequential([
    tf.keras.layers.Dense(11, activation='relu'),
    tf.keras.layers.Dense(11, activation='relu'),
    tf.keras.layers.Dense(1)
  ])

In [23]:
model1.compile(optimizer='adam',
                loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
                metrics=['accuracy'])

In [24]:
model1_performance = model1.fit(train_dataset, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


Como podemos notar, ao utilizar o dataset como ele foi fornecido, chegamos numa acurácia de 79.81%. 

Coincidentemente (veremos que não é coincidência), esse é o valor do balanço das nossas classes, como podemos ver:

In [25]:
df[df['No-show'] == True].shape[0]/df.shape[0]

0.2018982817745044

In [26]:
df[df['No-show'] == False].shape[0]/df.shape[0]

0.7981017182254956

Ou seja, podemos imaginar que nosso modelo está prevendo "Presença" para todas predições, mas só acerta 79.81% das vezes.
Podemos conferir isso com uma matriz de confusão.

In [27]:
y_pred_model1 = model1.predict(df_model)

In [28]:
tf.math.confusion_matrix(labels=target, predictions=y_pred_model1.ravel()>0.5)

<tf.Tensor: shape=(2, 2), dtype=int32, numpy=
array([[88207,     0],
       [22314,     0]])>

![Matriz de Confusao](attachment:confusion_matrix.png)

Comparando com a imagem acima (fonte), podemos notar que temos:
    88207 casos de positivos verdadeiros.
    22314 casos de falsos negativos.
    
Que nos dá a acurácia de 79.81%.

Indo além, podemos verificar pelo próprio resultado da predição, que retorna 110521 predições de "Falso":

In [29]:
y_pred_model1.ravel()>0.5

array([False, False, False, ..., False, False, False])

In [30]:
np.unique(y_pred_model1.ravel()>0.5, return_counts=True)

(array([False]), array([110521], dtype=int64))

# Segundo Modelo

O que notamos que aconteceu no primeiro modelo é o chamado "paradoxo da acurácia", onde descobrimos que a acurácia não é um método "certeiro" de medir a previsibilidade do nosso modelo. Devemos alterar dois itens no nosso primeiro modelo:
- Consertar o desbalanço das classes
- Alterar a métrica de cálculo da previsibilidade do modelo

Para o primeiro item acima, temos várias opções: undersampling, oversampling, etc. Porém, neste segundo modelo, vamos tentar alterar somente a métrica para ver o impacto que a métrica errada tinha sobre o modelo.

Temos inúmeras opções de métricas diferentes, citamos algumas, com suas nomenclaturas em inglês (para evitar traduções errôneas):
- Precision = TP/(TP+FP)
- Recall = TP/(TP+FN)
- F1 Score = 2 * Recall * Precision / (Recall + Precision)
- Area Under ROC Curve
- G-Measure = sqrt(Precision * Recall)
- Jaccard Index = TP/(TP+FP+FN)


onde 

TP = True Positive

FP = False Positive

FN = False Negative

In [36]:
count_class_0, count_class_1 = df['No-show'].value_counts()
print(count_class_0, count_class_1)

88207 22314


In [37]:
df_class_0 = df[df['No-show'] == 0]
df_class_1 = df[df['No-show'] == 1]

Undersampling

In [38]:
df_class_0_resampled = df_class_0.sample(count_class_1)
df_undersampled = pd.concat([df_class_1, df_class_0_resampled])
df_undersampled['No-show'].value_counts()

1    22314
0    22314
Name: No-show, dtype: int64

Oversampling

In [39]:
df_class_1_resampled = df_class_1.sample(count_class_0, replace=True)
df_oversampled = pd.concat([df_class_0, df_class_1_resampled])
df_oversampled['No-show'].value_counts()

0    88207
1    88207
Name: No-show, dtype: int64

In [34]:
df_model = df_undersampled.copy()

target = df_model.pop('No-show')

dataset = tf.data.Dataset.from_tensor_slices((df_model.values, target.values))

train_dataset = dataset.shuffle(len(df_model)).batch(32)

model2 = tf.keras.Sequential([
    tf.keras.layers.Dense(11, activation='relu'),
    tf.keras.layers.Dense(11, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
  ])
j
model2.compile(optimizer='sgd',
                loss=tf.keras.losses.BinaryCrossentropy(from_logits=False),
                metrics=[tf.keras.metrics.AUC()])

model2_performance = model2.fit(train_dataset, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [69]:

reduce_lr = tf.keras.callbacks.ReduceLROnPlateau(monitor='loss', # qual metrica sera monitorada
                              factor=0.2, # fator de multiplicacao (no caso reducao) do learning rate
                              patience=2, # quantas epocas esperamos o "plateau"
                              min_lr=0.0001 # menor learning rate possivel
                                )

In [None]:
df_model = df_oversampled.copy()

target = df_model.pop('No-show')

dataset = tf.data.Dataset.from_tensor_slices((df_model.values, target.values))

train_dataset = dataset.shuffle(len(df_model)).batch(32)

model2 = tf.keras.Sequential([
    tf.keras.layers.Dense(11, activation='relu'),
    tf.keras.layers.Dropout(0.6),
    tf.keras.layers.Dense(11, activation='relu'),
    tf.keras.layers.Dense(11, activation='relu'),
    tf.keras.layers.Dense(11, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
  ])

model2.compile(optimizer=tf.keras.optimizers.SGD(learning_rate=0.01) ,
                loss=tf.keras.losses.BinaryCrossentropy(from_logits=False),
                metrics=[tf.keras.metrics.Recall(),
                        tf.keras.metrics.AUC(),
                        tf.keras.metrics.Precision()])

model2_performance = model2.fit(train_dataset, callbacks=[reduce_lr], epochs=25)

Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25

In [None]:
y_pred_model2 = model2.predict(df_model)
tf.math.confusion_matrix(labels=target, predictions=y_pred_model2.ravel()>0.5)