"""
Atividade para trabalhar o pré-processamento dos dados.

Criação de modelo preditivo para diabetes e envio para verificação de peformance
no servidor.

@author: Aydano Machado <aydano.machado@gmail.com>
"""

In [5]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
import requests
import numpy as np

In [2]:
print('\n - Lendo o arquivo com o dataset sobre diabetes')
data = pd.read_csv('diabetes_dataset.csv')


 - Lendo o arquivo com o dataset sobre diabetes


# Média
## Os valores Nan foram substituídos pela média da coluna

In [3]:
def minmax_norm(df):
    return (df - df.min()) / ( df.max() - df.min())

In [4]:
# Substituindo os valores Nan por a média da coluna
data = data.apply(lambda x: x.fillna(x.mean()),axis=0)

# Normalizando os valores do conjunto de dados
data = minmax_norm(data)

print(data)

     Pregnancies   Glucose  BloodPressure  SkinThickness   Insulin       BMI  \
0       0.352941  0.670968       0.456522       0.304348  0.193591  0.393862   
1       0.058824  0.264516       0.391304       0.239130  0.193591  0.214834   
2       0.470588  0.896774       0.369565       0.243006  0.193591  0.130435   
3       0.000000  0.600000       0.108696       0.304348  0.208791  0.636829   
4       0.294118  0.464516       0.478261       0.243006  0.193591  0.189258   
..           ...       ...            ...            ...       ...       ...   
567     0.529412  0.290323       0.347826       0.243006  0.193591  0.109974   
568     0.117647  0.503226       0.434783       0.217391  0.193591  0.475703   
569     0.294118  0.496774       0.456522       0.173913  0.131868  0.204604   
570     0.058824  0.529032       0.326087       0.243006  0.193591  0.304348   
571     0.058824  0.316129       0.434783       0.260870  0.193591  0.312020   

     DiabetesPedigreeFunction       Age

In [5]:
# Criando X and y par ao algorítmo de aprendizagem de máquina.\
print(' - Criando X e y para o algoritmo de aprendizagem a partir do arquivo diabetes_dataset')
# Caso queira modificar as colunas consideradas basta algera o array a seguir.
feature_cols = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 
                'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
X = data[feature_cols]
y = data.Outcome

# Ciando o modelo preditivo para a base trabalhada
print(' - Criando modelo preditivo')
neigh = KNeighborsClassifier(n_neighbors=3)
neigh.fit(X, y)

#realizando previsões com o arquivo de
print(' - Aplicando modelo e enviando para o servidor')
data_app = pd.read_csv('diabetes_app.csv')
data_app = data_app[feature_cols]
y_pred = neigh.predict(data_app)

# Enviando previsões realizadas com o modelo para o servidor
URL = "https://aydanomachado.com/mlclass/01_Preprocessing.php"

#TODO Substituir pela sua chave aqui
DEV_KEY = "MLTL"

# json para ser enviado para o servidor
data = {'dev_key':DEV_KEY,
        'predictions':pd.Series(y_pred).to_json(orient='values')}

# Enviando requisição e salvando o objeto resposta
r = requests.post(url = URL, data = data)

# Extraindo e imprimindo o texto da resposta
pastebin_url = r.text
print(" - Resposta do servidor:\n", r.text, "\n")

 - Criando X e y para o algoritmo de aprendizagem a partir do arquivo diabetes_dataset
 - Criando modelo preditivo
 - Aplicando modelo e enviando para o servidor
 - Resposta do servidor:
 {"status":"success","dev_key":"MLTL","accuracy":0.6377551020408163,"old_accuracy":0.63775510204082} 



# Valores aleatórios 
## Os valores Nan foram substituídos por valores aleatórios que estão no intervalo de cada coluna

In [6]:
# Gerar valores aleatórios entre o menor e o maior valor da coluna
min_values = data.min()
max_values = data.max()

a1 = data['Glucose'].isnull()
aux1 = np.random.randint(min_values['Glucose'], max_values['Glucose'], a1.sum())
data.loc[a1, 'Glucose'] = aux1

a2 = data['BloodPressure'].isnull()
aux2 = np.random.randint(min_values['BloodPressure'], max_values['BloodPressure'], a2.sum())
data.loc[a2, 'BloodPressure'] = aux2

a3 = data['SkinThickness'].isnull()
aux3 = np.random.randint(min_values['SkinThickness'], max_values['SkinThickness'], a3.sum())
data.loc[a3, 'SkinThickness'] = aux3


a4 = data['Insulin'].isnull()
aux4 = np.random.randint(min_values['Insulin'], max_values['Insulin'], a4.sum())
data.loc[a4, 'Insulin'] = aux4

a5 = data['BMI'].isnull()
aux5 = np.random.uniform(min_values['BMI'], max_values['BMI'], a5.sum())
data.loc[a5, 'BMI'] = aux5

#Normalizando os valores do conjunto de dados
data = minmax_norm(data)

In [7]:
# Criando X and y par ao algorítmo de aprendizagem de máquina.\
print(' - Criando X e y para o algoritmo de aprendizagem a partir do arquivo diabetes_dataset')
# Caso queira modificar as colunas consideradas basta algera o array a seguir.
feature_cols = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 
                'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
X = data[feature_cols]
y = data.Outcome

# Criando o modelo preditivo para a base trabalhada
print(' - Criando modelo preditivo')
neigh = KNeighborsClassifier(n_neighbors=3)
neigh.fit(X, y)

# Realizando previsões com o arquivo de
print(' - Aplicando modelo e enviando para o servidor')
data_app = pd.read_csv('diabetes_app.csv')
data_app = data_app[feature_cols]
y_pred = neigh.predict(data_app)

# Enviando previsões realizadas com o modelo para o servidor
URL = "https://aydanomachado.com/mlclass/01_Preprocessing.php"

# TODO Substituir pela sua chave aqui
DEV_KEY = "MLTL"

# json para ser enviado para o servidor
data = {'dev_key':DEV_KEY,
        'predictions':pd.Series(y_pred).to_json(orient='values')}

# Enviando requisição e salvando o objeto resposta
r = requests.post(url = URL, data = data)

# Extraindo e imprimindo o texto da resposta
pastebin_url = r.text
print(" - Resposta do servidor:\n", r.text, "\n")


 - Criando X e y para o algoritmo de aprendizagem a partir do arquivo diabetes_dataset
 - Criando modelo preditivo
 - Aplicando modelo e enviando para o servidor
 - Resposta do servidor:
 {"status":"success","dev_key":"MLTL","accuracy":0.45408163265306123,"old_accuracy":0.63775510204082} 

