In [95]:
#importação das bibliotecas
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

In [96]:
#importação dos dados e vizualização de seus primeiros registros
data = pd.read_csv('diabetes.csv')
data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [97]:
#verificando se existem dados faltantes
data.isnull().sum()

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

In [98]:
#separação dos dados em features(previsores) e target(classe alvo)
features = data.iloc[:,:-1].values
target = data.iloc[:,-1].values

In [99]:
#normalização dos dados
scaler = StandardScaler()
features = scaler.fit_transform(features)

In [109]:
features[0]

array([ 0.63994726,  0.84832379,  0.14964075,  0.90726993, -0.69289057,
        0.20401277,  0.46849198,  1.4259954 ])

In [100]:
#estrutura de repetição para a vizualização da correlação entre as colunas de features e targets
for i in range(len(data.columns)-1):
    x = features[:,i]
    corr = np.corrcoef(target,x)
    print(f"a correlação da coluna {data.columns[i]} com a coluna target {data.columns[-1]} é de {corr[0,1]:.4f}")

a correlação da coluna Pregnancies com a coluna target Outcome é de 0.2219
a correlação da coluna Glucose com a coluna target Outcome é de 0.4666
a correlação da coluna BloodPressure com a coluna target Outcome é de 0.0651
a correlação da coluna SkinThickness com a coluna target Outcome é de 0.0748
a correlação da coluna Insulin com a coluna target Outcome é de 0.1305
a correlação da coluna BMI com a coluna target Outcome é de 0.2927
a correlação da coluna DiabetesPedigreeFunction com a coluna target Outcome é de 0.1738
a correlação da coluna Age com a coluna target Outcome é de 0.2384


In [101]:
#estrutura de repetição para multicolinearidade
for i in range(len(data.columns)-1):
    x = features[:,i]
    print('------------------------------------------------------')
    for j in range(len(data.columns)-1):
        x2 = features[:,j]
        if(i != j):
            corr = np.corrcoef(x,x2)
            corr = corr[0,1]
            print(f"a relação entre a coluna {data.columns[i]} e {data.columns[j]} é de {corr:.4f}")

------------------------------------------------------
a relação entre a coluna Pregnancies e Glucose é de 0.1295
a relação entre a coluna Pregnancies e BloodPressure é de 0.1413
a relação entre a coluna Pregnancies e SkinThickness é de -0.0817
a relação entre a coluna Pregnancies e Insulin é de -0.0735
a relação entre a coluna Pregnancies e BMI é de 0.0177
a relação entre a coluna Pregnancies e DiabetesPedigreeFunction é de -0.0335
a relação entre a coluna Pregnancies e Age é de 0.5443
------------------------------------------------------
a relação entre a coluna Glucose e Pregnancies é de 0.1295
a relação entre a coluna Glucose e BloodPressure é de 0.1526
a relação entre a coluna Glucose e SkinThickness é de 0.0573
a relação entre a coluna Glucose e Insulin é de 0.3314
a relação entre a coluna Glucose e BMI é de 0.2211
a relação entre a coluna Glucose e DiabetesPedigreeFunction é de 0.1373
a relação entre a coluna Glucose e Age é de 0.2635
-------------------------------------------

In [102]:
#separação dos dados em treino e teste
x_train,x_test,y_train,y_test = train_test_split(features,target, test_size = 0.2)

In [103]:
len(y_train)

614

In [104]:
#criacção e treino do modelo
LogisticRegression = LogisticRegression()
LogisticRegression.fit(x_train,y_train)

In [105]:
#predição dos dados teste
forecast = LogisticRegression.predict(x_test)

In [110]:
forecast

array([0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0,
       1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0,
       0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0,
       0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1],
      dtype=int64)

In [111]:
#verificação da porcentagem de acerto
accuracy_score(y_test,forecast)
acScore = accuracy_score(y_test,forecast)

In [113]:
print(f"a taxa de acerto do modelo é de {acScore * 100:.2f}%")

a taxa de acerto do modelo é de 79.87%


In [114]:
#salvando o modelo
from joblib import dump

dump(LogisticRegression, "LogisticRegression.dot")

['LogisticRegression.dot']