In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn import svm # support vector machine
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix


In [3]:
# Cargamos los datos diabetes
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
columns=['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
df=pd.read_csv(url, names=columns)

In [5]:
#Pregnancies: Número de embarazos.
#Glucose: Concentración de glucosa en sangre.
#BloodPressure: Presión arterial.
#SkinThickness: Grosor de la piel.
#Insulin: Insulina sérica.
#BMI: Índice de masa corporal.
#DiabetesPedigreeFunction: Función hereditaria de diabetes.
#Age: Edad de la persona.
#Outcome: Si tiene (1) o no (0) diabetes (target).
df.shape

(768, 9)

In [7]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [9]:
df.isnull().sum()

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

In [11]:
df['Outcome'].value_counts() # 0--> no diabético / 1--> Diabético


Outcome
0    500
1    268
Name: count, dtype: int64

In [13]:
# si hubiera datos nulos NaN:
# podemos eliminar las filas que tengan: df.dropna(axis=0)
# si queremos eliminar las filas con datos nulos en alguna de las columnas: df.dropna(subset=['columna'])
# si queremos sustituir NaN por otro valor en una columna: df["columna"]=df['columna'].fillna(df[columna].mean())
# o en todas las columnas: df.fillna(df.mean(),inplace=True)

In [23]:
# Hay gente que prefiere hacer la estandarizacion antes del split y otra gente despues
# cada una tiene sus pros y con
# en este caso vamos a estandarizar despúes

In [15]:
# Dividimos entrnamiento - test
X=df.drop(columns='Outcome', axis=1)
y=df['Outcome']

In [17]:
# realizamos split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=2, stratify=y)

In [19]:
# Realizamos estandarizacion
scaler=StandardScaler()

In [21]:
# Importante: se debe realizar el el escalado debe aplicarse solo a las características (X), 
#no a las etiquetas de destino (y). Esto es importante porque las etiquetas (como y_train o y_test) 
#no están relacionadas con la escala de las características y no deben ser transformadas.
# Además, primero se realiza sobre X_train:
X_train_scaled = scaler.fit_transform(X_train)
# nos aseguramos que son columnas adecuadas

In [23]:
# Ahora estandarizamos X_test
X_test_scaled = scaler.fit_transform(X_test)


In [25]:
#Entrenamos el modelo
model=LogisticRegression(max_iter=200)
model.fit(X_train_scaled,y_train)

In [69]:
X_test_pred = model.predict(X_test_scaled) # hacemos predcciones del modelo

In [71]:
accuracy=accuracy_score(y_test, X_test_pred)
print(accuracy*100)


74.67532467532467


In [73]:
X_train_pred = model.predict(X_train_scaled) # hacemos predcciones del modelo
accuracy=accuracy_score(y_train, X_train_pred)
print(accuracy*100)


78.50162866449512


In [116]:
# matriz de confusión y report
print(confusion_matrix(y_test,X_test_pred))
print(classification_report(y_test, X_test_pred))

[[87 13]
 [26 28]]
              precision    recall  f1-score   support

           0       0.77      0.87      0.82       100
           1       0.68      0.52      0.59        54

    accuracy                           0.75       154
   macro avg       0.73      0.69      0.70       154
weighted avg       0.74      0.75      0.74       154



In [None]:
# Realizamos medidas predictivas

In [110]:
# tomamos una línea del archivo sonar_data
input_data=(11,143,94,33,146,36.6,0.254,51)
# camabiamos input_data a np

input_data_as_np=np.asarray(input_data)

# reshape np array
input_data_as_np_reshaped=input_data_as_np.reshape(1,-1) # tener los datos en una matriz (1,8)
# estandarizamos los datos
input_data_as_np_reshaped_std=scaler.transform(input_data_as_np_reshaped)



In [114]:
input_data_as_np_reshaped_std

array([[ 2.13255751,  0.75352694,  1.43695824,  0.86242458,  0.79695197,
         0.7254335 , -0.71614867,  1.51030842]])

In [112]:
prediction=model.predict(input_data_as_np_reshaped_std)
if prediction[0]==1:
    print('La persona es diabética')
else:
    print('La persona no es diabética')

La persona es diabética


In [31]:
# Probamos con otr modelo --> SVM

In [33]:
X2=df.drop(columns='Outcome', axis=1)
y2=df['Outcome']

In [35]:
# realizamos split
X2_train,X2_test,y2_train,y2_test=train_test_split(X2,y2,test_size=0.2,random_state=2, stratify=y)

In [37]:
# Realizamos estandarizacion
X2_train_scaled = scaler.fit_transform(X2_train)


In [39]:
X2_test_scaled = scaler.fit_transform(X2_test)

In [43]:
# modelo SVM 

In [45]:
classifier=svm.SVC(kernel='linear')

In [47]:
classifier.fit(X2_train_scaled,y2_train) # entrenamos el modelo

In [57]:
X2_train_pred=classifier.predict(X2_train) # evaluación modelo




In [59]:
accuracy_score(X2_train_pred,y2_train)

0.3501628664495114

In [61]:
X2_test_pred=classifier.predict(X_test) # evaluación modelo
accuracy_score(X2_test_pred, y2_test)



0.35064935064935066