In [1]:
# %% [markdown]
# # üìä Predicci√≥n de Diabetes Usando Machine Learning
# Este proyecto tiene como objetivo predecir si una persona tiene diabetes o no utilizando un modelo de **Support Vector Machine (SVM)** basado en datos de pacientes.
# 
# ## üìå ¬øPor qu√© es importante este problema?
# - La diabetes afecta a millones de personas en todo el mundo.
# - Un diagn√≥stico temprano puede ayudar a mejorar la calidad de vida.
# - Usar Machine Learning puede mejorar la detecci√≥n temprana y reducir costos m√©dicos.
# 
# ## üéØ Objetivos del Proyecto:
# 1. Analizar el conjunto de datos de diabetes y entender sus caracter√≠sticas.
# 2. Entrenar un modelo de clasificaci√≥n para predecir la presencia de diabetes.
# 3. Evaluar el modelo y mejorar su precisi√≥n utilizando t√©cnicas de optimizaci√≥n.
# 4. Desarrollar un sistema de predicci√≥n que pueda usarse con datos nuevos.
# 
# ---
# 

# %% [markdown]
# # Importing the Dependencies

# %%
!pip install matplotlib

# %%
!pip install seaborn

# %%
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score

# %% [markdown]
# DATA COLLECTION AND ANALYSIS

# %%
# LOADING THE DIABETES DATASET TO A PANDAS DATAFRAME
diabetes_dataset = pd.read_csv('diabetes.csv')

# %%
# printing the first 5 rows of the dataset
diabetes_dataset.head()

# %%
# number of rows in Columns in this dataset
diabetes_dataset.shape

# %%
#getting the statistical measures of the data
diabetes_dataset.describe()

# %%
diabetes_dataset['Outcome'].value_counts()

# %% [markdown]
# # Distribucion de Variables Clave

# %%
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo de gr√°ficos
plt.style.use('ggplot')

# Distribuci√≥n de la variable objetivo
plt.figure(figsize=(6,4))
sns.countplot(x=diabetes_dataset['Outcome'], palette='coolwarm')
plt.title('Distribuci√≥n de Pacientes Diab√©ticos vs No Diab√©ticos')
plt.xlabel('0 = No Diab√©tico, 1 = Diab√©tico')
plt.ylabel('Cantidad de Pacientes')
plt.show()


# %% [markdown]
# # Correlacion entre variables

# %%
plt.figure(figsize=(10,8))
sns.heatmap(diabetes_dataset.corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Mapa de Calor de Correlaci√≥n entre Variables')
plt.show()


# %% [markdown]
# Se observa que las variables Glucose y Age tienen un correlacion positiva con la variable Outcome con el valor 1. Podriamos deducir que a m√°s edad y m√°s niveles de Glucosa en la sangre tiene un efecto en si un paciente es diabetico o no.

# %% [markdown]
# # Detectar y manejar Outliers

# %%
plt.figure(figsize=(12,6))
diabetes_dataset.boxplot(rot=45)
plt.title("Distribuci√≥n de Datos y Posibles Outliers")
plt.show()


# %% [markdown]
# label O--> Non-Diabetic
# label 1 --> Diabetic

# %%
diabetes_dataset.groupby('Outcome').mean()

# %%
# Separating the data and labels
X = diabetes_dataset.drop(columns= 'Outcome', axis= 1)
Y = diabetes_dataset['Outcome']

# %%
print(X)

# %%
print(Y)

# %% [markdown]
# ## Data Standardization

# %%
scaler = StandardScaler()

# %%
scaler.fit(X)

# %%
standardized_data = scaler.transform(X)

# %%
#scaler.fit_transform

# %%
print(standardized_data)

# %% [markdown]
# Now all the values are in the same range.

# %%
X = standardized_data
Y = diabetes_dataset['Outcome']

# %%
print(X)
print(Y)

# %% [markdown]
# Train the data

# %%
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,test_size= 0.2, stratify = Y, random_state=2)

# %%
print(X.shape, X_train.shape, X_test.shape)

# %% [markdown]
# Training the Model

# %%
classifier = svm.SVC(kernel='linear')

# %% [markdown]
# El Support Vector Machine (SVM) es un algoritmo de aprendizaje supervisado utilizado tanto para clasificaci√≥n como para regresi√≥n, aunque se usa principalmente para problemas de clasificaci√≥n. Su objetivo principal es encontrar un hiperplano √≥ptimo que separe los datos en distintas clases con el mayor margen posible.
# 
# ¬øC√≥mo funciona el SVM?
# Transforma los datos en un espacio de alta dimensi√≥n si es necesario (usando funciones kernel).
# Encuentra el hiperplano √≥ptimo que divide las clases, maximizando la distancia entre los puntos m√°s cercanos (vectores de soporte).
# Clasifica nuevos datos seg√∫n su posici√≥n respecto a este hiperplano.
# ¬øPor qu√© usar SVM en la detecci√≥n de diabetes?
# Para predecir si una persona tiene diabetes o no, el SVM es √∫til porque:
# 
# Funciona bien en espacios de alta dimensi√≥n (es decir, cuando hay muchas variables de entrada).
# Es robusto frente a sobreajuste, especialmente con el uso de m√°rgenes suaves.
# Puede manejar datos no linealmente separables mediante kernels como el radial basis function (RBF).

# %%
# training the support vector Machine Classifier
classifier.fit(X_train, Y_train)

# %% [markdown]
# Model Evaluation 

# %% [markdown]
# Accuracy_score

# %%
# Accuracy score on the training data
X_train_prediction = classifier.predict(X_train)
training_data_accuracy = accuracy_score(X_train_prediction, Y_train)

# %%
print('Accuracy score of the training data:', training_data_accuracy) 

# %%
# Accuracy score on the test data
X_test_prediction = classifier.predict(X_test)
test_data_accuracy = accuracy_score(X_test_prediction, Y_test)

# %%
print('Accuracy score of the training data:', test_data_accuracy) 

# %% [markdown]
# Making a predicting System

# %%
import numpy as np
import pandas as pd

input_data = (4, 110, 92, 0, 0, 37.6, 0.191, 30)

# Convertir a DataFrame con los mismos nombres de columnas usados en el entrenamiento
columns = ["Pregnancies", "Glucose", "BloodPressure", "SkinThickness", 
           "Insulin", "BMI", "DiabetesPedigreeFunction", "Age"]
input_df = pd.DataFrame([input_data], columns=columns)

# Estandarizar los datos
std_data = scaler.transform(input_df)

# Hacer la predicci√≥n
prediction = classifier.predict(std_data)
print("Predicci√≥n:", prediction)

if (prediction[0] == 0):
    print('The person is not diabetic')
else:
    print('The person is diabetic')


# %% [markdown]
# # Podemos entrenar varios modelos y comparamos su rendimiento

# %%
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

# %%
# Modelos a evaluar
models = {
    "Support Vector Machine": svm.SVC(kernel='linear'),
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=2),
    "Regresi√≥n Log√≠stica": LogisticRegression()
}

# Entrenamiento y evaluaci√≥n
for name, model in models.items():
    model.fit(X_train, Y_train)
    y_pred = model.predict(X_test)
    acc = accuracy_score(Y_test, y_pred)
    print(f"Modelo: {name} - Precisi√≥n: {acc:.4f}")

# %% [markdown]
# # Optimizar el Modelo SVM con Ajuste de Hiperparametros
# ## Optimizar el modelo SVM con b√∫squeda de hiperpar√°metros

# %%
from sklearn.model_selection import GridSearchCV

# Definir hiperpar√°metros a buscar
param_grid = {
    'C': [0.1, 1, 10, 100],
    'kernel': ['linear', 'rbf', 'poly']
}

# B√∫squeda de hiperpar√°metros
grid_search = GridSearchCV(svm.SVC(), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, Y_train)

# Mejor combinaci√≥n de hiperpar√°metros
print("Mejores par√°metros encontrados:", grid_search.best_params_)


# %% [markdown]
#  Entrenar el Modelo con los Mejores Hiperpar√°metros

# %%
# Importar la librer√≠a
from sklearn import svm

# Crear el modelo con los mejores hiperpar√°metros
optimal_classifier = svm.SVC(C=1, kernel='linear')

# Entrenar el modelo
optimal_classifier.fit(X_train, Y_train)


# %% [markdown]
# Evaluar el Modelo Optimizado

# %%
from sklearn.metrics import accuracy_score

# Predicciones en el conjunto de entrenamiento
train_predictions = optimal_classifier.predict(X_train)
train_accuracy = accuracy_score(Y_train, train_predictions)
print(f"Precisi√≥n en el conjunto de entrenamiento: {train_accuracy:.4f}")

# Predicciones en el conjunto de prueba
test_predictions = optimal_classifier.predict(X_test)
test_accuracy = accuracy_score(Y_test, test_predictions)
print(f"Precisi√≥n en el conjunto de prueba: {test_accuracy:.4f}")


# %% [markdown]
#  Volver a Predecir con Datos Nuevos

# %%
# Nueva muestra de datos (Ejemplo: Glucosa, Presi√≥n Sangu√≠nea, BMI, etc.)
new_input_data = (4, 110, 92, 0, 0, 37.6, 0.191, 30)

# Convertimos en un DataFrame
columns = ["Pregnancies", "Glucose", "BloodPressure", "SkinThickness", 
           "Insulin", "BMI", "DiabetesPedigreeFunction", "Age"]
new_input_df = pd.DataFrame([new_input_data], columns=columns)

# Estandarizamos los datos con el scaler previamente ajustado
new_input_standardized = scaler.transform(new_input_df)

# Hacemos la predicci√≥n con el modelo optimizado
new_prediction = optimal_classifier.predict(new_input_standardized)

# Mostramos el resultado
if new_prediction[0] == 0:
    print("‚ùå La persona NO es diab√©tica.")
else:
    print("‚úÖ La persona ES diab√©tica.")


# %% [markdown]
# # Conclusiones y Hallazgos Clave
# 
# 1Ô∏è‚É£ **El mejor modelo fue SVM con un 77% de precisi√≥n.**  
# 2Ô∏è‚É£ **La glucosa y la edad son las variables m√°s importantes en la predicci√≥n.**  
# 3Ô∏è‚É£ **Los datos originales ten√≠an valores extremos en Insulin.** 
# 
# 




Defaulting to user installation because normal site-packages is not writeable



[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Defaulting to user installation because normal site-packages is not writeable



[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


FileNotFoundError: [Errno 2] No such file or directory: 'diabetes.csv'