In [1]:
# %% [markdown]
# # 📊 Predicción de Diabetes Usando Machine Learning
# Este proyecto tiene como objetivo predecir si una persona tiene diabetes o no utilizando un modelo de **Support Vector Machine (SVM)** basado en datos de pacientes.
# 
# ## 📌 ¿Por qué es importante este problema?
# - La diabetes afecta a millones de personas en todo el mundo.
# - Un diagnóstico temprano puede ayudar a mejorar la calidad de vida.
# - Usar Machine Learning puede mejorar la detección temprana y reducir costos médicos.
# 
# ## 🎯 Objetivos del Proyecto:
# 1. Analizar el conjunto de datos de diabetes y entender sus características.
# 2. Entrenar un modelo de clasificación para predecir la presencia de diabetes.
# 3. Evaluar el modelo y mejorar su precisión utilizando técnicas de optimización.
# 4. Desarrollar un sistema de predicción que pueda usarse con datos nuevos.
# 
# ---
# 

# %% [markdown]
# # Importing the Dependencies

# %%
!pip install matplotlib

# %%
!pip install seaborn

# %%
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score

# %% [markdown]
# DATA COLLECTION AND ANALYSIS

# %%
# LOADING THE DIABETES DATASET TO A PANDAS DATAFRAME
diabetes_dataset = pd.read_csv('diabetes.csv')

# %%
# printing the first 5 rows of the dataset
diabetes_dataset.head()

# %%
# number of rows in Columns in this dataset
diabetes_dataset.shape

# %%
#getting the statistical measures of the data
diabetes_dataset.describe()

# %%
diabetes_dataset['Outcome'].value_counts()

# %% [markdown]
# # Distribucion de Variables Clave

# %%
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo de gráficos
plt.style.use('ggplot')

# Distribución de la variable objetivo
plt.figure(figsize=(6,4))
sns.countplot(x=diabetes_dataset['Outcome'], palette='coolwarm')
plt.title('Distribución de Pacientes Diabéticos vs No Diabéticos')
plt.xlabel('0 = No Diabético, 1 = Diabético')
plt.ylabel('Cantidad de Pacientes')
plt.show()


# %% [markdown]
# # Correlacion entre variables

# %%
plt.figure(figsize=(10,8))
sns.heatmap(diabetes_dataset.corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Mapa de Calor de Correlación entre Variables')
plt.show()


# %% [markdown]
# Se observa que las variables Glucose y Age tienen un correlacion positiva con la variable Outcome con el valor 1. Podriamos deducir que a más edad y más niveles de Glucosa en la sangre tiene un efecto en si un paciente es diabetico o no.

# %% [markdown]
# # Detectar y manejar Outliers

# %%
plt.figure(figsize=(12,6))
diabetes_dataset.boxplot(rot=45)
plt.title("Distribución de Datos y Posibles Outliers")
plt.show()


# %% [markdown]
# label O--> Non-Diabetic
# label 1 --> Diabetic

# %%
diabetes_dataset.groupby('Outcome').mean()

# %%
# Separating the data and labels
X = diabetes_dataset.drop(columns= 'Outcome', axis= 1)
Y = diabetes_dataset['Outcome']

# %%
print(X)

# %%
print(Y)

# %% [markdown]
# ## Data Standardization

# %%
scaler = StandardScaler()

# %%
scaler.fit(X)

# %%
standardized_data = scaler.transform(X)

# %%
#scaler.fit_transform

# %%
print(standardized_data)

# %% [markdown]
# Now all the values are in the same range.

# %%
X = standardized_data
Y = diabetes_dataset['Outcome']

# %%
print(X)
print(Y)

# %% [markdown]
# Train the data

# %%
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,test_size= 0.2, stratify = Y, random_state=2)

# %%
print(X.shape, X_train.shape, X_test.shape)

# %% [markdown]
# Training the Model

# %%
classifier = svm.SVC(kernel='linear')

# %% [markdown]
# El Support Vector Machine (SVM) es un algoritmo de aprendizaje supervisado utilizado tanto para clasificación como para regresión, aunque se usa principalmente para problemas de clasificación. Su objetivo principal es encontrar un hiperplano óptimo que separe los datos en distintas clases con el mayor margen posible.
# 
# ¿Cómo funciona el SVM?
# Transforma los datos en un espacio de alta dimensión si es necesario (usando funciones kernel).
# Encuentra el hiperplano óptimo que divide las clases, maximizando la distancia entre los puntos más cercanos (vectores de soporte).
# Clasifica nuevos datos según su posición respecto a este hiperplano.
# ¿Por qué usar SVM en la detección de diabetes?
# Para predecir si una persona tiene diabetes o no, el SVM es útil porque:
# 
# Funciona bien en espacios de alta dimensión (es decir, cuando hay muchas variables de entrada).
# Es robusto frente a sobreajuste, especialmente con el uso de márgenes suaves.
# Puede manejar datos no linealmente separables mediante kernels como el radial basis function (RBF).

# %%
# training the support vector Machine Classifier
classifier.fit(X_train, Y_train)

# %% [markdown]
# Model Evaluation 

# %% [markdown]
# Accuracy_score

# %%
# Accuracy score on the training data
X_train_prediction = classifier.predict(X_train)
training_data_accuracy = accuracy_score(X_train_prediction, Y_train)

# %%
print('Accuracy score of the training data:', training_data_accuracy) 

# %%
# Accuracy score on the test data
X_test_prediction = classifier.predict(X_test)
test_data_accuracy = accuracy_score(X_test_prediction, Y_test)

# %%
print('Accuracy score of the training data:', test_data_accuracy) 

# %% [markdown]
# Making a predicting System

# %%
import numpy as np
import pandas as pd

input_data = (4, 110, 92, 0, 0, 37.6, 0.191, 30)

# Convertir a DataFrame con los mismos nombres de columnas usados en el entrenamiento
columns = ["Pregnancies", "Glucose", "BloodPressure", "SkinThickness", 
           "Insulin", "BMI", "DiabetesPedigreeFunction", "Age"]
input_df = pd.DataFrame([input_data], columns=columns)

# Estandarizar los datos
std_data = scaler.transform(input_df)

# Hacer la predicción
prediction = classifier.predict(std_data)
print("Predicción:", prediction)

if (prediction[0] == 0):
    print('The person is not diabetic')
else:
    print('The person is diabetic')


# %% [markdown]
# # Podemos entrenar varios modelos y comparamos su rendimiento

# %%
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

# %%
# Modelos a evaluar
models = {
    "Support Vector Machine": svm.SVC(kernel='linear'),
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=2),
    "Regresión Logística": LogisticRegression()
}

# Entrenamiento y evaluación
for name, model in models.items():
    model.fit(X_train, Y_train)
    y_pred = model.predict(X_test)
    acc = accuracy_score(Y_test, y_pred)
    print(f"Modelo: {name} - Precisión: {acc:.4f}")

# %% [markdown]
# # Optimizar el Modelo SVM con Ajuste de Hiperparametros
# ## Optimizar el modelo SVM con búsqueda de hiperparámetros

# %%
from sklearn.model_selection import GridSearchCV

# Definir hiperparámetros a buscar
param_grid = {
    'C': [0.1, 1, 10, 100],
    'kernel': ['linear', 'rbf', 'poly']
}

# Búsqueda de hiperparámetros
grid_search = GridSearchCV(svm.SVC(), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, Y_train)

# Mejor combinación de hiperparámetros
print("Mejores parámetros encontrados:", grid_search.best_params_)


# %% [markdown]
#  Entrenar el Modelo con los Mejores Hiperparámetros

# %%
# Importar la librería
from sklearn import svm

# Crear el modelo con los mejores hiperparámetros
optimal_classifier = svm.SVC(C=1, kernel='linear')

# Entrenar el modelo
optimal_classifier.fit(X_train, Y_train)


# %% [markdown]
# Evaluar el Modelo Optimizado

# %%
from sklearn.metrics import accuracy_score

# Predicciones en el conjunto de entrenamiento
train_predictions = optimal_classifier.predict(X_train)
train_accuracy = accuracy_score(Y_train, train_predictions)
print(f"Precisión en el conjunto de entrenamiento: {train_accuracy:.4f}")

# Predicciones en el conjunto de prueba
test_predictions = optimal_classifier.predict(X_test)
test_accuracy = accuracy_score(Y_test, test_predictions)
print(f"Precisión en el conjunto de prueba: {test_accuracy:.4f}")


# %% [markdown]
#  Volver a Predecir con Datos Nuevos

# %%
# Nueva muestra de datos (Ejemplo: Glucosa, Presión Sanguínea, BMI, etc.)
new_input_data = (4, 110, 92, 0, 0, 37.6, 0.191, 30)

# Convertimos en un DataFrame
columns = ["Pregnancies", "Glucose", "BloodPressure", "SkinThickness", 
           "Insulin", "BMI", "DiabetesPedigreeFunction", "Age"]
new_input_df = pd.DataFrame([new_input_data], columns=columns)

# Estandarizamos los datos con el scaler previamente ajustado
new_input_standardized = scaler.transform(new_input_df)

# Hacemos la predicción con el modelo optimizado
new_prediction = optimal_classifier.predict(new_input_standardized)

# Mostramos el resultado
if new_prediction[0] == 0:
    print("❌ La persona NO es diabética.")
else:
    print("✅ La persona ES diabética.")


# %% [markdown]
# # Conclusiones y Hallazgos Clave
# 
# 1️⃣ **El mejor modelo fue SVM con un 77% de precisión.**  
# 2️⃣ **La glucosa y la edad son las variables más importantes en la predicción.**  
# 3️⃣ **Los datos originales tenían valores extremos en Insulin.** 
# 
# 




Defaulting to user installation because normal site-packages is not writeable



[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Defaulting to user installation because normal site-packages is not writeable



[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


FileNotFoundError: [Errno 2] No such file or directory: 'diabetes.csv'