In [1]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
df= pd.read_csv(filepath_or_buffer="D:/Bases_de_datos/input/diabetes.csv")
# Distribución Normal

# Inicializa el escalador Min-Max
scaler = MinMaxScaler()

# Seleccionar las columnas numéricas para la normalización
numeric_columns = df.select_dtypes(include=['int64', 'float64']).columns

# Aplicar la normalización y actualizar el df con las columnas normalizadas
df[numeric_columns] = scaler.fit_transform(df[numeric_columns])

# Muestra las primeras filas del DataFrame normalizado
print(df.head())

   Pregnancies   Glucose  BloodPressure  SkinThickness   Insulin       BMI  \
0     0.352941  0.743719       0.590164       0.353535  0.000000  0.500745   
1     0.058824  0.427136       0.540984       0.292929  0.000000  0.396423   
2     0.470588  0.919598       0.524590       0.000000  0.000000  0.347243   
3     0.058824  0.447236       0.540984       0.232323  0.111111  0.418778   
4     0.000000  0.688442       0.327869       0.353535  0.198582  0.642325   

   DiabetesPedigreeFunction       Age  Outcome  
0                  0.234415  0.483333      1.0  
1                  0.116567  0.166667      0.0  
2                  0.253629  0.183333      1.0  
3                  0.038002  0.000000      0.0  
4                  0.943638  0.200000      1.0  


In [2]:
# Encontrando y practicando con hiperparámetros

from sklearn.model_selection import train_test_split

X = df.drop('Outcome', axis=1)
y = df['Outcome']  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [3]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

# Inicializamos el modelo
modelo = RandomForestClassifier(random_state=42)

# Definimos el espacio de hiperparámetros a explorar
param_grid = {
    'n_estimators': [100, 200, 300],  # Número de árboles
    'max_depth': [None, 10, 20, 30],  # Profundidad máxima de los árboles
    'min_samples_split': [2, 5, 10],  # Número mínimo de muestras requerido para dividir un nodo
    'min_samples_leaf': [1, 2, 4]  # Número mínimo de muestras requerido en cada hoja
}

In [4]:
grid_search = GridSearchCV(estimator=modelo, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2, scoring='accuracy')
grid_search.fit(X_train, y_train)

Fitting 5 folds for each of 108 candidates, totalling 540 fits


GridSearchCV(cv=5, estimator=RandomForestClassifier(random_state=42), n_jobs=-1,
             param_grid={'max_depth': [None, 10, 20, 30],
                         'min_samples_leaf': [1, 2, 4],
                         'min_samples_split': [2, 5, 10],
                         'n_estimators': [100, 200, 300]},
             scoring='accuracy', verbose=2)

In [5]:
from sklearn.metrics import accuracy_score

# Mostrar los mejores hiperparámetros encontrados
print("Mejores hiperparámetros:", grid_search.best_params_)
print("Mejor puntuación (accuracy) durante la validación cruzada:", grid_search.best_score_)

# Utilizar el mejor modelo encontrado para hacer predicciones en el conjunto de prueba
mejor_modelo = grid_search.best_estimator_
predicciones = mejor_modelo.predict(X_test)

# Calcular y mostrar el accuracy en el conjunto de prueba
accuracy_test = accuracy_score(y_test, predicciones)
print("Accuracy en el conjunto de prueba:", accuracy_test)

Mejores hiperparámetros: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 100}
Mejor puntuación (accuracy) durante la validación cruzada: 0.7834199653471945
Accuracy en el conjunto de prueba: 0.7402597402597403
