In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.datasets import load_diabetes, load_breast_cancer, load_digits
from sklearn.metrics import accuracy_score, classification_report

In [2]:
def train_and_evaluate(model, X_train, X_test, y_train, y_test, name):
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"\n{name} sin GridSearch:")
    print(f"Precisión: {accuracy:.4f}")
    print("Reporte de clasificación:")
    print(classification_report(y_test, y_pred))

def grid_search_and_evaluate(model, param_grid, X_train, X_test, y_train, y_test, name):
    grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)
    grid_search.fit(X_train, y_train)
    y_pred = grid_search.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"\n{name} con GridSearch:")
    print(f"Mejores parámetros: {grid_search.best_params_}")
    print(f"Precisión: {accuracy:.4f}")
    print("Reporte de clasificación:")
    print(classification_report(y_test, y_pred))
    return grid_search.best_estimator_

In [6]:
X.shape

(442, 10)

In [3]:
# 1. Random Forest con el dataset de Diabetes
print("Random Forest - Dataset de Diabetes")
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

rf = RandomForestClassifier(random_state=42)
train_and_evaluate(rf, X_train, X_test, y_train, y_test, "Random Forest")

Random Forest - Dataset de Diabetes

Random Forest sin GridSearch:
Precisión: 0.0075
Reporte de clasificación:
              precision    recall  f1-score   support

        25.0       0.00      0.00      0.00         0
        37.0       0.00      0.00      0.00         1
        39.0       0.00      0.00      0.00         0
        40.0       0.00      0.00      0.00         0
        42.0       0.00      0.00      0.00         1
        43.0       0.00      0.00      0.00         0
        44.0       0.00      0.00      0.00         0
        47.0       0.00      0.00      0.00         0
        48.0       0.00      0.00      0.00         2
        49.0       0.00      0.00      0.00         0
        51.0       0.00      0.00      0.00         0
        52.0       0.00      0.00      0.00         3
        53.0       0.00      0.00      0.00         1
        55.0       0.00      0.00      0.00         0
        58.0       0.00      0.00      0.00         0
        59.0       0.00 

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [7]:
param_grid_rf = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5]
}
best_rf = grid_search_and_evaluate(rf, param_grid_rf, X_train, X_test, y_train, y_test, "Random Forest")





Random Forest con GridSearch:
Mejores parámetros: {'max_depth': 10, 'min_samples_split': 2, 'n_estimators': 100}
Precisión: 0.0000
Reporte de clasificación:
              precision    recall  f1-score   support

        37.0       0.00      0.00      0.00       1.0
        40.0       0.00      0.00      0.00       0.0
        42.0       0.00      0.00      0.00       1.0
        43.0       0.00      0.00      0.00       0.0
        47.0       0.00      0.00      0.00       0.0
        48.0       0.00      0.00      0.00       2.0
        49.0       0.00      0.00      0.00       0.0
        51.0       0.00      0.00      0.00       0.0
        52.0       0.00      0.00      0.00       3.0
        53.0       0.00      0.00      0.00       1.0
        55.0       0.00      0.00      0.00       0.0
        59.0       0.00      0.00      0.00       1.0
        60.0       0.00      0.00      0.00       2.0
        61.0       0.00      0.00      0.00       2.0
        63.0       0.00      0.

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [5]:
# 2. Decision Tree con el dataset de Cáncer de Mama
print("\nDecision Tree - Dataset de Cáncer de Mama")
breast_cancer = load_breast_cancer()
X, y = breast_cancer.data, breast_cancer.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

dt = DecisionTreeClassifier(random_state=42)
train_and_evaluate(dt, X_train, X_test, y_train, y_test, "Decision Tree")


Decision Tree - Dataset de Cáncer de Mama

Decision Tree sin GridSearch:
Precisión: 0.9415
Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.90      0.95      0.92        63
           1       0.97      0.94      0.95       108

    accuracy                           0.94       171
   macro avg       0.93      0.94      0.94       171
weighted avg       0.94      0.94      0.94       171



In [6]:
param_grid_dt = {
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}
best_dt = grid_search_and_evaluate(dt, param_grid_dt, X_train, X_test, y_train, y_test, "Decision Tree")



Decision Tree con GridSearch:
Mejores parámetros: {'max_depth': None, 'min_samples_split': 5}
Precisión: 0.9415
Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.90      0.95      0.92        63
           1       0.97      0.94      0.95       108

    accuracy                           0.94       171
   macro avg       0.93      0.94      0.94       171
weighted avg       0.94      0.94      0.94       171



In [7]:
# 3. Naive Bayes con el dataset de Dígitos
print("\nNaive Bayes - Dataset de Dígitos")
digits = load_digits()
X, y = digits.data, digits.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

nb = GaussianNB()
train_and_evaluate(nb, X_train, X_test, y_train, y_test, "Naive Bayes")


Naive Bayes - Dataset de Dígitos

Naive Bayes sin GridSearch:
Precisión: 0.8519
Reporte de clasificación:
              precision    recall  f1-score   support

           0       1.00      0.98      0.99        53
           1       0.86      0.74      0.80        50
           2       0.86      0.66      0.75        47
           3       0.95      0.76      0.85        54
           4       0.98      0.85      0.91        60
           5       0.94      0.94      0.94        66
           6       0.89      0.96      0.93        53
           7       0.72      0.98      0.83        55
           8       0.57      0.91      0.70        43
           9       0.89      0.71      0.79        59

    accuracy                           0.85       540
   macro avg       0.87      0.85      0.85       540
weighted avg       0.88      0.85      0.85       540



In [8]:
param_grid_nb = {
    'var_smoothing': [1e-9, 1e-8, 1e-7, 1e-6]
}
best_nb = grid_search_and_evaluate(nb, param_grid_nb, X_train, X_test, y_train, y_test, "Naive Bayes")



Naive Bayes con GridSearch:
Mejores parámetros: {'var_smoothing': 1e-06}
Precisión: 0.8889
Reporte de clasificación:
              precision    recall  f1-score   support

           0       1.00      0.96      0.98        53
           1       0.84      0.76      0.80        50
           2       0.88      0.79      0.83        47
           3       0.94      0.85      0.89        54
           4       0.97      0.98      0.98        60
           5       0.94      0.91      0.92        66
           6       0.94      0.96      0.95        53
           7       0.87      0.98      0.92        55
           8       0.66      0.95      0.78        43
           9       0.86      0.73      0.79        59

    accuracy                           0.89       540
   macro avg       0.89      0.89      0.89       540
weighted avg       0.90      0.89      0.89       540



In [9]:
print("\nActividad 1: Experimentación con diferentes conjuntos de datos")
print("1. Utilice los modelos entrenados (best_rf, best_dt, best_nb) con un conjunto de datos diferente.")
print("2. Compare el rendimiento de los modelos en el nuevo conjunto de datos.")
print("3. Discuta por qué el rendimiento puede variar entre diferentes conjuntos de datos.")

# Actividad 2: Ajuste manual de hiperparámetros
print("\nActividad 2: Ajuste manual de hiperparámetros")
print("1. Elija uno de los modelos (Random Forest, Decision Tree o Naive Bayes).")
print("2. Ajuste manualmente los hiperparámetros basándose en su comprensión del modelo.")
print("3. Compare el rendimiento de su modelo ajustado manualmente con el mejor modelo encontrado por GridSearch.")
print("4. Discuta las ventajas y desventajas del ajuste manual vs. GridSearch.")

# Actividad 3: Interpretación de resultados
print("\nActividad 3: Interpretación de resultados")
print("1. Para cada modelo, analice el reporte de clasificación (precisión, recall, f1-score).")
print("2. Discuta qué métricas son más importantes según el contexto del problema (diabetes, cáncer de mama, reconocimiento de dígitos).")
print("3. Proponga posibles mejoras para cada modelo basándose en los resultados obtenidos.")


Actividad 1: Experimentación con diferentes conjuntos de datos
1. Utilice los modelos entrenados (best_rf, best_dt, best_nb) con un conjunto de datos diferente.
2. Compare el rendimiento de los modelos en el nuevo conjunto de datos.
3. Discuta por qué el rendimiento puede variar entre diferentes conjuntos de datos.

Actividad 2: Ajuste manual de hiperparámetros
1. Elija uno de los modelos (Random Forest, Decision Tree o Naive Bayes).
2. Ajuste manualmente los hiperparámetros basándose en su comprensión del modelo.
3. Compare el rendimiento de su modelo ajustado manualmente con el mejor modelo encontrado por GridSearch.
4. Discuta las ventajas y desventajas del ajuste manual vs. GridSearch.

Actividad 3: Interpretación de resultados
1. Para cada modelo, analice el reporte de clasificación (precisión, recall, f1-score).
2. Discuta qué métricas son más importantes según el contexto del problema (diabetes, cáncer de mama, reconocimiento de dígitos).
3. Proponga posibles mejoras para cada 

# 1

In [10]:
# Actividad 1: Visualización de la importancia de características
def plot_feature_importance(model, feature_names, title):
    importances = model.feature_importances_
    indices = np.argsort(importances)[::-1]
    plt.figure(figsize=(10,6))
    plt.title(title)
    plt.bar(range(10), importances[indices][:10])
    plt.xticks(range(10), [feature_names[i] for i in indices[:10]], rotation=45)
    plt.tight_layout()
    plt.show()

print("\nActividad 1: Visualización de la importancia de características")
print("Ejecute la siguiente función para Random Forest y Decision Tree:")
print("plot_feature_importance(best_rf, diabetes.feature_names, 'Importancia de características - Random Forest')")
print("plot_feature_importance(best_dt, breast_cancer.feature_names, 'Importancia de características - Decision Tree')")

# Actividad 2: Comparación de curvas de aprendizaje
from sklearn.model_selection import learning_curve

def plot_learning_curve(estimator, X, y, title):
    train_sizes, train_scores, test_scores = learning_curve(
        estimator, X, y, cv=5, n_jobs=-1, train_sizes=np.linspace(.1, 1.0, 5))
    train_scores_mean = np.mean(train_scores, axis=1)
    test_scores_mean = np.mean(test_scores, axis=1)

    plt.figure(figsize=(10,6))
    plt.title(title)
    plt.xlabel("Tamaño del conjunto de entrenamiento")
    plt.ylabel("Puntuación")
    plt.plot(train_sizes, train_scores_mean, 'o-', color="r", label="Puntuación de entrenamiento")
    plt.plot(train_sizes, test_scores_mean, 'o-', color="g", label="Puntuación de validación cruzada")
    plt.legend(loc="best")
    plt.show()

print("\nActividad 2: Comparación de curvas de aprendizaje")
print("Ejecute la siguiente función para cada modelo:")
print("plot_learning_curve(best_rf, X, y, 'Curva de Aprendizaje - Random Forest')")
print("plot_learning_curve(best_dt, X, y, 'Curva de Aprendizaje - Decision Tree')")
print("plot_learning_curve(best_nb, X, y, 'Curva de Aprendizaje - Naive Bayes')")


Actividad 1: Visualización de la importancia de características
Ejecute la siguiente función para Random Forest y Decision Tree:
plot_feature_importance(best_rf, diabetes.feature_names, 'Importancia de características - Random Forest')
plot_feature_importance(best_dt, breast_cancer.feature_names, 'Importancia de características - Decision Tree')

Actividad 2: Comparación de curvas de aprendizaje
Ejecute la siguiente función para cada modelo:
plot_learning_curve(best_rf, X, y, 'Curva de Aprendizaje - Random Forest')
plot_learning_curve(best_dt, X, y, 'Curva de Aprendizaje - Decision Tree')
plot_learning_curve(best_nb, X, y, 'Curva de Aprendizaje - Naive Bayes')
