<a href="https://colab.research.google.com/github/yaretziaguilar/THC/blob/main/Clasificadores.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive
drive.mount("mnt")

In [18]:
"""
clasificadores para los datos de cáncer.
"""

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix
, classification_report
import matplotlib.pyplot as plt
import seaborn as sns
import requests
from io import StringIO

class Clasificadores:
    def __init__(self):
        """Inicializa la clase Clasificadores con un conjunto de clasificadores
        predefinidos."""
        self.clasificadores = {
            'Regresión Logística': LogisticRegression(random_state=42),
            'k-Nearest Neighbors': KNeighborsClassifier(),
            'SVM': SVC(random_state=42),
            'Árbol de Decisión': DecisionTreeClassifier(random_state=42),
            'Random Forest': RandomForestClassifier(random_state=42)
        }
        self.resultados = {}


    def preparar_datos(data):
        """Preparamos los datos para el análisis."""
        # Convertimos 'diagnosis' a valores numéricos
        data['diagnosis'] = data['diagnosis'].map({'M': 1, 'B': 0})

        # Seleccionamos las características
        features = ['radius_mean', 'texture_mean', 'perimeter_mean', 'area_mean'
                , 'smoothness_mean']
        X = data[features]
        y = data['diagnosis']

        # Dividimos los datos
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2
                                                            , random_state=42)

        # Escalamos los datos
        scaler = StandardScaler()
        X_train_scaled = scaler.fit_transform(X_train)
        X_test_scaled = scaler.transform(X_test)

        return X_train_scaled, X_test_scaled, y_train, y_test


    def entrenar_y_evaluar(X_train, X_test, y_train, y_test):
        """Entrena y evalúa los clasificadores."""

        for nombre, clf in self.clasificadores.items():
            clf.fit(X_train, y_train)
            y_pred = clf.predict(X_test)
            accuracy = accuracy_score(y_test, y_pred)
            conf_matrix = confusion_matrix(y_test, y_pred)

            resultados[nombre] = {
                'accuracy': accuracy,
                'conf_matrix': conf_matrix
            }

            print(f"\nResultados para {nombre}:")
            print(f"Precisión: {accuracy:.4f}")
            print("Matriz de Confusión:")
            print(conf_matrix)
            print("\nInforme de Clasificación:")
            print(classification_report(y_test, y_pred))

            return resultados

def visualizar_resultados(resultados):
    """Visualiza los resultados de los clasificadores."""
    # Gráfico de barras de precisión
    precisiones = [res['accuracy'] for res in resultados.values()]
    plt.figure(figsize=(10, 5))
    plt.bar(resultados.keys(), precisiones)
    plt.title('Comparación de Precisión de Clasificadores')
    plt.ylabel('Precisión')
    plt.ylim(0, 1)
    plt.savefig('comparacion_precisiones.png')
    plt.close()

    # Matrices de confusión
    for nombre, res in resultados.items():
        plt.figure(figsize=(8, 6))
        sns.heatmap(res['conf_matrix'], annot=True, fmt='d', cmap='Blues')
        plt.title(f'Matriz de Confusión - {nombre}')
        plt.ylabel('Verdadero')
        plt.xlabel('Predicho')
        plt.savefig(f'confusion_matrix_{nombre.lower().replace(" ", "_")}.png')
        plt.close()

def main():
    """Función principal."""
    data = pd.read_csv("/content/mnt/MyDrive/Classroom/cancer.csv")
    if data is not None:
        X_train, X_test, y_train, y_test = preparar_datos(data)
        resultados = entrenar_y_evaluar(X_train, X_test, y_train, y_test)
        visualizar_resultados(resultados)
        print("\nAnálisis completado.")
    else:
        print("No se pudo proceder debido a errores en la carga de datos.")

if __name__ == "__main__":
    main()


Resultados para Regresión Logística:
Precisión: 0.9400
Matriz de Confusión:
[[59  2]
 [ 4 35]]

Informe de Clasificación:
              precision    recall  f1-score   support

           0       0.94      0.97      0.95        61
           1       0.95      0.90      0.92        39

    accuracy                           0.94       100
   macro avg       0.94      0.93      0.94       100
weighted avg       0.94      0.94      0.94       100


Resultados para Árbol de Decisión:
Precisión: 0.9100
Matriz de Confusión:
[[58  3]
 [ 6 33]]

Informe de Clasificación:
              precision    recall  f1-score   support

           0       0.91      0.95      0.93        61
           1       0.92      0.85      0.88        39

    accuracy                           0.91       100
   macro avg       0.91      0.90      0.90       100
weighted avg       0.91      0.91      0.91       100


Resultados para k-Nearest Neighbors:
Precisión: 0.9500
Matriz de Confusión:
[[59  2]
 [ 3 36]]

Infor