In [36]:
import pandas as pd #importamos la paqueteria pandas
import numpy as np #importamos la paqueteria numpy
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.metrics import accuracy_score
#de la paqueteria sklearn importamos ciertas partes que nos ayudaran tanto para
#los clasificaodres como calculos de sus presiciones

class Clasificadores: #creamos la clase clasificadores
    def __init__(self, ruta_archivo): #solicitamos la ruta de un archivo
        "ejecutar los datos del archivo"
        if not ruta_archivo.lower().endswith('.csv'):
            raise ValueError("El archivo debe ser un archivo .csv")
#verificamos la terminacion del archivo sea .csv y pedimos el archivo tenga
#esta terminacion
        try:
          df = pd.read_csv(ruta_archivo) #mediante la paqueteria pandas df sera
#la lectura del archivo
        except FileNotFoundError:
            raise FileNotFoundError(f"El archivo {ruta_archivo} no se encuentra en la ruta especificada.")
        except pd.errors.EmptyDataError:
            raise ValueError("El archivo CSV está vacío.")
        if df.empty:
            raise ValueError("El archivo CSV no contiene datos.")
        if not np.all(df.iloc[:, 2:].apply(
            pd.to_numeric, errors='coerce').notnull()):
            raise ValueError("Las características deben ser numéricas.")
#verificamos el archivo contenga datos y no este vacio, ademas que los datos
#de las filas correspondientes sean numericos
        self.y = list(df["diagnosis"])
        self.x = np.array(df.iloc[:, 2:]) #verifica datos desde la columna 2
        self.x_train, self.x_test, self.y_train, self.y_test = train_test_split(
                                self.x, self.y, test_size=0.30, random_state=42)
#el porcentaje de entrenamiento de los clasificadores sera de 30
    def entrenador_evaluador(self, clf):
        """Entrena y evalúa un clasificador"""
        clf.fit(self.x_train, self.y_train)
        f = clf.predict(self.x_test)
        return f #entrenara y simulara los resultados segun el clasificador
    def svm(self):
        """Clasificador SVM"""
        clf = svm.SVC()
        return self.entrenador_evaluador(clf)
    def RL(self):
        """Clasificador Regresión Logística"""
        clf = LogisticRegression(max_iter=10000)
        return self.entrenador_evaluador(clf)
    def AD(self):
        """Clasificador Árbol de Decisión"""
        clf = DecisionTreeClassifier(random_state=42)
        return self.entrenador_evaluador(clf)
    def KNN(self, k=2):
        """Clasificador k-Nearest Neighbors"""
        clf = KNeighborsClassifier(n_neighbors=k)
        return self.entrenador_evaluador(clf)
    def RF(self):
        """Clasificador Random Forest"""
        clf = RandomForestClassifier(random_state=42)
        return self.entrenador_evaluador(clf)
    def precision(self, y_pred):
        """Evaluar  la presicion del clasificador"""
        count = sum([1 for i in range(
                     len(self.y_test)) if self.y_test[i] == y_pred[i]])
        return count / len(self.y_test) #el numero de aciertos con respecto
                                        #a los datos del archivo

if __name__ == "__main__":

  clasificadores = Clasificadores("/content/drive/MyDrive/cancer.csv")

  try:
    print("Clasificador SVM:")
    print(clasificadores.svm())
    y_pred_svm = clasificadores.svm()
    print("Precisión SVM:", clasificadores.precision(y_pred_svm))
    print("Accuracy", accuracy_score(clasificadores.y_test, y_pred_svm))
    print("\nconfusion_matrix:\n",confusion_matrix(
                 clasificadores.y_test, y_pred_svm))
    print("\nclassification_report:\n",classification_report(
                           clasificadores.y_test, y_pred_svm))
    print("Clasificador Regresion Logistica")
    print(clasificadores.RL())
    y_pred_rl = clasificadores.RL()
    print("Precisión RL:", clasificadores.precision(y_pred_rl))
    print("Accuracy", accuracy_score(clasificadores.y_test, y_pred_rl))
    print("\nconfusion_matrix:\n",confusion_matrix(
                  clasificadores.y_test, y_pred_rl))
    print("\nclassification_report:\n",classification_report(
                            clasificadores.y_test, y_pred_rl))
    print("Clasificador Árbol de Decisión")
    print(clasificadores.AD())
    y_pred_ad = clasificadores.AD()
    print("Precisión AD:", clasificadores.precision(y_pred_ad))
    print("Accuracy", accuracy_score(clasificadores.y_test, y_pred_ad))
    print("\nconfusion_matrix:\n",confusion_matrix(
                  clasificadores.y_test, y_pred_ad))
    print("\nclassification_report:\n",classification_report(
                            clasificadores.y_test, y_pred_ad))
    print("Clasificador k-Nearest Neighbors")
    print(clasificadores.KNN())
    y_pred_knn = clasificadores.KNN()
    print("Precisión KNN:", clasificadores.precision(y_pred_knn))
    print("Accuracy", accuracy_score(clasificadores.y_test, y_pred_knn))
    print("\nconfusion_matrix:\n",confusion_matrix(
                 clasificadores.y_test, y_pred_knn))
    print("\nclassification_report:\n",classification_report(
                           clasificadores.y_test, y_pred_knn))
    print("Clasificador Random Forest")
    print(clasificadores.RF())
    y_pred_rf = clasificadores.RF()
    print("Precisión RF:", clasificadores.precision(y_pred_rf))
    print("Accuracy", accuracy_score(clasificadores.y_test, y_pred_rf))
    print("\nconfusion_matrix:\n",confusion_matrix(
                  clasificadores.y_test, y_pred_rf))
    print("\nclassification_report:\n",classification_report(
                            clasificadores.y_test, y_pred_rf))

#control de errores no previstos
  except ValueError as e:
    print(f"Error de valor: {e}")
  except FileNotFoundError as e:
    print(f"Error de archivo no encontrado: {e}")
  except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

Clasificador SVM:
['M' 'B' 'B' 'B' 'M' 'B' 'B' 'B' 'B' 'B' 'B' 'M' 'M' 'B' 'B' 'B' 'B' 'M'
 'B' 'M' 'B' 'B' 'B' 'M' 'B' 'B' 'M' 'B' 'M' 'B' 'B' 'B' 'B' 'M' 'B' 'B'
 'M' 'M' 'B' 'B' 'B' 'B' 'M' 'B' 'M' 'M' 'B' 'B' 'B' 'B' 'M' 'M' 'B' 'M'
 'M' 'B' 'M' 'B' 'M' 'M' 'B' 'B' 'B' 'M' 'B' 'B' 'M' 'M' 'B' 'B' 'B' 'M'
 'B' 'B' 'M' 'B' 'B' 'M' 'M' 'B' 'B' 'B' 'M' 'B' 'M' 'B' 'B' 'B' 'B' 'B'
 'B' 'B' 'M' 'B' 'M' 'B' 'B' 'B' 'M' 'B' 'M' 'B' 'M' 'B' 'B' 'B' 'B' 'B'
 'M' 'B' 'M' 'B' 'B' 'M' 'B' 'B' 'M' 'B' 'B' 'B' 'B' 'B' 'M' 'M' 'B' 'B'
 'B' 'B' 'B' 'M' 'B' 'M' 'B' 'M' 'M' 'M' 'B' 'B' 'B' 'M' 'B' 'B' 'M' 'B'
 'B' 'B' 'B' 'B' 'M' 'M']
Precisión SVM: 0.92
Accuracy 0.92

confusion_matrix:
 [[88  1]
 [11 50]]

classification_report:
               precision    recall  f1-score   support

           B       0.89      0.99      0.94        89
           M       0.98      0.82      0.89        61

    accuracy                           0.92       150
   macro avg       0.93      0.90      0.91       150
we

In [None]:
#Mediante las matrices de confusion y el porcentage de eficiencia de
#los clasificadores podemos llegar a la conclusion de que el mejor
#clasificador es Random forest, pues tanto su matriz de confusion
#como su porcentage de presicion son mejores.