<a href="https://colab.research.google.com/github/roccipelaez/roccipelaez/blob/main/proyecto_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [45]:
#Rocio Pelaez Ventura
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

class Clasificadores:
  """ En esta clase ingresamos los clasificadores que vamos a ocupar de la lista
  proporcionada, cada atributo es una instancia diferente por clasificador"""
  def __init__(self):
    self.regresion_logistica= LogisticRegression()
    self.k_nearest_neighbors= KNeighborsClassifier()
    self.svm= SVC()
    self.arbol_desicion= DecisionTreeClassifier()
    self.random_forest= RandomForestClassifier()

  def evaluacion(self, X_train, y_train, X_test, y_test):
    """ Aquí evaluamos para cada clasificador, los datos de entrenamiento, hace
    predicciones de los datos de entrenamiento y validación, evalua la exactitud
    y la matriz de confusión y estos se almacenan en un diccionario, y aplicamos
    las excepciones para que el programa pueda controlar los errores ocasiona-
    dos, después retorna los resultados."""

    resulta = {}
    for nombre, modelo in [
        ("Regresión logística", self.regresion_logistica),
        ("k-Nearest Neighbors", self.k_nearest_neighbors),
        ("Máquinas de soporte vectorial", self.svm),
        ("Árbol de decisión", self.arbol_desicion),
        ("Random Forest", self.random_forest)
    ]:
        try:
          modelo.fit(X_train, y_train)
          prediccion_train= modelo.predict(X_train)
          prediccion_test= modelo.predict(X_test)

          precision_train= accuracy_score(y_train, prediccion_train)
          precision_test= accuracy_score(y_test, prediccion_test)

          matriz_train= confusion_matrix(y_train, prediccion_train)
          matriz_test= confusion_matrix(y_test, prediccion_test)

          resulta[nombre]= {
              "accuracy_train": precision_train,
              "accuracy_test": precision_test,
              "confusion_matrix_train": matriz_train,
              "confusion_matrix_test": matriz_test
           }

          print(f"{nombre}:")
          print(f" Precisión en entrenamiento: {precision_train: .4f}")
          print(f" Precisión en validación: {precision_test: .4f}")
          print(f" Matriz de confusión de entrenamiento:\n {matriz_train}")
          print(f" Matriz de confusión de validación:\n {matriz_test}\n")

        except Exception as e:
          print(f"Error al ingresar {nombre}: {str(e)}")

    return resulta

#Implementación del main
if __name__ == "main":

 #Se cargan los archivos csv, maneja un excepción por si esto llegase a fallar
 try:
      cancer_df= pd.read_csv('Cancer.csv')
      entrenamiento_df= pd.read_csv('entrenamiento.csv')
      validacion_df= pd.read_csv('validacion.csv')
 except Exception as e:
      print(f" Error para cargar los archivos: {str(e)}")
      exit()
#Separamos los datos
X= cancer_df.drop(['id', 'diagnosis'], axis=1)
y= cancer_df['diagnosis']
#Dividimos los dator entre entrenamiento y validación, reservamos 20% para test
X_train, X_test, y_train, y_test= train_test_split(X, y, test_size=0.2)
#Escalamos para que tengan media 0 y evaluación estandar 1
scaler= StandardScaler()
escala_train= scaler.fit_transform(X_train)
escala_test= scaler.transform(X_test)
#Creamos una instancia de nuestra clase principal y mandamos a llamar al método
# evaluación
clasificadores= Clasificadores()
resultados= clasificadores.evaluacion(escala_train, y_train, escala_test, y_test)
#Encontramos el mejor modelo de árboles basandonos en la presición del test
mejor_arbol= max(resultados.items(), key=lambda x: x[1]['accuracy_test'] \
                 if x[0] in ['Árbol de decisión', 'Random Forest'] else 0)
print(f"\nEl mejor árbol de decisión es: {mejor_arbol[0]}")
print(f"precisión en prueba: {mejor_arbol[1]['accuracy_test']: .4f}")

Regresión logística:
 Precisión en entrenamiento:  0.9950
 Precisión en validación:  0.9500
 Matriz de confusión de entrenamiento:
 [[242   0]
 [  2 155]]
 Matriz de confusión de validación:
 [[62  1]
 [ 4 33]]

k-Nearest Neighbors:
 Precisión en entrenamiento:  0.9799
 Precisión en validación:  0.9600
 Matriz de confusión de entrenamiento:
 [[241   1]
 [  7 150]]
 Matriz de confusión de validación:
 [[63  0]
 [ 4 33]]

Máquinas de soporte vectorial:
 Precisión en entrenamiento:  0.9925
 Precisión en validación:  0.9500
 Matriz de confusión de entrenamiento:
 [[242   0]
 [  3 154]]
 Matriz de confusión de validación:
 [[61  2]
 [ 3 34]]

Árbol de decisión:
 Precisión en entrenamiento:  1.0000
 Precisión en validación:  0.9300
 Matriz de confusión de entrenamiento:
 [[242   0]
 [  0 157]]
 Matriz de confusión de validación:
 [[61  2]
 [ 5 32]]

Random Forest:
 Precisión en entrenamiento:  1.0000
 Precisión en validación:  0.9700
 Matriz de confusión de entrenamiento:
 [[242   0]
 [  0 1