<a href="https://colab.research.google.com/github/JaimeJaner/Prediccion-de-Personas-con-cancer-con-diferentes-algoritmos-de-clasificacion/blob/main/Predicci%C3%B3n_de_Personas_con_c%C3%A1ncer_con_diferentes_algorimtos_de_clasificaci%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Diferentes Algoritmos de clasificación para la predicción de personas con cáncer

# Acerca del dataset del proyecto:

"El conjunto de datos proporcionado es una colección generada de manera sintética con el objetivo de simular un escenario de predicción de cáncer con fines de investigación. Consta de 10,000 pseudo-pacientes, cada uno caracterizado por cinco parámetros distintos, a saber: Género, Edad, Tabaquismo, Fatiga y Alergia, junto con un indicador binario que denota la presencia o ausencia de cáncer. Este conjunto de datos sintético sirve como una herramienta para que los investigadores exploren y experimenten con modelos predictivos para la detección de cáncer."

# Importación del conjunto de datos y librerías necesarias.


In [4]:
import numpy as np
import pandas as pd
from google.colab import files

# Sube el archivo CSV desde tu computadora
uploaded = files.upload()

# Lee el archivo CSV en un DataFrame de pandas
for filename in uploaded.keys():
    dataset = pd.read_csv(filename)

# Muestra las primeras filas del DataFrame
print(dataset.head())


Saving cancer_prediction_dataset.csv to cancer_prediction_dataset (2).csv
   Gender  Age  Smoking  Fatigue  Allergy  Cancer
0       1   85        1        0        1       0
1       1   93        0        0        0       0
2       1   72        0        1        0       0
3       0   58        0        0        1       0
4       1   95        1        0        1       1


# Preprocesamiento de los datos

In [6]:
#Verificamos si existen valores nulos en nuestro dataset.
dataset.isnull().sum()

Gender     0
Age        0
Smoking    0
Fatigue    0
Allergy    0
Cancer     0
dtype: int64

# Creación del conjunto de Entrenamiento.

In [12]:
#Dividimos nuestro conjunto de datos en entrenamiento, separando las etiquetas y las características. (X, y)
X = dataset.drop('Cancer', axis=1)
y = dataset['Cancer']

In [13]:
#Seleccionamos la función de split, para separar nuestro conjunto de entrenamiento
#En subconjuto de entrenamiento y subconjunto de pruebas.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=72)

#Suport Vector Machine (SVM)

In [14]:
#Selección del mejor Random state para Support Vector Machine.
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

#Definimos el rango de "Random state" que queremos comprobar.
random_states = range(1,101)
best_accuracy = 0
best_random_state= None

for random_state in random_states:
  X_train, X_test, y_train, y_test = train_test_split (X, y, test_size=0.2, random_state = random_state)

  #Entrenammos un SVM con cada uno de los random state diferentes,
  #En aras de encontrar el mejor random state.

  #Selección e inicialización del algoritmo.
  svm_classifier = SVC(kernel="linear")
  #Entrenamiento del algoritmo con los datos que tenemos.
  svm_classifier.fit(X_train, y_train)
  #Predicciones del algoritmo con el conjunto de datos de prueba.
  y_pred= svm_classifier.predict(X_test)
  #Evaluación de la presición del algoritmo. (Yreal vs Ypredicho)
  accuracy = accuracy_score(y_test, y_pred)


  if accuracy > best_accuracy:
    best_accuracy = accuracy
    best_random_state= random_state

#Imprimimos los mejores valores de nuestro rango de prueba.
print(f"El mejor random state: {best_random_state}")
print(f"Mejor presición: {best_accuracy}")


El mejor random state: 76
Mejor presición: 0.92


#Árbol de decisión - Decision Tree

In [17]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

random_states = range (1,101)
best_accuracy= 0
best_random_state=None

for random_state in random_states:

  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state= random_state)

  #Inicializamos el árbol de decisión.
  dt_classifier = DecisionTreeClassifier(random_state=42)

  dt_classifier.fit(X_train, y_train)

  y_pred = dt_classifier.predict(X_test)

  accuracy = accuracy_score(y_test, y_pred)

  if accuracy > best_accuracy:
    best_accuracy = accuracy
    best_random_state= random_state

print(f"El mejor random state para árbol de decisión de éste ejercicio: {best_random_state}")
print(f"Presición para ese random_state: {best_accuracy}")



El mejor random state para árbol de decisión de éste ejercicio: 76
Presición para ese random_state: 0.918


# Random forest.


In [18]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

random_states = range(1,101)

best_accuracy = 0
best_random_state = None

for random_state in random_states:

  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)

  #Inicializamos el algoritmo de RandomForest.
  rf_classifier = RandomForestClassifier(random_state=42)

  #Entrenamos el random forest.
  rf_classifier.fit(X_train, y_train)

  y_pred = rf_classifier.predict(X_test)

  accuracy = accuracy_score(y_test, y_pred)

  if accuracy > best_accuracy:
    best_accuracy = accuracy
    best_random_state = random_state

print(f"El mejor random_state - Arboles de decisión: {best_random_state}")
print(f"Su presición: {best_accuracy}")



El mejor random_state - Arboles de decisión: 48
Su presición: 0.914


#Regresión Logística

In [20]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score


random_states = range(1, 101)

best_accuracy = 0
best_random_state = None

for random_state in random_states:
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)


    logistic_regression = LogisticRegression(max_iter=1000, random_state=42)


    logistic_regression.fit(X_train, y_train)


    y_pred = logistic_regression.predict(X_test)


    accuracy = accuracy_score(y_test, y_pred)

    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_random_state = random_state

print(f'Mejor randon_state - Regresión logística: {best_random_state}')
print(f'Presición para ése random_state: {best_accuracy}')

Mejor randon_state - Regresión logística: 76
Presición para ése random_state: 0.92


#Extreme Gradient Boosting

In [21]:
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score

random_states = range(1, 101)

best_accuracy = 0
best_random_state = None

for random_state in random_states:
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)


    xgb_classifier = XGBClassifier(random_state=42)


    xgb_classifier.fit(X_train, y_train)


    y_pred = xgb_classifier.predict(X_test)


    accuracy = accuracy_score(y_test, y_pred)

    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_random_state = random_state

print(f'Mejor randon_state - Extreme Gradient Boosting: {best_random_state}')
print(f'Presición para este randon state: {best_accuracy}')

Mejor randon_state - Extreme Gradient Boosting: 76
Presición para este randon state: 0.9195


#Conclusiones

Se pudo utilizar diversos algoritmos de clasificación para el ejercicio que plantea la indentificación de personas con cáncer a partir de un dataset ficticio que muestra diferentes características presentes en una persona con o sin cáncer, todos mostraron muy buenos resultados.