**Contexto**

En 2020, en todo el mundo se diagnosticó cáncer de mama a 2,3 millones de mujeres, y 685 000 fallecieron por esa enfermedad. A fines del mismo año, 7,8 millones de mujeres a las que en los anteriores cinco años se les había diagnosticado cáncer de mama seguían con vida, lo que hace que este cáncer sea el de mayor prevalencia en el mundo.

Se estima que, a nivel mundial, los años de vida perdidos ajustados en función de la discapacidad (AVAD) en mujeres con cáncer de mama superan a los debidos a cualquier otro tipo de cáncer.

El cáncer de mama afecta a las mujeres de cualquier edad después de la pubertad en todos los países del mundo, pero las tasas aumentan en su vida adulta.

Entre las décadas de 1930 y 1970, la mortalidad por cáncer de mama mostró pocos cambios. Las mejoras en la supervivencia empezaron en los años 1980 en países que contaban con programas de detección precoz combinados con diferentes tipos de terapias para contener la enfermedad invasiva.

**Descripción**

El cáncer de mama se origina en las células del revestimiento (epitelio) de los conductos (85%) o lóbulos (15%) del tejido glandular de los senos. Al comienzo, el tumor canceroso está confinado en el conducto o lóbulo (in situ), donde generalmente no causa síntomas y tiene un mínimo potencial de diseminación (metástasis).

Con el paso del tiempo, este cáncer in situ (estadio 0) puede progresar e invadir el tejido mamario circundante (cáncer de mama invasivo), y a continuación propagarse a los ganglios linfáticos cercanos (metástasis regional) u a otros órganos del organismo (metástasis distante). Cuando una mujer muere de cáncer de mama, es como consecuencia de la metástasis generalizada.

El tratamiento del cáncer de mama puede ser muy eficaz, en particular cuando la enfermedad se detecta temprano. A menudo el tratamiento consiste en una combinación de extirpación quirúrgica, radioterapia y medicación (terapia hormonal, quimioterapia y/o terapia biológica dirigida) para tratar el cáncer microscópico que se ha propagado del tumor mamario a través de la sangre. Por consiguiente, ese tratamiento, que puede impedir la progresión y diseminación del cáncer, salva vidas.

**Estado del arte**

El cáncer de mama es el tipo de cáncer más común, con más de 2,2 millones de casos en 2020.

Cerca de una de cada 12 mujeres enfermarán de cáncer de mama a lo largo de su vida. El cáncer de mama es la principal causa de mortalidad en las mujeres. En 2020, alrededor de 685 000 mujeres fallecieron como consecuencia de esa enfermedad.

La mayoría de los casos de cáncer de mama y de las muertes por esa enfermedad se registran en países de ingresos bajos y medianos.

Las disparidades del cáncer de mama entre los países de ingresos elevados y los de ingresos bajos y medianos son considerables. La supervivencia al cáncer de mama a cinco años excede del 90% en los primeros países, mientras que en la India y Sudáfrica es del 66% y el 40%, respectivamente.

El mayor porcentaje normalizado por edades[1] de defunciones por cáncer de mama corresponde a África y Polinesia. En el África subsahariana, la mitad de las muertes por cáncer de mama se produce en mujeres menores de 50 años de edad.

Desde 1980 se han realizado importantes avances en el tratamiento del cáncer de mama; entre el decenio de 1980 y 2020, en los países de ingresos elevados la mortalidad por cáncer de mama normalizada por edades se redujo en un 40%. En los países de ingresos bajos y medianos esas mejoras todavía no se han logrado.

La mejora de los resultados es fruto de la combinación de la detección precoz y las terapias eficaces, basadas en cirugía, radioterapia y farmacoterapia.

**Problema a solucionar**

Se definió anteriormente el contexto. Cómo podemos ayudar mediante los datos.

Aplica los distintos algoritmos vistos en la teoría de este módulo hasta obtener un clasificador con score, accuracy, precision, recall y f1-score igual o superior a 0.95 .

No olvides probar a optimizar los diferentes hiperparámetros de cada algoritmo.

**Obtención de datos**

Todo problema de data science y machine learning no es nada sin sus datos. El primer problema es cómo obtenerlos.

Por suerte, en esta ocasión, ya se han recopilado por varios médicos para que podamos trabajar en ello.

Enlace a carpeta github con dataset y nombres de las columnas

# **ETAPAS**

In [None]:
#Librerías necesarias
import pandas as pd
from sklearn.utils import resample
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score
import joblib


##**1 cargar datos**


In [None]:


# Cargar dataset
datos=pd.read_csv('/content/breast-cancer-wisconsin.data.txt')
datos.head()


Unnamed: 0,ID,Clump Thickness,Uniformity of Cell Size,Uniformity of Cell Shape,Marginal Adhesion,Single Epithelial Cell Size,Bare Nuclei,Bland Chromatin,Normal Nucleoli,Mitoses,Class
0,1000025,5,1,1,1,2,1,3,1,1,2
1,1002945,5,4,4,5,7,10,3,2,1,2
2,1015425,3,1,1,1,2,2,3,1,1,2
3,1016277,6,8,8,1,3,4,3,7,1,2
4,1017023,4,1,1,3,2,1,3,1,1,2


#**2 Preprocesar datos**

In [None]:
#Preparar datos
datos['Bare Nuclei'] = pd.to_numeric(datos['Bare Nuclei'], errors='coerce')
datos.dropna(inplace=True)

In [None]:

#Balancear clases
#Separar clases
class_majority = datos[datos['Class'] == 2]
class_minority = datos[datos['Class'] == 4]

# Aumentar muestras de la clase minoritaria (balanceo)
class_minority_upsampled = resample(class_minority,
                                    replace=True,  # Re-muestreo con reemplazo
                                    n_samples=len(class_majority),  # Igualar tamaño
                                    random_state=42)

# Crear nuevo dataset balanceado
data_balanced = pd.concat([class_majority, class_minority_upsampled])
# print(data_balanced['Class'].value_counts())

#vamos a convertir la Clase 2 en 0 y la clase 4 en 1

data_balanced['Class']=data_balanced['Class'].map({2:0,4:1})

# Separar características y variable objetivo
X = data_balanced.drop(columns=['Class'])
y = data_balanced['Class']

#**3 Dividir los datos en entrenamiento y prueba**

In [None]:

# Dividir en entrenamiento y prueba manteniendo la proporción de clases
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

#**4 Entrenar el modelo**

In [None]:

#Entranamiento del modelo
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)


#**5 Evaluar modelo**

In [None]:
#Evaluamos el modelo

y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))


Accuracy: 0.9668874172185431
Classification Report:
               precision    recall  f1-score   support

           0       0.99      0.95      0.97        76
           1       0.95      0.99      0.97        75

    accuracy                           0.97       151
   macro avg       0.97      0.97      0.97       151
weighted avg       0.97      0.97      0.97       151



#**6 Guardar modelo**

In [None]:

# Guardar modelo
joblib.dump(model, 'model.pkl')

# (Opcional) Guardar nombres de columnas
columnas = X.columns.tolist()
joblib.dump(columnas, 'column_model.pkl')


['columnas_modelo.pkl']