# **Modelo de machine learning para la detección oportuna de cáncer de mama**

El diagnostico tradicional del cáncer se mama, anteriormente, se realizaba por medio de un procedimiento quirurgico. La biopsia por aspiración con aguja fina (FNA, por sus siglás en inglés, Fine Needle Aspiration) es una forma de examinar pequeñas cantidades de tejido del tumor.

Estas son examinadas para obtener las caracteristicas de las celulas individuales y propiedades contextuales importantes, tales como el tamaño de los grumos de la celula. Analizando estas caracteristicas, se ha logrado diagnosticar de forma exitosa usando la biopsia por aspiración con aguja fina.

Inicialmente, se logran identificar las caracteristicas que se consideran están relacionadas con el padecimiento, las mismas son determinadas en base a la experiencia del medico. El procedimiento de identificación de caracteristicas incluye:

1. Preparación de la imagen obtenida a partir de un pequeño fluido del tumor de mama usando una aguja fina
2. Aproximar una localización precisa de los limites de cada celula.
3. Determinar limites del nucleo de las celulas.
4. Extraer caracteristicas de los limites de cada celula.

A partir de este proceso, 10 caracteristicas son modeladas numericamente.

**Radio**: 

### Procesamiento de los datos

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#datos_cancer = pd.read_csv('/content/drive/MyDrive/Monografia - Profesor Narciso/Primeras Exploraciones/data.csv')
datos_cancer = pd.read_csv('/kaggle/input/breast-cancer-wisconsin-data/data.csv')

### Exploración de datos

In [None]:
#Todas las caracteristicas del conjunto de datos
datos_cancer.columns

In [None]:
#Vista previa de los primeros 5 registros
datos_cancer.head()

In [None]:
# Estadisticas generales de las caracteristicas del conjunto de datos
datos_cancer.describe()

In [None]:
B, M = datos_cancer['diagnosis'].value_counts()
print('Diagnosticos benignos: {}'.format(B))
print('Diagnosticos malignos: {}'.format(M))
datos_cancer['diagnosis'].value_counts().plot.bar(rot=0, x='Diagnostico')

In [None]:
# Separamos los datos pertenecientes a la media, error estandar y peor
# del conjunto de datos original

media_datos_cancer = datos_cancer.loc[:,'radius_mean':'fractal_dimension_mean']
error_estandar_datos_cancer = datos_cancer.loc[:, 'radius_se':'fractal_dimension_se']
peor_datos_cancer = datos_cancer.loc[:, 'radius_worst':'fractal_dimension_worst']

Revisando la distribución de los datos para los 3 conjuntos de datos generados:

- datos de media
- error estandar de los datos
- peor dato

In [None]:
#Datos de media
fig, axs = plt.subplots( figsize=(15,8))
media_datos_cancer.hist(ax=axs)
plt.tight_layout()

In [None]:
#Error estandar de los datos
fig, axs = plt.subplots( figsize=(15,8))
error_estandar_datos_cancer.hist(ax=axs)
plt.tight_layout()

In [None]:
#Peores datos
fig, axs = plt.subplots( figsize=(15,8))
peor_datos_cancer.hist(ax=axs)
plt.tight_layout()

In [None]:
def graficar_diagrama_caja(conjunto_de_datos):
  columnas, filas = 4, 3
  conjunto_de_datos_columnas = conjunto_de_datos.columns
  contador_columnas = 0
  fig, axs = plt.subplots(columnas,filas, figsize=(15,12))
  for i in range(columnas):
    for y in range(filas):
      if contador_columnas <= 9:
        media_datos_cancer[conjunto_de_datos_columnas[contador_columnas]].plot.box(ax=axs[i,y])
        contador_columnas += 1
      else:
        axs[i, y].set_visible(False)
  fig.tight_layout(pad=3.0)

In [None]:
#Viendo la distribucion de datos atipicos por medio de un grafico de caja
graficar_diagrama_caja(media_datos_cancer)

# Modelo de aprendizaje automatico

In [None]:
from sklearn.model_selection import train_test_split
X = datos_cancer.drop(['diagnosis', 'id', 'Unnamed: 32'], axis=1)
y = datos_cancer['diagnosis']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [None]:
from sklearn.ensemble import RandomForestClassifier
ml_model = RandomForestClassifier(n_estimators = 10, criterion = 'entropy',
                                  random_state = 42)
ml_model.fit(X_train, y_train)

In [None]:

from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

y_pred = ml_model.predict(X_test)

print('[Precisión] Random Forest:', accuracy_score(y_test, y_pred))

print('\n[Reporte de Clasificación] Random Forest')
print( classification_report(y_test, y_pred) )