In [None]:
# Third party
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.tree import DecisionTreeClassifier
import plotly.express as px
import ipywidgets as widgets
import seaborn as sns

# Local application
import miner_a_de_datos_an_lisis_exploratorio_utilidad as utils

In [None]:
seed = 17102

# 1. Acceso y almacenamiento de datos

El conjunto de datos a tratar ahora es `wisconsin`. En este conjunto se detalla una bbdd en la que se examinan características de las células de un cáncer benigno o maligno. Encontramos 569 casos donde la variable objetivo, que denomina el tipo de cáncer`diagnosis`, puede ser:

* `M = malignant`: Maligno
* `B = benign`: Benigno

Para determinar el tipo de cáncer se han tomado varias de las características que hacen referencia a la media, el error estándar y "peor" o mayor (media de los tres valores más grandes) para cada imagen de las células, resultando en 30 variables predictoras, todas ellas continuas:

* `radius`: radio, distancia media desde el centro hasta los puntos del perímetro.
* `texture`: textura, desviación estándar de los valores de la escala de grises.
* `perimeter`: perímetro, suma de las longitudes del contorno de las figuras/formas.
* `area`: concepto métrico que puede permitir asignar una medida a la extensión de una superficie.
* `smoothness`: suavidad, variación local en longitudes de radio.
* `compactness`: compacidad, (perímetro^2 / area - 1.0)
* `concavity`: concavidad, severidad de las porciones cóncavas del contorno
* `concave points`: puntos cóncavos, número de puntos cóncavos del contorno
* `symmetry`: simetría
* `fractal dimension`: dimensión fractal, ("aproximación de la costa" - 1)

El objetivo sería clasificar nuevos casos como malignos o benignos en función de sus propiedades.

Cargamos el conjunto de datos `wisconsin`

In [None]:
filepath = "../input/breast-cancer-wisconsin-data/data.csv"

index = 'id'
target = 'diagnosis'

data = utils.load_data(filepath, index, target)

Ahora comprobamos que la base de datos se ha cargado correctamente cargando los 5 ejemplos aleatorios

In [None]:
data.sample(5, random_state=seed)

Podemos observar que por error se nos genera una última columna que, comprobando la descripción de nuestra base `wisconsin`,se debe a que en la última variable introduce una coma al final, lo que acaba generando una especie de "variable vacía" que eliminaremos

In [None]:
data = data.drop(columns=['Unnamed: 32'])
data.sample(5, random_state=seed)

Ahora separaemos nuestro conjunto de datos en 2, uno con las variables predictoras (X) y otro con la variable objetivo `diagnosis` (y).

In [None]:
(X, y) = utils.divide_dataset(data, target="diagnosis")

De nuevo, comprobamos que todo esté correcto

In [None]:
X.sample(5, random_state=seed)

In [None]:
y.sample(5, random_state=seed)

Para el análisis exploratorio hemos dividido nuestro conjunto de datos en 2 con los siguientes porcentajes:

* Una muestra de entrenamiento (típicamente, 70%)
* Una muestra de prueba (típicamente, 30%)


Ahora aleatorizamos nuestros datos e iniciamos el proceso de holdout

In [None]:
train_size = 0.7

(X_train, X_test, y_train, y_test) = train_test_split(X, y,
                                                      stratify=y,
                                                      random_state=seed,
                                                      train_size=train_size)

De nuevo, comprobamos que esta división se ha llevado a cabo correctamente

In [None]:
X_train.sample(5, random_state=seed)

In [None]:
X_test.sample(5, random_state=seed)

In [None]:
y_train.sample(5, random_state=seed)

In [None]:
y_test.sample(5, random_state=seed)

# 2. Análisis exploratorio de datos

Antes de cualquier operación es indispensable identificar:
* Número de casos
* Número de variables
    * Tipo de las variables: Continuas (t.c.c. numéricas) o discretas (t.c.c. categóricas)
    

In [None]:
print("(número de casos, númerero de variables): ",data.shape,'\n') 
print("información de las varibles:\n")
print(data.info(memory_usage=False))
print("\nvalores de la variable objetivo: \n",y.cat.categories)


Como ya hemos comentado, tenemos **569 casos** y **31 variables**, 30 discretas (`float64`) y 1 categórica (`category`) que es nuestra variable objetivo cuyos valores pueden ser `B`o `M`

A parte también observamos que no existen nulos ya que la cuenta de todas las variables es el total, 569

### Visualización de las variables

Para empezar con la visualización, vamos a observar la diferencia de casos que hay en la partición de entrenamientos referidas a la variable `diagnosis`

In [None]:
#Creamos una variable auxiliar con todos los datos para las gráficas, como están ordenadas de la misma manera simplifica el resultado
X_y_train = X_train[0:]
X_y_train['diagnosis'] = y_train
utils.plot_barplot(X_y_train)

In [None]:
y_train.describe()

Podemos observar gracias a esto que abundan más casos donde el cáncer acaba siendo benigno (63% = 250) que maligno (37% = 148)

Como ya hemos mencionado, esta bbdd tiene 30 variables, que realmente son 10 pero resultan en 30 debido a que se calculan en relación a la media, el error y la media de los 3 valores mas grandes. Luego para verlo mejor, dividiremos esta sección en 10 graficas para que de esta forma puedan ser más visuales.

In [None]:
cols = list(X_train.columns)

X_train1 = X_train[[cols[0]] + [cols[10]]+ [cols[20]]]
utils.plot_histogram(X_train1)

In [None]:
X_train2 = X_train[[cols[1]] + [cols[11]] + [cols[21]]]
utils.plot_histogram(X_train2)

In [None]:
X_train3 = X_train[[cols[2]] + [cols[12]] + [cols[22]]]
utils.plot_histogram(X_train3)

In [None]:
X_train4 = X_train[[cols[3]] + [cols[13]]+ [cols[23]]]
utils.plot_histogram(X_train4)

In [None]:
X_train5 = X_train[[cols[4]] + [cols[14]]+ [cols[24]]]
utils.plot_histogram(X_train5)

In [None]:
X_train6 = X_train[[cols[5]] + [cols[15]]+ [cols[25]]]
utils.plot_histogram(X_train6)

In [None]:
X_train7 = X_train[[cols[6]] + [cols[16]]+ [cols[26]]]
utils.plot_histogram(X_train7)

In [None]:
X_train8 = X_train[[cols[7]] + [cols[17]]+ [cols[27]]]
utils.plot_histogram(X_train8)

In [None]:
X_train9 = X_train[[cols[8]] + [cols[18]]+ [cols[28]]]
utils.plot_histogram(X_train9)

In [None]:
X_train10 = X_train[[cols[9]] + [cols[19]]+ [cols[29]]]
utils.plot_histogram(X_train10)

Las conclusiones que podemos sacar de estas gráficas son varias, comenzando con que todas las variables siguen más o menos (en algunos casos necesitamos ampliar para verlo) que las distribuciones tienen una tendencia en forma de campana, a parte también podemos ver que las gráficas `mean` son semejantes entre si, lo mismo ocurre con `se` y `worst`.

También podemos observar que los mayores outliers se encuentran en las gráficas de `mean` y `worst`

Antes de echar un vistazo a las gráficas de discretización, vamos a inspeccionar todas variables para ver cómo evoluciona el cáncer dependiendo de los valores de dichas variables.

In [None]:
X_train.describe(include="number")

In [None]:
def _plot_barplot2(variable, color):
    fig = px.histogram(X_y_train, x=variable, color=color)
    fig.show()

categorical_data = utils._filter_numerical_data(X_y_train)
var = categorical_data.columns
data = widgets.fixed(categorical_data)

widgets.interact(_plot_barplot2, variable=var,color="diagnosis")

Lo que primeramente podemos observar de estas gráficas es que los casos de beningno alcanzan valores `count` más altos en general que los de maligno, esto se debe a lo ya analizado anteriormente y es que tenemos más casos benignos que malignos luego es algo norlmal.

Respecto a los valores hay algo que siguen la totalidad de las variables, esto es que a valores bajos siempre predominan los casos de benigno, mientras que a valores altos tenemos 2 opciones bastante reñidas, una es que más o menos estén en igualdad de casos o que el caso maligno predomine (hay algunas excepciones donde en valores altos predomina los casos benignos estos son `fractal_dimension_mean`, `fractal_dimension_se`), esto podría influir entonces a la hora de discretizar.

Otra cosa bastante observable es que las gráficas describen figuras en forma de campana y en muchos casos también podemos darnos cuenta de como ambos casos, beningno y maligno, coinciden a la hora de crecer, el punto más alto y la disminución, como ocurre en `smoothness_mean`

In [None]:
X_y_train

En las próximas gráficas podemos ver que las diagonales se corresponden con las anteriores luego ya llevamos algo de adelanto para la hora de discretizar, nos quedaría el resto, luego:

**¿Cuáles serían buenas variables para discretizar?**

In [None]:
#MEAN
cols = list(X_y_train.columns)
X_y_train11 = X_y_train[[cols[-1]] + cols[0:10]]
utils.plot_pairplot(X_y_train11, target="diagnosis")

En el caso de `mean` podríamos discretizar por`radius_mean`, `perimeter_mean`, `area_mean` y `concave pointes_mean` (eje x) ya que al combinarlas con el resto de variables, estas 4 provocan que a mayor número de ellas, el cáncer sea maligno y a menor benigno, luego podriamos discretizar bastante bien con ellas. Además de que prácticamente no hay muchos outliers en estos casos, cosa que por ejemplo si ocurre en bastantes combinaciones de la variable `concavity_mean` (eje x).

In [None]:
#SE
X_y_train12 = X_y_train[[cols[-1]] + cols[10:20]]
utils.plot_pairplot(X_y_train12, target="diagnosis")

Respecto a los casos `se` podemos observar que de principio existen bastantes outliers en la mayoría de las gráficas, y que básicamente las discretizaciones podrían salir de`perimeter_se` y `area_se` (eje x) junto con todas sus combinaciones. Además algunas discretizaciones adicionales también podrían ser algunas combinaciones de `radius_se` (aunque nos puedan empeorar algo los outliers).

In [None]:
#WORST
X_y_train13 = X_y_train[cols[20:]]
utils.plot_pairplot(X_y_train13, target="diagnosis")

Por último los `worst`, existen batantes casos por los que se podría realizar una buena discretización, por ejemplo todas las combinaciones de las variables `radius_worst`, `perimeter_worst`, `area_worst`, `compactness_worst`, `concave points_worst`.

A parte, ya no las voy a nombrar porque son muchísimas, el resto también tiene combinaciones de variables muy buenas para discretizar como es el caso de por ejemplo la combinación (x,y) (`texture_worst`,`area_worst`).

# 4. Preprocesamiento de datos

Dentro del preprocesamiento de datos, podemos destacar las siguientes tareas:

* Limpieza de datos (imputación de valores perdidos, suavizado del ruido, etc.)
* Integración de datos (a partir de múltiples fuentes)
* Transformación de datos (normalización, construcción, etc.)
* Reducción de datos (discretización de variables numéricas, selección de variables, selección de instancias, etc.)

Sin embargo siguiendo las directrices de la práctica, solo nos centraremos en la discretización de variables numéricas

### Discretización

Observando las gráficas, una discretización por anchura puede que no sea una buena manera, luego probaremos con frecuencia y a parte divideremos en más intervalos ya que viendo las gráficas al divirlas en más podremos dejar casos más aislados ya que la mezcla de variables, menigno y maligno, se encuentra más o menos cerca del centro y en los principios y finales de las gráficas suele predominar una variabble

In [None]:
discretizer = KBinsDiscretizer(n_bins=4, strategy="quantile")

# 5. Algoritmos de clasificación

## Zero-R

In [None]:
zero_r_model = DummyClassifier(strategy="most_frequent")

## Árbol de decisión

In [None]:
tree_model = DecisionTreeClassifier(random_state=seed)

### *Pipeline*

In [None]:
discretize_tree_model = make_pipeline(discretizer, tree_model)

# 6. Evaluación de modelos

## Zero-R

In [None]:
utils.evaluate(zero_r_model,
               X_train, X_test,
               y_train, y_test)

## Árbol de decisión sin descretización


In [None]:
utils.evaluate(tree_model,
               X_train, X_test,
               y_train, y_test)

## Árbol de decisión con descretización

In [None]:
utils.evaluate(discretize_tree_model,
               X_train, X_test,
               y_train, y_test)

Realizando varias pruebas, cambiendo entre el número de `n_bins` y probando también la estrategia de anchura, nos damos cuenta de que zero-R y el árbol sin discretización no cambian su `Accuracy` solo cambia el árbol con discretización que básicamente la búsqueda actual parece ser si no la mejor de las mejores, aún así este método de validación `Accuracy` no parece el más apropiado para esto.

Estamos diagnosticando una enfermedad, encima muy grave, no sería lo mismo fallar diagnosticando un cáncer benigno que maligno, luego un método de validación sensible al coste donde se penalizara más el equivocarnos al diagnosticar un cáncer que debe ser maligno, tendría más sentido que utilizar el `Accuracy`.