# Algoritmo Naives Bayes
https://aprendeia.com/naive-bayes-practica-con-python-machine-learning/#Definicion_del_proyecto
## Definición del proyecto
En esta práctica del algoritmo de Naive Bayes, se desarrollará un modelo para predecir el cancer de seno.

Para este análisis vamos a utilizar el dataset disponible en la librería scikit-learn correspondiente al Breast Cancer o cáncer de seno.
## Obtener los de datos
El primer paso que daremos será el de importar las librerías que vamos utilizar, en especial las necesarias para importar los datos que utilizaremos.

En este caso vamos a importar de sklearn el datasets, que es donde se guardan todos los conjuntos de datos que dispone esta librería.

In [None]:
#Se importan la librerias a utilizar
from sklearn import datasets

In [None]:
#Importamos los datos de la misma librería de scikit-learn
dataset = datasets.load_breast_cancer()
print(dataset)

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]]), 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
 

## Entender los datos
Para entender los datos que estaremos utilizando en este proyecto vamos a ver varias instrucciones propias de Python y así verificar la información contenida en el conjunto de datos que acabamos de importar. Para este fin utilizamos la instrucción **keys**.

In [None]:
print('Información en el dataset:')
print(dataset.keys())

Información en el dataset:
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


Como podemos observar nos indica que el dataset cuenta con la siguiente información:
* “data”, que serían los predictores
* “target”, correspondiente a las etiquetas
* “target_names” que son los nombres de las variables que se encuentran en la columna de “target”
* “DESCR” que sería la descripción total del dataset
* “features_names” correspondiente a los nombres de cada una de las columnas de los datos (predictores).

Ya sabiendo todo esto podemos utilizar cada uno de estos nombres para entender mejor los datos, lo primero que vamos hacer es utilizar “DESCR” para conocer las características del dataset.

In [None]:
#Verificamos las características del dataset
print('Características del dataset:')
print(dataset.DESCR)

Características del dataset:
.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For i

Podemos observar las siguientes características:
* Los predictores son todos numéricos
* Algunos predictores que describen al tumor son:
  * el radio
  * la textura
  * el perímetro
  * el área
* El Datasets tiene 569 filas (muestras) y 30 columnas (29 predictores y el TAG de salida).
* Tenemos 2 clases de salida (tumor maligno o benigno) que se dictribuyen de la siguiente manera:
  * 212 son tumores malignos
  * 357 son tumores benignos (esto nos indica que los datos se encuentran balanceados por lo que no nos tenemos que preocupar por trabajar con un dataset desbalanceado).
* También tenemos información de la media, el error estándar y el peor valor.
## Procesamiento de los datos
Para “X” vamos a utilizar todas las variables que se encuentran dentro del Datasets:

In [None]:
#Seleccionamos todas las columnas
X = dataset.data
X

array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])

Por su parte, “y” será igual a los datos correspondientes a “target”:

In [None]:
#Defino los datos correspondientes a las etiquetas
y = dataset.target
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

los unos indican que el tumor es maligno mientras que los ceros corresponden al tumor benigno.

Definido “X” y “y” ya podemos realizar la separación correspondiente a los datos de prueba y entrenamiento para ello importamos la respectiva librería y procedemos a utilizar train_test_split para separar los datos.

Para la separación de los datos, vamos a tomar un 20% de los mismos para utilizarlos como prueba una vez que hayamos obtenido el modelo.

In [None]:
from sklearn.model_selection import train_test_split

#Separo los datos de "train" en entrenamiento y prueba para probar los algoritmos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Desarrollo del algoritmo
Seguidamente definimos el algoritmo, en este caso le indicamos a nuestro programa, de **sklearn.naive_bayes** vamos a importar GaussianNB, con esto ya podemos implementar este algoritmo dentro de nuestro programa.

In [None]:
#Naive Bayes
from sklearn.naive_bayes import GaussianNB
algoritmo = GaussianNB()

Por tal motivo entrenamos el modelo junto a los datos de entrenamiento.

In [None]:
#Entreno el modelo
algoritmo.fit(X_train, y_train)

Seguidamente realizamos una predicción junto a los datos de pruebas que separamos previamente.

In [None]:
#Realizo una predicción
y_pred = algoritmo.predict(X_test)

## Análisis de los resultados
Verifiquemos como es el modelo utilizando las métricas de los problemas de clasificación, para ello vamos a comenzar obteniendo la matriz de confusión. Para esto importamos del módulo **scikitlearn.metrics**, **confusion_matrix**, y aplicamos esta instrucción junto a los datos de prueba y los obtenidos en la predicción realizada previamente.

In [None]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix

matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

Matriz de Confusión:
[[40  3]
 [ 0 71]]


El resultado acá, es que tenemos 115 datos predichos correctamente y 3 datos erróneos obtenido luego de realizar la predicción.

Viendo este resultado podemos concluir que el modelo predijo la gran mayoría de los datos por lo que es un buen modelo que podemos utilizar.

Ahora veamos la precisión del mismo, para esto importamos **precision_score** del módulo sklearn.metrics y lo implementamos de igual forma junto a los datos de entrenamiento y los predichos.

In [None]:
#Calculo la precisión del modelo
from sklearn.metrics import precision_score

precision = precision_score(y_test, y_pred)
print('Precisión del modelo:')
print(precision)

Precisión del modelo:
0.9594594594594594


El resultado obtenido acá es de 0,959. Por lo que consideramos que el modelo cumple con su función.
## Hagamos el mismo ejercico pero ahora aplicando escalado
Para realizar este procedimiento importaremos el método **StandarScaler** de la librería scikit-learn.

In [None]:
#Se escalan todos los datos
from sklearn.preprocessing import StandardScaler

In [None]:
escalar = StandardScaler()

Los datos a escalar son lo que tenemos dentro de las variables “X” tanto de entrenamiento como de prueba.

Ahora para realizar el escalamiento utilizaremos **fit_transform**, esta instrucción realiza el calculo respectivo y a su vez transforma y devuelve los datos ya escalados.

In [None]:
X_train_stdscaler = escalar.fit_transform(X_train)
X_test_stdscaler = escalar.transform(X_test)

In [None]:
#Naive Bayes
from sklearn.naive_bayes import GaussianNB
algoritmo = GaussianNB()

In [None]:
#Entreno el modelo
algoritmo.fit(X_train_stdscaler, y_train)

In [None]:
#Realizo una predicción
y_pred = algoritmo.predict(X_test_stdscaler)

In [None]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix

matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

Matriz de Confusión:
[[40  3]
 [ 1 70]]


El resultado acá, es que tenemos 111 datos predichos correctamente y 4 datos erróneos obtenido luego de realizar la predicción.

No vemos un mejora al escalar los predictores.

Ahora veamos la precisión del mismo, para esto importamos **precision_score** del módulo sklearn.metrics y lo implementamos de igual forma junto a los datos de entrenamiento y los predichos.

In [None]:
#Calculo la precisión del modelo
from sklearn.metrics import precision_score

precision = precision_score(y_test, y_pred)
print('Precisión del modelo:')
print(precision)

Precisión del modelo:
0.958904109589041
