# Aplicación de Naive Bayes

## Conceptos previos

Es uno de los algoritmos más simples y poderosos para la clasificación basado en el Teorema de Bayes con una suposición de **independencia entre los predictores**. Naive Bayes es fácil de construir y particularmente útil para conjuntos de datos muy grandes.

Naive Bayes asume que el efecto de una característica particular en una clase es independiente de otras características. Por ejemplo, un solicitante de préstamo es deseable o no dependiendo de sus ingresos, historial de préstamos y transacciones anteriores, edad y ubicación. Incluso si estas características son interdependientes, estas características se consideran de forma independiente. 

Esta suposición simplifica la computación, es por esa razón el nombre del algoritmo **Bayes ingenuo**. Formalmente, esta suposición se denomina **independencia condicional de clase**.

$P(clase|Datos) = \frac{P(Datos|clase)*P(clase)}{P(Datos)}$

Donde:
+ clase es una dalida en particular, en este caso será benigna

+ datos son las características

+ P(clase) se conoce como la **probabilidad anterior**. Es la probabilidad que ya se tiene

+ P(Datos) se conoce como **probabilidad marginal**.

+ P(clase|Datos) se conoce como **probabilidad posterior**. Es el resultado que se quiere encontrar

+ P(Datos|clase) se conoce como **verosimilitud**

### Cómo funciona

En caso de que se tenga una sola característica, el clasificador Naive Bayes calcula la probabilidad de un evento en los siguientes pasos:

+ 1 : calcular la probabilidad previa para las etiquetas de clase dadas.
+ 2 : determinar la probabilidad de probabilidad con cada atributo para cada clase.
+ 3 : poner estos valores en el teorema de Bayes y calcular la probabilidad posterior.
+ 4 : ver qué clase tiene una probabilidad más alta, dado que la variable de entrada pertenece a la clase de probabilidad más alta.

## Set de datos

Se usará un set de datos precargado en scikit-learn que tiene relación con datos de muestras de biopsias que pueden ser benignas o malignas.

In [None]:
## Carga de datos
import pandas as pd
import numpy as np
from sklearn import datasets
dataset = datasets.load_breast_cancer()
data_frame = pd.DataFrame(np.c_[dataset['data'], dataset['target']],
                  columns= np.append(dataset['feature_names'], ['target']))
data_frame

In [None]:
# Tipos de datos de las columnas
data_frame.dtypes

In [None]:
data_frame.describe()

### Revisa la distribución de las observaciones respecto de la variable que se usará para la clasificación

In [None]:
print(data_frame.groupby('target').size())

In [None]:
import matplotlib.pyplot as plt
# Gráfico de tortas del porcentaje de muestras benignas y mañignas
# Contando las benignas
clases = np.array([data_frame[data_frame.target == 0.0].shape[0], data_frame[data_frame.target == 1.0].shape[0]])

# Creando las leyendas del grafico.
labels = [ str(round(x * 1.0 / clases.sum() * 100.0, 2)) + '%'  for x in clases ]
labels[0] = 'Benignas\n ' + labels[0]
labels[1] = 'Malignas\n ' + labels[1]

plt.pie(clases, labels=labels)
plt.title('Porcentaje de muestras beningnas y malignas')
plt.show()

### Comentarios hasta este punto

+ Hay 569 observaciones con 31 columnas, siendo una de ellas la columna 'target' que es la que indica si es o no es cáncer.
+ Se observa que hay una distribución aceptable de muestras malignas y benignas.

### Análisis de distribución

In [None]:
import seaborn as sns
columnas = np.array(data_frame.columns)

for col in columnas[:-1]:
    fig, ax =plt.subplots(1, 2, figsize=(20, 6))
    fig.suptitle(col, fontsize=18)
    sns.distplot(data_frame[col], ax=ax[0], kde=False)
    data_frame[[col]+['target']].plot.scatter(x=col, y='target', ax=ax[1])
    plt.show()

## Preparación de los datos 

In [None]:
# Selecciona las variables
X = data_frame.drop(["target"],axis=1)

# Rescata la etiqueta
y = data_frame.target

## Creando el modelo

### Ideas previas

Se está tratando de elegir entre 2 clases: benigna o maligna; entonces una forma de tratar la decisión es calcular la tasa de probabilidades a posterior.

Cuando se trabaja con Naive Bayes se debe escoger un **clasificador**. Uno de los tipos de clasificadores más populares es el **Gaussian Naive Bayes Classifier**. 

Hay otros clasificadores Bayesianos (https://scikit-learn.org/stable/modules/naive_bayes.html#). 

La fórmula del clasificador, usando 2 clases (benigna, maligna) y 2 características (solo para explicar la fórmula): mean_radius, mean_texture.

$P(benigna|datos) = \frac{P(benigna)*P(mean\_radius|benigna)*P(mean\_texture|benigna)}{P(datos)}$

$P(maligna|datos) = \frac{P(maligna)*P(mean\_radius|maligna)*P(mean\_texture|maligna)}{P(datos)}$

donde:

+ P(benigna) es la probabilidad que ya se tiene. Corresponde al número de veces que el valor de target = 0.0 en el conjunto de datos, dividido el total de observaciones. En este caso (como ya se revisó) es 212/569

+ $P(mean\_radius|benigna), P(mean\_texture|benigna) $ es la verosimilitud.

Los nombres Gaussian y Naive (ingenuo) de algoritmo vienen de dos suposiciones:

+ Se asume que las características de la verosimilitud no estan correlacionada entre ellas. Esto seria que el promedio de radio y la etxtura promedio son independienets entre ellos. Dado que eso no siempre puede ser cierto y es una suposición ingenua es que aparece en el nombre **naive bayes**

+ Se asume que el valor de las características (mean_radius, mean_texture y todas las que se quieran agregar) tendrán una distribución normal (gaussiana). Esto permite calcular cada parte p(mean_radius|benigna) usando la función de probabilidad de densidad normal.

## Obtención de datos de entrenamiento y validación 

In [None]:
from sklearn.model_selection import train_test_split

# Se separan los datos de "train" en entrenamiento y prueba para probar los algoritmos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 29)

# Define el algoritmo a utilizar Naive Bayes
from sklearn.naive_bayes import GaussianNB

modelo = GaussianNB()

# Entrenamiento del modelo
modelo.fit(X_train, y_train)

# Validación del modelo
y_pred = modelo.predict(X_test)


In [None]:
# Evaluación del modelo
from sklearn.metrics import confusion_matrix

matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

# Se calcula la precisión del modelo
from sklearn.metrics import precision_score

precision = precision_score(y_test, y_pred)
print('Precisión del modelo:', precision)

## Interpretación de resultados

Desde la matriz de confusión:

+ Se obtienen 107 datos predichos correctamente
+ Se obtienen 7 datos erróneos

### Acerca de la matriz de confusión

La imagen muestra la estructura de la matriz de confusión:

![Matriz de confusión](MatrizConfusion.png  "Matriz de confusión") 

Si se considera que una muestra se dice beningna si está etiquetada como no cancerígena y maligna en caso contrario. 

Considerando lo anterior esto se interpreta la matriz de la siguiente forma:

+ 1. Muestra maligna y el modelo la clasificó como maligna (+) . Esto sería un verdadero positivo o VP .
+ 2. Muestra maligna y el modelo lo clasificó como benigna (-) . Este seria un verdadero negativo o sea un VN.
+ 3. Muestra benigna y el modelo lo clasificó como benigna (-) . Este seria un error tipo II o falso negativo o FN.
+ 4. Muestra benigna y el modelo lo clasificó como maligna (+) . Este es un error tipo I, o falso positivo o FP.

## Otras medidas

https://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metrics

In [None]:
from sklearn.metrics import accuracy_score, f1_score, recall_score

accuracy = accuracy_score(y_test, y_pred)
print('Accurancy del modelo:',accuracy)

print('F1 score del modelo:',f1_score(y_test, y_pred))
print('Recall del modelo:',recall_score(y_test, y_pred))

## Usando un selector de columnas

Para mejorar los resultados con este algoritmo. En vez de utilizar las 30 columnas de datos de entrada que se tienen, se va a utilizar una Clase de SkLearn llamada **SelectKBest** con la que seleccionaremos las 5 mejores características y usarán sólo esas.

In [None]:
from sklearn.feature_selection import SelectKBest
X=data_frame.drop(['target'], axis=1)
y=data_frame['target']

best=SelectKBest(k=5)
X_new = best.fit_transform(X, y)
X_new.shape
selected = best.get_support(indices=True)
print(X.columns[selected])

In [None]:
import seaborn as sb
used_features =X.columns[selected]

colormap = plt.cm.viridis
plt.figure(figsize=(12,12))
plt.title('Pearson Correlation of Features', y=1.05, size=15)
sb.heatmap(data_frame[used_features].astype(float).corr(),linewidths=0.1,vmax=1.0, square=True, cmap=colormap, linecolor='white', annot=True)

In [None]:
X = data_frame[used_features]
# Se separan los datos de "train" en entrenamiento y prueba para probar los algoritmos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 29)

modelo_x = GaussianNB()

# Entrenamiento del modelo
modelo_x.fit(X_train, y_train)

# Validación del modelo
y_pred = modelo_x.predict(X_test)

In [None]:
# Evaluación del modelo
matriz_x = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz_x)

precision = precision_score(y_test, y_pred)
print('Precisión del modelo:')
print(precision)