<img src="../img/crowdlearning-etic.png" alt="Logo ETIC" align="right">


<h1><font color="#004D7F" size=6>Naïve Bayes</font></h1>

<br>
<br>
<br>
<br>
<div style="text-align: right">
<font color="#004D7F" size=3>Antonio Jesús Gil</font><br>
<font color="#004D7F" size=3>Fundamentos de Machine Learning</font><br>

</div>

El punto más importante de este algoritmo radica en que no asume relación alguna entre las features del dataset.

El algoritmo Naïve Bayes es utilizado para problemas de clasificación. Es extremadamente utilizado en clasificación textual.

En las tareas de clasificación de texto, los datos contienen una dimensión alta (ya que cada palabra representa una característica en los datos). Se utiliza en el filtrado de spam, detección de sentimientos, rating de clasificación, etc. La ventaja de usar naïve Bayes es su velocidad. Es rápido y hacer predicciones es fácil con una gran dimensión de datos.

Este modelo predice la probabilidad de que una instancia pertenezca a una clase con un conjunto de características dado. Es un clasificador probabilístico. Se llama naïve (ingenuo) porque supone que una característica en el modelo es independiente de la existencia de otra característica. En otras palabras, cada característica contribuye a las predicciones sin relación entre sí. En el mundo real, esta condición rara vez se satisface. Utiliza el teorema de Bayes en el algoritmo para entrenamiento y predicción.


<img src="../img/naiveBayes.png" height="250" width="250">

- P(X|Y) es la probabilidad del evento X dado que el evento Y es verdadero. (Probabilidad posterior)
- P(Y|X) es la probabilidad del evento Y dado que el evento X es verdadero. (Probabilidad)
- P(X) probabilidad del evento X. (Prior Probability)
- P(Y) probabilidad del evento Y. (Evidence)

En otras palabras, podemos afirmar que la probabilidad de X dado Y es igual a la probabilidad de Y dado X multiplicado por la probabilidad de X dividido por la probabilidad de Y.

<img src="../img/probabilidad.png" height="400" width="400">

### Ejemplo:

Disponemos de un mazo con 52 cartas. La primera tarea es calcular la probabilidad de que la carta contega un rey (king).

- Total cartas = 52
- Total cartas King = 4
- Probabilidad de que una carta sea un king -> P(King) = 4/52 = 1/13

Ahora, calcularemos la probabilidad de una carta sea un king si esa carta contiene una cara (face)

> `P(King/Face) = P(King/Face)*P(King) / P(Face)`
    
- P(King) = 1/13
- P(Face) = 9/52 = 3/13

Aplicando la fórmula anterior: 

> `P(King/Face) = ((1/13) * 1) / (3/13) = 1/3`

Consideraremos el problema de clasificación de aprendizaje automático. Tenemos `k` características con clases `C`. El objetivo es predecir la probabilidad de que una __instancia__ pertenezca a una clase `Ci`. El algoritmo Naïve Bayes toma el vector de características y calcula la probabilidad condicional de la clase `Ci` con este conjunto de características, esto mismo se realiza para todas las clases y la clase que tiene la __probabilidad máxima__ se informa como __clase predicha__.

Las ventajas de Naïve Bayes son:

- Es fácil y rápido de implementar
- Se desempeña bien en presencia de características categóricas. 
- Para las características numéricas, se supone que los datos provienen de distribuciones normales.

Si la característica categórica contiene alguna nueva categoría en los datos de prueba, es asignada como probabilidad cero, en ese caso se aplica la transformación de __Laplace__ para manejar este problema.

Además, la suposición de predicción independiente rara vez está presente en el mundo real.

## <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Titanic</font> 

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import sklearn

import matplotlib.pyplot as plt
%matplotlib inline
from pylab import rcParams
rcParams['figure.figsize'] = 10, 8

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn import preprocessing
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn import tree
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, accuracy_score
from sklearn import metrics

import scikitplot as skplt

#Hide all the warnings in jupyter notebook
import warnings
warnings.filterwarnings('ignore')

# we will build different model and compare them later. Let's store the result (AUC Score) in a dictionary.

#Store result from different models
model_result = {}

In [None]:

#Load data in pandas dataframe
titanic_data = pd.read_csv('../1-ScikitLearn/Titanic.csv', sep='\t')

#Keep selected columns
titanic_data = titanic_data[['Survived','Pclass','Sex','Age','SibSp','Parch','Embarked','Fare']]
titanic_data.shape

In [None]:
titanic_data['Survived'].value_counts()
sns.countplot(x='Survived',data=titanic_data)

In [None]:
titanic_data.isnull().any()

In [None]:
titanic_data.isnull().sum()

In [None]:
titanic_data['Age'] .fillna ((titanic_data['Age'] .mean()), inplace=True)
titanic_data.dropna(inplace=True)

In [None]:
# Now check the data type of each feature:
titanic_data.dtypes

In [None]:
titanic_data_X = titanic_data[['Pclass','Sex','Age','SibSp','Parch', 'Embarked', 'Fare']]
titanic_data_Y = titanic_data[['Survived']]

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(titanic_data_X, titanic_data_Y, test_size=0.20)

En este punto se ha de tener en cuenta que se realizan las particiones para `train`y `test` y son pasadas por `standardScaler` cuya idea principal es normalizar/estandarizar (mean = 0 y standard deviation = 1)

In [None]:
sns.countplot(x='Pclass',data=X_train)
titanic_data_Y = titanic_data[['Survived']]

In [None]:
#Check the distribution of age data.
sns.distplot(X_train['Age'])

In [None]:
sns.distplot(X_train['Fare'])

In [None]:
# We will perform Z-Score normalization on both these features. Age & Fare

age_scaler = StandardScaler()
age_scaler.fit(pd.DataFrame(X_train['Age']))

In [None]:
X_train[['Age']] = age_scaler.transform(X_train[['Age']])

In [None]:
fare_scaler = StandardScaler()
fare_scaler.fit(pd.DataFrame(X_train['Fare']))
X_train[['Fare']] = fare_scaler.transform(X_train[['Fare']])

In [None]:
# Change sex feature to 0,1 value.

X_train['Sex'] = X_train['Sex'].map({'female': 0, 'male':1})

In [None]:
# Embarked has 3 categories. We can create three different variable which represents each category.
embarked_encoder = preprocessing.LabelEncoder()
embarked_encoder.fit(pd.DataFrame(X_train['Embarked']))
X_train[['Embarked']] = embarked_encoder.transform(X_train[['Embarked']])

In [None]:
# correlación entre variables
sns.heatmap(X_train.corr())

In [None]:
# Fare and Pclass has high correlation.
# In logistic regression features should not be correlated. So, we can remove one variable.
del X_train['Pclass']

Hemos aplicado `standardScaler` tan solo al conjunto de entrenamiento, ahora hay que hacer lo mismo para el de test. En este caso se ha creado una función que realiza todo el trabajo anterior en un único paso.


In [None]:
def transform_test_data(test_data,age_scaler,fare_scaler,embarked_encoder):
    test_data['Sex'] = test_data['Sex'].map({'female': 0,'male': 1})
    test_data[['Age']] = age_scaler.transform(test_data [['Age']])
    test_data[['Fare']] = fare_scaler.transform(test_data [['Fare']])
    test_data[['Embarked']] = embarked_encoder.transform(test_data[['Embarked']])
    del test_data['Pclass']
    return test_data

In [None]:
X_test = transform_test_data(X_test,age_scaler,fare_scaler,embarked_encoder)

X_test = X_test.values
Y_test = Y_test.values

In [None]:
naive_bayes = GaussianNB()
naive_bayes.fit(X_train,Y_train)

# Check on test data:

Y_pred = naive_bayes.predict(X_test)
Y_pred_prob = naive_bayes.predict_proba(X_test)
print(accuracy_score(Y_test,Y_pred))

In [None]:
# Curva de aprendizaje:

skplt.estimators.plot_learning_curve(naive_bayes,X_train,Y_train)

In [None]:
# Matriz de confusión
skplt.metrics.plot_confusion_matrix(Y_test, Y_pred,normalize=True)

In [None]:
#ROC Curve:

Y_pred_prob = naive_bayes.predict_proba(X_test)
class_1_prob = list()
for i in Y_pred_prob:
    class_1_prob.append(i[1])
    
print(roc_auc_score(Y_test,class_1_prob))

model_result['Naive Bayes'] = roc_auc_score(Y_test,class_1_prob)

skplt.metrics.plot_roc_curve(Y_test, Y_pred_prob,curves=['each_class'])
