# Intro To Machine Learning

![algoritmMachineLearn](algoritmMachineLearn.jpg)

## Algoritmo Naive Bayes o clasificador 'ingenuo' de Bayes

Si nuestro clasificador es "Supervised" tendremos una fase de entrenamiento donde tendremos que decirle claramente "Mira aquí tengo 80 cartas, estas 50 son de Juana y estas 30 son de Pepe". Y a partir de ahí el clasificador realizará predicciones basada en ese entrenamiento.

# SUPERVISED CLASSIFIERS

Los "Supervised classifiers" se basan en distintos algoritmos matemático-estadísticos. Algunos famosos son:

   - Naive Bayes
   - K nearest neighbors
   - SVC (Support Vector Classifiers)
   - Decision Trees
   - Ensemble methods


El que vamos a ver hoy es Naive Bayes o clasificador "ingenuo" de Bayes

Este clasificador se basa en el teorema de Bayes y se denomina ingenuo porque asume independencia en ciertas características de los datos a la hora de realizar la predicción.

Si seguimos el ejemplo de las cartas, Naive Bayes, tendrá en cuenta aspectos como la frecuencia con la que se repiten ciertos términos, pero obviará otras características como el orden de cada una de las palabras, ya que asume independencia en esa variable.

Teniendo ciertos elementos clasificados, un nuevo elemento tendrá la siguiente probabilidad de pertenecer a cierto grupo:

$p(A|F_{1}...F_{n})$


Que aplicando el Teorema de Bayes en el que se basa este clasificador:

![eq2](eq2.png)

Y que suele ponerse de manera conceptual como:

![eq3](eq3.png)

Por tanto la probabilidad de que una carta sea de Juana dada una característica concreta (posterior), es igual a multiplicar la probabilidad de escritura de Juana (prior) por la probabilidad de que se dé esa característica en una carta de Juana(probability) dividido por la probabilidad de que aparezca esa característica en cualquier carta (normalizer)

![eq4](eq4.png)

Al estar normalizado podemos asegurar por tanto que la probabilidad de Pepe es:

![eq5](eq5.png)

Obviamente estamos considerando que la carta sólo puede ser de Juana o de Pepe en este espacio.

Basándonos en este algoritmo vamos a crear un "Supervised Classifier" vamos a entrenarlo y vamos a hacer algunas predicciones.

Lo primero que debemos hacer es instalar sckit-learn con el comando

    !pip install scikit-learn

In [1]:
#Exportamos los datasets de ejemplo de sklearn
from sklearn.datasets import make_classification
#Y la funcion para dividir el dataset
from sklearn.cross_validation import train_test_split



In [2]:
##Dataset length == 100
##Con la funcion make_classification creamos un array
data_train, labels_train = make_classification(n_samples=100, n_features=10)
print("Tamaño de data_train",len(data_train))
print("Tamaño de label_train",len(labels_train))

Tamaño de data_train 100
Tamaño de label_train 100


In [3]:
#Dividir el dataset en datos de entrenamiento y datos de test
#Sera el 90% para entrenamiento y 10% para test
data_train, data_test, labels_train, labels_test = train_test_split(data_train,labels_train,test_size=.1)

In [4]:
print("Tamaño de data_train",len(data_train))
print("Tamaño de label_train",len(labels_train))
print("Tamaño de data_test",len(data_test))
print("Tamaño de labels_test",len(labels_test))

Tamaño de data_train 90
Tamaño de label_train 90
Tamaño de data_test 10
Tamaño de labels_test 10


In [5]:
#Importamos el algoritmo que utilizaremos
from sklearn.naive_bayes import GaussianNB

In [6]:
#Creamos el clasificador basao en Naive Bayes
clf = GaussianNB()

In [7]:
#Entrenamos el clasificador
#Le pasaremos 90 textos(90% del dataset, que es el dessignado para entrenamiento)
#Y 90 etiquetas
clf.fit(data_train, labels_train)
#Hacer una prediccion con los datos designados a testing
predictions = clf.predict(data_test)
#Mostrando la prediccion
print("Comparando:")
#predicciones 
print(predictions)
#Lo que es realmente
print(labels_test)
print("Podemos ver que el tiene un alto porcentaje de prediccion.")

Comparando:
[1 1 1 1 1 1 0 0 0 0]
[1 0 1 1 1 1 0 0 0 0]
Podemos ver que el tiene un alto porcentaje de prediccion.


In [8]:
#Si queremos ver esto en numeros que midan el porcentaje
#de presicion en nuestra prediccion(exactitud)
from sklearn.metrics import accuracy_score
#Exactitud entre predicciones y lo que realmente es
acc = accuracy_score(predictions, labels_test)
print("El porcentaje de exactitud es de {} o visto en porcentaje {}%".format(acc,acc*100))


El porcentaje de exactitud es de 0.9 o visto en porcentaje 90.0%


### Para que arroje datos y predicciones diferentes podemos ejecutar todo el codigo de nuevo en la barra en _Kernel_ desplegamos y damos click en _Restart and Run All_


##### Para mas detalle este ejemplo esta explicado en YT aca
[Naive Bayes](https://www.youtube.com/watch?v=4MHSCz9hguM&index=1&list=PLNUuXUGwh9WxYSNs8QT5fYB5usZiDdylJ)