<br>
<img align="center" src="imagenes/logo.png"  width="200" height="141">
<font size=36><center> Machine Learning con Python </center> </font>
<br>

<h1 align='center'> Modulo IV: Machine Learning </h1>
<h2 align='center'>  Clasificador Naive Bayes </h2> 

---

# Aspectos Teóricos

## Introducción




**Naive Bayes** es uno de los algoritmos más simples y poderosos para la clasificación basado en el Teorema de Bayes con una suposición de independencia entre los predictores. Naive Bayes es fácil de construir y particularmente útil para conjuntos de datos muy grandes.

El clasificador Naive Bayes asume que el efecto de una característica particular en una clase es independiente de otras características. Por ejemplo, un solicitante de préstamo puede ser seleccionado o no dependiendo de sus ingresos, historial de préstamos y transacciones anteriores, edad y ubicación. Incluso si estas características son interdependientes, estas características se consideran de forma independiente. Esta suposición simplifica la computación, y por eso se considera ingenua. Esta suposición se denomina independencia condicional de clase

## Teorema de Bayes

La fórmula del Teorema de Bayes es la siguiente:

$$P(H/E) = \frac{P(E/H)P(H)}{P(E)}$$

donde:

* $P(H|E)$ es la probabilidad de la hipótesis $H$ dado el evento $E$, una probabilidad posterior.


* $P(E|H)$ es la probabilidad del evento $E$ dado que la hipótesis $H$ es verdad.


* $P(H)$ es la probabilidad de la hipótesis $H$ siendo cierto (independientemente de cualquier evento relacionado), o probabilidad previa de $H$.


* $P(E)$ es la probabilidad de que ocurra el evento (independientemente de la hipótesis).

En caso de que se tenga una sola característica, el clasificador Naive Bayes calcula la probabilidad de un evento en los siguientes pasos:

**Paso 1:** Calcular la probabilidad previa para las etiquetas de clase dadas.

**Paso 2:** Determinar la probabilidad de cada atributo para cada clase.

**Paso 3:** Poner estos valores en el teorema de Bayes y calcular la probabilidad posterior.

**Paso 4:** Ver qué clase tiene una probabilidad más alta, dado que la variable de entrada pertenece a la clase de probabilidad más alta.

## Ventajas

* Es fácil y rápido predecir la clase de conjunto de datos de prueba. 


* También funciona bien en la predicción multiclase.


* Cuando se mantiene la suposición de independencia, un clasificador Naive Bayes funciona mejor en comparación con otros modelos como la Regresión Logística y se necesitan menos datos de entrenamiento.


* Funciona bien en el caso de variables de entrada categóricas comparada con variables numéricas.

## Desventajas

* Si la variable categórica tiene una categoría en el conjunto de datos de prueba, que no se observó en el conjunto de datos de entrenamiento, el modelo asignará una probabilidad de 0 y no podrá hacer una predicción. Esto se conoce a menudo como frecuencia cero. Para resolver esto, podemos utilizar la técnica de alisamiento.


* Otra limitación de Naive Bayes es la asunción de predictores independientes. En la vida real, es casi imposible que obtengamos un conjunto de predictores que sean completamente independientes.

# Practica

En esta oportunidad trabajaremos con el dataset de cancer de sklearn.

### Importamos las librerías

In [5]:
import pandas as pd

from sklearn import datasets
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split

### Cargamos el dataset

In [6]:
datos = datasets.load_breast_cancer()

In [3]:
print(datos.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

### Información del dataset

In [7]:
print('Información en el dataset:')
print(datos.keys())
print()

Información en el dataset:
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])



In [8]:
df = pd.DataFrame(data = datos.data , columns = datos.feature_names)

In [9]:
df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [10]:
df['target'] = datos.target

In [12]:
df.tail(10)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
559,11.51,23.93,74.52,403.5,0.09261,0.1021,0.1112,0.04105,0.1388,0.0657,...,37.16,82.28,474.2,0.1298,0.2517,0.363,0.09653,0.2112,0.08732,1
560,14.05,27.15,91.38,600.4,0.09929,0.1126,0.04462,0.04304,0.1537,0.06171,...,33.17,100.2,706.7,0.1241,0.2264,0.1326,0.1048,0.225,0.08321,1
561,11.2,29.37,70.67,386.0,0.07449,0.03558,0.0,0.0,0.106,0.05502,...,38.3,75.19,439.6,0.09267,0.05494,0.0,0.0,0.1566,0.05905,1
562,15.22,30.62,103.4,716.9,0.1048,0.2087,0.255,0.09429,0.2128,0.07152,...,42.79,128.7,915.0,0.1417,0.7917,1.17,0.2356,0.4089,0.1409,0
563,20.92,25.09,143.0,1347.0,0.1099,0.2236,0.3174,0.1474,0.2149,0.06879,...,29.41,179.1,1819.0,0.1407,0.4186,0.6599,0.2542,0.2929,0.09873,0
564,21.56,22.39,142.0,1479.0,0.111,0.1159,0.2439,0.1389,0.1726,0.05623,...,26.4,166.1,2027.0,0.141,0.2113,0.4107,0.2216,0.206,0.07115,0
565,20.13,28.25,131.2,1261.0,0.0978,0.1034,0.144,0.09791,0.1752,0.05533,...,38.25,155.0,1731.0,0.1166,0.1922,0.3215,0.1628,0.2572,0.06637,0
566,16.6,28.08,108.3,858.1,0.08455,0.1023,0.09251,0.05302,0.159,0.05648,...,34.12,126.7,1124.0,0.1139,0.3094,0.3403,0.1418,0.2218,0.0782,0
567,20.6,29.33,140.1,1265.0,0.1178,0.277,0.3514,0.152,0.2397,0.07016,...,39.42,184.6,1821.0,0.165,0.8681,0.9387,0.265,0.4087,0.124,0
568,7.76,24.54,47.92,181.0,0.05263,0.04362,0.0,0.0,0.1587,0.05884,...,30.37,59.16,268.6,0.08996,0.06444,0.0,0.0,0.2871,0.07039,1


### Separamos los datos de entrenamiento y validación

In [12]:
X_train, X_test, y_train, y_test = train_test_split(datos.data, datos.target, test_size = 0.3)

### Creamos el modelo

In [14]:
modelo = GaussianNB()

### Entrenamos el modelo

In [15]:
modelo.fit(X_train, y_train)

GaussianNB()

### Realizamos predicciones

In [16]:
y_pred = modelo.predict(X_test)

### Determinamos la precisión del modelo

In [19]:
precision = precision_score(y_test, y_pred)
print('Precisión del modelo:')
print(precision)

Precisión del modelo:
0.9464285714285714


Podemos apreeciar que el modelo tiene una alta tasa de precisión 

### Verifico la matriz de Confusión

In [20]:
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

Matriz de Confusión:
[[ 53   6]
 [  6 106]]


El resultado acá podemos apreciar que tenemos en total 159 datos clasificados correctamente. 53 de ello fueron diagnosticados con cancer cuando en realidad tenian cancer y 106 que fueron diagnosticados como pacientes que no tenian cancer lo cual coincide con los datos reales. Contrariamente tenemos 6 casos que fueron diágnosticados con cancer cuando era benigno y otros 6 casos que eran fueron diágnosticados como benignos cuando en realidad eran malignos.