# Clasificador Bayesiano Ingenuo

## Ejemplo 1: Juego con un dado
* 1 y 2 Gana
* 3 y 4 Nada
* 5 y 6 piErde

In [1]:
import numpy as np
G=np.array([1,1,0,0,0,0])
N=np.array([0,0,1,1,0,0])
E=np.array([0,0,0,0,1,1])
U=np.array([1,1,1,1,1,1])


In [2]:
(U==G+N+E).all()

True

## Probabilidad de cada cara del dado
Después de 100 lanzamientos estos fueron los resultados:
1 18
2 15
3 18
4 15
5 18
6 16


In [3]:
dado = np.array([18,15,18,15,18,16])
n = dado.sum()
n

100

In [4]:
D=dado/n
D

array([0.18, 0.15, 0.18, 0.15, 0.18, 0.16])

## Definición de producto punto
$\vec{u} \cdot \vec{v} = \begin{pmatrix} a_1 \\ a_2 \\ \vdots \\ a_n \end{pmatrix} \cdot \begin{pmatrix} b_1 \\ b_2 \\ \vdots \\ b_n \end{pmatrix} = a_1 b_1 + a_2 b_2 + \cdots + a_n b_1n  = \sum_{i=1}^n a_i b_i$

## Calculo de las probabilidades usando notación vectorial

In [5]:
D.dot(U)

1.0

In [6]:
P_G = D.dot(G)
P_G

0.32999999999999996

In [7]:
P_N = D.dot(N)
P_N

0.32999999999999996

In [8]:
P_E = D.dot(E)
P_E

0.33999999999999997

## Diferencia de probabilidad entre paRes e Impares

In [9]:
I=np.array([1,0,1,0,1,0])
R=np.array([0,1,0,1,0,1])

In [10]:
(U==R+I).all()

True

In [11]:
P_R = D.dot(R)
P_R

0.45999999999999996

In [12]:
P_I = D.dot(I)
P_I

0.54

In [13]:
dado[1-1]/n

0.18

In [14]:
P_GnI = D.dot(G*I)
P_GnI

0.18

Probabilidad de que ganó dado, que es impar

$P(G/I) = \frac{P(G \cap I)}{P(I) }  $

In [15]:
dado[1 -1]/(dado[1 -1]+dado[3 -1]+dado[5 -1])

0.3333333333333333

In [16]:
D[1 -1]/(D[1 -1]+D[3 -1]+D[5 -1])

0.3333333333333333

In [17]:
D.dot(G*I)/D.dot(I)

0.3333333333333333

In [18]:
P_GdI = P_GnI/P_I
P_GdI

0.3333333333333333

Probabilidad de que es impar, dado que ganó
$P(I/G) = \frac{P(G \cap I)}{P(G) }  $

In [19]:
dado[1 -1]/(dado[1 -1]+dado[2 -1])

0.5454545454545454

In [20]:
D[1 -1]/(D[1 -1]+D[2 -1])

0.5454545454545455

In [21]:
D.dot(G*I)/D.dot(G)

0.5454545454545455

In [22]:
P_IdG = P_GnI/P_G
P_IdG

0.5454545454545455

## Teorema de Bayes

$P(A/B) P(B) = P(A \cap B) = P(B/A) P(A)$

## Clasificador Bayesiano aplicado al NPL

### Suposiciones:
* Probabilidad de una secuencia de palabras

$p(w_1 \ w_2 \ \cdots \ w_k)=p(w_1)p(w_2)\cdots p(\ w_k)$

$p((w_1 \ w_2 \ \cdots \ w_k)/clase_1)=p(w_1/clase_1)p(w_2/clase_1)\cdots p(w_k/clase_1)$

###  Aplicación en la clasificación de sentimientos positivos (+) y negativos (-)

$p( + /(w_1 \ w_2 \ \cdots \ w_k))=\frac{p((w_1 \ w_2 \ \cdots \ w_k)/ + ) p(+)}{p(w_1 \ w_2 \ \cdots \ w_k)}$

$p( - /(w_1 \ w_2 \ \cdots \ w_k))=\frac{p((w_1 \ w_2 \ \cdots \ w_k)/ - ) p(-)}{p(w_1 \ w_2 \ \cdots \ w_k)}$

$\frac{p( + /(w_1 \ w_2 \ \cdots \ w_k))}{p( - /(w_1 \ w_2 \ \cdots \ w_k))}=\frac{\frac{p((w_1 \ w_2 \ \cdots \ w_k)/ + ) p(+)}{p(w_1 \ w_2 \ \cdots \ w_k)}}{\frac{p((w_1 \ w_2 \ \cdots \ w_k)/ - ) p(-)}{p(w_1 \ w_2 \ \cdots \ w_k)}}$

$\frac{p( + /(w_1 \ w_2 \ \cdots \ w_k))}{p( - /(w_1 \ w_2 \ \cdots \ w_k))}=\frac{p((w_1 \ w_2 \ \cdots \ w_k)/ + ) p(+)}{p((w_1 \ w_2 \ \cdots \ w_k)/ - ) p(-)}$

$\frac{p( + /(w_1 \ w_2 \ \cdots \ w_k))}{p( - /(w_1 \ w_2 \ \cdots \ w_k))}=\frac{p(w_1/ +) \ p(w_2/ +) \ \cdots \ p(w_k/ +) p(+)}{p(w_1/ -) \ p(w_2/ -) \ \cdots \ p(w_k/ -)p(-)}$

Si la cantidad de sentencias positivas es igual a las sentencias negativas entonces $p(+)=p(-)$

$\frac{p( + /(w_1 \ w_2 \ \cdots \ w_k))}{p( - /(w_1 \ w_2 \ \cdots \ w_k))}=\frac{p(w_1/ +) \ p(w_2/ +) \ \cdots \ p(w_k/ +) }{p(w_1/ -) \ p(w_2/ -) \ \cdots \ p(w_k/ -)}$

Para lo cual es necesario encontrar $p(w/+)$, la probabilidad de cada palabra dado que sea positiva, y $p(w/-)$, la probabilidad de cada palabra dado que sea negativa.



## Aplicación en la revisión de artículos

El siguiente archivo 
https://archive.ics.uci.edu/ml/machine-learning-databases/00410/reviews.json 
contiene la revisión de artículos y su evaluación (-2, -1, 0, 1, 2). 



In [23]:
import json
f = open('reviews.json')
data = json.load(f)['paper']
f.close()
len(data)

172

In [24]:
data[0]['review'][0]

{'confidence': '4',
 'evaluation': '1',
 'id': 1,
 'lan': 'es',
 'orientation': '0',
 'remarks': '',
 'text': '- El artículo aborda un problema contingente y muy relevante, e incluye tanto un diagnóstico nacional de uso de buenas prácticas como una solución (buenas prácticas concretas). - El lenguaje es adecuado.  - El artículo se siente como la concatenación de tres artículos diferentes: (1) resultados de una encuesta, (2) buenas prácticas de seguridad, (3) incorporación de buenas prácticas. - El orden de las secciones sería mejor si refleja este orden (la versión revisada es #2, #1, #3). - El artículo no tiene validación de ningún tipo, ni siquiera por evaluación de expertos.',
 'timespan': '2010-07-05'}

La variable `listado` contiene la evaluación y el comentario correspondiente preprocesado.

In [25]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [26]:
from nltk.corpus import stopwords 
nltk.download('stopwords')
stop_words = set(stopwords.words('spanish')) 
len(stop_words)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


313

In [27]:
listado_total=[]
for art in data:
  for rev in art['review']:
    if rev['lan'] == 'es':
      palabras=nltk.tokenize.word_tokenize(rev['text'])
      palabras=[w for w in palabras if not w in stop_words] 
      palabras=[w for w in palabras if len(w)>1] 
      listado_total.append((rev['evaluation'],palabras))

len(listado_total)

388

In [28]:
import sklearn

listado_train,listado_test=sklearn.model_selection.train_test_split(listado_total,
                                                                    random_state=2,
                                                                    test_size=0.25)
#i=int(len(listado_total)*.8)
#listado_train=listado_total[:i]
#listado_test=listado_total[i:]
len(listado_train),len(listado_test)

(291, 97)

Se extrae el vocabulario y se lleva cuenta de las respectivas evaluaciones.

In [29]:
vocabulario={}
minimo=np.inf
maximo=-np.inf
for eval,texto in listado_train:
  eval=int(eval)
  minimo = min(minimo,eval)
  maximo = max(maximo,eval)
  for palabra in texto:
    if palabra not in vocabulario:
      vocabulario[palabra]={i:0 for i in range(-2,3)}
    vocabulario[palabra][eval] += 1
len_voc=len(vocabulario)
maximo,minimo,len_voc


(2, -2, 5924)

In [30]:
voc_lista=list(vocabulario.keys())
voc_lista[0]

'El'

In [31]:
vocabulario[voc_lista[0]]

{-2: 100, -1: 67, 0: 63, 1: 74, 2: 74}

In [32]:
suma={i:0 for i in range(-2,3)}
suma

{-2: 0, -1: 0, 0: 0, 1: 0, 2: 0}

In [33]:
minimos={i:3 for i in range(-2,3)}
minimos

{-2: 3, -1: 3, 0: 3, 1: 3, 2: 3}

In [34]:
for palabra in vocabulario:
  for i in range(-2,3):
    #print(i,vocabulario[palabra][i])
    suma[i] += vocabulario[palabra][i]
    minimos[i] = min(minimos[i],vocabulario[palabra][i])
suma

{-2: 7279, -1: 4614, 0: 5042, 1: 5244, 2: 5139}

Se calculan las probabilidades condicionales de cada palabra

In [35]:
for palabra in vocabulario:
    vocabulario[palabra]['mas']=(vocabulario[palabra][2]+vocabulario[palabra][1]+1)/(suma[2]+suma[1]+len_voc)
    vocabulario[palabra]['menos']=(vocabulario[palabra][-2]+vocabulario[palabra][-1]+1)/(suma[-2]+suma[-1]+len_voc)
vocabulario[voc_lista[0]]

{-2: 100,
 -1: 67,
 0: 63,
 1: 74,
 2: 74,
 'mas': 0.009137180351996075,
 'menos': 0.00942919683448392}

Se predicen los comentarios del entrenamiento

In [36]:
eval_pred_train = []
for i in range(len(listado_train)):
  eval,texto = listado_train[i]
  e=1
  for palabra in texto:
    if palabra not in vocabulario:
      vocabulario[palabra]={'mas':1,'menos':1}
    e *= vocabulario[palabra]['mas']
    e /= vocabulario[palabra]['menos']
    #if i==0:
      #print(palabra,vocabulario[palabra]['mas'],vocabulario[palabra]['menos'])
  eval_pred_train.append(e)
eval_pred_train[0]

1.4250309180133933e-20

In [37]:
bien1=0
bien2=0
mal1=0
mal2=0
otros =0
for i,(ev,tx) in enumerate(listado_train):
  ev=int(ev)
  if (eval_pred_train[i] >= 1) and (ev >= 0):
    bien1 += 1
  elif (eval_pred_train[i] <= 1) and (ev <= 0):
    bien2 += 1
  elif (eval_pred_train[i] <= 1) and (ev >= 0):
    mal1 += 1
  elif (eval_pred_train[i] >= 1) and (ev <= 0):
    mal2 += 1
  else:
    otros += 1

mal1,mal2,bien1,bien2,otros,mal1+mal2+bien1+bien2+otros

(1, 0, 157, 133, 0, 291)

Se predicen los comentarios de prueba

In [38]:
eval_pred_test = []
for i in range(len(listado_test)):
  eval,texto = listado_test[i]
  e=1
  for palabra in texto:
    if palabra not in vocabulario:
      vocabulario[palabra]={'mas':1,'menos':1}
    e *= vocabulario[palabra]['mas']
    e /= vocabulario[palabra]['menos']
    #if i==0:
      #print(palabra,vocabulario[palabra]['mas'],vocabulario[palabra]['menos'])
  eval_pred_test.append(e)
eval_pred_test[0]

6.274259570537281

Se comparan las predicciones con las evaluaciones

In [39]:
bien1=0
bien2=0
mal1=0
mal2=0
otros =0
for i,(ev,tx) in enumerate(listado_test):
  ev=int(ev)
  if (eval_pred_test[i] >= 1) and (ev >= 0):
    bien1 += 1
  elif (eval_pred_test[i] <= 1) and (ev <= 0):
    bien2 += 1
  elif (eval_pred_test[i] <= 1) and (ev >= 0):
    mal1 += 1
  elif (eval_pred_test[i] >= 1) and (ev <= 0):
    mal2 += 1
  else:
    otros += 1

mal1,mal2,bien1,bien2,otros,mal1+mal2+bien1+bien2+otros

(20, 11, 34, 32, 0, 97)