# Análisis LDA
Módelo simplificado del modelo LDA.
Lo utilizaremos para clasificar texto, tomaremos un conjunto de mensajes de texto, del cual tenemos etiquetado para saber si son o no spam y utilizaremos el modelo para clasificar dichos datos.

Se ausume que los datos tienen la misma varianza pero diferente media.

Para aplicar el algoritmo aplicaremos lo siguiente.

- Vamos a calcular el promedio o centroide de todos los vectores TF-IDF de cada clase, por ejemplo de la clase SPAM
- Luego calculamos la recta que une los dos centroides, y luego utilizamos el producto punto para calcular la proyeccion de todos los vectores TF-IDF en esta recta
- Luego de esa proyeccion, re-escalamos los datos e intentaremos calcular una probabilidad, e.g. ¿ Cual es la probabilidad de que éste dato (X), pertenezca al conjunto SPAM, y cual es la probabilidad de que no pertenezca?

In [1]:
!pip install nlpia



You should consider upgrading via the 'd:\program files\python37\python.exe -m pip install --upgrade pip' command.





In [2]:
import pandas as pd
from nlpia.data.loaders import get_data

#Esta línea ayuda a mostrar la columna ancha de texto SMS dentro de una impresión de Pandas DataFrame.
pd.options.display.width = 120

sms = get_data('sms-spam')
sms

  [datetime.datetime, pd.datetime, pd.Timestamp])
  MIN_TIMESTAMP = pd.Timestamp(pd.datetime(1677, 9, 22, 0, 12, 44), tz='utc')
  np = pd.np
  np = pd.np
INFO:nlpia.constants:Starting logger in nlpia.constants...
  np = pd.np
  np = pd.np
INFO:nlpia.loaders:No BIGDATA index found in d:\program files\python37\lib\site-packages\nlpia\data\bigdata_info.csv so copy d:\program files\python37\lib\site-packages\nlpia\data\bigdata_info.latest.csv to d:\program files\python37\lib\site-packages\nlpia\data\bigdata_info.csv if you want to "freeze" it.
INFO:nlpia.futil:Reading CSV with `read_csv(*('d:\\program files\\python37\\lib\\site-packages\\nlpia\\data\\mavis-batey-greetings.csv',), **{'low_memory': False})`...
INFO:nlpia.futil:Reading CSV with `read_csv(*('d:\\program files\\python37\\lib\\site-packages\\nlpia\\data\\sms-spam.csv',), **{'low_memory': False})`...
INFO:nlpia.futil:Reading CSV with `read_csv(*('d:\\program files\\python37\\lib\\site-packages\\nlpia\\data\\sms-spam.csv',), **{'n

Unnamed: 0,spam,text
0,0,"Go until jurong point, crazy.. Available only ..."
1,0,Ok lar... Joking wif u oni...
2,1,Free entry in 2 a wkly comp to win FA Cup fina...
3,0,U dun say so early hor... U c already then say...
4,0,"Nah I don't think he goes to usf, he lives aro..."
...,...,...
4832,1,This is the 2nd time we have tried 2 contact u...
4833,0,Will ü b going to esplanade fr home?
4834,0,"Pity, * was in mood for that. So...any other s..."
4835,0,The guy did some bitching but I acted like i'd...


Aquí le añadiremos un simbolo '!' para identificar si un sms es o no spam.

Ademas tomaremos la columna de clasificación [0, 1] y la convertiremos en numeros enteros

In [5]:
index = ['sms{}{}'.format(i, '!'*j) for (i,j) in zip(range(len(sms)), sms.spam)]
sms = pd.DataFrame(sms.values, columns=sms.columns, index=index)
sms['spam'] = sms.spam.astype(int)
sms

Unnamed: 0,spam,text
sms0,0,"Go until jurong point, crazy.. Available only ..."
sms1,0,Ok lar... Joking wif u oni...
sms2!,1,Free entry in 2 a wkly comp to win FA Cup fina...
sms3,0,U dun say so early hor... U c already then say...
sms4,0,"Nah I don't think he goes to usf, he lives aro..."
...,...,...
sms4832!,1,This is the 2nd time we have tried 2 contact u...
sms4833,0,Will ü b going to esplanade fr home?
sms4834,0,"Pity, * was in mood for that. So...any other s..."
sms4835,0,The guy did some bitching but I acted like i'd...


Para vectorizar, utilizaremos la función de sklearn que hace la vectorizacion TF-IDF.
Se puede añadir como parámetro a la función un tokenizador.

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.tokenize.casual import casual_tokenize

tfidf_model = TfidfVectorizer(tokenizer=casual_tokenize)
tfidf_docs = tfidf_model.fit_transform(raw_documents=sms.text).toarray()
tfidf_docs

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

El tamaño del arreglo es

In [7]:
tfidf_docs.shape

(4837, 9232)

4837 Es el numero de documentos, mientras que 9232 es el número de tokens del corpus.
Cada columna va a representar a un token del corpus, y su valor de la componente, representara el valor de TF-IDF

Iniciaremos un vector para mostrar con True or False, para ver si un documento es spam o no.

In [8]:
mask = sms.spam.astype(bool).values
mask

array([False, False,  True, ..., False, False, False])

Luego, calculamos el centroide en las dimensines de los tokens, es decir, por columnas.

In [10]:
spam_centroid = tfidf_docs[mask].mean(axis=0)
ham_centroid = tfidf_docs[~mask].mean(axis=0)

In [17]:
spam_centroid.round(2)#redondeado a 2 decimales

array([0.06, 0.  , 0.  , ..., 0.  , 0.  , 0.  ])

In [19]:
ham_centroid.round(2)

array([0.02, 0.01, 0.  , ..., 0.  , 0.  , 0.  ])

In [20]:
spam_centroid.shape

(9232,)

In [23]:
#vector recta, que une los dos centroides
recta = spam_centroid-ham_centroid
#Calculamos el producto punto entre cada documento y la recta
spaminess_score = tfidf_docs.dot(recta)

In [22]:
import numpy as np

print(np.min(spaminess_score))
print(np.max(spaminess_score))

-0.039357271838168034
0.06904539440075813


Reescalaremos, en base al minimo y al máximo, el "spaminess_score" entre 0 y 1, de tal manera de poder interpretarlo como probabilidad de que pertenezca a la clase SPAM

In [25]:
from sklearn.preprocessing import MinMaxScaler

sms['lda_score'] = MinMaxScaler().fit_transform(spaminess_score.reshape(-1,1))
sms.lda_score

sms0        0.227478
sms1        0.177888
sms2!       0.718785
sms3        0.184565
sms4        0.286944
              ...   
sms4832!    0.850649
sms4833     0.292753
sms4834     0.269454
sms4835     0.331306
sms4836     0.399573
Name: lda_score, Length: 4837, dtype: float64

Ahora bien, como decido quien esta mas lejos y quien esta mas cerca?
El umbral será una linea recta, por eso esta clasificacion es lineal.
En éste caso, veremos si, el score es mayor a 0.5, entonces lo clasificaremos como spam.

In [27]:
sms['lda_predict'] = (sms.lda_score > .5).astype(int)
sms.lda_predict

sms0        0
sms1        0
sms2!       1
sms3        0
sms4        0
           ..
sms4832!    1
sms4833     0
sms4834     0
sms4835     0
sms4836     0
Name: lda_predict, Length: 4837, dtype: int32

En resumen, el entrenamiento de éste modelo, es calcular el centroide.

Ahora veremos si cumplio con las etiquetas o no

In [28]:
sms['spam lda_predict lda_score'.split()].round(2).head(15)

Unnamed: 0,spam,lda_predict,lda_score
sms0,0,0,0.23
sms1,0,0,0.18
sms2!,1,1,0.72
sms3,0,0,0.18
sms4,0,0,0.29
sms5!,1,1,0.55
sms6,0,0,0.32
sms7,0,0,0.5
sms8!,1,1,0.89
sms9!,1,1,0.77


Ahora calcularemos que tan bien se desempeño nuestro modelo mediante la matriz de confusion.

La matriz de confusion es
![imagen.png](attachment:imagen.png)

En donde:
- P = positivo
- N = Negativo
y los elementos:
- TP = True Positive. (Verdadero y acertó)
- FP = False Positive. (Falso y no acertó)
- TN = True Negative. (Falso y acertó)
- FN = False Negative. (Verdadero y no acertó)

En resumen, la diagonal es cuando acierta y la anti-diagonal cuando no acierta.

In [30]:
from sklearn.metrics import confusion_matrix

y_real = sms.spam
y_pred = sms.lda_predict
matrix = confusion_matrix(y_real, y_pred)
matrix

array([[4135,   64],
       [  45,  593]], dtype=int64)

+ 4135 no son spam y se clasificaron como no spam
+ 593     son spam y se clasificaron como spam
+ 64   no son spam y se clasificaron como spam
+ 45      son spam y se clasificaron como no spam

Directamente de la matriz de confusion, podemos calcular el 'accuracy'

In [32]:
acc = (4135+593)/(4135+593+64+45)
acc

0.9774653710977879