<a href="https://colab.research.google.com/github/ptoledoc7/Prueba/blob/main/NaiveBayes_NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Text Mining with Naive Bayes

Naive Bayes es un modelo bayesiano, es decir, probabilístico, donde las predicciones se basan en calcular probabilidades.

Además, tal como su nombre indica, es un modelo Naive, es decir, ingénuo; esto es porque Naive Bayes asume que el efecto de una variable es independiente al resto de variables, de esta forma, el cálculo de las probabilidades es mucho más sencillo.

En términos matemáticos, el cálculo de Naive Bayes se traduce en la siguiente fórmula, la cual se conoce como regla de Bayes:

**𝑃(𝐴|𝐵) = (𝑃(𝐵|𝐴) * 𝑃(𝐴)) / 𝑃(𝐵)**

- **P(A|B)**: probabilidad de que ocurra A sabiendo que B ya ha ocurrido.
- **P(B|A)**: probabilidad de que ocurra B sabiendo que se ha dado A.
- **P(A)**: probabilidad de que ocurra A.
- **P(B)**: probabilidad de que ocurra B.

## Naive Bayes Example

Pongamos que queremos clasificar mensajes de texto entre spam o no spam; para ello contamos con N mensajes diferentes, así pues, lo primero de todo es crear una tabla que nos indique cuántas veces ha aparecido cada palabra en los casos en los que el mensaje era Spam y cuántas veces han aparecido en los mensajes no Spam; supongamos que la tabla es la siguiente:

| Tipo de Documento | Estimado | Amigo | Comida | Dinero |
|-------------------|----------|-------|--------|--------|
| No Spam           | 8        | 5     | 3      | 1      |
| Spam              | 2        | 1     | 0      | 4      |

Partiendo de esta tabla podemos calcular cómo de probable es que aparezca la palabra «Estimado» dentro de un mensaje «No Spam»; esto no es más que la proporción de veces que la palabra «Estimado» ha salido en los mensajes «No Spam»:

𝑃(𝐸𝑠𝑡𝑖𝑚𝑎𝑑𝑜|𝑁𝑜𝑆𝑝𝑎𝑚) = 8/(8+5+3+1) = 0.47

Si hiciésemos este mismo proceso para cada una de las palabras y cada una de las clases, terminaríamos obteniendo la siguiente tabla:

| Tipo de Documento | Estimado | Amigo | Comida | Dinero |
|-------------------|----------|-------|--------|--------|
| No Spam           | 0.47     | 0.29  | 0.18   | 0.06   |
| Spam              | 0.29     | 0.14  | 0      | 0.57   |

Por otro lado, necesitaríamos también conocer la probabilidad de que una palabra sea Spam o no sea Spam, esto es, la proporción de palabras Spam y no Spam.

𝑃𝑟𝑜𝑏(𝑁𝑜𝑆𝑝𝑎𝑚) = (8+5+3+1)/(8+5+3+1+2+1+0+4) = 17/(17+7) = 0.71

𝑃𝑟𝑜𝑏(𝑆𝑝𝑎𝑚) = (2+1+0+4)/(8+5+3+1+2+1+0+4) = 7/(17+7) = 0.29

Con esta información, supongamos que nos llegase un mensaje con las palabras «Estimado Amigo»; ahora sí, podríamos aplicar la fórmula anterior para poder clasificar dicho mensaje. Veámoslo:

𝑃(𝑁𝑜𝑆𝑝𝑎𝑚) × 𝑃(𝐸𝑠𝑡𝑖𝑚𝑎𝑑𝑜|𝑁𝑜𝑆𝑝𝑎𝑚) × 𝑃(𝐴𝑚𝑖𝑔𝑜|𝑁𝑜𝑆𝑝𝑎𝑚) = 0.71×0.47×0.29 = 0.10

𝑃(𝑆𝑝𝑎𝑚) × 𝑃(𝐸𝑠𝑡𝑖𝑚𝑎𝑑𝑜|𝑆𝑝𝑎𝑚) × 𝑃(𝐴𝑚𝑖𝑔𝑜|𝑆𝑝𝑎𝑚) = 0.29×0.29×0.14 = 0.01

Como vemos, es más probable que ese mensaje sea No Spam que Spam, por tanto, la predicción realizada por Naive Bayes es que ese mensaje no es Spam.

**Problemas con probabilidades de cero**

Seguramente el funcionamiento de Naive Bayes te sea intuitivo y tenga sentido; sin embargo, ¿qué hubiese pasado si el mensaje que nos llega tiene las palabras «Dinero», «Comida» y «Dinero»? Veamoslo:

𝑃(𝑁𝑜𝑆𝑝𝑎𝑚) = 0.71×0.06×0.18×0.06 = 0.0004

𝑃(𝑆𝑝𝑎𝑚) = 0.29×0.57×0.0×0.57 = 0

Como vemos, por mucho que intuitivamente el mensaje sea Spam, puesto que la palabra «Dinero» aparece mucho en mensajes Spam, el mensaje será clasificado como «No Spam»; esto es debido a que la palabra «Comida» nunca ha aparecido en un mensaje Spam, por lo que su probabilidad es de cero, haciendo que la probabilidad del mensaje sea de cero.

Para solucionar este problema se aplica Laplace; Laplace consiste, básicamente, en sumar 1 a todas las observaciones, de esta forma, sus probabilidades dejan de ser cero y nos evitamos el problema anterior. Veámoslo:

Tabla de Frecuencias sin Aplicar Laplace:

| Tipo de Documento | Estimado | Amigo | Comida | Dinero |
|-------------------|----------|-------|--------|--------|
| No Spam           | 8        | 5     | 3      | 1      |
| Spam              | 2        | 1     | 0      | 4      |

Tabla de Frecuencias Aplicando Laplace:

| Tipo de Documento | Estimado | Amigo | Comida | Dinero |
|-------------------|----------|-------|--------|--------|
| No Spam           | 9        | 6     | 4      | 2      |
| Spam              | 3        | 2     | 1      | 5      |

Como ves, ahora todas las variables han aparecido al menos una vez, de tal forma que si calculamos las probabilidades no existe ninguna variable con probabilidad de cero:

| Tipo de Documento | Estimado | Amigo | Comida | Dinero |
|-------------------|----------|-------|--------|--------|
| No Spam           | 0.43     | 0.29  | 0.19   | 0.10   |
| Spam              | 0.27     | 0.18  | 0.09   | 0.45   |

Ahora, si volvemos a clasificar el mensaje con las palabras «Dinero», «Comida» y «Dinero» obtendremos la siguiente predicción:

𝑃(𝑁𝑜𝑆𝑝𝑎𝑚) = 0.66×0.10×0.19×0.10 = 0.0012

𝑃(𝑆𝑝𝑎𝑚) = 0.34×0.45×0.09×0.45 = 0.0062

Como puedes ver, gracias a aplicar Laplace el mensaje ha pasado de ser clasificado (incorrectamente) como «No Spam» a ser clasificado (correctamente) como «Spam».

## Advantages

- Es un modelo muy fácilmente interpretable, lo cual es un punto muy positivo sobre todo de cara a NLP, donde existen pocas opciones alternativas que también sean interpretables.

- Es un modelo muy sencillo de entrenar y de ajustar sus hiperparámetros, y aún así puede dar muy buenos resultados, tal como hemos visto en el ejemplo anterior.

- Trabaja muy bien para datasets con muchas variables, lo cual es poco común dentro de los modelos de Machine Learning, una vez más, esto lo hace muy interesante de cara a NLP.

- Sirve tanto para problemas de clasificación binaria, como clasificación multiclase.

## Disadvantages

- La asunción de que las variables son independientes, en la gran mayoria de casos esta asunción no se cumple.

- Aparición de nuevas palabras o clases, en el caso de proyectos de NLP es muy normal que a la hora de realizar predicciones aparezcan nuevas palabras que el modelo no ha visto a la hora de entrenar, como resultado, el modelo no tendra en cuenta dichas palabras de cara a hacer las predicciones, por lo que habrá que reentrenarlo de forma frecuente.

Sin duda alguna Naive Bayes es un modelo muy sencillo de entender, interpretar y aplicar; por normal general, no suele ser un modelo que funcione muy bien en proyectos de clasificación; sin embargo, cuando se trata de clasificar texto, Naive Bayes es, el primero modelo que se debería probar.

En cualquier caso, cuando se trata de un proyecto de clasificación de texto, siempre es interesante probar otro tipo de modelos (como los Support Vector Classifiers) y prestar mucha atención al proceso de limpieza y calidad de datos.

# NLTK Library for NLP

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer
from nltk import FreqDist
from nltk import pos_tag

In [None]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('omw')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package omw to /root/nltk_data...
[nltk_data]   Package omw is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

Una vez que se tienen los datos, lo primero de todo es procesarlos; si bien el procesamiento de datos es un paso fundamental en todo proyecto de Machine Learning, en los proyectos de NLP (como este) procesar los datos resulta aún mucho más importante.

In [None]:
texto = "NLTK es una biblioteca poderosa para procesamiento de lenguaje natural en Python."

## Tokenización

Consiste en separar los mensajes en palabras para así poder tratar cada una de las palabras.

In [None]:
tokens = word_tokenize(texto, language='spanish')
print(tokens)

['NLTK', 'es', 'una', 'biblioteca', 'poderosa', 'para', 'procesamiento', 'de', 'lenguaje', 'natural', 'en', 'Python', '.']


## Stop Words

La eliminación de palabras que no aportan valor (preposiciones, conjunciones, etc.); esto se realiza puesto que aumentaría mucho el tamaño de un dataset (ya de por sí son grandes) y no aportaría ningún valor, solo ruido.

In [None]:
stop_words = set(stopwords.words('spanish'))

filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
print(filtered_tokens)

['NLTK', 'biblioteca', 'poderosa', 'procesamiento', 'lenguaje', 'natural', 'Python', '.']


## Stemming

Consiste en la eliminación de las terminaciones de las palabras para quedarnos únicamnete con la raíz; siguiendo el caso anterior, en ambos casos (bueno, buena) nos quedaríamos con «buen».

In [None]:
stemmer = SnowballStemmer('spanish')

stemmed_tokens = [stemmer.stem(word) for word in filtered_tokens]
print(stemmed_tokens)

['nltk', 'bibliotec', 'poder', 'proces', 'lenguaj', 'natural', 'python', '.']


## Lemmatization

Es más utilizado en proyectos de NLP en inglés, ya que en este idioma bueno (good), mejor (better) y el mejor (best) son palabras completamente diferentes; en estos casos el stemming no funcionaría, así pues, la lematización convertiría todas esas palabras a su base (good), de tal forma que pasen a significar lo mismo.

In [None]:
lemmatizer = WordNetLemmatizer()  # La lemmatización en español puede no ser tan efectiva como en inglés

lemmatized_tokens = [lemmatizer.lemmatize(word) for word in filtered_tokens]
print(lemmatized_tokens)

['NLTK', 'biblioteca', 'poderosa', 'procesamiento', 'lenguaje', 'natural', 'Python', '.']


## Frequency Analysis

In [None]:
freq_dist = FreqDist(lemmatized_tokens)
print(freq_dist)

<FreqDist with 8 samples and 8 outcomes>
