 # ALGORITMO MULTINOMIAL NAIVE BAYES

#Descripción:

El algoritmo de Naive Bayes Multinomial es un método de aprendizaje probabilístico que se utiliza principalmente en el Procesamiento del Lenguaje Natural (NLP). Este algoritmo se fundamenta en el teorema de Bayes y tiene como objetivo predecir la etiqueta de un texto, como un correo electrónico o un artículo de periódico. En su funcionamiento, calcula la probabilidad de cada etiqueta para una muestra dada y, posteriormente, selecciona la etiqueta con la probabilidad más alta como resultado. Para llevar a cabo esta tarea, el algoritmo adopta el enfoque de "bolsa de palabras", en el cual las palabras individuales en el documento se consideran sus características, sin tomar en cuenta el orden en que aparecen. Asimismo, el algoritmo genera un vector de características en el cual cada término representa la cantidad de veces que aparece en el texto o su frecuencia. Este método se utiliza ampliamente en la clasificación de documentos en categorías, basándose en el análisis estadístico de su contenido.

#Bibtext y Referencias

@article{abbas2019multinomial,
  title={Multinomial Naive Bayes classification model for sentiment analysis},
  author={Abbas, Muhammad and Memon, K Ali and Jamali, A Aleem and Memon, Saleemullah and Ahmed, Anees},
  journal={IJCSNS Int. J. Comput. Sci. Netw. Secur},
  volume={19},
  number={3},
  pages={62},
  year={2019}
}

# Herramientas utilizadas:
* Obtención de información:
* https://www.perplexity.ai/search/a96a2798-e2da-470b-a0ec-48a3f67c76ce?s=u
* https://www.mygreatlearning.com/blog/multinomial-naive-bayes-explained/

#Tipo de Modelo:
* MODELO DE APRENDIZAJE: Supervisado
* POR PARAMETROS: Parametrico
* DATOS APRENDIZAJE: Offline
* RESULTADOS DEL ENTRENAMIENTO: Basado en modelos

#Supuestos y Restricciones

#Supuestos

* El algoritmo supone que las características utilizadas para la clasificación son independientes entre sí. Esto significa que la presencia o ausencia de una característica no afecta la presencia o ausencia de otras características en el documento.
*  El algoritmo se basa en una distribución multinomial para modelar la frecuencia de las palabras o características en los documentos. Esto implica que los valores de las características son recuentos enteros no negativos.

#Restricciones

* Dado que el algoritmo trata cada característica de manera independiente, no tiene en cuenta las relaciones contextuales o dependencias semánticas entre las palabras en un documento.
* El tamaño del vocabulario (es decir, la cantidad de palabras únicas) puede afectar significativamente el rendimiento del algoritmo.
* El algoritmo confía en las frecuencias de términos para realizar las predicciones. Si una palabra no está en el conjunto de entrenamiento, tendrá una frecuencia de cero y podría generar problemas.
* No tiene en cuenta la estructura gramatical o sintáctica de los documentos, lo que lo hace menos adecuado para tareas de NLP que requieren un análisis profundo de la gramática y la semántica.


In [1]:
# Importar las bibliotecas necesarias y el dataset fetch_20newsgroups
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
# Cargar el dataset
newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))

In [7]:
# prints
print("Nombre de las clases: ", newsgroups.target_names)
print("Número de muestras: ", len(newsgroups.data))
print("Número de clases: ", len(newsgroups.target_names))
print(newsgroups.data[0])


Nombre de las clases:  ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']
Número de muestras:  18846
Número de clases:  20


I am sure some bashers of Pens fans are pretty confused about the lack
of any kind of posts about the recent Pens massacre of the Devils. Actually,
I am  bit puzzled too and a bit relieved. However, I am going to put an end
to non-PIttsburghers' relief with a bit of praise for the Pens. Man, they
are killing those Devils worse than I thought. Jagr just showed you why
he is much better than his regular season stats. He is also a lot
fo fun to watch in the playoffs. Bowman should let JAgr have a lot of
fun in the next couple of 

In [8]:
# Dividir el dataset en train y test
X_train, X_test, y_train, y_test = train_test_split(newsgroups.data, newsgroups.target, test_size=0.3, random_state=42)

In [9]:
# Crear un vectorizador de características basado en recuento de palabras
vectorizer = CountVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

In [11]:
# Entrenar el clasificador Multinomial Naive Bayes
MultiNB_classifier = MultinomialNB()
MultiNB_classifier.fit(X_train_vec, y_train)

MultinomialNB()

In [12]:
# Realizar predicciones en el conjunto de prueba
y_pred = MultiNB_classifier.predict(X_test_vec)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo AODE: {accuracy:.2f}")

Precisión del modelo AODE: 0.60
