# CLASIFICADOR DE TÓPICOS PARA NOTICIAS PERIODÍSTICAS UTILIZANDO NAIVE BAYES

## Integrantes del Grupo 10
- Palomino Julian Alex Marcelo - Código: 21200244
- Adolfo Paucar Kiltom - Código: 22200244
- Calderon Zuñiga Rodrigo Joaquin - Código: 22200075

Este proyecto presenta el desarrollo de un sistema inteligente basado en el algoritmo Naive Bayes para clasificar artículos periodísticos en distintos tópicos. Se emplea un dataset representativo de noticias reales, preprocesado y vectorizado para alimentar al modelo. El objetivo es demostrar la capacidad de este clasificador probabilístico en problemas de categorización textual.

## Objetivos

### Objetivo General
Desarrollar e implementar un clasificador automático de noticias periodísticas basado en el algoritmo Naive Bayes que permita categorizar textos noticiosos de manera eficiente y con alta precisión.

### Objetivos Específicos
- Implementar el algoritmo Multinomial Naive Bayes para clasificación de texto
- Desarrollar un pipeline completo de preprocesamiento de texto en español
- Crear una interfaz gráfica intuitiva para la interacción con el sistema
- Evaluar el rendimiento del modelo mediante métricas estándar de clasificación
- Comparar los resultados con técnicas alternativas de clasificación

## Marco Teórico

### 1. Procesamiento de Lenguaje Natural (PLN)

El **Procesamiento de Lenguaje Natural** es una rama de la inteligencia artificial que se enfoca en la interacción entre computadoras y lenguaje humano. En el contexto de clasificación de texto, el PLN permite transformar datos no estructurados (texto) en representaciones numéricas que los algoritmos de machine learning pueden procesar.

### 2. Clasificación de Texto

La **clasificación de texto** es una tarea supervisada de machine learning donde el objetivo es asignar etiquetas predefinidas a documentos de texto. En el ámbito periodístico, esto permite organizar automáticamente noticias por categorías como deportes, política, tecnología, etc.

### 3. Algoritmo Naive Bayes

#### 3.1 Fundamentos Teóricos

Naive Bayes es una familia de clasificadores probabilísticos basados en el **Teorema de Bayes** con la suposición "naive" (ingenua) de independencia condicional entre las características.

**Teorema de Bayes:**
```
P(C|X) = P(X|C) × P(C) / P(X)
```

Donde:
- `P(C|X)`: Probabilidad posterior de la clase C dado el vector de características X
- `P(X|C)`: Verosimilitud - probabilidad de observar X dada la clase C
- `P(C)`: Probabilidad a priori de la clase C
- `P(X)`: Evidencia - probabilidad marginal de observar X

#### 3.2 Suposición de Independencia

La suposición "naive" establece que todas las características son condicionalmente independientes dada la clase:

```
P(X|C) = P(x₁|C) × P(x₂|C) × ... × P(xₙ|C) = ∏ᵢ₌₁ⁿ P(xᵢ|C)
```

Esta simplificación reduce significativamente la complejidad computacional y los requerimientos de datos de entrenamiento.

#### 3.3 Multinomial Naive Bayes

Para clasificación de texto, se utiliza la variante **Multinomial Naive Bayes**, especialmente diseñada para características que representan conteos discretos (como frecuencias de palabras).

**Fórmula de clasificación:**
```
P(xᵢ|C) = (count(xᵢ, C) + α) / (∑ⱼ count(xⱼ, C) + α|V|)
```

Donde:
- `count(xᵢ, C)`: Número de veces que aparece la característica xᵢ en documentos de clase C
- `α`: Parámetro de suavizado de Laplace (típicamente α = 1)
- `|V|`: Tamaño del vocabulario

### 4. Preprocesamiento de Texto

#### 4.1 Pipeline de Preprocesamiento

El preprocesamiento es crucial para el éxito de cualquier modelo de PLN. El pipeline incluye:

1. **Normalización:** Conversión a minúsculas, eliminación de caracteres especiales
2. **Tokenización:** Separación del texto en unidades individuales (tokens)
3. **Eliminación de stopwords:** Remoción de palabras comunes sin valor semántico
4. **Stemming/Lemmatización:** Reducción de palabras a su forma base
5. **Filtrado:** Eliminación de tokens muy frecuentes o muy raros

#### 4.2 Vectorización TF-IDF

**Term Frequency-Inverse Document Frequency (TF-IDF)** es una técnica de vectorización que pondera la importancia de cada término:

```
TF-IDF(t,d) = TF(t,d) × IDF(t)
```

Donde:
- `TF(t,d) = count(t,d) / |d|`: Frecuencia relativa del término t en el documento d
- `IDF(t) = log(N / df(t))`: Frecuencia inversa del documento
- `N`: Número total de documentos
- `df(t)`: Número de documentos que contienen el término t

Esta representación ayuda a identificar términos distintivos para cada clase.

### 5. Dataset: 20 Newsgroups

El conjunto de datos **20 Newsgroups** es un corpus estándar que contiene aproximadamente 20,000 mensajes de grupos de noticias organizados en 20 categorías temáticas:

- **Categorías incluidas:** comp.graphics, rec.sport.baseball, talk.politics.misc, etc.
- **Características:** Textos de longitud variable, vocabulario diverso, múltiples dominios
- **Utilidad:** Benchmark estándar para algoritmos de clasificación de texto

### 6. Métricas de Evaluación

#### 6.1 Métricas Principales

- **Accuracy:** Proporción de predicciones correctas
- **Precision:** Proporción de verdaderos positivos entre predicciones positivas
- **Recall:** Proporción de verdaderos positivos entre casos positivos reales
- **F1-Score:** Media harmónica entre precision y recall

#### 6.2 Matriz de Confusión

Herramienta visual que permite analizar el rendimiento del clasificador por clase, identificando patrones de confusión entre categorías similares.

### 7. Comparación con Otras Técnicas

| Técnica | Ventajas | Desventajas | Complejidad |
|---------|----------|-------------|-------------|
| **Naive Bayes** | Rápido, simple, interpretable | Suposición de independencia | O(n×m) |
| **SVM** | Efectivo en alta dimensionalidad | Lento en datasets grandes | O(n³) |
| **Random Forest** | Robusto, maneja overfitting | Menos interpretable | O(n×log(n)×m) |
| **Redes Neuronales** | Muy flexible, alta precisión | Requiere muchos datos, "caja negra" | O(n×h×e) |

## Software y Herramientas

### Frameworks Utilizados
- **scikit-learn:** Implementación de Multinomial Naive Bayes y TF-IDF
- **NLTK/spaCy:** Preprocesamiento de texto y recursos lingüísticos  
- **pandas/numpy:** Manipulación y procesamiento de datos
- **matplotlib/seaborn:** Visualización de resultados
- **tkinter:** Desarrollo de interfaz gráfica

## Metodología

1. **Carga y exploración del dataset**
2. **Preprocesamiento y limpieza de datos**
3. **División en conjuntos de entrenamiento y prueba**
4. **Vectorización TF-IDF**
5. **Entrenamiento del modelo Naive Bayes**
6. **Evaluación y análisis de resultados**
7. **Desarrollo de interfaz gráfica**
8. **Validación del sistema completo**

## Bibliografía

1. Wikipedia. (2023). Naive Bayes classifier. Recuperado de
https://en.wikipedia.org/wiki/Naive_Bayes_classifier.
2. Wikipedia. (2023). Tfidf. Recuperado de https://en.wikipedia.org/wiki/Tfidf.
3. scikit-learn. (2019). 5.6.2. The 20 newsgroups text dataset. Recuperado de
https://scikit-learn.org/0.19/datasets/twenty_newsgroups.html.
4. GeeksforGeeks. (2025). Naive Bayes Classifiers. Recuperado de
https://www.geeksforgeeks.org/machine-learning/naive-bayes-classifiers/.
5. Analytics Vidhya. (2025). Naive Bayes Classifier Explained With Practical Problems.
Recuperado de https://www.analyticsvidhya.com/blog/2017/09/naive-bayes-explained/.