# Evaluación de Métricas - Proyecto NLP: Análisis de Sentimientos

**Proyecto:** Procesamiento de Lenguaje Natural - Clasificación de Sentimientos  
**Corpus:** 2,000+ documentos  
**Total de instancias:** 32,518

---

## 1. Evaluación del Modelo CNN (Mejor Modelo)

### 1.1 Matriz de Confusión

El modelo CNN seleccionado como mejor modelo muestra los siguientes resultados en la matriz de confusión:

|              | **Predicción 0** | **Predicción 1** | **Predicción 2** |
|--------------|------------------|------------------|------------------|
| **Real 0**   | 6,479            | 275              | 346              |
| **Real 1**   | 168              | 10,683           | 131              |
| **Real 2**   | 809              | 259              | 13,368           |

**Interpretación:**
- La diagonal principal (6,479 + 10,683 + 13,368 = 30,530) representa las predicciones correctas
- Total de instancias: 32,518
- Las confusiones más significativas ocurren entre Clase 0 y Clase 2

### 1.2 Métricas de Desempeño

**Accuracy Global:**
```
Accuracy = (6,479 + 10,683 + 13,368) / 32,518 = 30,530 / 32,518 = 0.9389 (93.89%)
```

**Métricas por Clase:**

#### Clase 0 (Negativo)
- **Total real:** 7,100 instancias
- **Correctamente clasificadas:** 6,479
- **Precision:** 6,479 / (6,479 + 168 + 809) = 6,479 / 7,456 = 0.869 (86.9%)
- **Recall:** 6,479 / 7,100 = 0.913 (91.3%)
- **F1-Score:** 2 × (0.869 × 0.913) / (0.869 + 0.913) = 0.890

#### Clase 1 (Neutral)
- **Total real:** 10,982 instancias
- **Correctamente clasificadas:** 10,683
- **Precision:** 10,683 / (275 + 10,683 + 259) = 10,683 / 11,217 = 0.952 (95.2%)
- **Recall:** 10,683 / 10,982 = 0.973 (97.3%)
- **F1-Score:** 2 × (0.952 × 0.973) / (0.952 + 0.973) = 0.962

#### Clase 2 (Positivo)
- **Total real:** 14,436 instancias
- **Correctamente clasificadas:** 13,368
- **Precision:** 13,368 / (346 + 131 + 13,368) = 13,368 / 13,845 = 0.966 (96.6%)
- **Recall:** 13,368 / 14,436 = 0.926 (92.6%)
- **F1-Score:** 2 × (0.966 × 0.926) / (0.966 + 0.926) = 0.945

### 1.3 Resumen de Métricas CNN

| Métrica         | Clase 0 (Negativo) | Clase 1 (Neutral) | Clase 2 (Positivo) | **Promedio** |
|-----------------|--------------------|--------------------|-----------------------|--------------|
| **Precision**   | 86.9%              | 95.2%              | 96.6%                 | **92.9%**    |
| **Recall**      | 91.3%              | 97.3%              | 92.6%                 | **93.7%**    |
| **F1-Score**    | 0.890              | 0.962              | 0.945                 | **0.932**    |
| **Soporte**     | 7,100              | 10,982             | 14,436                | 32,518       |

**Observaciones:**
- La Clase 1 (Neutral) tiene el mejor desempeño con F1-Score de 0.962
- La Clase 0 (Negativo) muestra mayor confusión, especialmente con la Clase 2
- El modelo tiene excelente desempeño general con 93.89% de accuracy

---

## 2. Modelos Probabilísticos del Lenguaje

### 2.1 Comparación de Perplejidad

Los modelos de n-gramas evaluados muestran los siguientes valores de perplejidad:

| Modelo                        | Perplejidad |
|-------------------------------|-------------|
| Bigram (no smoothing)         | ~0          |
| Bigram (Laplace)              | ~10,000     |
| Bigram (Add-k, α=0.1)         | ~3,000      |
| Trigram (Laplace)             | ~43,000     |

**Análisis:**
- **Bigram (no smoothing):** Perplejidad cercana a 0 indica **sobreajuste** al corpus de entrenamiento
- **Bigram (Add-k, α=0.1):** Mejor perplejidad (~3,000), indica buen balance entre ajuste y generalización
- **Bigram (Laplace):** Perplejidad moderada (~10,000), buena generalización
- **Trigram (Laplace):** Perplejidad muy alta (~43,000) debido a mayor esparcidad en trigramas

### 2.2 Comparación de Entropía

| Modelo                        | Entropía (bits) |
|-------------------------------|-----------------|
| Bigram (no smoothing)         | ~7.0            |
| Bigram (Laplace)              | ~13.5           |
| Bigram (Add-k, α=0.1)         | ~11.5           |
| Trigram (Laplace)             | ~15.5           |

**Análisis:**
- **Menor entropía:** Bigram (no smoothing) con ~7 bits, pero indica overfitting
- **Mejor balance:** Bigram (Add-k) con ~11.5 bits de entropía
- **Mayor incertidumbre:** Trigram (Laplace) con ~15.5 bits, refleja mayor complejidad del modelo

**Conclusión de Modelos Probabilísticos:**
El modelo **Bigram con Add-k (α=0.1)** ofrece el mejor compromiso entre perplejidad baja y capacidad de generalización, evitando tanto el overfitting como la alta perplejidad de modelos más complejos.

---

## 3. Análisis de Representaciones de Texto

### 3.1 Varianza Explicada por Método

Las diferentes técnicas de representación vectorial muestran la siguiente varianza explicada en sus primeras componentes principales:

| Método          | Varianza Explicada (PC1 + PC2) |
|-----------------|--------------------------------|
| BoW             | 8.55%                          |
| TF-IDF          | 1.17%                          |
| PPMI            | 13.01%                         |
| Word2Vec        | 16.81%                         |
| FastText        | 17.37%                         |

**Ranking de Representaciones:**
1. 🥇 **FastText** - 17.37% (mejor captura de relaciones semánticas)
2. 🥈 **Word2Vec** - 16.81% (excelente para embeddings densos)
3. 🥉 **PPMI** - 13.01% (mejor que métodos tradicionales)
4. **BoW** - 8.55% (representación básica)
5. **TF-IDF** - 1.17% (menor capacidad de captura de estructura)

### 3.2 Análisis de Visualizaciones PCA/t-SNE

**Observaciones por método:**

#### BoW (Bag of Words)
- Varianza explicada: PC1 = 5.6%, PC2 = 2.95%
- Muestra patrones de agrupamiento discretos
- Separación visible entre clases con cierta superposición

#### TF-IDF
- Varianza explicada: PC1 = 0.6%, PC2 = 0.57%
- Mayor dispersión de puntos
- Estructura menos definida, distribución más uniforme
- Menor capacidad de captura de relaciones semánticas

#### PPMI (Positive Pointwise Mutual Information)
- Varianza explicada: PC1 = 11.45%, PC2 = 1.56%
- Mejor agrupamiento que BoW y TF-IDF
- Captura relaciones de co-ocurrencia significativas
- Separación más clara entre clases

#### Word2Vec
- Varianza explicada: PC1 = 10.7%, PC2 = 6.2%
- Embeddings densos y bien estructurados
- Agrupamiento semántico claro en el centro
- Mejor distribución espacial de las clases

#### FastText
- Varianza explicada: PC1 = 10.3%, PC2 = 7.0%
- **Mejor representación general**
- Agrupamiento muy definido
- Captura información de subpalabras
- Excelente para manejar palabras fuera de vocabulario

### 3.3 Visualización t-SNE de Word2Vec

La visualización t-SNE de Word2Vec muestra:
- Distribución más uniforme de puntos en el espacio 2D
- Múltiples clusters distribuidos espacialmente
- Separación clara entre diferentes grupos semánticos
- Estructura rica que indica buena captura de relaciones semánticas

**Conclusión:**
**FastText** es la representación más efectiva para este corpus, capturando 17.37% de la varianza en las primeras dos componentes, superando a Word2Vec (16.81%) y significativamente a métodos tradicionales.

---

## 4. Análisis de Términos Frecuentes por Clase

### 4.1 Clase -1 (Sentimiento Negativo)

**Términos principales:**
- bhonir, onir, poor, time, narendra, know, money
- year, now, dont, hate, today, indian, job
- govt, country, congress, say, think, wrong, made

**Características:**
- Presencia de términos críticos: "poor", "hate", "wrong", "dont"
- Vocabulario emocional negativo
- Referencias a gobierno y política con connotación crítica

### 4.2 Clase 0 (Sentimiento Neutral)

**Términos principales:**
- now, narendra, opposition, time, ask, know, govt
- via, support, year, need, leader, today, modis
- indian, work, question, think, made, congress, election

**Características:**
- Vocabulario descriptivo e informativo
- Términos de cuestionamiento: "ask", "question", "opposition"
- Lenguaje más objetivo y menos emocional
- Referencias políticas sin juicio de valor explícito

### 4.3 Clase 1 (Sentimiento Positivo)

**Términos principales:**
- congress, now, narendra, nation, bjp, rahul, govt
- india, vote, election, party, people, country, great
- good, work, thank, best, modi, sir, leader, support

**Características:**
- Términos de valoración positiva: "great", "best", "good", "thank"
- Expresiones de apoyo: "support", "vote"
- Vocabulario patriótico: "nation", "india", "country"
- Tratamiento respetuoso: "sir", "leader"

### 4.4 Análisis Transversal

**Términos compartidos entre clases:**
- "narendra", "modi", "congress", "govt", "country"
- Indica que el corpus trata sobre política india
- La diferenciación de sentimiento depende del contexto y términos modificadores

**Términos distintivos:**
- **Negativo:** hate, poor, wrong, dont
- **Neutral:** opposition, question, ask, need
- **Positivo:** great, best, thank, support, vote

---

## 5. Conclusiones Generales

### 5.1 Mejor Modelo de Clasificación

**CNN (Convolutional Neural Network)**
- **Accuracy:** 93.89%
- **F1-Score promedio:** 0.932
- **Mejor clase:** Neutral (F1 = 0.962)
- **Clase con más desafíos:** Negativo (F1 = 0.890)

**Ventajas del CNN:**
- Captura patrones locales en secuencias de texto
- Excelente generalización en las tres clases
- Supera a modelos tradicionales como Naive Bayes y SVM

### 5.2 Mejor Representación Vectorial

**FastText (17.37% varianza explicada)**
- Captura mejor las relaciones semánticas
- Maneja eficientemente palabras fuera de vocabulario
- Incorpora información de subpalabras
- Genera embeddings más robustos

### 5.3 Mejor Modelo Probabilístico

**Bigram con Add-k smoothing (α=0.1)**
- Perplejidad: ~3,000 (mejor balance)
- Entropía: ~11.5 bits
- Evita overfitting del no-smoothing
- Mejor generalización que Laplace en este corpus

### 5.4 Características del Corpus

**Distribución de clases:**
- Clase 0 (Negativo): 21.8% (7,100 instancias)
- Clase 1 (Neutral): 33.8% (10,982 instancias)
- Clase 2 (Positivo): 44.4% (14,436 instancias)

**Observaciones:**
- Desbalance hacia sentimientos positivos
- Corpus enfocado en política india
- Vocabulario político dominante en todas las clases

### 5.5 Cumplimiento de Objetivos

✅ **Preprocesamiento:** Tokenización, stemming, normalización y Levenshtein implementados  
✅ **Representaciones:** BoW, TF-IDF, PPMI, Word2Vec y FastText comparados  
✅ **Modelos probabilísticos:** N-gramas evaluados con entropía y perplejidad  
✅ **Modelo avanzado:** CNN con 93.89% de accuracy  
✅ **Visualizaciones:** PCA y t-SNE para todas las representaciones  

---

## 6. Recomendaciones

### 6.1 Para Mejorar el Modelo

1. **Balanceo de clases:** Aplicar técnicas de oversampling/undersampling para equilibrar la distribución
2. **Análisis de errores:** Estudiar las 1,988 instancias mal clasificadas para identificar patrones
3. **Ensemble methods:** Combinar CNN con otros modelos para mejorar la robustez
4. **Data augmentation:** Generar más ejemplos de la clase negativa

### 6.2 Para el Informe Académico

- Incluir la matriz de confusión como figura principal
- Destacar el 93.89% de accuracy del modelo CNN
- Comparar con baseline (modelo más simple)
- Discutir el impacto del desbalance de clases
- Justificar la elección de FastText sobre otras representaciones

---

**Fecha de evaluación:** Octubre 2025  
**Herramientas utilizadas:** Python, Scikit-learn, TensorFlow/Keras, Matplotlib, Seaborn  
**Corpus:** Textos en español sobre política indiana (2,000+ documentos)