# Pruebas de Precision, Recall y F1

En el siguiente notebook se evalúa el desempeño de un clasificador de texto basado en el algoritmo de Naive Bayes, entrenado con un conjunto de noticias categorizadas.

Se implementaron manualmente las métricas de evaluación **Precision**, **Recall** y **F1-Score**

El flujo del código es el siguiente:

- Se carga el dataset.
- Se separan los datos en conjuntos de entrenamiento (80%) y prueba (20%).
- Se entrena el clasificador con los textos procesados.
- Se realiza la predicción de las categorías para los textos de prueba.
- Finalmente, se comparan las predicciones con las categorías reales y se calculan las métricas por clase.

Este análisis permite verificar qué tan bien generaliza el modelo ante datos no vistos, y detectar si hay clases que están siendo mal clasificadas.


In [72]:
from collections import defaultdict, Counter
from pathlib import Path
from classifier import NaiveBayesClassifier
from load_data import load_dataset
from random import shuffle

In [73]:
ruta = "TRAINING-DATA/BBC News Summary"
path = Path("TRAINING-DATA") / "BBC News Summary" / "News Articles"
print(path.absolute())

data_art = load_dataset(path)

path = Path("TRAINING-DATA") / "BBC News Summary" / "Summaries"
data_sum = load_dataset(path)
        
dataset = data_art + data_sum

shuffle(dataset)


d:\00 Dev\news-classifier\api\classifier\TRAINING-DATA\BBC News Summary\News Articles


In [74]:
split = int(0.8 * len(dataset))
train_data = dataset[:split]
test_data = dataset[split:]

In [75]:
clf = NaiveBayesClassifier()
clf.train(train_data)

In [76]:
y_true = []
y_pred = []
for text, true_label in test_data:
    pred_label = clf.predict(text)
    y_true.append(true_label)
    y_pred.append(pred_label)

In [77]:
labels = set(y_true + y_pred)
tp = Counter()
fp = Counter()
fn = Counter()

for true, pred in zip(y_true, y_pred):
    if true == pred:
        tp[true] += 1
    else:
        fp[pred] += 1
        fn[true] += 1

In [78]:
for label in sorted(labels):
    precision = tp[label] / (tp[label] + fp[label]) if (tp[label] + fp[label]) > 0 else 0.0
    recall = tp[label] / (tp[label] + fn[label]) if (tp[label] + fn[label]) > 0 else 0.0
    f1 = 2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0.0
    print(f"Clase: {label}")
    print(f"  Precision: {precision:.2f}")
    print(f"  Recall:    {recall:.2f}")
    print(f"  F1-Score:  {f1:.2f}\n")

Clase: business
  Precision: 1.00
  Recall:    0.96
  F1-Score:  0.98

Clase: entertainment
  Precision: 0.99
  Recall:    0.99
  F1-Score:  0.99

Clase: politics
  Precision: 0.96
  Recall:    1.00
  F1-Score:  0.98

Clase: sport
  Precision: 1.00
  Recall:    1.00
  F1-Score:  1.00

Clase: tech
  Precision: 0.97
  Recall:    0.98
  F1-Score:  0.97



## Resultados de Métricas por Clase

A continuación se presentan los valores obtenidos para las métricas de **Precisión**, **Recall** y **F1-Score** luego de evaluar el modelo Naive Bayes sobre el conjunto de prueba.

| Categoría      | Precisión | Recall | F1-Score |
|----------------|-----------|--------|----------|
| Business       | 0.98      | 0.97   | 0.98     |
| Entertainment  | 0.99      | 0.97   | 0.98     |
| Politics       | 0.96      | 0.99   | 0.98     |
| Sport          | 1.00      | 0.99   | 0.99     |
| Tech           | 0.97      | 0.99   | 0.98     |

### Interpretación:

- El modelo muestra un desempeño muy alto en todas las categorías, con valores de F1-Score iguales o superiores a **0.98**.
- La categoría **Sport** tuvo una precisión perfecta (**1.00**), indicando que no hubo falsos positivos.
- En general, hay un buen equilibrio entre precisión y exhaustividad, lo cual demuestra que el modelo logra clasificar correctamente la mayoría de los textos sin sobreajustarse a ninguna clase específica.
