<a href="https://colab.research.google.com/github/fxd-96/1668_app_exp/blob/main/0385-clasificador.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [8]:
pip install pandas numpy scikit-learn nltk



In [9]:
# Celda 1: Importación de bibliotecas
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
import nltk

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize


# Descargar recursos NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [10]:
# Celda 2: Definición del clasificador
class NoticiaClassifier:
    def __init__(self):
        self.vectorizer = TfidfVectorizer(stop_words=stopwords.words('spanish'))
        self.classifier = MultinomialNB()

    def preprocesar_texto(self, texto):
        tokens = word_tokenize(texto.lower())
        tokens = [token for token in tokens if token.isalpha()]
        return ' '.join(tokens)

    def entrenar(self, X_train, y_train):
        X_train_prep = [self.preprocesar_texto(texto) for texto in X_train]
        X_train_vec = self.vectorizer.fit_transform(X_train_prep)
        self.classifier.fit(X_train_vec, y_train)

    def predecir(self, texto):
        texto_prep = self.preprocesar_texto(texto)
        texto_vec = self.vectorizer.transform([texto_prep])
        return self.classifier.predict(texto_vec)[0]

    def evaluar(self, X_test, y_test):
        X_test_prep = [self.preprocesar_texto(texto) for texto in X_test]
        X_test_vec = self.vectorizer.transform(X_test_prep)
        y_pred = self.classifier.predict(X_test_vec)
        return classification_report(y_test, y_pred, zero_division=0)

In [25]:
# Celda 3: Datos de entrenamiento
noticias = [
    # Deportes
    "El Barcelona ganó el partido de fútbol por 3-0",
    "Mundial de atletismo comienza la próxima semana",
    "Equipo local clasifica a la final del torneo",
    "Real Madrid vence 2-1 en partido decisivo",
    "Nadal avanza a semifinales del torneo",
    "La selección se prepara para el mundial",
    "Nuevo récord mundial en 100 metros planos",
    "El equipo local gana la liga nacional",
    "Gran victoria en el derbi de la ciudad",
    "Jugador estrella renueva contrato por 3 años",

    # Ciencia
    "Científicos descubren nueva especie en el Amazonas",
    "Nuevo descubrimiento en Marte sugiere vida antigua",
    "Avances prometedores en vacuna contra el cáncer",
    "Investigadores desarrollan nuevo material sostenible",
    "Descubren galaxia nunca antes vista",
    "Científicos logran avance en fusión nuclear",
    "Nueva especie de dinosaurio hallada en Argentina",
    "Breakthrough en computación cuántica",
    "Descubren posible cura para enfermedad rara",
    "Avance significativo en energía renovable",

    # Politica
    "El presidente anuncia nuevas medidas económicas",
    "Parlamento aprueba ley de reforma fiscal",
    "Oposición critica decisiones del gobierno actual",
    "Nuevas elecciones previstas para el próximo mes",
    "Ministra de educación renuncia tras escándalo",
    "Manifestaciones en contra de la corrupción gubernamental",
    "Aprobada la ley de presupuestos con mayoría simple",
    "El congreso debate nueva reforma constitucional",
    "Tension diplomática tras declaraciones del canciller",
    "Partidos políticos inician campaña electoral",

    # Tecnología
    "Apple presenta su nuevo smartphone con IA integrada",
    "Hackeo masivo afecta a miles de usuarios en la red",
    "Nueva actualización de software soluciona problemas de seguridad",
    "La realidad virtual revoluciona el sector del entretenimiento",
    "Empresa de tecnología anuncia despidos masivos",
    "El 5G llega a más ciudades este trimestre",
    "Críticas al nuevo sistema operativo por fallos de privacidad",
    "Robot con inteligencia artificial supera prueba de Turing",
    "Lanzamiento del satélite de comunicaciones más avanzado",
    "Inversiones millonarias en startups de blockchain",
]

categorias = [
    "deportes", "deportes", "deportes", "deportes", "deportes",
    "deportes", "deportes", "deportes", "deportes", "deportes",
    "ciencia", "ciencia", "ciencia", "ciencia", "ciencia",
    "ciencia", "ciencia", "ciencia", "ciencia", "ciencia",
    "politica", "politica", "politica", "politica", "politica",
    "politica", "politica", "politica", "politica", "politica",
    "tecnologia", "tecnologia", "tecnologia", "tecnologia", "tecnologia",
    "tecnologia", "tecnologia", "tecnologia", "tecnologia", "tecnologia",
]

In [26]:
# Celda 4: Entrenamiento del modelo
X_train, X_test, y_train, y_test = train_test_split(
    noticias,
    categorias,
    test_size=.2,
    random_state=42
)

clasificador = NoticiaClassifier()
clasificador.entrenar(X_train, y_train)

# Evaluación del modelo
print("Resultados de la evaluación:")
print(clasificador.evaluar(X_test, y_test))

Resultados de la evaluación:
              precision    recall  f1-score   support

     ciencia       1.00      0.25      0.40         4
    deportes       0.25      1.00      0.40         1
    politica       1.00      0.50      0.67         2
  tecnologia       0.00      0.00      0.00         1

    accuracy                           0.38         8
   macro avg       0.56      0.44      0.37         8
weighted avg       0.78      0.38      0.42         8



# Métricas de Evaluación en Clasificación de Texto

## Conceptos Básicos
Para entender las métricas, primero definimos:
- **Verdadero Positivo (TP)**: Predicción correcta de la clase positiva
- **Falso Positivo (FP)**: Predicción incorrecta de la clase positiva
- **Verdadero Negativo (TN)**: Predicción correcta de la clase negativa
- **Falso Negativo (FN)**: Predicción incorrecta de la clase negativa

## Precision
- **Definición**: Proporción de predicciones positivas que son correctas
- **Fórmula**: Precision = TP / (TP + FP)
- **Ejemplo**: Si el modelo predice "deportes" 10 veces y acierta 8, la precision es 0.8
- **Importancia**: Mide la calidad de las predicciones positivas

## Recall (Sensibilidad)
- **Definición**: Proporción de casos positivos reales que fueron identificados correctamente
- **Fórmula**: Recall = TP / (TP + FN)
- **Ejemplo**: Si hay 10 noticias de "ciencia" y el modelo identifica 7, el recall es 0.7
- **Importancia**: Mide la capacidad de encontrar todos los casos positivos

## F1-Score
- **Definición**: Media armónica entre precision y recall
- **Fórmula**: F1 = 2 * (Precision * Recall) / (Precision + Recall)
- **Rango**: 0 (peor) a 1 (mejor)
- **Importancia**: Balance entre precision y recall

## Support
- **Definición**: Número de muestras de cada clase en el conjunto de prueba
- **Ejemplo**: Support = 2 significa que se evaluaron 2 noticias de esa categoría
- **Importancia**: Contexto sobre el tamaño de los datos de prueba

### Interpretación del Balance
- **Precision > Recall**: El modelo es conservador, predice con alta confianza pero puede perder casos
- **Recall > Precision**: El modelo es más arriesgado, detecta más casos pero genera más falsos positivos
- **Precision ≈ Recall**: El modelo está balanceado

## Ejemplos Prácticos
```python
# Caso de clasificación de noticias
results = """
          precision  recall  f1-score  support
ciencia     1.00     1.00     1.00       2
deportes    1.00     1.00     1.00       2
"""
```

- **Interpretación**:
  - Precision = 1.00: Todas las predicciones fueron correctas
  - Recall = 1.00: Se identificaron todos los casos reales
  - F1-Score = 1.00: Rendimiento perfecto
  - Support = 2: Se evaluaron 2 muestras por categoría

In [None]:
# Celda 5: Pruebas con nuevas noticias
nuevas_noticias = [
    "El equipo local consiguió una victoria histórica",
    "Descubren nueva vacuna contra el virus",
    "El precio del dólar alcanza máximo histórico"
]

for noticia in nuevas_noticias:
    prediccion = clasificador.predecir(noticia)
    print(f"Noticia: {noticia}")
    print(f"Categoría predicha: {prediccion}\n")

Noticia: El equipo local consiguió una victoria histórica
Categoría predicha: deportes

Noticia: Descubren nueva vacuna contra el virus
Categoría predicha: ciencia

Noticia: El precio del dólar alcanza máximo histórico
Categoría predicha: ciencia

