# Test de Vectorizaci√≥n de Art√≠culos

Este notebook prueba la vectorizaci√≥n de art√≠culos usando TF-IDF y guarda los vectores en los archivos JSON.

In [1]:
import logging
import sys
from pathlib import Path

# Configurar logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
)

# Asegurar que podemos importar desde src
PROJECT_ROOT = Path.cwd()
if str(PROJECT_ROOT) not in sys.path:
    sys.path.insert(0, str(PROJECT_ROOT))

print(f"Directorio de trabajo: {PROJECT_ROOT}")

Directorio de trabajo: /home/ari/Collage/04-Forth_Year/Preimer_Semestre/PL/Final_Proj/Report_Generator


## 1. Importar m√≥dulos necesarios

In [2]:
from src.recommendation.vectorizer import NewsVectorizer
from src.recommendation.vectorize_articles import vectorize_articles_directory

print("‚úÖ M√≥dulos importados correctamente")

‚úÖ M√≥dulos importados correctamente


## 2. Crear vectorizador

In [3]:
# Crear vectorizador con configuraci√≥n est√°ndar
vectorizer = NewsVectorizer(
    max_features=3000,
    ngram_range=(1, 2)
)

print(f"‚úÖ Vectorizador creado")
print(f"   - max_features: {vectorizer.vectorizer.max_features}")
print(f"   - ngram_range: {vectorizer.vectorizer.ngram_range}")
print(f"   - norm: {vectorizer.vectorizer.norm}")
print(f"   - sublinear_tf: {vectorizer.vectorizer.sublinear_tf}")

‚úÖ Vectorizador creado
   - max_features: 3000
   - ngram_range: (1, 2)
   - norm: l2
   - sublinear_tf: True


## 3. Vectorizar art√≠culos en data_example

**Ajusta la direcci√≥n aqu√≠ si es necesario:**

In [None]:
# Direcci√≥n de los art√≠culos de prueba
articles_directory = "Data/Data_articles/Data_articles3"

# Vectorizar
vectorized_count = vectorize_articles_directory(
    directory_path=articles_directory,
    news_vectorizer=vectorizer
)

print(f"\n‚úÖ Vectorizaci√≥n completada")
print(f"   Art√≠culos vectorizados: {vectorized_count}")

2025-12-13 15:17:25,216 - src.recommendation.vectorize_articles - INFO - Cargando 22 art√≠culos desde data_example...
2025-12-13 15:17:25,269 - src.recommendation.vectorize_articles - INFO - ‚úÖ 22 art√≠culos cargados
2025-12-13 15:17:25,271 - src.recommendation.vectorize_articles - INFO - Extrayendo textos limpios...
Extrayendo textos: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 22/22 [00:00<00:00, 11929.50it/s]
2025-12-13 15:17:25,295 - src.recommendation.vectorize_articles - INFO - ‚úÖ 22 art√≠culos listos para vectorizar
2025-12-13 15:17:25,297 - src.recommendation.vectorize_articles - INFO - Vectorizando 22 art√≠culos con TF-IDF...
2025-12-13 15:17:25,425 - src.recommendation.vectorize_articles - INFO - ‚úÖ Matriz de art√≠culos: (22, 1340)
2025-12-13 15:17:25,426 - src.recommendation.vectorize_articles - INFO - Guardando vectores en archivos JSON...
Guardando vectores: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 22/22 [00:00<00:00, 45.02it/s]
2025-12-13 15:17:25,919 - src.recommendation.vectori


‚úÖ Vectorizaci√≥n completada
   Art√≠culos vectorizados: 22


## 4. Verificar que los vectores se guardaron

In [5]:
import json
import os

# Verificar un art√≠culo
article_files = sorted([f for f in os.listdir(articles_directory) 
                        if f.startswith('article_') and f.endswith('.json')])

if article_files:
    # Leer el primer art√≠culo
    first_article_path = os.path.join(articles_directory, article_files[0])
    with open(first_article_path, 'r', encoding='utf-8') as f:
        article = json.load(f)
    
    print(f"‚úÖ Verificaci√≥n del archivo: {article_files[0]}")
    print(f"   - Tiene 'vector': {'vector' in article}")
    print(f"   - Tiene 'vectorization_metadata': {'vectorization_metadata' in article}")
    
    if 'vector' in article:
        print(f"   - Dimensi√≥n del vector: {len(article['vector'])}")
        print(f"   - Primeros 5 valores: {article['vector'][:5]}")
    
    if 'vectorization_metadata' in article:
        metadata = article['vectorization_metadata']
        print(f"   - Metadata:")
        for key, value in metadata.items():
            print(f"     - {key}: {value}")
else:
    print("‚ùå No se encontraron art√≠culos en el directorio")

‚úÖ Verificaci√≥n del archivo: article_1.json
   - Tiene 'vector': True
   - Tiene 'vectorization_metadata': True
   - Dimensi√≥n del vector: 1340
   - Primeros 5 valores: [0.0, 0.0, 0.0, 0.054550000395282995, 0.07068287508460316]
   - Metadata:
     - vectorizer_type: TF-IDF
     - vector_dimension: 1340
     - processing_timestamp: 2025-12-13T15:17:25.428629


## 5. Informaci√≥n del vectorizador

In [6]:
print(f"‚úÖ Informaci√≥n del vectorizador despu√©s de fit:")
print(f"   - Fitted: {vectorizer.fitted}")
print(f"   - Vocabulary size: {len(vectorizer.get_vocabulary())}")
print(f"   - Feature names count: {len(vectorizer.get_feature_names())}")
print(f"   - Min DF: {vectorizer.vectorizer.min_df}")
print(f"   - Max DF: {vectorizer.vectorizer.max_df}")

‚úÖ Informaci√≥n del vectorizador despu√©s de fit:
   - Fitted: True
   - Vocabulary size: 1340
   - Feature names count: 1340
   - Min DF: 2
   - Max DF: 0.85


## 6. Cargar art√≠culos vectorizados para verificar

In [7]:
# Cargar algunos art√≠culos y verificar que tienen vectores
loaded_articles = []

for filename in article_files[:3]:  # Primeros 3 art√≠culos
    file_path = os.path.join(articles_directory, filename)
    with open(file_path, 'r', encoding='utf-8') as f:
        article = json.load(f)
        loaded_articles.append({
            'filename': filename,
            'has_vector': 'vector' in article,
            'vector_dim': len(article.get('vector', [])),
            'title': article.get('title', 'N/A')[:50]
        })

print(f"‚úÖ Art√≠culos cargados y verificados:")
for item in loaded_articles:
    print(f"\n   {item['filename']}")
    print(f"   - Tiene vector: {item['has_vector']}")
    print(f"   - Dimensi√≥n: {item['vector_dim']}")
    print(f"   - T√≠tulo: {item['title']}...")

‚úÖ Art√≠culos cargados y verificados:

   article_1.json
   - Tiene vector: True
   - Dimensi√≥n: 1340
   - T√≠tulo: Ataques israel√≠es contra Gaza dejan al menos 38 pa...

   article_11.json
   - Tiene vector: True
   - Dimensi√≥n: 1340
   - T√≠tulo: Nicaragua conmemora 204 a√±os de independencia - te...

   article_12.json
   - Tiene vector: True
   - Dimensi√≥n: 1340
   - T√≠tulo: Flotilla humanitaria hacia Gaza refuerza seguridad...


## 7. Resumen

In [8]:
print(f"\n" + "="*80)
print(f"üìä RESUMEN DE VECTORIZACI√ìN")
print(f"="*80)
print(f"\n‚úÖ Directorio: {articles_directory}")
print(f"‚úÖ Art√≠culos vectorizados: {vectorized_count}")
print(f"‚úÖ Dimensi√≥n de vectores: {len(article.get('vector', []))}")
print(f"‚úÖ Vectorizador ajustado: {vectorizer.fitted}")
print(f"\nüíæ Los vectores han sido guardados en los archivos JSON")
print(f"üîÑ Ahora puedes usar estos vectores en news_update_&_process.py")
print(f"\n" + "="*80)


üìä RESUMEN DE VECTORIZACI√ìN

‚úÖ Directorio: data_example
‚úÖ Art√≠culos vectorizados: 22
‚úÖ Dimensi√≥n de vectores: 1340
‚úÖ Vectorizador ajustado: True

üíæ Los vectores han sido guardados en los archivos JSON
üîÑ Ahora puedes usar estos vectores en news_update_&_process.py

