# 01 - Exploración de Datos

Este notebook explora el dataset combinado (`combined_easy.json`),
mostrando estadísticas, distribuciones y ejemplos por dominio (math/physics).

**Dataset actual**: 6,881 problemas con tokenización BPE (SentencePiece, 4000 tokens).

In [16]:
import json
import os
import sys
import numpy as np

# Agregar directorio raíz al path
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))
if project_root not in sys.path:
    sys.path.insert(0, project_root)

print(f"Directorio del proyecto: {project_root}")

Directorio del proyecto: /home/melissa/transformer_math_physics_tutor


## 1. Cargar Datasets

In [None]:
# Cargar dataset combinado
combined_path = os.path.join(project_root, 'data', 'combined_easy.json')

datasets = {}

if os.path.exists(combined_path):
    with open(combined_path, 'r', encoding='utf-8') as f:
        all_data = json.load(f)
    print(f"Dataset combinado cargado: {len(all_data)} problemas")
    
    # Separar por dominio
    for d in all_data:
        domain = d.get('domain', 'unknown')
        if domain not in datasets:
            datasets[domain] = []
        datasets[domain].append(d)
    
    for domain, data in datasets.items():
        splits = {}
        for d in data:

            s = d.get('split', 'unknown')            print(f"  {name}: {len(datasets[name])} problemas (archivo legacy)")

            splits[s] = splits.get(s, 0) + 1                datasets[name] = json.load(f)

        print(f"  {domain}: {len(data)} problemas — splits: {splits}")            with open(path, 'r', encoding='utf-8') as f:

else:        if os.path.exists(path):

    print(f"No se encontró {combined_path}")        path = os.path.join(project_root, 'data', fname)

    # Intentar con archivos legacy    for name, fname in [('math', 'math_clean.json'), ('physics', 'physics_problems.json')]:

Dataset Matemáticas cargado: 1581 problemas
Dataset Física cargado: 20 problemas


## 2. Estadísticas de Longitud

In [18]:
def compute_length_stats(problems, label="Dataset"):
    """Calcula y muestra estadísticas de longitud."""
    prob_lengths = [len(p['problem'].split()) for p in problems]
    sol_lengths = [len(p['solution'].split()) for p in problems]
    prob_char_lengths = [len(p['problem']) for p in problems]
    sol_char_lengths = [len(p['solution']) for p in problems]
    
    print(f"\n{'='*50}")
    print(f"Estadísticas de {label} ({len(problems)} problemas)")
    print(f"{'='*50}")
    
    print(f"\nLongitud del PROBLEMA (palabras):")
    print(f"  Media: {np.mean(prob_lengths):.1f}")
    print(f"  Mediana: {np.median(prob_lengths):.1f}")
    print(f"  Min: {np.min(prob_lengths)}, Max: {np.max(prob_lengths)}")
    print(f"  Std: {np.std(prob_lengths):.1f}")
    
    print(f"\nLongitud de la SOLUCIÓN (palabras):")
    print(f"  Media: {np.mean(sol_lengths):.1f}")
    print(f"  Mediana: {np.median(sol_lengths):.1f}")
    print(f"  Min: {np.min(sol_lengths)}, Max: {np.max(sol_lengths)}")
    print(f"  Std: {np.std(sol_lengths):.1f}")
    
    print(f"\nLongitud del PROBLEMA (caracteres):")
    print(f"  Media: {np.mean(prob_char_lengths):.1f}")
    print(f"  Mediana: {np.median(prob_char_lengths):.1f}")
    print(f"  Min: {np.min(prob_char_lengths)}, Max: {np.max(prob_char_lengths)}")
    
    print(f"\nLongitud de la SOLUCIÓN (caracteres):")
    print(f"  Media: {np.mean(sol_char_lengths):.1f}")
    print(f"  Mediana: {np.median(sol_char_lengths):.1f}")
    print(f"  Min: {np.min(sol_char_lengths)}, Max: {np.max(sol_char_lengths)}")
    
    return prob_lengths, sol_lengths, prob_char_lengths, sol_char_lengths

# Calcular estadísticas
stats = {}
for name, data in datasets.items():
    stats[name] = compute_length_stats(data, name.upper())


Estadísticas de MATH (1581 problemas)

Longitud del PROBLEMA (palabras):
  Media: 17.9
  Mediana: 15.0
  Min: 2, Max: 67
  Std: 12.0

Longitud de la SOLUCIÓN (palabras):
  Media: 1.0
  Mediana: 1.0
  Min: 1, Max: 6
  Std: 0.3

Longitud del PROBLEMA (caracteres):
  Media: 92.0
  Mediana: 71.0
  Min: 13, Max: 300

Longitud de la SOLUCIÓN (caracteres):
  Media: 2.6
  Mediana: 2.0
  Min: 1, Max: 18

Estadísticas de PHYSICS (20 problemas)

Longitud del PROBLEMA (palabras):
  Media: 17.6
  Mediana: 18.0
  Min: 13, Max: 23
  Std: 3.3

Longitud de la SOLUCIÓN (palabras):
  Media: 11.6
  Mediana: 12.0
  Min: 8, Max: 16
  Std: 2.4

Longitud del PROBLEMA (caracteres):
  Media: 81.9
  Mediana: 80.5
  Min: 58, Max: 111

Longitud de la SOLUCIÓN (caracteres):
  Media: 38.9
  Mediana: 35.5
  Min: 21, Max: 64


## 3. Distribución por Temas

In [20]:
from collections import Counter

for name, data in datasets.items():
    print(f"\n--- Distribución de temas en {name.upper()} ---")
    topics = Counter(p.get('topic', 'unknown') for p in data)
    for topic, count in topics.most_common():
        bar = '█' * (count // max(1, max(topics.values()) // 30))
        print(f"  {topic:25s}: {count:4d} {bar}")
    
    levels = Counter(p.get('level', 0) for p in data)
    print(f"\n  Niveles de dificultad:")
    for level, count in sorted(levels.items()):
        print(f"    Nivel {level}: {count} problemas")


--- Distribución de temas en MATH ---
  algebra                  :  757 ██████████████████████████████
  prealgebra               :  563 ██████████████████████
  number_theory            :  261 ██████████

  Niveles de dificultad:
    Nivel 1: 516 problemas
    Nivel 2: 1065 problemas

--- Distribución de temas en PHYSICS ---
  kinematics               :    4 ████
  electricity              :    4 ████
  dynamics                 :    3 ███
  energy                   :    3 ███
  thermodynamics           :    2 ██
  oscillations             :    1 █
  waves                    :    1 █
  statics                  :    1 █
  fluids                   :    1 █

  Niveles de dificultad:
    Nivel 1: 20 problemas


## 4. Visualización de Distribuciones

In [21]:
# Visualización con texto (sin dependencia de matplotlib)
def text_histogram(data, bins=20, title="Histograma", width=50):
    """Crea un histograma de texto."""
    if not data:
        print("Sin datos para visualizar.")
        return
    
    min_val = min(data)
    max_val = max(data)
    bin_width = max(1, (max_val - min_val) / bins)
    
    counts = [0] * bins
    for val in data:
        idx = min(int((val - min_val) / bin_width), bins - 1)
        counts[idx] += 1
    
    max_count = max(counts)
    
    print(f"\n{title}")
    print(f"{'─' * (width + 20)}")
    
    for i, count in enumerate(counts):
        if count > 0:
            edge = min_val + i * bin_width
            bar_len = int(count / max(max_count, 1) * width)
            bar = '█' * bar_len
            print(f"  {edge:6.0f} - {edge+bin_width:6.0f} | {bar} ({count})")

# Visualizar distribuciones
for name, (pl, sl, pcl, scl) in stats.items():
    text_histogram(pl, title=f"{name.upper()} - Longitud del problema (palabras)")
    text_histogram(sl, title=f"{name.upper()} - Longitud de la solución (palabras)")
    text_histogram(pcl, title=f"{name.upper()} - Longitud del problema (caracteres)")
    text_histogram(scl, title=f"{name.upper()} - Longitud de la solución (caracteres)")


MATH - Longitud del problema (palabras)
──────────────────────────────────────────────────────────────────────
       2 -      5 | ██████████████████████████████████████████████████ (206)
       5 -      8 | ██████████████████████████████████████████ (176)
       8 -     12 | █████████████████████████████████████████████ (189)
      12 -     15 | ███████████████████████████████████████████ (178)
      15 -     18 | ███████████████████████████████████████████████ (197)
      18 -     22 | █████████████████████████████████ (140)
      22 -     25 | ███████████████████ (80)
      25 -     28 | ██████████████████████ (91)
      28 -     31 | ████████████████████████ (100)
      31 -     34 | ███████████████ (65)
      34 -     38 | ██████████ (44)
      38 -     41 | ██████ (28)
      41 -     44 | █████ (22)
      44 -     48 | ████ (20)
      48 -     51 | ████ (17)
      51 -     54 | ██ (12)
      54 -     57 | ███ (13)
      57 -     60 |  (1)
      60 -     64 |  (1)
      64 -     

## 5. Ejemplos de Problemas y Soluciones

In [23]:
for name, data in datasets.items():
    print(f"\n{'='*60}")
    print(f"EJEMPLOS DE {name.upper()}")
    print(f"{'='*60}")
    
    # Mostrar primeros 5 problemas
    for i, prob in enumerate(data[:5], 1):
        print(f"\n--- Ejemplo {i} ---")
        print(f"Tema: {prob.get('topic', 'N/A')} | Nivel: {prob.get('level', 'N/A')}")
        print(f"Problema: {prob['problem'][:200]}")
        print(f"Solución: {prob['solution'][:200]}")


EJEMPLOS DE MATH

--- Ejemplo 1 ---
Tema: prealgebra | Nivel: 2
Problema: The temperature in a desert rose 1.5 degrees in 15 minutes. If this rate of increase remains constant, how many degrees will the temperature rise in the next 2 hours?
Solución: 12

--- Ejemplo 2 ---
Tema: prealgebra | Nivel: 2
Problema: The average of 12, 21 and x is 18. What is the value of x?
Solución: 21

--- Ejemplo 3 ---
Tema: algebra | Nivel: 2
Problema: What is the value of 23^2 + 2(23)(2) + 2^2?
Solución: 625

--- Ejemplo 4 ---
Tema: algebra | Nivel: 2
Problema: If h(x) = sqrt((x^3+72/2))+1, what is the value of h(6)?
Solución: 13

--- Ejemplo 5 ---
Tema: algebra | Nivel: 2
Problema: Find the smallest value of x that satisfies the equation |3x+7|=26.
Solución: -11

EJEMPLOS DE PHYSICS

--- Ejemplo 1 ---
Tema: kinematics | Nivel: 1
Problema: A car travels at 60 km/h for 2 hours. What distance does it cover?
Solución: d = v * t = 60 * 2 = 120 km

--- Ejemplo 2 ---
Tema: dynamics | Nivel: 1
Problema: What i

## 6. Análisis del Vocabulario de Caracteres

In [25]:
# Analizar caracteres únicos en el dataset
for name, data in datasets.items():
    all_text = ' '.join(p['problem'] + ' ' + p['solution'] for p in data)
    char_freq = Counter(all_text)
    
    print(f"\n--- Vocabulario de caracteres ({name.upper()}) ---")
    print(f"Total de caracteres: {len(all_text):,}")
    print(f"Caracteres únicos: {len(char_freq)}")
    print(f"\nTop 30 caracteres más frecuentes:")
    
    for char, count in char_freq.most_common(30):
        display_char = repr(char) if char in ' \t\n' else char
        pct = count / len(all_text) * 100
        print(f"  '{display_char}': {count:6d} ({pct:.1f}%)")
    
    # Tamaño estimado del vocabulario del tokenizer
    print(f"\nTamaño estimado del tokenizer: {len(char_freq) + 4} tokens")
    print(f"  ({len(char_freq)} caracteres + 4 tokens especiales)")


--- Vocabulario de caracteres (MATH) ---
Total de caracteres: 152,777
Caracteres únicos: 93

Top 30 caracteres más frecuentes:
  '' '':  29748 (19.5%)
  'e':  12157 (8.0%)
  't':   8588 (5.6%)
  'a':   7985 (5.2%)
  's':   6976 (4.6%)
  'i':   6877 (4.5%)
  'o':   6131 (4.0%)
  'n':   6016 (3.9%)
  'h':   5392 (3.5%)
  'r':   5317 (3.5%)
  'l':   3565 (2.3%)
  'd':   3385 (2.2%)
  'f':   3074 (2.0%)
  'u':   2680 (1.8%)
  'm':   2623 (1.7%)
  'c':   2297 (1.5%)
  '1':   2201 (1.4%)
  '2':   2111 (1.4%)
  'p':   1767 (1.2%)
  'b':   1710 (1.1%)
  'w':   1688 (1.1%)
  '0':   1656 (1.1%)
  ',':   1644 (1.1%)
  '.':   1576 (1.0%)
  '(':   1564 (1.0%)
  ')':   1564 (1.0%)
  'y':   1553 (1.0%)
  'g':   1535 (1.0%)
  '3':   1416 (0.9%)
  'v':   1237 (0.8%)

Tamaño estimado del tokenizer: 97 tokens
  (93 caracteres + 4 tokens especiales)

--- Vocabulario de caracteres (PHYSICS) ---
Total de caracteres: 2,455
Caracteres únicos: 64

Top 30 caracteres más frecuentes:
  '' '':    584 (23.8%)
  'e