In [None]:
# 1. Instalar librer√≠as necesarias
# (Instalamos accelerate y transformers para que todo funcione fluido en la T4)
!pip install transformers datasets accelerate

# 2. Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

import os
import zipfile

# --- CONFIGURACI√ìN DE RUTAS EXACTAS (Seg√∫n tu imagen) ---

# Nota: He a√±adido "ASCII-GPT/" a la ruta porque los archivos est√°n dentro de esa carpeta.
path_zip_drive = '/content/drive/MyDrive/ASCII-GPT/modelo_travian_v2_completo.zip'
path_dataset_drive = '/content/drive/MyDrive/ASCII-GPT/dataset_TRAVIAN_CLEAN_V2.txt'

# Directorios de trabajo temporal en Colab (Aqu√≠ descomprimiremos)
extract_path = '/content/modelo_v2'
output_dir = '/content/modelo_travian_v3_refinado'

# --- VERIFICACI√ìN Y DESCOMPRESI√ìN ---

# Verificamos si los archivos existen antes de intentar nada para evitar errores feos
if os.path.exists(path_zip_drive):
    print(f"‚úÖ Archivo ZIP encontrado: {path_zip_drive}")

    # Descomprimir el modelo v2
    if not os.path.exists(extract_path):
        print("‚è≥ Descomprimiendo modelo v2...")
        with zipfile.ZipFile(path_zip_drive, 'r') as zip_ref:
            zip_ref.extractall(extract_path)
        print("üöÄ ¬°Modelo descomprimido y listo en /content/modelo_v2!")
    else:
        print("‚ÑπÔ∏è El modelo ya estaba descomprimido en la sesi√≥n.")
else:
    print(f"‚ùå ERROR: No encuentro el archivo en: {path_zip_drive}")
    print("Aseg√∫rate de que el nombre del archivo en Drive sea EXACTAMENTE 'modelo_travian_v2_completo.zip'")

if os.path.exists(path_dataset_drive):
    print(f"‚úÖ Dataset encontrado: {path_dataset_drive}")
else:
    print(f"‚ùå ERROR: No encuentro el dataset en: {path_dataset_drive}")
    print("Verifica si tiene extensi√≥n .txt al final o si Google Drive se la ocult√≥.")

Mounted at /content/drive
‚úÖ Archivo ZIP encontrado: /content/drive/MyDrive/ASCII-GPT/modelo_travian_v2_completo.zip
‚è≥ Descomprimiendo modelo v2...
üöÄ ¬°Modelo descomprimido y listo en /content/modelo_v2!
‚úÖ Dataset encontrado: /content/drive/MyDrive/ASCII-GPT/dataset_TRAVIAN_CLEAN_V2.txt


In [None]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer, TextDataset, DataCollatorForLanguageModeling, Trainer, TrainingArguments

# Cargar el Tokenizer y el Modelo desde la carpeta descomprimida
model_path = extract_path # Apunta a donde descomprimimos

print(f"Cargando modelo desde: {model_path}")
tokenizer = GPT2Tokenizer.from_pretrained(model_path)
model = GPT2LMHeadModel.from_pretrained(model_path)

# Asegurar token de pad (GPT-2 no lo tiene por defecto)
tokenizer.pad_token = tokenizer.eos_token

print("‚úÖ Modelo v2 cargado. Loss anterior reportado: 0.61")
print("Listo para entrenamiento incremental.")

Cargando modelo desde: /content/modelo_v2
‚úÖ Modelo v2 cargado. Loss anterior reportado: 0.61
Listo para entrenamiento incremental.


In [None]:
# Funci√≥n para cargar dataset
def load_dataset(file_path, tokenizer, block_size=128):
    return TextDataset(
        tokenizer=tokenizer,
        file_path=file_path,
        block_size=block_size,
        overwrite_cache=True
    )

print("Procesando Dataset...")
# Usamos el dataset de tu Drive
train_dataset = load_dataset(path_dataset_drive, tokenizer)
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer, mlm=False
)
print("‚úÖ Dataset tokenizado y listo.")

Procesando Dataset...




‚úÖ Dataset tokenizado y listo.


In [None]:
import os

# --- DESACTIVAR WANDB (Para que no pida contrase√±a) ---
os.environ["WANDB_DISABLED"] = "true"

from transformers import TrainingArguments, Trainer

# Configuraci√≥n del entrenamiento
training_args = TrainingArguments(
    output_dir=output_dir,
    overwrite_output_dir=True,
    num_train_epochs=2,            # Mantenemos pocas √©pocas
    per_device_train_batch_size=4, # Batch size bajo para T4
    save_steps=500,
    save_total_limit=2,
    learning_rate=1e-5,            # Learning Rate bajo para refinamiento
    prediction_loss_only=True,
    logging_steps=50,
    fp16=True,                     # Mixed Precision
    report_to="none"               # <--- ESTO EVITA QUE PIDA WANDB
)

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
)

print("üöÄ Iniciando Fase 3: Refinamiento Estructural (Sin distracciones)...")
trainer.train()
print("üèÅ Entrenamiento finalizado.")

üöÄ Iniciando Fase 3: Refinamiento Estructural (Sin distracciones)...


Step,Training Loss
50,1.1744
100,1.1212
150,1.2105
200,1.182
250,1.0961
300,1.1288
350,1.0981
400,1.1368
450,1.1437
500,1.0997


üèÅ Entrenamiento finalizado.


In [None]:
import shutil
import os

# 1. Guardar el modelo crudo en el disco local de Colab
model_save_path = "/content/modelo_travian_v3_final"
print("üíæ Guardando archivos del modelo...")
trainer.save_model(model_save_path)
tokenizer.save_pretrained(model_save_path)

# 2. Comprimir en un ZIP
print("üì¶ Comprimiendo...")
shutil.make_archive("/content/modelo_travian_v3_final", 'zip', model_save_path)

# 3. Mover a tu carpeta ASCII-GPT en Drive
# Ruta destino exacta
destination_path = "/content/drive/MyDrive/ASCII-GPT/modelo_travian_v3_final.zip"

print(f"üöÄ Subiendo a Drive: {destination_path} ...")
shutil.move("/content/modelo_travian_v3_final.zip", destination_path)

print("‚úÖ ¬°BACKUP COMPLETADO! Ya puedes respirar tranquilo.")

üíæ Guardando archivos del modelo...
üì¶ Comprimiendo...
üöÄ Subiendo a Drive: /content/drive/MyDrive/ASCII-GPT/modelo_travian_v3_final.zip ...
‚úÖ ¬°BACKUP COMPLETADO! Ya puedes respirar tranquilo.


In [None]:
def generate_ascii_rigid(prompt_text, max_length=500):
    input_ids = tokenizer.encode(prompt_text, return_tensors='pt').to(model.device)

    # Configuraci√≥n "Delineante T√©cnico"
    sample_outputs = model.generate(
        input_ids,
        max_length=max_length,
        do_sample=False,        # <--- GREEDY DECODING (Elegir siempre lo m√°s probable)
        # temperature=0.2,      # No se usa si do_sample=False, pero si lo activas, √∫salo bajo.
        repetition_penalty=1.2, # Castigar repeticiones infinitas
        pad_token_id=tokenizer.eos_token_id
    )

    print(f"--- Generaci√≥n para: '{prompt_text}' ---")
    print(tokenizer.decode(sample_outputs[0], skip_special_tokens=True))
    print("-" * 40)

# PRUEBAS
# Prueba con prompts que sepas que existen en el dataset
generate_ascii_rigid("Buildings Castle")
generate_ascii_rigid("Map Forest")
generate_ascii_rigid("Travian Village")

The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


--- Generaci√≥n para: 'Buildings Castle' ---
Buildings Castle
AI:                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              
----------------------------------------
--- Generaci√≥n para: 'Map Forest' ---
Map Forest 
AI:
          .-""-.                                                                                                                                                                                                                                                                                                                                        

In [None]:
# --- CELDA 6: PRUEBA DE INFERENCIA (Modo Arquitecto) ---
import torch

def generate_ascii_rigid(prompt_text, max_length=500):
    # Asegurarnos de que el modelo est√© en modo evaluaci√≥n
    model.eval()

    # Preparar el input
    input_ids = tokenizer.encode(prompt_text, return_tensors='pt').to(model.device)

    # Generaci√≥n Deterministica (Greedy Decoding)
    # Buscamos la m√°xima coherencia estructural, sacrificando creatividad.
    with torch.no_grad():
        output = model.generate(
            input_ids,
            max_length=max_length,
            do_sample=False,        # <--- ESTO ES CLAVE: Apagamos la aleatoriedad
            repetition_penalty=1.2, # Castigo suave a la repetici√≥n para evitar bucles
            pad_token_id=tokenizer.eos_token_id,
            eos_token_id=tokenizer.eos_token_id
        )

    # Decodificar y mostrar
    print(f"\nüèóÔ∏è GENERANDO ARQUITECTURA PARA: '{prompt_text}'")
    print("=" * 60)
    generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
    print(generated_text)
    print("=" * 60)

# --- ZONA DE PRUEBAS ---
# Probamos los conceptos clave de Travian
generate_ascii_rigid("Buildings Castle")
generate_ascii_rigid("Map Forest")
generate_ascii_rigid("Travian Village")


üèóÔ∏è GENERANDO ARQUITECTURA PARA: 'Buildings Castle'
Buildings Castle
AI:
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             

üèóÔ∏è GENERANDO ARQUITECTURA PARA: 'Map Forest'
Map Forest
AI:
                                                                                                                                                                                                                                                                                                                                                                          

In [None]:
# --- INFERENCIA AVANZADA v3.1 (Desbloqueo de Creatividad) ---
import torch

def generate_ascii_creative(prompt_text, temperature=0.6):
    model.eval()

    # TRUCO: A√±adimos un salto de l√≠nea (\n) para decirle "empieza a dibujar YA"
    # Si el dataset ten√≠a etiquetas, a veces ayuda simularlas.
    # Probamos con el prompt directo + salto de l√≠nea.
    full_prompt = f"{prompt_text}\n"

    input_ids = tokenizer.encode(full_prompt, return_tensors='pt').to(model.device)

    print(f"üé® Intentando dibujar: '{prompt_text}' con Temp {temperature}...")
    print("=" * 60)

    with torch.no_grad():
        output = model.generate(
            input_ids,
            max_length=600,         # Damos espacio suficiente
            do_sample=True,         # <--- ACTIVAMOS CREATIVIDAD (Muestreo)
            top_k=50,               # Elegir entre los 50 mejores tokens (evita basura pura)
            top_p=0.95,             # Nucleus sampling
            temperature=temperature,# Control de "locura"
            repetition_penalty=1.1, # Penalizaci√≥n baja (necesitamos repetir caracteres para paredes |||)
            pad_token_id=tokenizer.eos_token_id,
            eos_token_id=tokenizer.eos_token_id
        )

    generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
    print(generated_text)
    print("=" * 60 + "\n")

# --- RONDA DE PRUEBAS ---
# Probamos con diferentes temperaturas para ver cu√°l "despierta" al modelo

# 1. Intento equilibrado
generate_ascii_creative("Buildings Castle", temperature=0.6)

# 2. Intento m√°s creativo (si el anterior sale blanco)
generate_ascii_creative("Map Forest", temperature=0.8)

# 3. Intento espec√≠fico de Travian
generate_ascii_creative("Travian Village", temperature=0.5)

üé® Intentando dibujar: 'Buildings Castle' con Temp 0.6...
Buildings Castle
AI:
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 

üé® Intentando dibujar: 'Map Forest' con Temp 0.8...
Map Forest
AI:
                  _,---._                                         
        .'                        `.                                      
         |              ,-`-.                   /       \                                       
         |    : 

In [None]:
# --- SCRIPT: THE GREAT ASCII HEIST (Scraper de asciiart.eu) ---
import requests
from bs4 import BeautifulSoup
import time
import random

# Las categor√≠as m√°s jugosas (puedes a√±adir m√°s si ves la web)
URLS_CATEGORIAS = [
    "https://www.asciiart.eu/animals/cats",
    "https://www.asciiart.eu/animals/dogs",
    "https://www.asciiart.eu/animals/bats",
    "https://www.asciiart.eu/animals/birds-land",
    "https://www.asciiart.eu/animals/insects",
    "https://www.asciiart.eu/animals/reptiles",
    "https://www.asciiart.eu/space/aliens",
    "https://www.asciiart.eu/space/planets",
    "https://www.asciiart.eu/video-games/mario",
    "https://www.asciiart.eu/video-games/sonic",
    "https://www.asciiart.eu/movies/star-wars",
    "https://www.asciiart.eu/computers/computers",
    "https://www.asciiart.eu/food-and-drinks/coffee",
    "https://www.asciiart.eu/objects/cars",
    "https://www.asciiart.eu/music/musical-instruments",
    "https://www.asciiart.eu/people/skeletons",
    "https://www.asciiart.eu/weapons/swords",
]

OUTPUT_FILE = "dataset_ASCII_GENERAL_HUMANO.txt"
MIN_CHARS = 30  # Ignorar dibujos muy enanos (ruido)
MAX_CHARS = 2000 # Ignorar dibujos gigantes que rompen el contexto de GPT-2

def get_ascii_from_url(url, label_category):
    print(f"üï∑Ô∏è Scrapeando categor√≠a: {label_category}...")
    try:
        response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
        soup = BeautifulSoup(response.text, 'html.parser')

        # En asciiart.eu, el arte est√° dentro de etiquetas <pre>
        art_blocks = soup.find_all('pre')

        collected = 0
        entries = []

        for art in art_blocks:
            text = art.get_text()
            if MIN_CHARS < len(text) < MAX_CHARS:
                # Limpieza b√°sica
                text = text.replace("\r", "")

                # FORMATO PROMPT:
                # Input: [Category]
                # AI: [Art]
                entry = f"{label_category}\nAI:\n{text}\n<|endoftext|>\n"
                entries.append(entry)
                collected += 1

        print(f"   ‚úÖ Encontrados {collected} dibujos.")
        return entries

    except Exception as e:
        print(f"   ‚ùå Error en {url}: {e}")
        return []

# --- EJECUCI√ìN ---
print("üöÄ Iniciando recolecci√≥n de Arte Humano...")
total_entries = 0

with open(OUTPUT_FILE, "w", encoding="utf-8") as f:
    for url in URLS_CATEGORIAS:
        # Extraer nombre bonito de la URL (ej: "cats")
        category_name = url.split("/")[-1].replace("-", " ").title()

        entries = get_ascii_from_url(url, category_name)

        for entry in entries:
            f.write(entry)

        total_entries += len(entries)
        time.sleep(1) # Ser educados con el servidor

print("="*50)
print(f"üéâ ¬°RECOLECCI√ìN COMPLETADA! {total_entries} obras maestras guardadas.")
print(f"üìÅ Archivo listo: {OUTPUT_FILE}")

üöÄ Iniciando recolecci√≥n de Arte Humano...
üï∑Ô∏è Scrapeando categor√≠a: Cats...
   ‚úÖ Encontrados 81 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Dogs...
   ‚úÖ Encontrados 55 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Bats...
   ‚úÖ Encontrados 18 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Birds Land...
   ‚úÖ Encontrados 67 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Insects...
   ‚úÖ Encontrados 1 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Reptiles...
   ‚úÖ Encontrados 1 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Aliens...
   ‚úÖ Encontrados 36 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Planets...
   ‚úÖ Encontrados 11 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Mario...
   ‚úÖ Encontrados 1 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Sonic...
   ‚úÖ Encontrados 1 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Star Wars...
   ‚úÖ Encontrados 12 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Computers...
   ‚úÖ Encontrados 36 dibujos.
üï∑Ô∏è Scrapeando categor√≠a: Coffee...
   ‚úÖ Encontrados 1 dibujos.
üï∑Ô∏è Scrapeand

In [None]:
# --- SCRIPT: THE ULTIMATE CRAWLER (Aspiradora de asciiart.eu) ---
import requests
from bs4 import BeautifulSoup
import time

# Lista basada en tu captura de pantalla (Categor√≠as Padre)
# El script entrar√° aqu√≠ y buscar√° las subcategor√≠as autom√°ticamente.
MAIN_CATEGORIES = [
    "animals",
    "art-and-design",
    "books",
    "buildings-and-places",
    "cartoons",
    "clothing-and-accessories",
    "comics",
    "computers",
    "electronics",
    "food-and-drinks",
    "holiday-and-events",
    "logos",
    "miscellaneous",
    "movies",
    "music",
    "mythology",
    "nature",
    "people",
    "plants",
    "religion",
    "space",
    "sports-and-outdoors",
    "television",
    "toys",
    "vehicles",
    "video-games",
    "weapons"
]

BASE_URL = "https://www.asciiart.eu"
OUTPUT_FILE = "dataset_ASCII_MASSIVE.txt"
MIN_CHARS = 20   # Filtrar ruido
MAX_CHARS = 2500 # Filtrar cosas demasiado grandes

def get_soup(url):
    try:
        response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}, timeout=10)
        return BeautifulSoup(response.text, 'html.parser')
    except:
        return None

# --- FASE 1: MAPEO DE SUBCATEGOR√çAS ---
print("üó∫Ô∏è  Iniciando mapeo del sitio...")
all_urls_to_scrape = []

for category in MAIN_CATEGORIES:
    cat_url = f"{BASE_URL}/{category}"
    print(f"   üìÇ Explorando √≠ndice: {category.upper()}...")

    soup = get_soup(cat_url)
    if soup:
        # En asciiart.eu, los enlaces a subcategor√≠as est√°n en una lista "directory-columns"
        # Ojo: Buscamos enlaces que contengan la categor√≠a en su href
        links = soup.find_all('a', href=True)

        found_subs = 0
        for link in links:
            href = link['href']
            # Validar que es una subcategor√≠a v√°lida y no un enlace externo o basura
            if href.startswith(f"/{category}/") and len(href.split('/')) > 2:
                full_url = BASE_URL + href
                if full_url not in all_urls_to_scrape:
                    all_urls_to_scrape.append(full_url)
                    found_subs += 1

        print(f"      -> Encontradas {found_subs} subcategor√≠as (ej: {category}/xyz).")
    time.sleep(0.5)

print(f"\nüìã TOTAL DE P√ÅGINAS A PROCESAR: {len(all_urls_to_scrape)}")
print("="*40)

# --- FASE 2: EXTRACCI√ìN MASIVA ---
print("üöú Iniciando extracci√≥n de arte...")

total_drawings = 0
with open(OUTPUT_FILE, "w", encoding="utf-8") as f:
    for i, url in enumerate(all_urls_to_scrape):
        # Crear etiqueta bonita: "animals/bison" -> "Animals Bison"
        label_parts = url.replace(BASE_URL + "/", "").split("/")
        prompt_label = " ".join([p.replace("-", " ").title() for p in label_parts])

        # Feedback visual cada 10 URLs
        if i % 10 == 0:
            print(f"   [{i}/{len(all_urls_to_scrape)}] Procesando: {prompt_label}...")

        soup = get_soup(url)
        if soup:
            art_blocks = soup.find_all('pre')
            count = 0
            for art in art_blocks:
                text = art.get_text()
                # Filtros de calidad
                if MIN_CHARS < len(text) < MAX_CHARS:
                    # Limpieza
                    text = text.replace("\r", "")

                    # FORMATO FINAL
                    entry = f"{prompt_label}\nAI:\n{text}\n<|endoftext|>\n"
                    f.write(entry)
                    count += 1
            total_drawings += count

        # Pausa peque√±a para no bloquear la IP
        time.sleep(0.2)

print("="*50)
print(f"üéâ ¬°GRAN ROBO COMPLETADO! Se han robado {total_drawings} dibujos ASCII.")
print(f"üíæ Archivo guardado: {OUTPUT_FILE}")

üó∫Ô∏è  Iniciando mapeo del sitio...
   üìÇ Explorando √≠ndice: ANIMALS...
      -> Encontradas 31 subcategor√≠as (ej: animals/xyz).
   üìÇ Explorando √≠ndice: ART-AND-DESIGN...
      -> Encontradas 18 subcategor√≠as (ej: art-and-design/xyz).
   üìÇ Explorando √≠ndice: BOOKS...
      -> Encontradas 8 subcategor√≠as (ej: books/xyz).
   üìÇ Explorando √≠ndice: BUILDINGS-AND-PLACES...
      -> Encontradas 16 subcategor√≠as (ej: buildings-and-places/xyz).
   üìÇ Explorando √≠ndice: CARTOONS...
      -> Encontradas 23 subcategor√≠as (ej: cartoons/xyz).
   üìÇ Explorando √≠ndice: CLOTHING-AND-ACCESSORIES...
      -> Encontradas 16 subcategor√≠as (ej: clothing-and-accessories/xyz).
   üìÇ Explorando √≠ndice: COMICS...
      -> Encontradas 17 subcategor√≠as (ej: comics/xyz).
   üìÇ Explorando √≠ndice: COMPUTERS...
      -> Encontradas 15 subcategor√≠as (ej: computers/xyz).
   üìÇ Explorando √≠ndice: ELECTRONICS...
      -> Encontradas 12 subcategor√≠as (ej: electronics/xyz).
   üìÇ 

In [None]:
# --- FUSIONADOR FINAL (Solo Calidad Humana) ---
import os

# Archivos a unir
files_to_merge = [
    # El nuevo gigante que acabamos de scrapear
    "dataset_ASCII_MASSIVE.txt",

    # Tu dataset limpio anterior (si lo tienes a mano, suma variedad)
    # Aseg√∫rate de que la ruta sea correcta, si no existe, el script lo ignorar√° sin romper nada.
    "/content/drive/MyDrive/ASCII-GPT/dataset_TRAVIAN_CLEAN_V2.txt"
]

output_filename = "dataset_FINAL_V3.txt"
total_lines = 0

print(f"üî• Iniciando Fusi√≥n Nuclear de Datasets...")

with open(output_filename, 'w', encoding='utf-8') as outfile:
    for fname in files_to_merge:
        if os.path.exists(fname):
            print(f"   ‚ûï A√±adiendo contenido de: {fname}")
            try:
                with open(fname, 'r', encoding='utf-8', errors='ignore') as infile:
                    content = infile.read()
                    outfile.write(content)
                    outfile.write("\n<|endoftext|>\n") # Asegurar separaci√≥n limpia
                    total_lines += content.count('\n')
            except Exception as e:
                print(f"      ‚ùå Error leyendo {fname}: {e}")
        else:
            print(f"   ‚ö†Ô∏è Archivo no encontrado (saltando): {fname}")

# Verificamos el tama√±o final
file_size_mb = os.path.getsize(output_filename) / (1024 * 1024)
print("="*50)
print(f"‚úÖ ¬°DATASET MAESTRO CREADO!: {output_filename}")
print(f"üìä Tama√±o: {file_size_mb:.2f} MB")
print(f"üìù L√≠neas aproximadas: {total_lines}")
print("¬°Est√°s listo para entrenar el modelo definitivo!")

üî• Iniciando Fusi√≥n Nuclear de Datasets...
   ‚ûï A√±adiendo contenido de: dataset_ASCII_MASSIVE.txt
   ‚ûï A√±adiendo contenido de: /content/drive/MyDrive/ASCII-GPT/dataset_TRAVIAN_CLEAN_V2.txt
‚úÖ ¬°DATASET MAESTRO CREADO!: dataset_FINAL_V3.txt
üìä Tama√±o: 7.30 MB
üìù L√≠neas aproximadas: 191981
¬°Est√°s listo para entrenar el modelo definitivo!


In [None]:
import shutil
import os

source = "dataset_FINAL_V3.txt"
destination = "/content/drive/MyDrive/ASCII-GPT/dataset_FINAL_V3.txt"

if os.path.exists(source):
    print(f"üöë Rescatando {source}...")
    shutil.move(source, destination)
    print(f"‚úÖ ¬°SALVADO! El dataset est√° seguro en: {destination}")
else:
    print("‚ö†Ô∏è No encuentro el archivo. ¬øSeguro que se cre√≥ bien?")

‚ö†Ô∏è No encuentro el archivo. ¬øSeguro que se cre√≥ bien?


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# --- SCRIPT DE RECUPERACI√ìN: DIRECTO A DRIVE ---
import requests
from bs4 import BeautifulSoup
import time
import os

# RUTA SEGURA (Ajusta si tu carpeta se llama diferente)
SAFE_PATH = "/content/drive/MyDrive/ASCII-GPT/dataset_ASCII_MASSIVE_RESCATE.txt"

# ... (El mismo c√≥digo de las categor√≠as) ...
MAIN_CATEGORIES = [
    "animals", "art-and-design", "books", "buildings-and-places",
    "cartoons", "clothing-and-accessories", "comics", "computers",
    "electronics", "food-and-drinks", "holiday-and-events", "logos",
    "miscellaneous", "movies", "music", "mythology", "nature",
    "people", "plants", "religion", "space", "sports-and-outdoors",
    "television", "toys", "vehicles", "video-games", "weapons"
]

BASE_URL = "https://www.asciiart.eu"
MIN_CHARS = 20
MAX_CHARS = 2500

def get_soup(url):
    try:
        response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}, timeout=10)
        return BeautifulSoup(response.text, 'html.parser')
    except:
        return None

print(f"üöë Iniciando Operaci√≥n Rescate...")
print(f"üíæ Los datos se guardar√°n en tiempo real en: {SAFE_PATH}")

# Primero recolectamos las URLs (Esto es r√°pido)
all_urls_to_scrape = []
print("üó∫Ô∏è Mapeando sitio (esto tarda 1 min)...")
for category in MAIN_CATEGORIES:
    soup = get_soup(f"{BASE_URL}/{category}")
    if soup:
        links = soup.find_all('a', href=True)
        for link in links:
            href = link['href']
            if href.startswith(f"/{category}/") and len(href.split('/')) > 2:
                full_url = BASE_URL + href
                if full_url not in all_urls_to_scrape:
                    all_urls_to_scrape.append(full_url)
    time.sleep(0.1)

print(f"üìã Encontradas {len(all_urls_to_scrape)} subcategor√≠as.")

# Ahora scrapeamos y guardamos al vuelo
print("üöú Extrayendo arte...")
count = 0
with open(SAFE_PATH, "w", encoding="utf-8") as f:
    for i, url in enumerate(all_urls_to_scrape):
        soup = get_soup(url)
        if soup:
            label_parts = url.replace(BASE_URL + "/", "").split("/")
            prompt_label = " ".join([p.replace("-", " ").title() for p in label_parts])

            art_blocks = soup.find_all('pre')
            for art in art_blocks:
                text = art.get_text()
                if MIN_CHARS < len(text) < MAX_CHARS:
                    text = text.replace("\r", "")
                    entry = f"{prompt_label}\nAI:\n{text}\n<|endoftext|>\n"
                    f.write(entry)
                    count += 1

        if i % 20 == 0:
            print(f"   ‚úÖ {count} dibujos guardados en Drive...")

print("="*50)
print(f"üéâ ¬°SALVADO! Tienes {count} dibujos en tu Google Drive.")

üöë Iniciando Operaci√≥n Rescate...
üíæ Los datos se guardar√°n en tiempo real en: /content/drive/MyDrive/ASCII-GPT/dataset_ASCII_MASSIVE_RESCATE.txt
üó∫Ô∏è Mapeando sitio (esto tarda 1 min)...
üìã Encontradas 411 subcategor√≠as.
üöú Extrayendo arte...
   ‚úÖ 8 dibujos guardados en Drive...
   ‚úÖ 511 dibujos guardados en Drive...
   ‚úÖ 817 dibujos guardados en Drive...
   ‚úÖ 1086 dibujos guardados en Drive...
   ‚úÖ 1284 dibujos guardados en Drive...
   ‚úÖ 1534 dibujos guardados en Drive...
   ‚úÖ 1715 dibujos guardados en Drive...
   ‚úÖ 1969 dibujos guardados en Drive...
   ‚úÖ 2209 dibujos guardados en Drive...
   ‚úÖ 2452 dibujos guardados en Drive...
   ‚úÖ 2577 dibujos guardados en Drive...
   ‚úÖ 2744 dibujos guardados en Drive...
   ‚úÖ 2916 dibujos guardados en Drive...
   ‚úÖ 3182 dibujos guardados en Drive...
   ‚úÖ 3411 dibujos guardados en Drive...
   ‚úÖ 3573 dibujos guardados en Drive...
   ‚úÖ 3936 dibujos guardados en Drive...
   ‚úÖ 4161 dibujos guardados en 

In [None]:
# FUSI√ìN SEGURA
outfile_path = "/content/drive/MyDrive/ASCII-GPT/dataset_FINAL_V3_READY.txt"
part1 = "/content/drive/MyDrive/ASCII-GPT/dataset_ASCII_MASSIVE_RESCATE.txt"
part2 = "/content/drive/MyDrive/ASCII-GPT/dataset_TRAVIAN_CLEAN_V2.txt"

print("‚öóÔ∏è Fusionando archivos en Drive...")
with open(outfile_path, 'w') as outfile:
    # Parte 1 (Nuevo robo)
    if os.path.exists(part1):
        with open(part1) as infile:
            outfile.write(infile.read())
            outfile.write("\n<|endoftext|>\n")

    # Parte 2 (Travian antiguo)
    if os.path.exists(part2):
        with open(part2) as infile:
            outfile.write(infile.read())
            outfile.write("\n<|endoftext|>\n")

print(f"‚úÖ ¬°LISTO! Tu archivo para Kaggle es: {outfile_path}")

‚öóÔ∏è Fusionando archivos en Drive...
‚úÖ ¬°LISTO! Tu archivo para Kaggle es: /content/drive/MyDrive/ASCII-GPT/dataset_FINAL_V3_READY.txt
