<a href="https://colab.research.google.com/github/Malebrenchs/Tesis-No-Conformidades-Analisis-de-datos/blob/main/Extraer_texto_de_repositorios.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
# ================================
# 1. Parámetros del usuario
# ================================
# Pon aquí la URL de tu repositorio
REPO_URL = "https://github.com/Malebrenchs/Tesis-No-Conformidades-Analisis-de-datos.git"

# Carpeta donde están los QIPO dentro del repo
QIPO_DIR = "protocol"   # cámbialo si usas otra ruta

# Rango de QIPO que quieres unir (ejemplo: 9 al 13)
QIPO_START = 10
QIPO_END = 13

# Nombre del archivo de salida
OUTPUT_FILENAME = f"QIPO_{QIPO_START:03d}-{QIPO_END:03d}_merge.md"

# ================================
# 2. Clonar el repositorio
# ================================
import os
import shutil
from pathlib import Path
from glob import glob

# Limpia si ya existía una carpeta con el repo
repo_name = REPO_URL.rstrip("/").split("/")[-1].replace(".git", "")
if os.path.exists(repo_name):
    shutil.rmtree(repo_name)

# Clona el repo
!git clone "{REPO_URL}"

# ================================
# 3. Localizar los archivos QIPO seleccionados
# ================================
repo_path = Path(repo_name)
qipo_path = repo_path / QIPO_DIR

if not qipo_path.exists():
    raise FileNotFoundError(f"La carpeta {qipo_path} no existe. "
                            "Revisa QIPO_DIR o la estructura del repo.")

# Construimos una lista de prefijos QIPO-0XX para el rango pedido
selected_files = []

for i in range(QIPO_START, QIPO_END + 1):
    prefix = f"QIPO-{i:03d}"
    # Busca cualquier archivo que comience con ese prefijo (independiente del resto del nombre)
    pattern = str(qipo_path / f"{prefix}*")
    matches = glob(pattern)
    if not matches:
        print(f"[AVISO] No se encontró archivo para {prefix}")
    else:
        # En caso de multiples coincidencias, tomamos la primera (lo usual será una sola)
        selected_files.append(sorted(matches)[0])

# Ordenamos por número de QIPO para asegurar el orden correcto
def extract_qipo_number(path_str: str) -> int:
    name = Path(path_str).name
    # name tipo: 'QIPO-009_DiagnosticoRegistro.md'
    try:
        return int(name[5:8])
    except ValueError:
        return 9999

selected_files = sorted(selected_files, key=extract_qipo_number)

print("Archivos que se van a combinar:")
for f in selected_files:
    print(" -", Path(f).name)

if not selected_files:
    raise RuntimeError("No se encontraron archivos QIPO en el rango indicado.")

# ================================
# 4. Crear el archivo markdown combinado
# ================================
output_path = repo_path / OUTPUT_FILENAME

with open(output_path, "w", encoding="utf-8") as out_f:
    for idx, file_path in enumerate(selected_files, start=1):
        file_path = Path(file_path)
        with open(file_path, "r", encoding="utf-8") as in_f:
            content = in_f.read().rstrip()

        # Opcional: encabezado para separar claramente cada QIPO en el archivo final
        out_f.write(f"<!-- INICIO {file_path.name} -->\n\n")
        out_f.write(content)
        out_f.write("\n\n<!-- FIN {0} -->\n".format(file_path.name))

        # Espacio extra entre QIPO
        if idx < len(selected_files):
            out_f.write("\n\n---\n\n")

print(f"\nArchivo combinado creado en: {output_path}")

# ================================
# 5. (Opcional) Mostrar el contenido
# ================================
with open(output_path, "r", encoding="utf-8") as f:
    preview = f.read()

print("\n===== PREVIEW DEL ARCHIVO COMBINADO =====\n")
print(preview[:4000])  # muestra solo los primeros caracteres para no saturar la salida


Cloning into 'Tesis-No-Conformidades-Analisis-de-datos'...
remote: Enumerating objects: 70, done.[K
remote: Counting objects: 100% (70/70), done.[K
remote: Compressing objects: 100% (53/53), done.[K
remote: Total 70 (delta 16), reused 0 (delta 0), pack-reused 0 (from 0)[K
Receiving objects: 100% (70/70), 32.49 KiB | 2.50 MiB/s, done.
Resolving deltas: 100% (16/16), done.
Archivos que se van a combinar:
 - QIPO-010_ModeloDatosObjetivo.md
 - QIPO-011_LimpiezaTransformacion.md
 - QIPO-012_AnalisisExploratorio.md
 - QIPO-013_PropuestaMetodologicaNC.md

Archivo combinado creado en: Tesis-No-Conformidades-Analisis-de-datos/QIPO_010-013_merge.md

===== PREVIEW DEL ARCHIVO COMBINADO =====

<!-- INICIO QIPO-010_ModeloDatosObjetivo.md -->

# QIPO-010: Diseño del Modelo de Datos Objetivo

## Q
¿Qué estructura de datos es necesaria para transformar el registro de no conformidades en un formato adecuado para análisis, trazabilidad y generación de indicadores?

## I
Diagnóstico del registro actu