# Preprocesamiento de los comentarios para la primera fase de fine-tuning y entrenamiento del modelo
En esta primera fase, una vez extraídos los bodies de todos los issues/PRs de los repositorios listados junto con 2 comentarios de 250 del total de issues de cada repositorio, se prepararán todos los datos para ser utilizados en el entrenamiento y ajuste fino del modelo que se utilizará.

Se seguirán prácticamente los mismos pasos vistos en *c_preparing_data_for_statistics_and_ML* pero con varias diferencias claves que existen entre los modelos BERT que se utilizarán ahora y los modelos de clasificación presentados con anterioridad (notebooks de GVTIA).

Para Transformers funciona mejor un preprocesado mínimo y dejar la segmentación al propio tokenizador del modelo, a continuación se muestra que procedimientos similares a los anteriores se mantendrán y cuáles se evitarán:

## Se mantendrá:
- Normalización de espacios/saltos de línea
- Eliminación de caracteres de control raros o poco usuales
- Se conservará el uso de mayúsculas y minúsculas, signos, números, URLs, nombres propios de vulnerabilidades o bugs (CVE-XXXX-YYYY), rutas (/etc/...), código entre backticks (`return salida`), nombres de APIs.
- Se definirá una longitud máxima de tokens por comentario o el uso de *sliding window* si el texto es muy largo.

## Se omitirá:
- Pasar todo el texto a minúsculas, los modelos RoBERTa/DistilRoBERTa que se utilizarán utilizan mayúsculas y minúsculas.
- Eliminar la puntuación y stopwords.
- Stemming / lematización.
- Normalizaciones agresivas de URLs/código -> se pierde señal técnica.

#### Para evitar tener que ejecutar el código al completo del notebook cada vez que quiera hacer algo, se definirá un patrón "run-once" para evitar crear los dataframes, bases de datos, ejecución de scripts, etc. si estos ya existen.

In [None]:
from pathlib import Path
import subprocess, sys, json, os

FORCE = False   # True si se quiere rehacer una fase

def run_once(out_path, cmd_list):
    out = Path(out_path)

    if (out.exists() and not FORCE):
        print(f"Ya existe: {out}. Saltando.")
        return

    out.parent.mkdir(parents=True, exist_ok=True)
    print("Ejecutando:", " ".join(cmd_list))

    subprocess.run(cmd_list, check=True)
    print(f"Listo: {out}")

Una vez explicado esto, se comenzará con el preprocesado de todos los comentarios extraídos de GitHub, comenzando como se ha visto ya en diversas ocasiones, con cargar el documento (.csv) en un dataframe de pandas para su uso y manipulación.

En este caso, se cuenta con 2 documentos:
- **gh_bodys_lastyear.csv**. Archivo que contiene los bodies (comentario principal) de todos los Issues/PRs en el último año de los repositorios listados para la extracción de comentarios.
- **gh_comments_lastyear.csv**. Archivo que contiene los 2 primeros comentarios de cada Issue/PR de 250 Issues/PRs por repositorio (500 comentarios por repo), en gran parte de los casos serán las respuestas aportadas por usuarios al body del documento anterior.

En este caso, como se cuenta con 2 documentos lo que se hará es crear 2 dataframes, uno con cada documento, para a continuación unirlos con la función `concat()` de pandas y ordenarlos según el id del Issue/PR para la clara visualización y mantener una estructura coherente entre cuerpo principal y comentarios asociados.

In [3]:
import pandas as pd

# Ruta de los archivos
path_gh_bodys = "../data/gh_comments/train-fine_tuning/gh_bodys_lastyear.csv"
path_gh_comments = "../data/gh_comments/train-fine_tuning/gh_comments_lastyear.csv"

# Carga de los archivos en DataFrames
df_bodys = pd.read_csv(path_gh_bodys)
df_comms = pd.read_csv(path_gh_comments)

In [3]:
print(df_bodys.columns)
print(df_comms.columns)

Index(['repo', 'is_pr', 'issue_number', 'comment_type', 'comment_id',
       'comment_created_at', 'comment_author', 'text', 'comment_url',
       'context_id', 'container_title', 'container_state', 'container_url',
       'container_created_at', 'container_updated_at', 'container_labels'],
      dtype='object')
Index(['kubernetes/kubernetes', 'False', '133680', 'issue_comment',
       'github_issuecomment_IC_kwDOAToIks6_4TOW', '2025-08-25T07:51:17Z',
       'k8s-ci-robot',
       'This issue is currently awaiting triage.\nIf a SIG or subproject determines this is a relevant issue, they will accept it by applying the triage/accepted label and provide further guidance.\nThe triage/accepted label can be added by org members by writing /triage accepted in a comment.\n\nInstructions for interacting with me using PR comments are available here.  If you have questions or suggestions related to my behavior, please file an issue against the kubernetes-sigs/prow repository.',
       'https://gi

Se ha cometido un error en la escritura de la cabecera de los comentarios por escribir siempre en el mismo documento y borrar su contenido en vez de eliminar el documento antes de comenzar con una nueva extracción. Vamos a tratar de repararlo sin tener que volver a realizar todo el proceso de extracción.

In [6]:
from pathlib import Path
path_gh_bodys = Path(path_gh_bodys)
path_gh_comments = Path(path_gh_comments)

EXPECTED_COLS = [
    'repo','is_pr','issue_number','comment_type','comment_id','comment_created_at','comment_author',
    'text','comment_url','context_id','container_title','container_state','container_url',
    'container_created_at','container_updated_at','container_labels'
]

def read_with_header_fix(p: Path) -> pd.DataFrame:
    # Se lee 1 fila para inspeccionar columnas
    probe = pd.read_csv(p, nrows=1)
    if list(probe.columns) == EXPECTED_COLS:
        return pd.read_csv(p)
    # Si no coincide, reinterpretamos: no hay cabecera -> header=None + names=EXPECTED_COLS
    return pd.read_csv(p, header=None, names=EXPECTED_COLS)

df_bodys = read_with_header_fix(path_gh_bodys)
df_comms = read_with_header_fix(path_gh_comments)

# Se unen ambos DataFrames
df_gh = pd.concat([df_bodys, df_comms], ignore_index=True)

# Tipos y ordenación
df_gh['comment_created_at'] = pd.to_datetime(df_gh['comment_created_at'], errors='coerce', utc=True)
df_gh.loc[df_gh['comment_created_at'].isna(), 'comment_created_at'] = pd.to_datetime(df_gh['container_created_at'], errors='coerce', utc=True)

order_map = {'issue_body':0, 'pr_body':0} # Bodies primero -> coherencia
df_gh['order'] = df_gh['comment_type'].map(order_map).fillna(1).astype(int)

df_gh = df_gh.sort_values(by=['repo','issue_number','order','comment_created_at','comment_id'], kind='mergesort').drop(columns=['order'])

# Normalizar booleano -> OPCIONAL
df_gh['is_pr'] = df_gh['is_pr'].astype(str).str.lower().map({'true':True, 'false':False})

In [2]:
# Muestra para comprobar que se ha ejecutado correctamente
print(df_bodys.columns)
print(df_comms.columns)

df_gh.head(10).T
print(len(df_gh))

NameError: name 'df_bodys' is not defined

Ahora sí están todos los comentarios bien ordenados. Antes de comenzar con el preprocesado vamos a guardar el dataframe en una base de datos.

In [1]:
import sqlite3
db_gh = "../data/gh_comments/train-fine_tuning/gh_dataset_lastyear.db"
con = sqlite3.connect(db_gh)
df_gh.to_sql('gh_dataset', con, if_exists='replace', index=False)
con.close()

NameError: name 'df_gh' is not defined

Ahora sí se procederá al procesamiento del dataset para dejarlo preparado para el modelo BERT que se utilizará, RoBERTa o DistilRoBERTa. Este proceso se va a definir en una serie de scripts .py, cada uno con el objetivo de realizar una tarea para su reutilización en otros puntos del proyecto (cuando se haga el de reddit, u otros comentarios de github) de forma que estos sean agnósticos al sistema del que se extraen los comentarios que serán utilizados por el modelo.

Del mismo modo, tras el procesamiento de los datos, el resultado del procesado será almacenado en archivos `.parquet` por su ligereza y agilidad a la hora de ser manipulados y consumidos por modelos BERT. Las principales ventajas de este formato son:
- Más pequeño: compresión por columna, pesa de 2 a 5 veces menos que un `.csv`
- Más rápido: lee solo las columnas que se necesitan ("column pruning") y aplica vectorización.
- Conserva tipos: fechas, booleanos, enteros "nullable", etc. (`.csv`los pierde)
- Esquema: guarda el _schema_ dentro del archivo -> menos sorpresas al cargarlo

Por estas características el formato es el preferido para pipelines de datos/ML. En este caso la estructura que se utilizará será:
- `merged.parquet` = será el dataset completo tras ingesta y normalización ligera.
- `split_train.parquet`, `split_dev.parquet`, `split_test.parquet` = particiones del dataset ya divididas, listas para su tokenización.

#### Ventajas frente a CSV
- Evita problemas de comas y saltos de línea
- Mantiene las fechas (`created_at`), booleanos (`is_pr`) y enteros sin perder el tipo.
- Carga solo las columnas necesarias -> menor uso de RAM y tiempo de ejecución.