# Acondicionamiento del DATASET

In [None]:
import gzip
import pandas as pd
import os

# Ruta de la carpeta que contiene los archivos
folder_path = 'python/python/final/jsonl/train/'

# Lista para almacenar los DataFrames
dfs = []

# Recorrer todos los archivos en la carpeta
for i in range(14):
    filename = f'python_train_{i}.jsonl.gz'
    file_path = os.path.join(folder_path, filename)
    
    # Leer cada archivo y agregarlo a la lista
    with gzip.open(file_path, 'rt', encoding='utf-8') as f:
        df = pd.read_json(f, lines=True)
        dfs.append(df)

# Concatenar todos los DataFrames en uno solo
final_df = pd.concat(dfs, ignore_index=True)

# Mostrar las primeras filas
print(final_df.head())

# Opcional: guardar el resultado en CSV o JSON para no tener que repetir el proceso
# final_df.to_csv('data_consolidada.csv', index=False)
# final_df.to_json('data_consolidada.json', orient='records', lines=True)


In [None]:
df.columns

In [None]:
df.shape

# ELIMINANDO COMENTARIOS Y DOCSTRING DEL CÓDIGO

In [None]:
import ast
import re
import pandas as pd
from io import StringIO
import warnings

def limpiar_codigo(codigo):
    """Elimina docstrings y comentarios manteniendo el código funcional"""
    if not isinstance(codigo, str) or not codigo.strip():
        return codigo
        
    try:
        # Intenta eliminar docstrings con AST
        try:
            tree = ast.parse(codigo)
            for node in ast.walk(tree):
                if isinstance(node, (ast.FunctionDef, ast.ClassDef, ast.Module)):
                    if node.body and isinstance(node.body[0], ast.Expr):
                        if isinstance(node.body[0].value, (ast.Str, ast.Constant)):
                            node.body = node.body[1:]
            codigo = ast.unparse(tree)
        except:
            pass
            
        # Eliminar comentarios de línea (manejo seguro de secuencias de escape)
        lineas_limpias = []
        for linea in codigo.splitlines():
            # Manejo especial para strings que contienen #
            in_string = False
            char_anterior = None
            nueva_linea = []
            
            for char in linea:
                if char in ('"', "'") and char_anterior != '\\':
                    in_string = not in_string
                if not in_string and char == '#':
                    break
                nueva_linea.append(char)
                char_anterior = char
                
            linea_limpia = ''.join(nueva_linea).rstrip()
            if linea_limpia:
                lineas_limpias.append(linea_limpia)
                
        return '\n'.join(lineas_limpias)
        
    except Exception as e:
        warnings.warn(f"Error procesando código: {str(e)}")
        return codigo

In [None]:
# Filtrar filas problemáticas antes de procesar
mask = df['code'].str.contains(r'print\s[^(]|\\.', regex=True)
problematic_rows = df[mask]
clean_rows = df[~mask]

# Procesar por separado
clean_rows['code_clean'] = clean_rows['code'].apply(limpiar_codigo)

In [None]:
print(clean_rows['code_clean'].iloc[315])
print("========")
print(clean_rows['code'].iloc[315])

## Guardamos el dataset de modo que pueda ser usado por la librería transformers de hugging face

In [None]:
clean_rows.to_json('dataset_train_filtrado.jsonl', orient='records', lines=True, force_ascii=False)