In [34]:
import os
import glob
import pandas as pd
from sklearn.model_selection import train_test_split
carpeta = "CSV"
archivos_csv = glob.glob(os.path.join(carpeta, "*.csv"))

# Leer y combinar todos los archivos CSV en un solo DataFrame
dataframes = [pd.read_csv(archivo) for archivo in archivos_csv]

# Combinar todos los DataFrames en uno solo (opcional, depende de lo que quieras hacer)
df_combined = pd.concat(dataframes, ignore_index=True)
# Quitar la primera columna (Unnamed: 0) si es innecesaria
df_combined = df_combined.drop(columns=['Unnamed: 0'])


data = df_combined.loc[df_combined['corrected1'].notna() | df_combined['corrected2'].notna()]


In [35]:
import pandas as pd
import json

# Carga el archivo JSON
with open('llama-tuned.json', 'r', encoding='utf-8') as file:
    json_data = json.load(file)

# Crea un DataFrame desde el JSON
json_df = pd.DataFrame(json_data)

# Esto creará una nueva columna 'texto_model' que contiene solo el texto entre <start_of_turn>model y <end_of_turn>
# Realizar el merge basándose en 'input' del JSON y 'essay' del DataFrame
combined_df = pd.merge(json_df, data, left_on='input', right_on='essay')

# Eliminar la columna 'essay' si ya no es necesaria
combined_df = combined_df.drop(columns=['essay'])

combined_df

Unnamed: 0,input,correction,target,id,prompt,quarter,course,age,gender,l1 language,...,a personal annotator1,a personal annotator2,gender-number annotator1,gender-number annotator2,updated anntoation ann1,updated annotation ann2,verbs annotation ann1,verbs annotation ann2,corrected1,corrected2
0,Un evento terrible que ocurre en mi vida hace ...,Un evento terrible que ocurre en mi vida hace ...,Un evento terrible que ocurrió en mi vida hace...,169632,terrible,F18,SPA 24,19,Female,English,...,,,,,﻿Un evento terrible que ocurre en mi vida hace...,Un evento terrible que [ocurre]{ocurrió}<fs:st...,,,Un evento terrible que ocurrió en mi vida hace...,
1,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,159244,famous,S17,SPA 3,19,Female,English,...,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,﻿Una persona famosa que me inspira es Selena Q...,,,Una persona famosa que me inspira es Selena Qu...,﻿Una persona famosa que me inspira es Selena Q...
2,"El Presidente Trump es muy buen Presidente, él...","El Presidente Trump es muy buen Presidente, él...",El presidente Trump es muy buen presidente. No...,190771,famous,S18,SPA 1,Male,31,English,...,"El Presidente Trump es muy buen Presidente, él...",,"El Presidente Trump es muy buen Presidente, él...",,"El Presidente Trump es muy buen Presidente, él...","El Presidente Trump es muy buen Presidente, [é...",,,El presidente Trump es muy buen presidente. No...,
3,"En mi vida, yo tengo un persona especial. Mi p...","En mi vida, yo tengo una persona especial. Mi ...","En mi vida, yo tengo un persona especial. Mi p...",171906,special,S19,SPA 3,18,Female,English,...,,,,,"En mi vida, yo tengo un persona especial. Mi p...","En mi vida, [yo]{}<pr:su:pron> tengo [un]{una}...",,,"En mi vida, yo tengo un persona especial. Mi p...",
4,Mi vacaciones perfecto would be ir a la playa ...,Mi vacación perfecto sería ir a la playa con m...,﻿ Mis vacaciones perfectas serían ir a la pla...,146799,vacation,S17,SPA 2,19,Female,English,...,Mi vacaciones perfecto would be ir a la playa ...,Mi vacaciones perfecto would be ir a la playa ...,[Mi]{mis}<na:ps:det:inan> vacaciones [perfecto...,[Mi]{mis}<na:ps:det:inan> vacaciones [perfecto...,﻿ [Mi]{Mis}<na:adj> vacaciones perfecto would...,[Mi]{Mis}<na:det> vacaciones [perfecto]{perfec...,,,﻿ Mis vacaciones perfectas serían ir a la pla...,Mis vacaciones perfectas serían ir a la playa ...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
257,Yo tengo mucha gente en mi vida. Tengo mi fami...,Tengo mucha gente en mi vida. Tengo mi familia...,Tengo mucha gente en mi vida. Tengo a mi famil...,134174,special,W19,SPA 21,22,Female,English,...,,,,,[Yo]{}<pr:su:pron> tengo mucha gente en mi vid...,,,,Tengo mucha gente en mi vida. Tengo a mi famil...,
258,Una historia hermosa puede ser describida muy ...,Una historia hermosa puede ser descrita muy di...,Una historia hermosa puede ser descrita de man...,231920,beautiful,S20,SPA 33,21,,,...,,,,,Una historia hermosa puede ser describida muy ...,,Una historia hermosa puede ser describida muy ...,,Una historia hermosa puede ser descrita de man...,
259,Una persona famosa es Michael Jordan. Yo pense...,Una persona famosa es Michael Jordan. Yo piens...,﻿Una persona famosa es Michael Jordan. Yo pien...,176089,famous,F17,SPA 1,18,Male,English,...,Una persona famosa es Michael Jordan. Yo pense...,Una persona famosa es Michael Jordan. Yo pense...,Una persona famosa es Michael Jordan. Yo pense...,,Una persona famosa es Michael Jordan. [Yo]{}<p...,,,,Una persona famosa es Michael Jordan. Creo que...,﻿Una persona famosa es Michael Jordan. Yo pien...
260,Tengo un cuento terrible durante la vacación d...,Tengo una historia horrible durante la vacació...,Tengo un cuento terrible durante las vacacione...,172548,terrible,F18,SPA 1,19,Female,Mandarin,...,,,,,Tengo un cuento terrible durante [la]{las}<in:...,Tengo un cuento terrible durante [la]{las}<in:...,,,Tengo un cuento terrible durante las vacacione...,


In [36]:
import pandas as pd

# Supongamos que combined_df ya está definido

# Función para comprobar si un valor es un número
def is_number(s):
    try:
        float(s)
        return True
    except ValueError:
        return False

# Corregir valores intercambiados entre 'gender' y 'age'
for index, row in combined_df.iterrows():
    if isinstance(row['gender'], int) or is_number(row['gender']):
        # Si 'gender' contiene un número, probablemente estén intercambiados
        combined_df.at[index, 'gender'], combined_df.at[index, 'age'] = row['age'], row['gender']

# Opcional: convertir la columna 'age' a numérica para asegurarse de que todos son números
combined_df['age'] = pd.to_numeric(combined_df['age'], errors='coerce')

combined_df

Unnamed: 0,input,correction,target,id,prompt,quarter,course,age,gender,l1 language,...,a personal annotator1,a personal annotator2,gender-number annotator1,gender-number annotator2,updated anntoation ann1,updated annotation ann2,verbs annotation ann1,verbs annotation ann2,corrected1,corrected2
0,Un evento terrible que ocurre en mi vida hace ...,Un evento terrible que ocurre en mi vida hace ...,Un evento terrible que ocurrió en mi vida hace...,169632,terrible,F18,SPA 24,19.0,Female,English,...,,,,,﻿Un evento terrible que ocurre en mi vida hace...,Un evento terrible que [ocurre]{ocurrió}<fs:st...,,,Un evento terrible que ocurrió en mi vida hace...,
1,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,159244,famous,S17,SPA 3,19.0,Female,English,...,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,Una persona famosa que me inspira es Selena Qu...,﻿Una persona famosa que me inspira es Selena Q...,,,Una persona famosa que me inspira es Selena Qu...,﻿Una persona famosa que me inspira es Selena Q...
2,"El Presidente Trump es muy buen Presidente, él...","El Presidente Trump es muy buen Presidente, él...",El presidente Trump es muy buen presidente. No...,190771,famous,S18,SPA 1,31.0,Male,English,...,"El Presidente Trump es muy buen Presidente, él...",,"El Presidente Trump es muy buen Presidente, él...",,"El Presidente Trump es muy buen Presidente, él...","El Presidente Trump es muy buen Presidente, [é...",,,El presidente Trump es muy buen presidente. No...,
3,"En mi vida, yo tengo un persona especial. Mi p...","En mi vida, yo tengo una persona especial. Mi ...","En mi vida, yo tengo un persona especial. Mi p...",171906,special,S19,SPA 3,18.0,Female,English,...,,,,,"En mi vida, yo tengo un persona especial. Mi p...","En mi vida, [yo]{}<pr:su:pron> tengo [un]{una}...",,,"En mi vida, yo tengo un persona especial. Mi p...",
4,Mi vacaciones perfecto would be ir a la playa ...,Mi vacación perfecto sería ir a la playa con m...,﻿ Mis vacaciones perfectas serían ir a la pla...,146799,vacation,S17,SPA 2,19.0,Female,English,...,Mi vacaciones perfecto would be ir a la playa ...,Mi vacaciones perfecto would be ir a la playa ...,[Mi]{mis}<na:ps:det:inan> vacaciones [perfecto...,[Mi]{mis}<na:ps:det:inan> vacaciones [perfecto...,﻿ [Mi]{Mis}<na:adj> vacaciones perfecto would...,[Mi]{Mis}<na:det> vacaciones [perfecto]{perfec...,,,﻿ Mis vacaciones perfectas serían ir a la pla...,Mis vacaciones perfectas serían ir a la playa ...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
257,Yo tengo mucha gente en mi vida. Tengo mi fami...,Tengo mucha gente en mi vida. Tengo mi familia...,Tengo mucha gente en mi vida. Tengo a mi famil...,134174,special,W19,SPA 21,22.0,Female,English,...,,,,,[Yo]{}<pr:su:pron> tengo mucha gente en mi vid...,,,,Tengo mucha gente en mi vida. Tengo a mi famil...,
258,Una historia hermosa puede ser describida muy ...,Una historia hermosa puede ser descrita muy di...,Una historia hermosa puede ser descrita de man...,231920,beautiful,S20,SPA 33,,21,,...,,,,,Una historia hermosa puede ser describida muy ...,,Una historia hermosa puede ser describida muy ...,,Una historia hermosa puede ser descrita de man...,
259,Una persona famosa es Michael Jordan. Yo pense...,Una persona famosa es Michael Jordan. Yo piens...,﻿Una persona famosa es Michael Jordan. Yo pien...,176089,famous,F17,SPA 1,18.0,Male,English,...,Una persona famosa es Michael Jordan. Yo pense...,Una persona famosa es Michael Jordan. Yo pense...,Una persona famosa es Michael Jordan. Yo pense...,,Una persona famosa es Michael Jordan. [Yo]{}<p...,,,,Una persona famosa es Michael Jordan. Creo que...,﻿Una persona famosa es Michael Jordan. Yo pien...
260,Tengo un cuento terrible durante la vacación d...,Tengo una historia horrible durante la vacació...,Tengo un cuento terrible durante las vacacione...,172548,terrible,F18,SPA 1,19.0,Female,Mandarin,...,,,,,Tengo un cuento terrible durante [la]{las}<in:...,Tengo un cuento terrible durante [la]{las}<in:...,,,Tengo un cuento terrible durante las vacacione...,


In [37]:
nulos_por_columna = combined_df.isna().sum()

# Mostrar el resultado
print(nulos_por_columna)

input                         0
correction                    0
target                        0
id                            0
prompt                        0
quarter                       0
course                        6
age                          27
gender                        5
l1 language                  10
other l1 language(s)        190
language(s) used at home     83
language(s) studied         128
listening comprehension      22
reading comprehension        22
speaking ability             22
writing ability              23
study abroad                 23
a personal annotator1       125
a personal annotator2       145
gender-number annotator1    127
gender-number annotator2    187
updated anntoation ann1       0
updated annotation ann2      65
verbs annotation ann1       232
verbs annotation ann2       262
corrected1                    0
corrected2                  154
dtype: int64


In [38]:
def build_json(data,file_out,personal=False,gender=False,verb=False):
    resultados = []
    for _,row in data.iterrows():
        
        input = row["input"]
        if personal:
            target = row["a personal annotator1"]
        elif gender:
            target = row["gender-number annotator1"]
        elif verb:
            target = row["verbs annotation ann1"]
        else:
            target = row["target"]
        correction = row["correction"]
        observacion = {"input": input, "target":target, "correction":correction}
        resultados.append(observacion)
    with open(file_out, 'w', encoding='utf-8') as json_file:
        json.dump(resultados, json_file, ensure_ascii=False, indent=4)

In [39]:
import pandas as pd

# Supongamos que ya tienes tu DataFrame llamado test_df
# test_df = ... (tu código para crear el DataFrame)

# Dataset 1: Seleccionar columnas y eliminar filas con nulos
personal = combined_df[["input","correction",'a personal annotator1']].dropna()

# Dataset 2: Seleccionar columnas y eliminar filas con nulos
gender_number = combined_df[["input","correction",'gender-number annotator1']].dropna()

# Dataset 3: Seleccionar columnas y eliminar filas con nulos
verb = combined_df[["input","correction",'verbs annotation ann1']].dropna()

print(len(personal))
print(len(gender_number))
print(len(verb))


137
135
30


In [40]:
build_json(personal,"llama_tuned/personal_llama_tuned.json",personal=True)


In [41]:
build_json(gender_number,"llama_tuned/gender_llama_tuned.json",gender=True)


In [42]:
build_json(verb,"llama_tuned/verb_llama_tuned.json",verb=True)

In [43]:
import pandas as pd

# Código previo para obtener combined_df ...

# Filtra el DataFrame por género
df_female = combined_df[combined_df['gender'] == 'Female']
df_male = combined_df[combined_df['gender'] == 'Male']

# Opcionalmente, puedes resetear los índices para que comiencen desde 0 en ambos DataFrames
df_female = df_female.reset_index(drop=True)
df_male = df_male.reset_index(drop=True)

print("DataFrame para género femenino:")
print(len(df_female))

print("\nDataFrame para género masculino:")
print(len(df_male))

DataFrame para género femenino:
197

DataFrame para género masculino:
54


In [44]:
build_json(df_female,"llama_tuned/female_llama_tuned.json")
build_json(df_male,"llama_tuned/male_llama_tuned.json")


In [46]:
import pandas as pd

# Obtener los valores únicos de la columna 'prompt'
unique_prompts = combined_df['prompt'].unique()

# Mostrar los valores únicos de la columna 'prompt'
print("Valores únicos en la columna 'prompt':")
print(unique_prompts)

prompts =[]
for idx, i in enumerate(unique_prompts):
    

    build_json(combined_df[combined_df['prompt'] == str(i)],f"llama_tuned/{i}_llama_tuned.json")



Valores únicos en la columna 'prompt':
['terrible' 'famous' 'special' 'vacation' 'beautiful' 'chaplin' 'yourself']
