## Dataset description

In [None]:
# Dataset coding format
"""
    FO: previus word is misspelled
    D: drawing 
    IN: insertion of words into text
    MD: modification of a word (correction of a word)
    DL: elimination of a word
    NS: when two words were written together
    SB: sillabification
"""

# Classes:
"""
    Extraversion
    Agreeableness
    Conscientiousness
    Emotional stability (Neuroticism)
    Openness
"""

## Imports

In [1]:
import re, os
import pandas as pd, numpy as np

## Preprocesamiento

In [2]:
def procesar_texto(texto):
    # Eliminar saltos de línea
    texto_sin_saltos = texto.replace('\n', ' ')
    
    # Diccionario de reemplazos de etiquetas
    etiquetas_a_palabras = {
        r"<FO:.*?>": "MISSPELLED",
        "<D>": "DRAW",
        "<IN>": "INSERTION",
        "<MD>": "MODIFICATION",
        "<DL>": "ELIMINATION",
        "<NS>": "TOGETHER",
        "<SB>": "SYLLABIFICATION"
    }
    
    # Función para corregir palabras incorrectas
    def corregir_palabras(texto):
        patron = re.compile(r'(\b\w+\b)\s*<FO:(\w+)>')

        def reemplazar_palabra(match):
            palabra_correcta = match.group(2)
            return palabra_correcta
        
        return patron.sub(reemplazar_palabra, texto)
    
    # Aplicar correcciones de palabras al texto sin etiquetas y con etiquetas corregidas
    texto_corregido = corregir_palabras(texto_sin_saltos)
    
    # Reemplaza las etiquetas según el diccionario en el texto original
    for etiqueta, palabra in etiquetas_a_palabras.items():
        texto_sin_saltos = re.sub(etiqueta, palabra, texto_sin_saltos, flags=re.IGNORECASE)
        texto_corregido = re.sub(etiqueta, '', texto_corregido, flags=re.IGNORECASE)
    
    # Texto con etiquetas corregidas
    texto_con_etiquetas = texto_sin_saltos
    
    # Eliminar todas las etiquetas restantes para obtener el texto sin etiquetas
    texto_sin_etiquetas = re.sub(r" ?(MISSPELLED|DRAW|INSERTION|MODIFICATION|ELIMINATION|TOGETHER|SYLLABIFICATION) ?", " ", texto_sin_saltos)
    
    # Corregir palabras en el texto con etiquetas corregidas
    texto_corregido_con_etiquetas = corregir_palabras(texto_con_etiquetas)
    
    # Función para separar signos de puntuación
    def separar_signos(texto):
        signos_puntuacion = ['.', ',', ';', ':', '!', '?', "\"", "\t", "-", "_"]
        for signo in signos_puntuacion:
            texto = texto.replace(signo, f" {signo} ")
        return texto
    
    # Aplicar separación de signos de puntuación a todas las versiones del texto
    texto_sin_etiquetas = separar_signos(texto_sin_etiquetas)
    texto_con_etiquetas = separar_signos(texto_con_etiquetas)
    texto_corregido = separar_signos(texto_corregido)
    texto_corregido_con_etiquetas = separar_signos(texto_corregido_con_etiquetas)

    respuestas = [texto_sin_etiquetas, texto_con_etiquetas, texto_corregido, texto_corregido_con_etiquetas]
    for i in range(4):
        respuestas[i] = re.sub(' +', ' ', respuestas[i]) 
        # nececito borrar los tabuladores definidos como \t
        respuestas[i] = respuestas[i].replace('\t ', '')
    
    return texto_con_etiquetas, texto_sin_etiquetas, texto_corregido_con_etiquetas, texto_corregido

## Probando prepocesamiento

In [3]:
texto = """Mi <MD> vida ha tenido el evento mas <FO:más>
relevante , al entrar a la universidad <DL> ; E so <FO:Eso>  ha sido motivo de alegria <FO:alegría> y motivacion <FO:motivación> isara <FO:para> mi familia."""

texto_sin_etiquetas, texto_con_etiquetas, texto_corregido, texto_corregido_con_etiquetas = procesar_texto(texto)

print("\nTexto con etiquetas corregidas:")
print(texto_con_etiquetas)
print("\nTexto sin etiquetas:")
print(texto_sin_etiquetas)
print("\nTexto con palabra corregida (con etiquetas corregidas):")
print(texto_corregido_con_etiquetas)
print("\nTexto con palabra corregida (sin etiquetas):")
print(texto_corregido)


Texto con etiquetas corregidas:
Mi vida ha tenido el evento mas relevante  ,  al entrar a la universidad  ;  E so  ha sido motivo de alegria y motivacion isara mi familia . 

Texto sin etiquetas:
Mi MODIFICATION vida ha tenido el evento mas MISSPELLED relevante  ,  al entrar a la universidad ELIMINATION  ;  E so MISSPELLED  ha sido motivo de alegria MISSPELLED y motivacion MISSPELLED isara MISSPELLED mi familia . 

Texto con palabra corregida (con etiquetas corregidas):
Mi  vida ha tenido el evento más relevante  ,  al entrar a la universidad   ;  E Eso  ha sido motivo de alegría y motivación para mi familia . 

Texto con palabra corregida (sin etiquetas):
Mi MODIFICATION vida ha tenido el evento mas MISSPELLED relevante  ,  al entrar a la universidad ELIMINATION  ;  E so MISSPELLED  ha sido motivo de alegria MISSPELLED y motivacion MISSPELLED isara MISSPELLED mi familia . 


## Data

In [4]:
# Lee el archivo HWxPIs_train.data y asigna nombres de columna
ids_train = pd.read_csv('../Data/hwxpi/trainval_data/train/HWxPIs_train.data', 
                    sep='\t', 
                    header=None, 
                    names=['ID', 'Transcript', 'Image'])
ids_dev = pd.read_csv('../Data/hwxpi/trainval_data/validation/HWxPIs_valid.data', 
                    sep='\t', 
                    header=None,
                    names=['ID', 'Transcript', 'Image'])
ids_test = pd.read_csv('../Data/hwxpi/test/HWxPIs_test.data', 
                    sep='\t', 
                    header=None,
                    names=['ID', 'Transcript', 'Image'])

In [15]:
# Lee el archivo HWxPIs_train.solution y asigna nombres de columna
train_labels = pd.read_csv('../Data/hwxpi/trainval_data/train/HWxPIs_train.solution', 
                    sep=' ', 
                    header=None, 
                    names=['Extraversion', 'Agreeableness', 'Conscientiousness', 'Neuroticism', 'Openness'])
dev_labels = pd.read_csv('../Data/hwxpi/trainval_data/validation/HWxPIs_valid.solution', 
                    sep=' ', 
                    header=None,
                    names=['Extraversion', 'Agreeableness', 'Conscientiousness', 'Neuroticism', 'Openness'])
test_labels = pd.read_csv('../Data/hwxpi/test/HWxPIs_test.solution', 
                    sep=' ', 
                    header=None,
                    names=['Extraversion', 'Agreeableness', 'Conscientiousness', 'Neuroticism', 'Openness'])

In [16]:
train_labels.head()

Unnamed: 0,Extraversion,Agreeableness,Conscientiousness,Neuroticism,Openness
0,0,1,1,0,0
1,1,1,1,0,0
2,1,0,0,1,0
3,0,1,1,0,1
4,0,0,0,0,1


In [5]:
# Leyendo y guardando los nombres de los archivos de las transcripciones del dataset
transcripts_train, transcripts_dev, transcripts_test = [], [], []

# Agrega el path a cada archivo para que sea accesible desde la carpeta principal
for i in ids_train.iterrows():
    transcripts_train.append(f'../Data/hwxpi/trainval_data/train/transcripts/{i[1].ID}_hxpi.txt')

for i in ids_dev.iterrows():
    transcripts_dev.append(f'../Data/hwxpi/trainval_data/validation/transcripts/{i[1].ID}_hxpi.txt')

for i in ids_test.iterrows():
    transcripts_test.append(f'../Data/hwxpi/test/transcripts/{i[1].ID}_hxpi.txt')


transcripts = [transcripts_train, transcripts_dev, transcripts_test]

In [6]:
len(transcripts_train), len(transcripts_dev), len(transcripts_test)

(418, 125, 293)

In [7]:
columns=['raw_text', 'raw_text_no_lbls', 'corrected_text', 'corrected_text_no_lbls']
hwxpis_train_data, hwxpis_dev_data, hwxpis_test_data = [], [], []

for i, dataset in enumerate(transcripts):
    for f in dataset:
        with open(f, 'r') as file:
            texto = file.read()
            texto_con_etiquetas, texto_sin_etiquetas, texto_corregido_con_etiquetas, texto_corregido = procesar_texto(texto)
            data_dict = {'raw_text': texto_con_etiquetas, 
                         'raw_text_no_lbls': texto_sin_etiquetas, 
                         'corrected_text': texto_corregido_con_etiquetas, 
                         'corrected_text_no_lbls': texto_corregido}
            if i == 0:
                hwxpis_train_data.append(data_dict)
            elif i == 1:
                hwxpis_dev_data.append(data_dict)
            else:
                hwxpis_test_data.append(data_dict)

hwxpis_train = pd.DataFrame(hwxpis_train_data, columns=columns)
hwxpis_dev = pd.DataFrame(hwxpis_dev_data, columns=columns)
hwxpis_test = pd.DataFrame(hwxpis_test_data, columns=columns)


In [9]:
# Agrega una columna con el ID de cada transcripción al principio de cada dataframe
hwxpis_train.insert(0, 'ID', ids_train['ID'])
hwxpis_dev.insert(0, 'ID', ids_dev['ID'])
hwxpis_test.insert(0, 'ID', ids_test['ID'])

In [10]:
hwxpis_train.head()

Unnamed: 0,ID,raw_text,raw_text_no_lbls,corrected_text,corrected_text_no_lbls
0,DSC_0085,Fuí MISSPELLED con mí MISSPELLED familia a Ve...,"Fuí con mí familia a Veracruz , me la pase m...",Fuí MISSPELLED con mí MISSPELLED familia a Ve...,"Fui con mi familia a Veracruz , me la pase m..."
1,DSC_0084,- Mi entrada a la Universidad - Creación de...,- Mi entrada a la Universidad - Creación de...,- Mi entrada a la Universidad - Creación de...,- Mi entrada a la Universidad - Creación de...
2,DSC_0087,Nací en Guanajuato pero me mudé a México cuand...,Nací en Guanajuato pero me mudé a México cuand...,Nací en Guanajuato pero me mudé a México cuand...,Nací en Guanajuato pero me mudé a México cuand...
3,DSC_0086,Entrar a la universidad y crear mi propia empr...,Entrar a la universidad y crear mi propia empr...,Entrar a la universidad y crear mi propia empr...,Entrar a la universidad y crear mi propia empr...
4,DSC_0081,Paso por un momento confuso mi familia me apo...,Paso por un momento confuso mi familia me apo...,Paso por un momento confuso mi familia me apo...,Paso por un momento confuso mi familia me apo...


## Guardando datos 

In [17]:
# Agregando labels
hwxpis_train = pd.concat([hwxpis_train, train_labels], axis=1)
hwxpis_dev = pd.concat([hwxpis_dev, dev_labels], axis=1)
hwxpis_test = pd.concat([hwxpis_test, test_labels], axis=1)

In [18]:
hwxpis_train.head()

Unnamed: 0,ID,raw_text,raw_text_no_lbls,corrected_text,corrected_text_no_lbls,Extraversion,Agreeableness,Conscientiousness,Neuroticism,Openness
0,DSC_0085,Fuí MISSPELLED con mí MISSPELLED familia a Ve...,"Fuí con mí familia a Veracruz , me la pase m...",Fuí MISSPELLED con mí MISSPELLED familia a Ve...,"Fui con mi familia a Veracruz , me la pase m...",0,1,1,0,0
1,DSC_0084,- Mi entrada a la Universidad - Creación de...,- Mi entrada a la Universidad - Creación de...,- Mi entrada a la Universidad - Creación de...,- Mi entrada a la Universidad - Creación de...,1,1,1,0,0
2,DSC_0087,Nací en Guanajuato pero me mudé a México cuand...,Nací en Guanajuato pero me mudé a México cuand...,Nací en Guanajuato pero me mudé a México cuand...,Nací en Guanajuato pero me mudé a México cuand...,1,0,0,1,0
3,DSC_0086,Entrar a la universidad y crear mi propia empr...,Entrar a la universidad y crear mi propia empr...,Entrar a la universidad y crear mi propia empr...,Entrar a la universidad y crear mi propia empr...,0,1,1,0,1
4,DSC_0081,Paso por un momento confuso mi familia me apo...,Paso por un momento confuso mi familia me apo...,Paso por un momento confuso mi familia me apo...,Paso por un momento confuso mi familia me apo...,0,0,0,0,1


In [19]:
# Guarda en csv los dataframes hwxpis_train, hwxpis_dev, hwxpis_test
hwxpis_train.to_csv('../Data/hwxpi/clean/hwxpis_train.csv', index=False)
hwxpis_dev.to_csv('../Data/hwxpi/clean/hwxpis_dev.csv', index=False)
hwxpis_test.to_csv('../Data/hwxpi/clean/hwxpis_test.csv', index=False)