# Carga y preprocesamiento de la Data

En este preprocesamiento de dato se usaron 2 tipos de dataset que originalmente estaba en ingles pero se traducieron al españo (https://github.com/CHANEL-JSALT-2020/datasets) :
 1. DAILYD.csv : Un conjunto de datos de diálogo de múltiples.
 2. METALW.csv : Un conjunto de datos de diálogos multidominio para la rápida adaptacion de modelos de conversación

## Importaciones

In [1]:
from __future__ import absolute_import, division, print_function, unicode_literals
import argparse
import codecs
import csv
import os
import re

In [11]:
## Muestra las 8 primeras filas de un archivo csv
def mostrarLinea(archivo, n=8):
    with open(archivo, 'r') as archivoData:
        lineas = archivoData.readlines()
    for linea in lineas[:n]:
        print(linea)
        
## se crea un diccionario donde cada llave (idDialogo) contiene un dialogo entre dos personas
def cargarLinea(data, campos):
    conversaciones = {}
    with open(data, 'r') as archivoCsv:
        
        linea = csv.reader(archivoCsv, delimiter = ',')
        next(linea)        
        for row in linea:
            lineObj = {}
            for i , campo in enumerate(campos):
                # En el dataset la palabra "ufeffUID" identifica en que parte de la
                # conversación de un dialogo se encuentra
                if("ufeffUID" in campo):
                    aux = row[i].split("-")
                    lineObj["idDialogo"] = aux[1]
                else:
                    lineObj[campo] = row[i]
            
            # Cada linea es un dialogo donde se separa por '\t'
            if(lineObj["idDialogo"] in conversaciones):
                conversaciones[lineObj["idDialogo"]] += '\t'+ lineObj["text"]
            else:
                conversaciones[lineObj["idDialogo"]] = lineObj["text"]
                
    return conversaciones

# Separacion en pares de cada dialogo
def pares(conversaciones):
    pares = []
    
    for i in conversaciones:
        
        linea = conversaciones[i].split('\t')
        
        if len(linea) != 1:
            
            for i in range((len(linea)  + 1)//  2):
                entrada = linea[i]
                salida = linea[i+1]

                if entrada and salida:
                    pares.append([entrada, salida])
    return pares

## Una visualizacion del dataset Metalw

In [12]:
archivo = "METALW_translation_es2en_000.csv"
mostrarLinea(os.path.join("./DAILYD_METALW", archivo))

﻿UID,SEG,translation,profanity

METALW-000000-0000,"Hola, ¿en qué puedo ayudarle?","Hi, how can I help you?",None

METALW-000000-0001,Sí,Yes,None

METALW-000000-0002,¿Cómo puedo ser de ayuda?,How can I be of help?,None

METALW-000000-0003,Quiero saber sobre la política que tengo,I want to know about the policy I have,None

METALW-000000-0004,"Bien, ¿puedo conseguir tu nombre, por favor?","Well, can I get your name, please?",None

METALW-000000-0005,¿Cubre los daños causados por el agua?,Does it cover water damage?,None

METALW-000000-0006,"Necesito su nombre y número de póliza para acceder a su póliza, por favor.","I need your name and policy number to access your policy, please.",None



## Extracción del dataset Metalw en pares

In [6]:
campos = ["ufeffUID", "text"]
campos_conversaciones = ['idDialogo', 'idConversacion', 'text']

## nombre base del dataset METALW
metalw_base = "METALW_translation_es2en_0"
pares_conversaciones = []
for i in range(44):
    
    if i < 10:
        archivo = f'{metalw_base}0{i}.csv'
        data = os.path.join("./DAILYD_METALW", archivo)
    else:
        archivo = f'{metalw_base}{i}.csv'
        data = os.path.join("./DAILYD_METALW", archivo)
        
    conversaciones = cargarLinea(data, campos)
    pares_conversaciones += pares(conversaciones)


In [7]:
pares_conversaciones

[['Hola, ¿en qué puedo ayudarle?', 'Sí'],
 ['Sí', '¿Cómo puedo ser de ayuda?'],
 ['¿Cómo puedo ser de ayuda?', 'Quiero saber sobre la política que tengo'],
 ['Quiero saber sobre la política que tengo',
  'Bien, ¿puedo conseguir tu nombre, por favor?'],
 ['Bien, ¿puedo conseguir tu nombre, por favor?',
  '¿Cubre los daños causados por el agua?'],
 ['¿Cubre los daños causados por el agua?',
  'Necesito su nombre y número de póliza para acceder a su póliza, por favor.'],
 ['Hola, ¿en qué puedo ayudarle?', 'Tengo una pregunta sobre mi política'],
 ['Tengo una pregunta sobre mi política',
  'seguro. ¿Puedes decirme tu número de póliza?'],
 ['seguro. ¿Puedes decirme tu número de póliza?', '3425512'],
 ['3425512', 'Bien, tengo tu póliza aquí. ¿Cuál es tu pregunta?'],
 ['Bien, tengo tu póliza aquí. ¿Cuál es tu pregunta?',
  'cubre los daños causados por el agua?'],
 ['cubre los daños causados por el agua?',
  'Esta política no cubre los daños causados por el agua.'],
 ['Hola, ¿en qué puedo ayu

## Extracción del dataset Dailyd en pares

In [8]:
## nombre base del dataset DAILYD
dailyd_archivo = "DAILYD_translation_es2en.csv"

data = os.path.join("./DAILYD_METALW", dailyd_archivo)

conversaciones = cargarLinea(data, campos)
pares_conversaciones += pares(conversaciones)

In [9]:
pares_conversaciones

[['Hola, ¿en qué puedo ayudarle?', 'Sí'],
 ['Sí', '¿Cómo puedo ser de ayuda?'],
 ['¿Cómo puedo ser de ayuda?', 'Quiero saber sobre la política que tengo'],
 ['Quiero saber sobre la política que tengo',
  'Bien, ¿puedo conseguir tu nombre, por favor?'],
 ['Bien, ¿puedo conseguir tu nombre, por favor?',
  '¿Cubre los daños causados por el agua?'],
 ['¿Cubre los daños causados por el agua?',
  'Necesito su nombre y número de póliza para acceder a su póliza, por favor.'],
 ['Hola, ¿en qué puedo ayudarle?', 'Tengo una pregunta sobre mi política'],
 ['Tengo una pregunta sobre mi política',
  'seguro. ¿Puedes decirme tu número de póliza?'],
 ['seguro. ¿Puedes decirme tu número de póliza?', '3425512'],
 ['3425512', 'Bien, tengo tu póliza aquí. ¿Cuál es tu pregunta?'],
 ['Bien, tengo tu póliza aquí. ¿Cuál es tu pregunta?',
  'cubre los daños causados por el agua?'],
 ['cubre los daños causados por el agua?',
  'Esta política no cubre los daños causados por el agua.'],
 ['Hola, ¿en qué puedo ayu

In [13]:
## Guardando los pares que se extrajeron del dataset Dailyd y Metalw

In [14]:
def guardarPares(archivo, pares):
    
    with open(archivo, 'w' , encoding='utf-8') as fichero:
        
        for linea in pares:
            fichero.write(linea[0]+'\t'+linea[1]+'\n')

## en pares_conversaciones se guardar todos los pares de conversaciones de las 2 dataset
guardarPares(os.path.join("./DAILYD_METALW", "Dailyd_Metalw.txt"), pares_conversaciones)