# Trabajo final data mining

En este trabajo brindaremos un chat bot de respuestas cortas para IM en español. Primero que nada definiremos una respuesta corta como cualquier turno hasta 3 palabras que ocurren al menos n veces. Iremos probando diferentes n a modo de prueba. El texto anterior a la respuesta corta será llamado contexto

## Extracción del corpus

Debido a que no hay un corpus bien definido para este problema utilizaremos el contexto del chat como texto de entrenamiento, por lo que la respuesta corta será la etiqueta.

### Procesamiento

In [1]:
import re
import csv
import pandas as pd
from datetime import datetime, timedelta
from string import punctuation

#### Conociendo los datos "crudos"

In [2]:
with open('whatsapp/chat2.txt') as f:
    raw_data = f.readlines()
print(raw_data[:20])

['1/22/16, 18:47 - Lore Bracamonte: Hola Puppy. Te parece si nosotras nos juntamos un ratito antes de las 20 en el Olmos??\n', '1/22/16, 19:06 - Daniela Bosch: Dale!\n', '1/22/16, 19:06 - Daniela Bosch: Yo estoy cerca del centro\n', '1/22/16, 19:06 - Daniela Bosch: Así que en un rato salgo\n', '1/22/16, 19:15 - Lore Bracamonte: Bien, yo ya estoy por salir de mi casa\n', '1/22/16, 19:15 - Daniela Bosch: Ok\n', '1/22/16, 20:08 - Lore Bracamonte: Ya estoy en el Olmos Puppy\n', '1/23/16, 01:19 - Lore Bracamonte: Acabo de tomar el colectivo\n', '1/23/16, 01:20 - Daniela Bosch: Yo creo que el mío ya pasó\n', '1/23/16, 01:23 - Lore Bracamonte: Oh, espero que no\n', '1/23/16, 01:24 - Lore Bracamonte: Que este demorado nada más\n', '1/23/16, 01:25 - Daniela Bosch: No sw\n', '1/23/16, 01:28 - Lore Bracamonte: Que  vas a hacer si se paso??\n', '1/23/16, 01:33 - Daniela Bosch: Me tomo un taxi\n', '1/23/16, 01:36 - Daniela Bosch: Ya me tomé el 60\n', '1/23/16, 01:46 - Lore Bracamonte: Que bueno\n',

Sacaremos la primera línea que de nada sirve

`6/18/17, 16:43 - Los mensajes y llamadas en este chat ahora están protegidos con cifrado de extremo a extremo. Toca para más información.`

#### Tratando de preprocesar

Para ello spliteo cada línea por la primera ocurrencia de ": ". Ver bien si se puede hacer algo con las líneas que no tengan el mismo formato (por ahora la quitamos). También quitaremos las stops words y reduciremos ocurrencias de jaja a ja (por ahora hacerlo bien básico).

In [3]:
STOP_WORDS = punctuation

def remove_dale(text):
    return re.sub('d[a]+l[e]+', 'dale', text)

def remove_ok(text):
    return re.sub(' (ok.*)+', 'ok', text)

def remove_si(text):
    return re.sub('(s[ií]+)+', 'si', text)

def remove_sw(text):
    return re.sub('{1}{0}{1}'.format(STOP_WORDS, '[]'), '', text).lower()

def remove_ja(text):
    return re.sub('(ja[ajs]*)+', 'ja', text)

def clean_text(text):
    return remove_dale(remove_si(remove_ok(remove_ja(remove_sw(text)))))

In [4]:
info_chat = []

for line in raw_data:
    if "-" not in line or ": " not in line:
        continue
    info, text = line.split(": ", 1)
    if '<Archivo omitido>' in text or '<Media omitted>' in text:
        continue
    date, owner = info.split(" - ", 1)
    date, hour = date.split(", ")
    hours, mins = hour.split(":")
    month, day, year = date.split("/")
    cleaning_text = clean_text(text.split('\n')[0])
    info_chat.append([owner, datetime(int('20' + year), int(month), int(day), int(hours), int(mins)), cleaning_text])
info_chat[:10]

[['Lore Bracamonte',
  datetime.datetime(2016, 1, 22, 18, 47),
  'hola puppy te parece si nosotras nos juntamos un ratito antes de las 20 en el olmos'],
 ['Daniela Bosch', datetime.datetime(2016, 1, 22, 19, 6), 'dale'],
 ['Daniela Bosch',
  datetime.datetime(2016, 1, 22, 19, 6),
  'yo estoy cerca del centro'],
 ['Daniela Bosch',
  datetime.datetime(2016, 1, 22, 19, 6),
  'asi que en un rato salgo'],
 ['Lore Bracamonte',
  datetime.datetime(2016, 1, 22, 19, 15),
  'bien yo ya estoy por salir de mi casa'],
 ['Daniela Bosch', datetime.datetime(2016, 1, 22, 19, 15), 'ok'],
 ['Lore Bracamonte',
  datetime.datetime(2016, 1, 22, 20, 8),
  'ya estoy en el olmos puppy'],
 ['Lore Bracamonte',
  datetime.datetime(2016, 1, 23, 1, 19),
  'acabo de tomar el colectivo'],
 ['Daniela Bosch',
  datetime.datetime(2016, 1, 23, 1, 20),
  'yo creo que el mío ya pasó'],
 ['Lore Bracamonte',
  datetime.datetime(2016, 1, 23, 1, 23),
  'oh espero que no']]

Ahora que tenemos los datos un poco más limpios utilizaremos panda para sacar un poco de conclusiones.

In [61]:
df = pd.DataFrame(info_chat, columns=['owner', 'date', 'text'])
df

Unnamed: 0,owner,date,text
0,Jose,2017-03-04 15:52:00,capaz llego unos minutos más tarde 🙈
1,Jose,2017-03-04 15:52:00,aviso por si no saliste todavia
2,Jose,2017-03-09 12:07:00,mati
3,Jose,2017-03-09 12:07:00,como andás
4,Jose,2017-03-09 12:07:00,uds tienen idea como se masteriza normaliza y ...
5,Jose,2017-03-09 12:07:00,estoy en bolas mal
6,Jose,2017-03-09 12:15:00,ja bueno calculo que varios van a hacer eso
7,Jose,2017-03-09 12:16:00,voy a ver si encuentro algo en internet y si n...
8,Jose,2017-03-09 12:16:00,al final pudiste ver lo que te mandé al face
9,Jose,2017-03-09 13:18:00,ja no el fondo verde ni a palos 😂 puse ahí que...


Ahora agruparemos los contextos con sus respectivas respuestas. Guardaremos el corpus en formato CSV.

In [5]:
MIN = 60
HOUR = 60*MIN
SAME_CONTEXT = timedelta(seconds=24*HOUR)
SAME_TEXT = timedelta(seconds=30*MIN)

SHORT_ANSWER = 2
def is_short(answer):
    """
    is short answer?
    """
    return len(answer.split(' ')) <= SHORT_ANSWER

def is_same_context(hour1, hour2):
    """
    hour1 must be larger-equal than hour2
    """
    return hour1 - hour2 <= SAME_CONTEXT

def is_same_text(hour1, hour2):
    return hour1 - hour2 <= SAME_TEXT

def is_same_owner(own1, own2):
    """
    return whenever own1 is the same as own2
    """
    return own1==own2

In [62]:
corpus_data = []

with open('corpus.csv', 'w', newline='') as csvfile:
    fieldnames = ['context', 'label']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames, dialect='unix')
    writer.writeheader()

    last_owner = ''
    last_time = datetime(2000, 1, 1)
    row = {'context':'', 'label':''}
    for i, (owner, time, text) in enumerate(info_chat):
        if is_short(text):                
            if not is_same_owner(last_owner, owner):
                # si no es la misma persona que escribe quiere decir que hubo una respuesta (en este caso corta).
                # el label será la respuesta en sí. Empezará un contexto nuevo de la otra persona.
                row['label'] = text
                writer.writerow(row)
                row['context'] = text
            else:
                # si la misma persona sigue escribiendo
                if is_same_text(time, last_time):
                    # si es parte de la misma conversación, agregamos al contexto
                    row['context'] += ' ' + text
                else:
                    # si "cambia la conversación", podríamos decir que la otra persona no contesto y por ello
                    # etiquetariamos como nonDef
                    row['label'] = 'nonDef'
                    writer.writerow(row)
                    row['context'] = text
        else:
            # si no es una respuesta corta
            if is_same_text(time, last_time):
                row['context'] += ' ' + text
            else:
                row['label'] = 'nonDef'
                writer.writerow(row)
                row['context'] = text

        last_owner = owner
        last_time = time

#### Contexto con ventana de n turnos de conversación

In [6]:
# Ventana de 10 conversaciones
FRAME = 10

with open('corpus2.csv', 'w', newline='') as csvfile:
    fieldnames = ['context', 'label']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames, dialect='unix')
    writer.writeheader()
    
    # No uso el datetime
    # Tampoco tengo en cuenta el usuario que escribe
    row = {'context':[], 'label':''}
    for owner, time, text in info_chat:
        if is_short(text):
            row['label'] = text
            writer.writerow(row)

        # Descartamos la primer conversación en la lista 
        # y agregamos la última 
        if len(row['context']) == FRAME:
            row['context'] = row['context'][1:]
            row['context'].append(text)
        else:
            row['context'].append(text)

#### Extracción de respuestas cortas

In [7]:
from collections import defaultdict

short_answers = {}
short_answers = defaultdict(lambda: 0, short_answers)
with open('corpus2.csv', 'r') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        short_answers[row['label']] += 1
        
sorted(short_answers.items(), key=lambda x: x[1], reverse=True)[:10]

[('ja', 57),
 ('oki', 50),
 ('puppy', 45),
 ('😁', 36),
 ('lore', 32),
 ('dale', 31),
 ('ok', 24),
 ('genial', 21),
 ('si', 15),
 ('hola puppy', 13)]

#### Subwords de 3 letras para el contexto

In [8]:
def to_chars(context):
    chars = []
    for line in context:
        line_to_chars = list(line)
        chars += line_to_chars
    return chars

In [14]:
CHARS = 3

def to_subwords(context):
    subwords_ctx = {}
    subwords_ctx = defaultdict(lambda: 0, subwords_ctx)
    for i in range(CHARS-1, len(context)-(CHARS-1)):
        subwords_ctx[context[i-(CHARS-1):i+(CHARS-2)]] += 1
    return subwords_ctx

In [18]:
# TODO: quitar "[", "]" y "'" de los contextos o ver cómo guardarlos
chars_context = {}

with open('corpus2.csv', 'r') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        subwords_ctx = to_subwords(row['context'])
        chars_context[row['label']] = subwords_ctx
print(chars_context)

{'dale': defaultdict(<function to_subwords.<locals>.<lambda> at 0x7ffa3298c8c8>, {"['l": 1, "'le": 1, 'leí': 1, 'eí ': 1, 'í c': 1, ' cu': 1, 'cua': 1, 'ual': 1, 'alq': 1, 'lqu': 1, 'qui': 1, 'uie': 1, 'ier': 1, 'era': 1, 'ra ': 1, 'a 😅': 1, " 😅'": 1, "😅',": 1, "', ": 9, ", '": 9, " 'j": 2, "'ja": 2, "ja'": 2, "a',": 3, " 's": 2, "'si": 2, 'sip': 2, 'ip ': 1, 'p 1': 1, ' 18': 2, '185': 1, '850': 1, '50 ': 1, '0 e': 1, ' es': 1, 'est': 1, 'sta': 1, 'ta ': 1, 'a b': 1, ' bi': 1, 'bie': 1, 'ien': 1, "en'": 1, "n',": 1, " 'o": 1, "'ok": 1, 'oka': 1, "ka'": 1, " 'g": 1, "'ge": 1, 'gen': 1, 'eni': 1, 'nia': 1, 'ial': 1, 'al ': 1, 'l m': 1, ' ma': 1, 'mañ': 1, 'aña': 1, 'ñan': 1, 'ana': 1, 'na ': 1, 'a c': 1, ' co': 1, 'coo': 1, 'oor': 1, 'ord': 1, 'rdi': 1, 'din': 1, 'ina': 1, 'nam': 1, 'amo': 2, 'mos': 4, 'os ': 3, 's d': 1, ' do': 2, 'don': 2, 'ond': 2, 'nde': 2, 'de ': 1, 'e j': 1, ' ju': 2, 'jun': 2, 'unt': 2, 'nta': 1, 'tam': 1, "os'": 1, "s',": 1, "ip'": 1, "p',": 1, " 'n": 1, "'no": 1