# Trabajo final data mining

En este trabajo brindaremos un chat bot de respuestas cortas para IM en español. Primero que nada definiremos una respuesta corta como cualquier turno hasta 3 palabras que ocurren al menos n veces. Iremos probando diferentes n a modo de prueba. El texto anterior a la respuesta corta será llamado contexto

## Extracción del corpus

Debido a que no hay un corpus bien definido para este problema utilizaremos el contexto del chat como texto de entrenamiento, por lo que la respuesta corta será la etiqueta.

### Procesamiento

In [1]:
import re
import csv
import pandas as pd
from datetime import datetime, timedelta
from string import punctuation

#### Conociendo los datos "crudos" de los chats de WhatsApp

In [119]:
with open('whatsapp/chat2.txt') as f:
    raw_w = f.readlines()
raw_w[:5]

['1/22/16, 18:47 - Lore Bracamonte: Hola Puppy. Te parece si nosotras nos juntamos un ratito antes de las 20 en el Olmos??\n',
 '1/22/16, 19:06 - Daniela Bosch: Dale!\n',
 '1/22/16, 19:06 - Daniela Bosch: Yo estoy cerca del centro\n',
 '1/22/16, 19:06 - Daniela Bosch: Así que en un rato salgo\n',
 '1/22/16, 19:15 - Lore Bracamonte: Bien, yo ya estoy por salir de mi casa\n']

Sacaremos la primera línea que de nada sirve

`6/18/17, 16:43 - Los mensajes y llamadas en este chat ahora están protegidos con cifrado de extremo a extremo. Toca para más información.`

#### Conociendo los datos "crudos" de los chats de Telegram

In [120]:
with open('telegram/chat.jsonl') as f:
    raw_t = f.readlines()
raw_t[:5]

['{"event":"message","id":"01000000c9d09914860f000000000000504cc4582e26a622","unread":true,"flags":259,"to":{"username":"jmutal","id":"$01000000c9d09914504cc4582e26a622","flags":1,"first_name":"Joni","peer_type":"user","peer_id":345624777,"last_name":"Mutal","print_name":"Joni_Mutal","when":"2017-11-23 15:44:34"},"from":{"id":"$01000000200820179c3b78b3ae7791e2","flags":524289,"first_name":"Daniela","peer_type":"user","peer_id":387975200,"last_name":"Bosch","print_name":"Daniela_Bosch","when":"2017-11-23 17:36:36","phone":"NUMBER"},"out":true,"service":false,"date":1511463419,"text":"Me preguntó si ibas a estar en la presentación o algo jaja"}\n',
 '{"event":"message","id":"01000000c9d09914850f000000000000504cc4582e26a622","unread":true,"flags":259,"to":{"username":"jmutal","id":"$01000000c9d09914504cc4582e26a622","flags":1,"first_name":"Joni","peer_type":"user","peer_id":345624777,"last_name":"Mutal","print_name":"Joni_Mutal","when":"2017-11-23 15:44:34"},"from":{"id":"$010000002008201

#### Conociendo los datos "crudos" de los chats de Facebook

In [121]:
with open('facebook/chat.html') as f:
    raw_f = f.readlines()
raw_f[len(raw_data)-1]

'}</style><title>Conversación con Florencia Cattella</title></head><body><a href="html/messages.htm">Volver</a><br /><br /><div class="thread">Conversación con&nbsp;Florencia Cattella<div class="message"><div class="message_header"><span class="user">Florencia Cattella</span><span class="meta">lunes, 24 de septiembre de 2012 a las 21:56 UTC-03</span></div></div><p>altamira</p><div class="message"><div class="message_header"><span class="user">Florencia Cattella</span><span class="meta">lunes, 24 de septiembre de 2012 a las 21:56 UTC-03</span></div></div><p>ey dani una consulta..sabes bien lo de altamora??</p><div class="message"><div class="message_header"><span class="user">Florencia Cattella</span><span class="meta">jueves, 6 de septiembre de 2012 a las 14:51 UTC-03</span></div></div><p>ejjejeje</p><div class="message"><div class="message_header"><span class="user">Daniela Pupy Bosch</span><span class="meta">jueves, 6 de septiembre de 2012 a las 14:50 UTC-03</span></div></div><p>ni l

#### Tratando de preprocesar

Para ello spliteo cada línea por la primera ocurrencia de ": ". Ver bien si se puede hacer algo con las líneas que no tengan el mismo formato (por ahora la quitamos). También quitaremos las stops words y reduciremos ocurrencias de jaja a ja (por ahora hacerlo bien básico).

In [108]:
STOP_WORDS = punctuation

def remove_dale(text):
    return re.sub('d[a]+l[e]+', 'dale', text)

def remove_ok(text):
    return re.sub('(ok)+[a-zA-Z]*', 'ok', text)

def remove_si(text):
    return re.sub('(s[ií]+)+', 'si', text)

def remove_sw(text):
    return re.sub('{1}{0}{1}'.format(STOP_WORDS, '[]'), '', text).lower()

def remove_ja(text):
    return re.sub('(ja[aj(js)]*)+', 'ja', text)

def remove_em(text):
    return re.sub('!+', '!', text)

def remove_qm(text):
    return re.sub('(\\?[!\\?]+)+', '?', text)

def clean_text(text):
    return remove_dale(remove_si(remove_ok(remove_ja(remove_sw(remove_em(remove_qm(text)))))))

In [89]:
info_chat = []

for line in raw_w:
    if " - " not in line or ": " not in line:
        continue
    info, text = line.split(": ", 1)
    if '<Archivo omitido>' in text or '<Media omitted>' in text:
        continue
    date, owner = info.split(" - ", 1)
    date, hour = date.split(", ")
    hours, mins = hour.split(":")
    month, day, year = date.split("/")
    cleaning_text = clean_text(text.split('\n')[0])
    info_chat.append([owner, datetime(int('20' + year), int(month), int(day), int(hours), int(mins)), cleaning_text])
info_chat[:10]

[['Lore Bracamonte',
  datetime.datetime(2016, 1, 22, 18, 47),
  'hola puppy te parece si nosotras nos juntamos un ratito antes de las 20 en el olmos'],
 ['Daniela Bosch', datetime.datetime(2016, 1, 22, 19, 6), 'dale'],
 ['Daniela Bosch',
  datetime.datetime(2016, 1, 22, 19, 6),
  'yo estoy cerca del centro'],
 ['Daniela Bosch',
  datetime.datetime(2016, 1, 22, 19, 6),
  'asi que en un rato salgo'],
 ['Lore Bracamonte',
  datetime.datetime(2016, 1, 22, 19, 15),
  'bien yo ya estoy por salir de mi casa'],
 ['Daniela Bosch', datetime.datetime(2016, 1, 22, 19, 15), 'ok'],
 ['Lore Bracamonte',
  datetime.datetime(2016, 1, 22, 20, 8),
  'ya estoy en el olmos puppy'],
 ['Lore Bracamonte',
  datetime.datetime(2016, 1, 23, 1, 19),
  'acabo de tomar el colectivo'],
 ['Daniela Bosch',
  datetime.datetime(2016, 1, 23, 1, 20),
  'yo creo que el mío ya pasó'],
 ['Lore Bracamonte',
  datetime.datetime(2016, 1, 23, 1, 23),
  'oh espero que no']]

Ahora que tenemos los datos un poco más limpios utilizaremos panda para sacar un poco de conclusiones.

In [5]:
df = pd.DataFrame(info_chat, columns=['owner', 'date', 'text'])
df

Unnamed: 0,owner,date,text
0,Jose,2017-03-04 15:52:00,capaz llego unos minutos más tarde 🙈
1,Jose,2017-03-04 15:52:00,aviso por si no saliste todavia
2,Jose,2017-03-09 12:07:00,mati
3,Jose,2017-03-09 12:07:00,como andás
4,Jose,2017-03-09 12:07:00,uds tienen idea como se masteriza normaliza y ...
5,Jose,2017-03-09 12:07:00,estoy en bolas mal
6,Jose,2017-03-09 12:15:00,ja bueno calculo que varios van a hacer eso
7,Jose,2017-03-09 12:16:00,voy a ver si encuentro algo en internet y si n...
8,Jose,2017-03-09 12:16:00,al final pudiste ver lo que te mandé al face
9,Jose,2017-03-09 13:18:00,ja no el fondo verde ni a palos 😂 puse ahí que...


Ahora agruparemos los contextos con sus respectivas respuestas. Guardaremos el corpus en formato CSV.

In [109]:
MIN = 60
HOUR = 60*MIN
SAME_CONTEXT = timedelta(seconds=24*HOUR)
SAME_TEXT = timedelta(seconds=30*MIN)

SHORT_ANSWER = 2
def is_short(answer):
    """
    is short answer?
    """
    return len(answer.split(' ')) <= SHORT_ANSWER

def is_same_context(hour1, hour2):
    """
    hour1 must be larger-equal than hour2
    """
    return hour1 - hour2 <= SAME_CONTEXT

def is_same_text(hour1, hour2):
    return hour1 - hour2 <= SAME_TEXT

def is_same_owner(own1, own2):
    """
    return whenever own1 is the same as own2
    """
    return own1==own2

In [7]:
corpus_data = []

with open('corpus.csv', 'w', newline='') as csvfile:
    fieldnames = ['context', 'label']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames, dialect='unix')
    writer.writeheader()

    last_owner = ''
    last_time = datetime(2000, 1, 1)
    row = {'context':'', 'label':''}
    for i, (owner, time, text) in enumerate(info_chat):
        if is_short(text):                
            if not is_same_owner(last_owner, owner):
                # si no es la misma persona que escribe quiere decir que hubo una respuesta (en este caso corta).
                # el label será la respuesta en sí. Empezará un contexto nuevo de la otra persona.
                row['label'] = text
                writer.writerow(row)
                row['context'] = text
            else:
                # si la misma persona sigue escribiendo
                if is_same_text(time, last_time):
                    # si es parte de la misma conversación, agregamos al contexto
                    row['context'] += ' ' + text
                else:
                    # si "cambia la conversación", podríamos decir que la otra persona no contesto y por ello
                    # etiquetariamos como nonDef
                    row['label'] = 'nonDef'
                    writer.writerow(row)
                    row['context'] = text
        else:
            # si no es una respuesta corta
            if is_same_text(time, last_time):
                row['context'] += ' ' + text
            else:
                row['label'] = 'nonDef'
                writer.writerow(row)
                row['context'] = text

        last_owner = owner
        last_time = time

#### Contexto con ventana de n turnos de conversación

In [110]:
# Ventana de 10 conversaciones
FRAME = 10

with open('corpus.csv', 'w') as csvfile:
    fieldnames = ['context', 'label']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames, dialect='unix')
    writer.writeheader()
    
    # No uso el datetime
    # Tampoco tengo en cuenta el usuario que escribe
    row = {'context':'', 'label':''}
    context = []
    for owner, time, text in info_chat:
        if is_short(text):
            row['label'] = text
            row['context'] = ' '.join(context)
            writer.writerow(row)

        # Descartamos la primer conversación en la lista 
        # y agregamos la última 
        if len(context) == FRAME:
            context = context[1:]
            context.append(text)
        else:
            context.append(text)

#### Extracción de respuestas cortas

In [111]:
from collections import defaultdict, Counter

short_answers = {}
short_answers = defaultdict(lambda: 0, short_answers)
with open('corpus.csv', 'r') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        short_answers[row['label']] += 1

sorted(short_answers.items(), key=lambda x: x[1], reverse=True)[:10]

[('ok', 87),
 ('ja', 57),
 ('puppy', 45),
 ('😁', 36),
 ('lore', 32),
 ('dale', 31),
 ('genial', 21),
 ('si', 15),
 ('hola puppy', 13),
 ('🙂', 11)]

#### Subwords de 3 letras para el contexto

In [57]:
def to_chars(context):
    chars = []
    for line in context:
        line_to_chars = list(line)
        chars += line_to_chars
    return chars

In [100]:
CHARS = 3

def to_subwords(context):
    """
    Turns text into subwords
    """
    subwords = {}
    subwords = defaultdict(lambda: 0, subwords)
    for i in range(CHARS-1, len(context)-(CHARS-1)):
        subwords[context[i-(CHARS-1) : i+(CHARS-2)]] += 1
    return subwords

In [104]:
context = []

with open('corpus.csv', 'r') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        subwords = to_subwords(row['context'])
        context.append((subwords, row['label']))
        
print(context[0])

(defaultdict(<function to_subwords.<locals>.<lambda> at 0x7f34f0ccde18>, {'hol': 1, 'ola': 1, 'la ': 1, 'a p': 1, ' pu': 1, 'pup': 1, 'upp': 1, 'ppy': 1, 'py ': 1, 'y t': 1, ' te': 1, 'te ': 1, 'e p': 1, ' pa': 1, 'par': 1, 'are': 1, 'rec': 1, 'ece': 1, 'ce ': 1, 'e s': 1, ' si': 1, 'si ': 1, 'i n': 1, ' no': 2, 'nos': 2, 'oso': 1, 'sot': 1, 'otr': 1, 'tra': 1, 'ras': 1, 'as ': 2, 's n': 1, 'os ': 2, 's j': 1, ' ju': 1, 'jun': 1, 'unt': 1, 'nta': 1, 'tam': 1, 'amo': 1, 'mos': 1, 's u': 1, ' un': 1, 'un ': 1, 'n r': 1, ' ra': 1, 'rat': 1, 'ati': 1, 'tit': 1, 'ito': 1, 'to ': 1, 'o a': 1, ' an': 1, 'ant': 1, 'nte': 1, 'tes': 1, 'es ': 1, 's d': 1, ' de': 1, 'de ': 1, 'e l': 1, ' la': 1, 'las': 1, 's 2': 1, ' 20': 1, '20 ': 1, '0 e': 1, ' en': 1, 'en ': 1, 'n e': 1, ' el': 1, 'el ': 1, 'l o': 1, ' ol': 1, 'olm': 1}), 'dale')


### N-Gramas

In [111]:
N = 2

def count_context(sent, n=N):
    c = Counter()
    
    sent_ = ['<s>'] * (n-1) + sent + ['</s>']
    m = len(sent_)
    for i in range(m - n + 1):
        c[tuple(sent_[i:i + n])] += 1
    
    return c

In [112]:
ngram = defaultdict(Counter)
with open('corpus.csv', 'r') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        sent = row['context'].split(' ')
        ngram[row['label']] += count_context(sent)

ngram['ja']

Counter({('httpswwwfacebook631433487061081', ''): 1,
         ('el', 'jdisnabaixnah'): 1,
         ('de', 'chistes'): 1,
         ('me', 'hizo'): 1,
         ('fue', 'haja'): 1,
         ('digo', 'me'): 1,
         ('mejor', 'que'): 1,
         ('tpb', '</s>'): 1,
         ('a', 'agarrar'): 2,
         ('guada', 'pa'): 1,
         ('me', 'divierte'): 1,
         ('copan', 'uf'): 1,
         ('al', 'menos'): 2,
         ('puntualmente', 'me'): 1,
         ('q', 'ya'): 1,
         ('hacía', 'falta'): 1,
         ('bibliografía', 'bue'): 1,
         ('mano', 'o'): 1,
         ('con', 'guada'): 1,
         ('el', 'capitulo'): 1,
         ('es', 'tpb'): 1,
         ('para', 'mí'): 1,
         ('es', 'domingo'): 1,
         ('globos', 'me'): 1,
         ('juntada', 'hablamos'): 1,
         ('publicacion', 'de'): 1,
         ('una', 'vez'): 2,
         ('lo', 'importante'): 1,
         ('bien', 'y'): 1,
         ('pq', 'nos'): 1,
         ('ponele', 'toda'): 1,
         ('si', '</s>'): 1,
   

In [113]:
%store ngram

Stored 'ngram' (defaultdict)
