# Pre procesamiento

Como habíamos dicho es mejor pre procesar las palabras

In [1]:
from string import punctuation
import pandas as pd
import re
import unicodedata

Definamos las reglas de preprocesamiento

In [2]:
STOP_WORDS = punctuation + '¡' + '¿'

def dig2num(text):
    return re.sub('(\d+[\WxX]*[^ ]*)+', 'NUM', text)

def rm_tildes(text):
    return ''.join((c for c in unicodedata.normalize('NFD', text) if unicodedata.category(c) != 'Mn'))

def rm_media(text):
    return re.sub(r'<archivo omitido>|<media omitted>', 'MEDIA', text)

def rm_repeated(text):
    return re.sub(r'([aeourshmi ])\1{2,}', r'\1', text)

def rm_ok(text):
    return re.sub('(ok)+[akis]*', 'ok', text)

def rm_sw(text):
    return re.sub('{1}{0}{1}'.format(STOP_WORDS, '[]'), '', text)

def rm_ja(text):
    return re.sub('(ja[ja(js)]*)+', 'ja', text)

def rm_si(text):
    return re.sub('[s]+[i]+', 'si', text)

def to_low(text):
    return text.lower()

def clean_text(text):
    return rm_media(rm_tildes(to_low(text)))

def clean_text_1(text):
    return dig2num(rm_si(rm_ok(rm_ja(rm_repeated(clean_text(text))))))

In [3]:
df = pd.read_csv('corpus.csv')
df.head(30)

Unnamed: 0,id,owner,date,hour,message
0,1,USER0,1/27/16,12:24,<Media omitted>
1,1,USER0,2/4/16,09:50,Lee Esta Historia! . Una mujer muy en...
2,1,USER0,4/4/16,11:28,Hola Dani!vos sabes a donde venden fotocopiado...
3,1,USER1,4/4/16,11:37,Le pregunto a mi jefe
4,1,USER0,4/4/16,11:38,Gracias!!!!Para cuando sabes?
5,1,USER0,4/4/16,11:38,💃
6,1,USER1,4/4/16,11:40,Le pregunto ahora a ver si sabe algo :P
7,1,USER0,4/4/16,11:59,👏👏👏👏👏
8,1,USER0,4/6/16,08:46,"✳Whatsapp le comunica, . que debido a la canti..."
9,1,USER1,4/6/16,08:46,Jajaja


In [4]:
df_cleaned = pd.DataFrame(
    [
        (id, owner, date, hour, clean_text_1(message))
        for (id, owner, date, hour, message) in [
            row for index, row in df.iterrows()
        ]
    ],
    columns=['id', 'owner', 'date', 'hour', 'message']
)
df_cleaned.head(30)

Unnamed: 0,id,owner,date,hour,message
0,1,USER0,1/27/16,12:24,MEDIA
1,1,USER0,2/4/16,09:50,lee esta historia! . una mujer muy enferma son...
2,1,USER0,4/4/16,11:28,hola dani!vos sabes a donde venden fotocopiado...
3,1,USER1,4/4/16,11:37,le pregunto a mi jefe
4,1,USER0,4/4/16,11:38,gracias!!!!para cuando sabes?
5,1,USER0,4/4/16,11:38,💃
6,1,USER1,4/4/16,11:40,le pregunto ahora a ver si sabe algo :p
7,1,USER0,4/4/16,11:59,👏👏👏👏👏
8,1,USER0,4/6/16,08:46,"✳whatsapp le comunica, . que debido a la canti..."
9,1,USER1,4/6/16,08:46,ja


In [5]:
df_cleaned.to_csv(path_or_buf='preprocessed_corpus.csv')

Veamos como sería la nueva distribución

In [8]:
from collections import Counter
from itertools import chain

distribution_words = Counter(chain.from_iterable(df_cleaned.message.map(lambda x: clean_text_1(x).split())))

In [9]:
df_distribution = pd.DataFrame(
    data={
        'word': list(distribution_words.keys()), 
        'counter': list(distribution_words.values())
    }
)

In [10]:
new_df = df_distribution[df_distribution.counter > 10]

In [11]:
new_df.count()

counter    5712
word       5712
dtype: int64

In [12]:
new_df.sort_values('counter', ascending=False).head(20)

Unnamed: 0,counter,word
10,29282,que
35,25644,de
14,22331,a
90,20821,no
21,20806,la
44,19614,el
199,18928,ja
29,18214,y
0,16233,media
75,15275,num


In [13]:
new_df.sort_values('counter').head(20)

Unnamed: 0,counter,word
9647,11,aparezco
2445,11,mate.
6634,11,pareciera
31393,11,intentado
30255,11,usaste?
6650,11,cumplan
16105,11,demora
1319,11,define
16118,11,estube
41511,11,iau


Las listas de palabras tienen más sentido