<img src='https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQ-VfNtOyJbsaxu43Kztf_cv1mgBG6ZIQZEVw&usqp=CAU'>

# Procesamiento de Lenguaje Natural

## Taller #4: Pre-Procesamiento de textos y Featuring Engineering 
`Fecha de entrega: Marzo 18, 2021. (Antes del inicio de la pr√≥xima clase).`

In [1]:
import re
import pandas as pd
from collections import Counter

from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

from sklearn.feature_extraction.text import CountVectorizer

# Punto 1: Pre-Procesamiento

- `[5 pts]` Leer el archivo `dialogos.csv` usando `pandas`
- `[10 pts]` Crear una nueva columna con el texto en min√∫scula, sin caracteres especiales ni n√∫meros y sin palabras vacias
- `[7 pts]` Usando la nueva columna, ¬øcu√°les son las 10 palabras m√°s usadas? 

In [2]:
data = pd.read_csv("../../archivos/dialogos.csv")
data

Unnamed: 0,Locuci√≥n
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes raz√≥n. A lo mejor as√≠ te liberas de tu ...
3,"Pues, t√∫ sabr√°s"
4,Para m√≠ que fue Krieger
...,...
954,"Yo qu√© s√©, digo yo qu√© ser√°"
955,Lo han entendido mal. Las joyas que venden en ...
956,Oooo... Me llamo Vivian
957,¬øDe d√≥nde? ¬øDel co√±o de tu madre?


In [3]:
def pre_procesado(texto):
    texto = texto.lower()
    texto = re.sub(r"[\W\d_]+", " ", texto)
    texto = [palabra for palabra in texto.split() if palabra not in stopwords_sp]
    texto = " ".join(texto)
    return texto

data['pre-procesado'] = data['Locuci√≥n'].apply(lambda texto: pre_procesado(texto))

data

Unnamed: 0,Locuci√≥n,pre-procesado
0,Francamente no,francamente
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tirar√≠ais all√≠ si pudieseis
2,Tienes raz√≥n. A lo mejor as√≠ te liberas de tu ...,raz√≥n mejor as√≠ liberas energ√≠a nagativa
3,"Pues, t√∫ sabr√°s",pues sabr√°s
4,Para m√≠ que fue Krieger,krieger
...,...,...
954,"Yo qu√© s√©, digo yo qu√© ser√°",s√© digo
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...
956,Oooo... Me llamo Vivian,oooo llamo vivian
957,¬øDe d√≥nde? ¬øDel co√±o de tu madre?,d√≥nde co√±o madre


In [17]:
Counter(data['pre-procesado'].str.cat(sep=" ").split()).most_common(10)

[('bien', 36),
 ('si', 34),
 ('c√≥mo', 34),
 ('as√≠', 30),
 ('oh', 28),
 ('vamos', 26),
 ('sarcasmobol', 24),
 ('aqu√≠', 24),
 ('bueno', 24),
 ('lana', 22)]

# Punto 2: Representaci√≥n vectorial

- `[15 pts]` Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada (Usando la funci√≥n de `sklearn`)
- `[10 pts]` ¬øCu√°ntas palabras hay en el vocabulario? (Usando la funci√≥n de `sklearn`)

In [20]:
count_vect = CountVectorizer()
bow_rep = count_vect.fit_transform(data['pre-procesado'].values)

data['bow'] = [bow.toarray() for bow in bow_rep]
data

Unnamed: 0,Locuci√≥n,pre-procesado,bow
0,Francamente no,francamente,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tirar√≠ais all√≠ si pudieseis,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
2,Tienes raz√≥n. A lo mejor as√≠ te liberas de tu ...,raz√≥n mejor as√≠ liberas energ√≠a nagativa,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
3,"Pues, t√∫ sabr√°s",pues sabr√°s,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
4,Para m√≠ que fue Krieger,krieger,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
...,...,...,...
954,"Yo qu√© s√©, digo yo qu√© ser√°",s√© digo,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
956,Oooo... Me llamo Vivian,oooo llamo vivian,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."
957,¬øDe d√≥nde? ¬øDel co√±o de tu madre?,d√≥nde co√±o madre,"[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."


In [21]:
count_vect.vocabulary_

{'francamente': 822,
 'canadiense': 274,
 'favor': 803,
 'tirar√≠ais': 1939,
 'all√≠': 63,
 'si': 1817,
 'pudieseis': 1597,
 'raz√≥n': 1660,
 'mejor': 1236,
 'as√≠': 133,
 'liberas': 1115,
 'energ√≠a': 696,
 'nagativa': 1309,
 'pues': 1605,
 'sabr√°s': 1742,
 'krieger': 1092,
 'beb√©': 184,
 'lando': 1101,
 'serio': 1804,
 'randy': 1655,
 'creo': 474,
 'deporte': 580,
 'hizo': 959,
 'da√±o': 539,
 'cerebro': 315,
 'est√°te': 770,
 'quieto': 1641,
 'esperad': 749,
 'parecido': 1430,
 'archer': 110,
 'asustado': 130,
 'usted': 2004,
 'jode': 1052,
 'carajo': 288,
 'dios': 624,
 'pibe': 1497,
 'oigo': 1384,
 'claro': 349,
 'fuma': 835,
 'junto': 1080,
 'ni√±a': 1336,
 'decir': 552,
 'robotizado': 1721,
 'd√≥nde': 668,
 'co√±o': 458,
 'sacado': 1748,
 'mano': 1210,
 'bi√≥nica': 197,
 'venga': 2034,
 'subid': 1870,
 'atr√°s': 139,
 'avi√≥n': 152,
 'esperando': 751,
 'recordadme': 1670,
 'desgraciado': 595,
 'mata': 1223,
 'haga': 929,
 'jodas': 1051,
 'cyril': 515,
 'haces': 925,
 'ventana'

In [22]:
len(count_vect.vocabulary_)

2115

# Punto 3: ü§î

- `[3pts]` ¬øCu√°ndo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

# BONUS Punto 4: üòú

- `[2pt]` ¬øA qu√© pertenecen los dialogos de ese archivo? 