<img src='https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQ-VfNtOyJbsaxu43Kztf_cv1mgBG6ZIQZEVw&usqp=CAU'>

# Procesamiento de Lenguaje Natural

## Taller #4: Pre-Procesamiento de textos y Featuring Engineering 
`Fecha de entrega: Marzo 18, 2021. (Antes del inicio de la pr√≥xima clase).`

In [20]:
import re
import pandas as pd
from collections import Counter

from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

from sklearn.feature_extraction.text import CountVectorizer

# Punto 1: Pre-Procesamiento

- `[5 pts]` Leer el archivo `dialogos.csv` usando `pandas`
- `[10 pts]` Crear una nueva columna con el texto en min√∫scula, sin caracteres especiales ni n√∫meros y sin palabras vacias
- `[7 pts]` Usando la nueva columna, ¬øcu√°les son las 10 palabras m√°s usadas? 

In [21]:
df_dialogos = pd.read_csv("dialogos.csv")
df_dialogos

Unnamed: 0,Locuci√≥n
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes raz√≥n. A lo mejor as√≠ te liberas de tu ...
3,"Pues, t√∫ sabr√°s"
4,Para m√≠ que fue Krieger
...,...
954,"Yo qu√© s√©, digo yo qu√© ser√°"
955,Lo han entendido mal. Las joyas que venden en ...
956,Oooo... Me llamo Vivian
957,¬øDe d√≥nde? ¬øDel co√±o de tu madre?


In [70]:
pre = df_dialogos["Locuci√≥n"].apply(lambda x: [words for words in re.sub(r"[\W\d]", " ", x.lower().strip()).split() if words not in stopwords_sp])
df_dialogos["pre-procesado"] = pd.DataFrame(pre)["Locuci√≥n"].apply(lambda x: ' '.join(x))
df_dialogos

Unnamed: 0,Locuci√≥n,pre-procesado
0,Francamente no,francamente
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tirar√≠ais all√≠ si pudieseis
2,Tienes raz√≥n. A lo mejor as√≠ te liberas de tu ...,raz√≥n mejor as√≠ liberas energ√≠a nagativa
3,"Pues, t√∫ sabr√°s",pues sabr√°s
4,Para m√≠ que fue Krieger,krieger
...,...,...
954,"Yo qu√© s√©, digo yo qu√© ser√°",s√© digo
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...
956,Oooo... Me llamo Vivian,oooo llamo vivian
957,¬øDe d√≥nde? ¬øDel co√±o de tu madre?,d√≥nde co√±o madre


In [85]:
text = df_dialogos["pre-procesado"].str.cat(sep=" ")
wordlist = text.split()
wordcount = [wordlist.count(w) for w in wordlist]
pairs = list(set(zip(wordlist, wordcount)))
sorted_pairs = sorted(pairs, key=lambda x: x[1], reverse=True)
sorted_pairs[:10]

[('bien', 36),
 ('si', 34),
 ('c√≥mo', 34),
 ('as√≠', 30),
 ('oh', 28),
 ('vamos', 26),
 ('sarcasmobol', 24),
 ('bueno', 24),
 ('aqu√≠', 24),
 ('lana', 22)]

# Punto 2: Representaci√≥n vectorial

- `[15 pts]` Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada (Usando la funci√≥n de `sklearn`)
- `[10 pts]` ¬øCu√°ntas palabras hay en el vocabulario? (Usando la funci√≥n de `sklearn`)

In [86]:
count_vect = CountVectorizer() # CountVectorizer(binary=True) si no nos importa la frecuencia
bow_rep = count_vect.fit_transform(df_dialogos["pre-procesado"].values)
df_dialogos['bow'] = [row for row in bow_rep.toarray()]
df_dialogos

Unnamed: 0,Locuci√≥n,pre-procesado,bow
0,Francamente no,francamente,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tirar√≠ais all√≠ si pudieseis,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
2,Tienes raz√≥n. A lo mejor as√≠ te liberas de tu ...,raz√≥n mejor as√≠ liberas energ√≠a nagativa,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
3,"Pues, t√∫ sabr√°s",pues sabr√°s,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
4,Para m√≠ que fue Krieger,krieger,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
...,...,...,...
954,"Yo qu√© s√©, digo yo qu√© ser√°",s√© digo,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
956,Oooo... Me llamo Vivian,oooo llamo vivian,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
957,¬øDe d√≥nde? ¬øDel co√±o de tu madre?,d√≥nde co√±o madre,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."


In [89]:
print(f"cantidad de palabras en el vocabulario: {len(count_vect.vocabulary_)}")

cantidad de palabras en el vocabulario: 2115


# Punto 3: ü§î

- `[3pts]` ¬øCu√°ndo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

**R:/ Cuando es necesario tener en cuenta informaci√≥n sobre el contexto y orden**

# BONUS Punto 4: üòú

- `[2pt]` ¬øA qu√© pertenecen los dialogos de ese archivo? 

**R:/ "pertenecen a dos episodios de South Park con voces latinoamericanas y dos episodios de Archer con voces en espa√±ol de Espa√±a" - https://www.researchgate.net/publication/339182029_Reconocimiento_automatico_del_sarcasmo_Esto_va_a_funcionar_bien**
