<img src='https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQ-VfNtOyJbsaxu43Kztf_cv1mgBG6ZIQZEVw&usqp=CAU'>

# Procesamiento de Lenguaje Natural

## Taller #4: Pre-Procesamiento de textos y Featuring Engineering 
`Fecha de entrega: Marzo 18, 2021. (Antes del inicio de la próxima clase).`

In [1]:
import re
import pandas as pd
from collections import Counter
from itertools import chain

from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

from sklearn.feature_extraction.text import CountVectorizer

# Punto 1: Pre-Procesamiento

- `[5 pts]` Leer el archivo `dialogos.csv` usando `pandas`
- `[10 pts]` Crear una nueva columna con el texto en minúscula, sin caracteres especiales ni números y sin palabras vacias
- `[7 pts]` Usando la nueva columna, ¿cuáles son las 10 palabras más usadas? 

## * Leer el archivo dialogos.csv usando pandas

In [2]:
dialogos = pd.read_csv("C:/Users/user/Documents/ESPECIALIZACION/LNP/Archivos/dialogos.csv")
dialogos

Unnamed: 0,Locución
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes razón. A lo mejor así te liberas de tu ...
3,"Pues, tú sabrás"
4,Para mí que fue Krieger
...,...
954,"Yo qué sé, digo yo qué será"
955,Lo han entendido mal. Las joyas que venden en ...
956,Oooo... Me llamo Vivian
957,¿De dónde? ¿Del coño de tu madre?


## * Crear una nueva columna con el texto en minúscula, sin caracteres especiales ni números y sin palabras vacias

In [3]:
dialogos2 = dialogos.assign(pre_procesado= dialogos.values)
dialogos2["pre_procesado"] = dialogos2["pre_procesado"].apply(lambda x: re.sub(r"[\W\d]", ' ', x.lower()))
dialogos2["pre_procesado"] = dialogos2["pre_procesado"].str.split()
dialogos2["pre_procesado"] = dialogos2["pre_procesado"].apply(lambda words: " ".join(word for word in words if word not in stopwords_sp))
dialogos2

Unnamed: 0,Locución,pre_procesado
0,Francamente no,francamente
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tiraríais allí si pudieseis
2,Tienes razón. A lo mejor así te liberas de tu ...,razón mejor así liberas energía nagativa
3,"Pues, tú sabrás",pues sabrás
4,Para mí que fue Krieger,krieger
...,...,...
954,"Yo qué sé, digo yo qué será",sé digo
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...
956,Oooo... Me llamo Vivian,oooo llamo vivian
957,¿De dónde? ¿Del coño de tu madre?,dónde coño madre


## * Usando la nueva columna, ¿cuáles son las 10 palabras más usadas? 

In [4]:
counter = Counter(chain.from_iterable(map(str.split, dialogos2["pre_procesado"].tolist()))) 
palabras = pd.Series(counter).sort_values(ascending=False).head(10)
palabras

bien           36
cómo           34
si             34
así            30
oh             28
vamos          26
sarcasmobol    24
bueno          24
aquí           24
lana           22
dtype: int64

# Punto 2: Representación vectorial

- `[15 pts]` Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada (Usando la función de `sklearn`)
- `[10 pts]` ¿Cuántas palabras hay en el vocabulario? (Usando la función de `sklearn`)

## * Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada (Usando la función de sklearn)

In [5]:
count_vect = CountVectorizer()
bow_rep = count_vect.fit_transform(dialogos2.pre_procesado.values)
dialogos2['BoW'] = [row for row in bow_rep.toarray()]
dialogos2

Unnamed: 0,Locución,pre_procesado,BoW
0,Francamente no,francamente,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tiraríais allí si pudieseis,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
2,Tienes razón. A lo mejor así te liberas de tu ...,razón mejor así liberas energía nagativa,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
3,"Pues, tú sabrás",pues sabrás,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
4,Para mí que fue Krieger,krieger,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
...,...,...,...
954,"Yo qué sé, digo yo qué será",sé digo,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
956,Oooo... Me llamo Vivian,oooo llamo vivian,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
957,¿De dónde? ¿Del coño de tu madre?,dónde coño madre,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."


## * ¿Cuántas palabras hay en el vocabulario? (Usando la función de sklearn)

In [6]:
len(dialogos2["BoW"][0])

2115

# Punto 3: 🤔

- `[3pts]` ¿Cuándo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

#### Es una mejor idea utilizar una bolsa de n-gramas cuando se requiere tener contexto y mayor orden, ya que la bolsa de palabras ignora estos 2 atributos.

# BONUS Punto 4: 😜

- `[2pt]` ¿A qué pertenecen los dialogos de ese archivo? 

#### Este conjunto de datos contiene diálogos de dos episodios de South Park (voces latinoamericanas) y dos episodios de Archer (voces españolas).  

#### Forman parte del trabajo de grado: "Reconocimiento automático del sarcasmo: ¡Esto va a funcionar bien!". Helsinki: Universidad de Helsinki, Departamento de Lenguas Modernas.Hämäläinen, Mika (2016). 

**Taller desarrollado por: Sandra Karina Osorio Ch. - G51**