<img src='https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQ-VfNtOyJbsaxu43Kztf_cv1mgBG6ZIQZEVw&usqp=CAU'>

# Procesamiento de Lenguaje Natural

## Taller #4: Pre-Procesamiento de textos y Featuring Engineering 
`Fecha de entrega: Marzo 18, 2021. (Antes del inicio de la próxima clase).`

In [1]:
import re
import pandas as pd
import numpy as np
from collections import Counter

from nltk.corpus import stopwords


from sklearn.feature_extraction.text import CountVectorizer

In [2]:
stopwords_sp = stopwords.words('spanish')

# Punto 1: Pre-Procesamiento

- `[5 pts]` Leer el archivo `dialogos.csv` usando `pandas`
- `[10 pts]` Crear una nueva columna con el texto en minúscula, sin caracteres especiales ni números y sin palabras vacias
- `[7 pts]` Usando la nueva columna, ¿cuáles son las 10 palabras más usadas? 

In [4]:
df = pd.read_csv ('dialogos.csv')
df

Unnamed: 0,Locución
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes razón. A lo mejor así te liberas de tu ...
3,"Pues, tú sabrás"
4,Para mí que fue Krieger
...,...
954,"Yo qué sé, digo yo qué será"
955,Lo han entendido mal. Las joyas que venden en ...
956,Oooo... Me llamo Vivian
957,¿De dónde? ¿Del coño de tu madre?


In [5]:
df['pre-procesado'] = df['Locución'].str.lower()
df['pre-procesado'] = df['pre-procesado'].str.replace(r"[/W/d]", '')
df['pre-procesado'] = df["pre-procesado"].apply(lambda words: ' '.join(word for word in words.split() if word not in stopwords_sp))
df

Unnamed: 0,Locución,pre-procesado
0,Francamente no,francamente
1,"Lo del canadiense. Por favor, como que vosotro...","canaiense. favor, tiraríais allí si puieseis"
2,Tienes razón. A lo mejor así te liberas de tu ...,razón. mejor así liberas energía nagativa
3,"Pues, tú sabrás","pues, sabrás"
4,Para mí que fue Krieger,krieger
...,...,...
954,"Yo qué sé, digo yo qué será","sé, igo"
955,Lo han entendido mal. Las joyas que venden en ...,entenio mal. joyas venen canales siquiera nues...
956,Oooo... Me llamo Vivian,oooo... llamo vivian
957,¿De dónde? ¿Del coño de tu madre?,¿e óne? ¿el coño mare?


In [10]:
# Obtener el vocabulario
vocab_onehot = np.array([[0]*len(vocabulario)]*len(vocabulario))

palabras=[]
vocabulario = df['pre-procesado'].str.cat(sep=" ")
vocabulario = set(vocabulario.split())
vocabulario = [(palabra,i+1) for i,palabra in enumerate(vocabulario)]
#print(vocabulario)
for palabra,i in vocabulario:
    vocab_onehot[i,i] = 1
    print(f"Palabra: {palabra}")
    palabras.append(palabra)
    


Palabra: salrémos
Palabra: comprenemos
Palabra: consigo
Palabra: negamos
Palabra: menuo
Palabra: correcto,
Palabra: bret
Palabra: espalas
Palabra: llamarlos
Palabra: sentimientos,
Palabra: burel
Palabra: gustará
Palabra: sé,
Palabra: escansará
Palabra: símbolo
Palabra: primero
Palabra: aba
Palabra: olviémonos
Palabra: acceso
Palabra: copa,
Palabra: venio
Palabra: recibir
Palabra: intermeiarios.
Palabra: eso!
Palabra: intente
Palabra: calrissiano,
Palabra: fotos
Palabra: cuatrao
Palabra: areza
Palabra: creciente
Palabra: isparao!
Palabra: rayo
Palabra: ah...
Palabra: riículo,
Palabra: cabrearme?
Palabra: ropa,
Palabra: ochenta
Palabra: compasión
Palabra: oíos,
Palabra: plan
Palabra: bell,
Palabra: refería
Palabra: pareczo
Palabra: esperma?
Palabra: rimó
Palabra: puee
Palabra: usa
Palabra: clavos,
Palabra: hija?
Palabra: ame
Palabra: cal..
Palabra: romperé
Palabra: brazos
Palabra: eja
Palabra: comprar
Palabra: sabe
Palabra: harémos
Palabra: venemos
Palabra: crucial,
Palabra: puntos
Palab

IndexError: index 2855 is out of bounds for axis 0 with size 2855

In [11]:
counter = Counter()
counter.update(palabras)
most_common = counter.most_common(20)
most_common

[('salrémos', 1),
 ('comprenemos', 1),
 ('consigo', 1),
 ('negamos', 1),
 ('menuo', 1),
 ('correcto,', 1),
 ('bret', 1),
 ('espalas', 1),
 ('llamarlos', 1),
 ('sentimientos,', 1),
 ('burel', 1),
 ('gustará', 1),
 ('sé,', 1),
 ('escansará', 1),
 ('símbolo', 1),
 ('primero', 1),
 ('aba', 1),
 ('olviémonos', 1),
 ('acceso', 1),
 ('copa,', 1)]

# Punto 2: Representación vectorial

- `[15 pts]` Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada (Usando la función de `sklearn`)
- `[10 pts]` ¿Cuántas palabras hay en el vocabulario? (Usando la función de `sklearn`)

In [18]:
count_vect = CountVectorizer()
bow_rep = count_vect.fit_transform(df["pre-procesado"].values)

df['bow'] = [row for row in bow_rep.toarray()]
df

Unnamed: 0,Locución,pre-procesado,bow
0,Francamente no,francamente,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
1,"Lo del canadiense. Por favor, como que vosotro...","canaiense. favor, tiraríais allí si puieseis","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
2,Tienes razón. A lo mejor así te liberas de tu ...,razón. mejor así liberas energía nagativa,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
3,"Pues, tú sabrás","pues, sabrás","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
4,Para mí que fue Krieger,krieger,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
...,...,...,...
954,"Yo qué sé, digo yo qué será","sé, igo","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
955,Lo han entendido mal. Las joyas que venden en ...,entenio mal. joyas venen canales siquiera nues...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
956,Oooo... Me llamo Vivian,oooo... llamo vivian,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
957,¿De dónde? ¿Del coño de tu madre?,¿e óne? ¿el coño mare?,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."


In [27]:
total=0
for n in palabras:
    total += 1
total

2854

# Punto 3: 🤔

- `[3pts]` ¿Cuándo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

# BONUS Punto 4: 😜

- `[2pt]` ¿A qué pertenecen los dialogos de ese archivo? 

# PDF Reconocimiento automatico del sarcasmo