## Taller #4: Feature Engineering

In [1]:
import re
import pandas as pd
import numpy as np
from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

from sklearn.feature_extraction.text import CountVectorizer

# Punto 1: Pre-Procesamiento

-  Leer el archivo `dialogos.csv` usando `pandas`
-  Crear una nueva columna con el texto en minúscula, sin caracteres especiales ni números y sin palabras vacias

In [2]:
df = pd.read_csv('dialogos.csv')
df # Datos en bruto

Unnamed: 0,Locución
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes razón. A lo mejor así te liberas de tu ...
3,"Pues, tú sabrás"
4,Para mí que fue Krieger
...,...
954,"Yo qué sé, digo yo qué será"
955,Lo han entendido mal. Las joyas que venden en ...
956,Oooo... Me llamo Vivian
957,¿De dónde? ¿Del coño de tu madre?


In [3]:
def sentence(lista):
    sent_str = ""
    for i in lista:
        sent_str += str(i) + "   "
        sent_str = sent_str[:-1]
    return sent_str


In [4]:
def remove_stopwords(word_list): 
    processed_word_list = [] 
    for word in word_list: 
        word = word.lower() # minúscula
        if word not in stopwords_sp: 
            processed_word_list.append(word) 
    return processed_word_list 

In [5]:
df['pre-proc'] = [re.sub(r'[\W\d_]+',' ', str(frase)) for frase in df['Locución']]
df['pre-procesado'] = ""

for i,frase in enumerate(df['pre-proc']):
    token = frase.split()
    sinvacias = remove_stopwords(token)
    df['pre-procesado'][i] = sentence(sinvacias)
newdf = df[['Locución','pre-procesado']]
newdf

Unnamed: 0,Locución,pre-procesado
0,Francamente no,francamente
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tiraríais allí si pudies...
2,Tienes razón. A lo mejor así te liberas de tu ...,razón mejor así liberas energía nagativa
3,"Pues, tú sabrás",pues sabrás
4,Para mí que fue Krieger,krieger
...,...,...
954,"Yo qué sé, digo yo qué será",sé digo
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquie...
956,Oooo... Me llamo Vivian,oooo llamo vivian
957,¿De dónde? ¿Del coño de tu madre?,dónde coño madre


# Punto 2: Representación vectorial

-  Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada
-  ¿Cuántas palabras hay en el vocabulario? (Usando la función de `sklearn`)

In [6]:
# BoW usando la columna pre-procesada
count_vect = CountVectorizer()
bow = count_vect.fit_transform(newdf['pre-procesado'].values)

In [7]:
len(count_vect.vocabulary_)

2115

# Punto 3: 🤔

-  ¿En qué casos es buena idea tomar en la cuenta la frecuencia de las palabras para la bolsa de palabras?
En casos en los que queremos conocer cuál es el tema principal de un texto, por ejemplo en un texto de quejas de servicio al cliente, al tener las palabras que más frecuencia tienen podemos tener un acercamiento a lo que los clientes mencionan mas en sus quejas. 
-  ¿Cuándo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?
Cuando se requiere un contexto, por ejemplo al hacer análisis de sentimientos, se requiere entrenar un modelo usando diferentes grupos de palabras ya que la posición de las palabras puede afectar el significado, así que su uso puede ser más útil que la bolsa de palabras para describir el texto.  

# BONUS Punto 4: 😜

-  ¿A qué pertenecen los dialogos del primer punto? 
"This dataset contains all utterances of two episodes of South Park (Latin American voices) and two episodes of Archer (Spanish voices)" https://www.kaggle.com/mikahama/the-best-sarcasm-annotated-dataset-in-spanish 