<img src='https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQ-VfNtOyJbsaxu43Kztf_cv1mgBG6ZIQZEVw&usqp=CAU'>

# Procesamiento de Lenguage Natural

## Taller #4: Feature Engineering 
`Fecha de entrega: Septiembre 12, 2020. (Antes del inicio de la próxima clase).`

`Modo de entrega: Subir link de GitHub al aula virtual.`

In [39]:
import re
import pandas as pd

from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

from sklearn.feature_extraction.text import CountVectorizer

# Punto 1: Pre-Procesamiento

- `[11 pts]` Leer el archivo `dialogos.csv` usando `pandas`
- `[11 pts]` Crear una nueva columna con el texto en minúscula, sin caracteres especiales ni números y sin palabras vacias

In [14]:
datos = pd.read_csv("dialogos.csv")
datos.head()

Unnamed: 0,Locución
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes razón. A lo mejor así te liberas de tu ...
3,"Pues, tú sabrás"
4,Para mí que fue Krieger


In [38]:
# Datos con la nueva columna
REGEX = r"[\W\d_]+"
datos['preprocesado'] = datos['Locución'].str.lower() # paso a minuscula
datos['preprocesado'] = datos.apply(lambda row: " ".join([p for p in re.sub(REGEX, " ", row.preprocesado).split() if p not in stopwords_sp]), axis = 1)
datos.head(10)

Unnamed: 0,Locución,preprocesado
0,Francamente no,francamente
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tiraríais allí si pudieseis
2,Tienes razón. A lo mejor así te liberas de tu ...,razón mejor así liberas energía nagativa
3,"Pues, tú sabrás",pues sabrás
4,Para mí que fue Krieger,krieger
5,Y por qué tienes un bebé?,bebé
6,Lando,lando
7,"En serio Randy, creo que este deporte le hizo ...",serio randy creo deporte hizo daño cerebro
8,"Para, estáte quieto, para",estáte quieto
9,Esperad. No os ha parecido Archer un poco asus...,esperad parecido archer asustado


# Punto 2: Representación vectorial

- `[11 pts]` Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada
- `[11 pts]` ¿Cuántas palabras hay en el vocabulario? (Usando la función de `sklearn`)

In [55]:
# BoW usando la columna pre-procesada
def bow(frase, vocabulario):
    frase_bow = [0]*len(vocabulario)
    for palabra,i in vocabulario:
        if palabra in frase.split():
            frase_bow[i-1] = 1
    print(frase_bow)

In [60]:
def get_vocabulary(datos):
    vocabulario = set(datos.preprocesado.str.cat(sep=" ").split())
    vocabulario = [(palabra,i+1) for i,palabra in enumerate(vocabulario)]
    return vocabulario

In [64]:
vocabulario = get_vocabulary(datos)

frase1 = "razón mejor así liberas energía nagativa"
print(f"Bolsa de palabras para la frase => {frase1} \n")
bow(frase1, vocabulario)

Bolsa de palabras para la frase => razón mejor así liberas energía nagativa 

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

In [65]:
count_vect = CountVectorizer()
bow_rep = count_vect.fit_transform(datos.preprocesado.values)
print(f"Hay {len(count_vect.vocabulary_)} palabras en el vocabulario.")

Hay 2115 palabras en el vocabulario.


# Punto 3: 🤔

- `[3pts]` ¿En qué casos es buena idea tomar en la cuenta la frecuencia de las palabras para la bolsa de palabras?
- `[3pts]` ¿Cuándo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

### ¿En qué casos es buena idea tomar en la cuenta la frecuencia de las palabras para la bolsa de palabras?


##### Casos:
- Constuir una nube de palabras. me sirve la frecuencia de cada una para construirla y ver que palabras se usa más un texto.
- Revisar "muletillas" en un texto. Si quiere revisar si un texto pequeó o grande (chats, articulos, libros) esta usando mcuho una palabra que no se puede decir o que la persona tiene como muletilla. Esa frecuencia me permitirá identificarla.
- Descubrir el tema u objeto que habla un texto. 

### ¿Cuándo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

- Cuando necesitemos detectar similitudes entre textos o documentos es mejor hacerlo por n-gramas que palabra por palabra, por cuestión de rendimiento.
- Cuando neceistemos encontrar palabras clave (compuestas por 2 o mas palabras) en un texto como ejemplo [Mackbook pro] [Nueva Zelanda]. 

# BONUS Punto 4: 😜

- `[1pt]` ¿A qué pertenecen los dialogos del primer punto? 


Los dialogos pertenecen a conversaciones transcritas por un investigador que decidió trasncribir las conversaciones de las series de South Park y Archer. Lo que hizo fué transcirbir lo que decian, creó un CSV con las columnas del actor, la locuciòn o lo que dice y una columnna bool que era la marca de sarcasmo o no sarcasmo.
El trabajo y algunos datos del corpues se encuentran en el PDF en este repo.