<img src='https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQ-VfNtOyJbsaxu43Kztf_cv1mgBG6ZIQZEVw&usqp=CAU'>

# Procesamiento de Lenguaje Natural

## Taller #4: Pre-Procesamiento de textos y Featuring Engineering 
`Fecha de entrega: Marzo 18, 2021. (Antes del inicio de la próxima clase).`

In [3]:
import re
import pandas as pd
from collections import Counter

from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

from sklearn.feature_extraction.text import CountVectorizer

# Punto 1: Pre-Procesamiento

- `[5 pts]` Leer el archivo `dialogos.csv` usando `pandas`
- `[10 pts]` Crear una nueva columna con el texto en minúscula, sin caracteres especiales ni números y sin palabras vacias
- `[7 pts]` Usando la nueva columna, ¿cuáles son las 10 palabras más usadas? 

In [4]:
dialogos = pd.read_csv('dialogos.csv', sep=",", encoding='utf-8')
dialogos

Unnamed: 0,Locución
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes razón. A lo mejor así te liberas de tu ...
3,"Pues, tú sabrás"
4,Para mí que fue Krieger
...,...
954,"Yo qué sé, digo yo qué será"
955,Lo han entendido mal. Las joyas que venden en ...
956,Oooo... Me llamo Vivian
957,¿De dónde? ¿Del coño de tu madre?


# Crear una nueva columna con el texto en minúscula, sin caracteres especiales ni números y sin palabras vacias

In [5]:
def concat(lista):
    union = ""
    for elemento in lista:
        union = union +" " + elemento
        return union

In [6]:
dialogos['pre-procesada'] = [re.sub(r"[\W\d_]+", " ",  str(linea)) for linea in dialogos['Locución'].str.lower()]
dialogos['pre-procesada_1'] = ""

for i,linea in enumerate(dialogos['pre-procesada']):
    linea_1 = linea.split()
    linea_2 = [palabras for palabras in linea_1 if palabras not in stopwords_sp]
    dialogos['pre-procesada'][i] = concat(linea_2)
dialogos = dialogos[['Locución','pre-procesada']]

In [7]:
print(dialogos)

                                              Locución pre-procesada
0                                       Francamente no   francamente
1    Lo del canadiense. Por favor, como que vosotro...    canadiense
2    Tienes razón. A lo mejor así te liberas de tu ...         razón
3                                      Pues, tú sabrás          pues
4                              Para mí que fue Krieger       krieger
..                                                 ...           ...
954                        Yo qué sé, digo yo qué será            sé
955  Lo han entendido mal. Las joyas que venden en ...     entendido
956                            Oooo... Me llamo Vivian          oooo
957                  ¿De dónde? ¿Del coño de tu madre?         dónde
958                       Ah, sí esto podría funcionar            ah

[959 rows x 2 columns]


In [8]:
import nltk
nltk.download('stopwords')


stopwords_sp = stopwords.words('spanish')
stopwords_sp

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\andre\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

In [12]:
import pandas as pd
import collections
conteo_palabras = collections.Counter(linea_1)
print(conteo_palabras)

Counter({'ah': 1, 'sí': 1, 'esto': 1, 'podría': 1, 'funcionar': 1})


In [11]:
conteo_palabras = collections.Counter(linea_2)
print(conteo_palabras)

Counter({'ah': 1, 'podría': 1, 'funcionar': 1})


# Punto 2: Representación vectorial

- `[15 pts]` Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada (Usando la función de `sklearn`)
- `[10 pts]` ¿Cuántas palabras hay en el vocabulario? (Usando la función de `sklearn`)

In [11]:
import os
os.getcwd()
df = pd.read_csv("dialogos.csv", sep=",")
df['pre-procesada'] = df.Locución

In [12]:
BoW = df['pre-procesada'].str.cat(sep= " ")
BoW  = set(BoW .split())
BoW  = [(palabra, i+1) for i, palabra in enumerate(BoW)]
print(BoW)

[('armería', 1), ('sola', 2), ('cabra', 3), ('hablaste?', 4), ('ayudarme', 5), ('para...', 6), ('chupe', 7), ('¿Entendido?', 8), ('descortéz', 9), ('Y,', 10), ('prometo', 11), ('Eh,', 12), ('ex', 13), ('Claudia', 14), ('central', 15), ('viene', 16), ('fuerte!', 17), ('Llévanos', 18), ('¡Bien', 19), ('Acabo', 20), ('colarnos', 21), ('aplauso', 22), ('vacía?', 23), ('¿quién', 24), ('elegir', 25), ('hueca', 26), ('A', 27), ('Stern!', 28), ('Butters!', 29), ('amigos,', 30), ('diste', 31), ('figuro', 32), ('mejor.', 33), ('siglos,', 34), ('visita', 35), ('Disculpe,', 36), ('niño', 37), ('¿En', 38), ('veces.', 39), ('parecen', 40), ('pateamos', 41), ('¡Ah,', 42), ('necesario', 43), ('24', 44), ('presionar', 45), ('novatos', 46), ('acompañar', 47), ('jóven?', 48), ('cuarenta', 49), ('beba', 50), ('dense', 51), ('Mike', 52), ('amabilidad,', 53), ('platos', 54), ('Country', 55), ('compromiso,', 56), ('37', 57), ('Norths', 58), ('No', 59), ('importante', 60), ('quiera', 61), ('eres.', 62), ('not

In [16]:
count_vect = CountVectorizer() 
bow_rep = count_vect.fit_transform(dialogos['pre-procesada'].values)

print (f"Vocabulario: " , len(count_vect.vocabulary_))

AttributeError: 'NoneType' object has no attribute 'lower'

# Punto 3: 🤔

- `[3pts]` ¿Cuándo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

Cuando se necesita analizar gran volumen de información o secuencias donde se requiere extraer características comunes de grandes conjuntos de imágenes principales, sin embargo  es más util una bolsa de palabras por facilidad en su uso y su eficiencia computacional.



# BONUS Punto 4: 😜

- `[2pt]` ¿A qué pertenecen los dialogos de ese archivo? 


Busque la palabara Sarcásmobol y google dice que es el octavo episodio de la decimosexta temporada de South Park. Es el 231er episodio de toda la serie. Randy se quejaba de una medida para hacer al fútbol un juego más seguro, pero lo hacía de una manera sarcástica que nadie entendía, así que termina siendo entrenador del primer equipo de un nuevo deporte "Sarcásmobol". El episodio comienza con los chicos, Butters Stotch y Randy Marshviendo un partido de fútbol en la televisión cuando Stan Marshle dice a su padre que South Parkno les permite hace patadas de salida cuando están jugando al fútbol porque las patadas de salida son las jugadas más peligrosas en el fútbol, lo que molesta a Randy