<img src='https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQ-VfNtOyJbsaxu43Kztf_cv1mgBG6ZIQZEVw&usqp=CAU'>

# Procesamiento de Lenguaje Natural

## Taller #4: Pre-Procesamiento de textos y Featuring Engineering 
`Fecha de entrega: Marzo 18, 2021. (Antes del inicio de la pr√≥xima clase).`

In [8]:
import re
import pandas as pd
from collections import Counter
import operator

from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

from sklearn.feature_extraction.text import CountVectorizer

# Punto 1: Pre-Procesamiento

- `[5 pts]` Leer el archivo `dialogos.csv` usando `pandas`
- `[10 pts]` Crear una nueva columna con el texto en min√∫scula, sin caracteres especiales ni n√∫meros y sin palabras vacias
- `[7 pts]` Usando la nueva columna, ¬øcu√°les son las 10 palabras m√°s usadas? 

In [9]:
#Lectura de archivo
documento=pd.read_csv("C:/CarlosH/Personal/Esp_Analitica/Electiva_NLP/dialogos.csv")             
documento

Unnamed: 0,Locuci√≥n
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes raz√≥n. A lo mejor as√≠ te liberas de tu ...
3,"Pues, t√∫ sabr√°s"
4,Para m√≠ que fue Krieger
...,...
954,"Yo qu√© s√©, digo yo qu√© ser√°"
955,Lo han entendido mal. Las joyas que venden en ...
956,Oooo... Me llamo Vivian
957,¬øDe d√≥nde? ¬øDel co√±o de tu madre?


In [10]:
#Limpieza de texto
def limpieza_texto(texto):
        texto=texto.lower()
        texto=re.sub(r"[\W\d]"," ",texto)
        texto=texto.split()
        texto=[letra for letra in texto if letra not in stopwords_sp]
        pal=''
        for k in texto:
            pal=pal+k+' '
        return pal

#Creaci√≥n de una nueva columna donde se almacena texto limpio    
frases=[]

#Rutina que lee frases del documento para realizar limpieza 
for i in documento.index:
        palabra=limpieza_texto(documento.iloc[i]['Locuci√≥n'])
        frases.append(palabra)

#Incorporaci√≥n de frases limpias al dataframe        
documento['preprocesada'] = frases 
documento
    
    


Unnamed: 0,Locuci√≥n,preprocesada
0,Francamente no,francamente
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tirar√≠ais all√≠ si pudieseis
2,Tienes raz√≥n. A lo mejor as√≠ te liberas de tu ...,raz√≥n mejor as√≠ liberas energ√≠a nagativa
3,"Pues, t√∫ sabr√°s",pues sabr√°s
4,Para m√≠ que fue Krieger,krieger
...,...,...
954,"Yo qu√© s√©, digo yo qu√© ser√°",s√© digo
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...
956,Oooo... Me llamo Vivian,oooo llamo vivian
957,¬øDe d√≥nde? ¬øDel co√±o de tu madre?,d√≥nde co√±o madre


In [11]:
#Preparai√≥n de texto para realizar conteo de palabras
texto=documento['preprocesada'].str.cat(sep=' ')
texto=texto.split(" ")

#Creaci√≥n de diccionario que contiene frecuencia de presencia de palabras
diccionario_frecuencias={}
for letra in texto:
    if letra in diccionario_frecuencias:
        diccionario_frecuencias[letra]+=1
    else:
        diccionario_frecuencias[letra]=1
        
#Ordenamiento de palabras segun frecuencia
resultado = sorted(diccionario_frecuencias.items(), key=operator.itemgetter(1))

#Extraci√≥n de palabras con mayor frecuencia
Top_palabras=[]
conta=3
for i in range(1,11):
    Top_palabras.append(resultado[i-conta])
    conta+=2
Top_palabras

[('bien', 36),
 ('c√≥mo', 34),
 ('si', 34),
 ('as√≠', 30),
 ('oh', 28),
 ('vamos', 26),
 ('bueno', 24),
 ('aqu√≠', 24),
 ('sarcasmobol', 24),
 ('lana', 22)]

# Punto 2: Representaci√≥n vectorial

- `[15 pts]` Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada (Usando la funci√≥n de `sklearn`)
- `[10 pts]` ¬øCu√°ntas palabras hay en el vocabulario? (Usando la funci√≥n de `sklearn`)

In [12]:
#Creai√≥n de Bolsa de palabras
count_vect= CountVectorizer()
bow_rep= count_vect.fit_transform(documento.preprocesada.values)
documento['bow']= [row for row in bow_rep.toarray()]
documento


Unnamed: 0,Locuci√≥n,preprocesada,bow
0,Francamente no,francamente,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tirar√≠ais all√≠ si pudieseis,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
2,Tienes raz√≥n. A lo mejor as√≠ te liberas de tu ...,raz√≥n mejor as√≠ liberas energ√≠a nagativa,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
3,"Pues, t√∫ sabr√°s",pues sabr√°s,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
4,Para m√≠ que fue Krieger,krieger,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
...,...,...,...
954,"Yo qu√© s√©, digo yo qu√© ser√°",s√© digo,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
956,Oooo... Me llamo Vivian,oooo llamo vivian,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
957,¬øDe d√≥nde? ¬øDel co√±o de tu madre?,d√≥nde co√±o madre,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."


In [16]:
#Vocabulario
print(f"El n√∫mero total de palabras en el vocabulario es:{bow_rep.shape[1]}")

El n√∫mero total de palabras en el vocabulario es:2115


# Punto 3: ü§î

- `[3pts]` ¬øCu√°ndo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

In [None]:
a. Cuando se requiere conservar el orden dela informaci√≥n
b. Para evaluar un modelo de lenguaje
c. Cuando se requiere capturar la estrutura o orden de la informaci√≥n
d. Cuando se requiere realizar an√°lisis de sentimientos
e. Clasifiaci√≥n autom√°tica de textos
f. 

# BONUS Punto 4: üòú

- `[2pt]` ¬øA qu√© pertenecen los dialogos de ese archivo? 