# Punto 1: Pre-Procesamiento

- `[11 pts]` Leer el archivo `dialogos.csv` usando `pandas`
- `[11 pts]` Crear una nueva columna con el texto en min√∫scula, sin caracteres especiales ni n√∫meros y sin palabras vacias

- Importar librerias:

In [46]:
import re
import pandas as pd

from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

from sklearn.feature_extraction.text import CountVectorizer

import operator

**1.1 Lectura archivo:**

In [2]:
# lectura de archivo
dialogos = pd.read_csv('dialogos.csv', sep=',')
dialogos.head()

Unnamed: 0,Locuci√≥n
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes raz√≥n. A lo mejor as√≠ te liberas de tu ...
3,"Pues, t√∫ sabr√°s"
4,Para m√≠ que fue Krieger


In [3]:
dialogos.shape

(959, 1)

**1.2 texto en min√∫scula, sin caracteres especiales ni n√∫meros y sin palabras vacias:**

- Definici√≥n de funciones:

In [31]:
def quitar_tildes(s):
    tildes = (
        ("√°", "a"),
        ("√©", "e"),
        ("√≠", "i"),
        ("√≥", "o"),
        ("√∫", "u"),
    )
    for origen, destino in tildes:
        s = s.replace(origen, destino)
    return s

In [32]:
def Preprocesamiento(s):
    
    texto_min = s.lower()
    texto_l = re.sub(r"[\W\d_]+", " ",texto_min)
    texto_sint = quitar_tildes(texto_l)
    texto_t = texto_sint.split()
    texto_stopW = [palabra for palabra in texto_t if palabra not in stopwords_sp]
    texto_procesado = " ".join(texto_stopW)
    
    return texto_procesado

- Creaci√≥n de nueva columna con el pre-procesamiento:

In [35]:
dialogos['pre-procesado'] = dialogos['Locuci√≥n'].apply(lambda comentario: Preprocesamiento(comentario))

In [36]:
dialogos

Unnamed: 0,Locuci√≥n,pre-procesado
0,Francamente no,francamente
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tirariais alli si pudieseis
2,Tienes raz√≥n. A lo mejor as√≠ te liberas de tu ...,razon mejor asi liberas energia nagativa
3,"Pues, t√∫ sabr√°s",pues sabras
4,Para m√≠ que fue Krieger,krieger
...,...,...
954,"Yo qu√© s√©, digo yo qu√© ser√°",digo sera
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...
956,Oooo... Me llamo Vivian,oooo llamo vivian
957,¬øDe d√≥nde? ¬øDel co√±o de tu madre?,co√±o madre


In [83]:
#" ".join(dialogos['Locuci√≥n'])

# Punto 2: Representaci√≥n vectorial

- `[11 pts]` Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada
- `[11 pts]` ¬øCu√°ntas palabras hay en el vocabulario? (Usando la funci√≥n de `sklearn`)

**2.1 Bolsa de palabras:**

In [37]:
# Se carga la funci√≥n, por defecto cuenta las frecuencias
count_vect = CountVectorizer()

# solo determina la ocurrecia de la palabra
# count_vect = CountVectorizer(binary=True)

# Representaci√≥n de Bolsa de palabras
bow_rep = count_vect.fit_transform(dialogos['pre-procesado'].values)

**2.2 ¬øcu√°ntas palabras hay en el vocabulario?**

In [45]:
print(f"El vocabulario tiene: {len(count_vect.vocabulary_)}")

El vocabulario tiene: 2103


- Vocabulario:

In [43]:
# Tipo de datos:
type(count_vect.vocabulary_)

dict

In [69]:
# ordenar el vocabulario
vocabulario_order = sorted(count_vect.vocabulary_.items(), key=operator.itemgetter(1), reverse=False)

In [74]:
# primeras 10 palabras del vocabulario
for i in range(0,10):
    print(vocabulario_order[i])
print("...")

('abastecido', 0)
('abogada', 1)
('abra', 2)
('abracen', 3)
('abracense', 4)
('abrazan', 5)
('abrazar', 6)
('abrazas', 7)
('abrazos', 8)
('abrelo', 9)
...


In [81]:
ejemplo = count_vect.transform(["abastecido abastecido abastecido abra abrazos"])
print("Representaci√≥n BoW: 'abastecido abastecido abastecido abra abrazos':", ejemplo.toarray())

Representaci√≥n BoW: 'abastecido abastecido abastecido abra abrazos': [[3 0 1 ... 0 0 0]]


# Punto 3: ü§î

- `[3pts]` ¬øEn qu√© casos es buena idea tomar en cuenta la frecuencia de las palabras para la bolsa de palabras?
- `[3pts]` ¬øCu√°ndo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

**3.1**

Puede ser √∫til para determinar de que trata el documento, ya que cuanto mas aparezca una palabra en √©l, podemos inferir sus temas m√°s relevantes.

**3.2**

Los n-gramas pueden capturar mejor la sem√°ntica del mensaje, por ejemplo los bigramas: Redes-Sociales, New-York, Me-gustas, Te-amo, entre otras.

# BONUS Punto 4: üòú

- `[1pt]` ¬øA qu√© pertenecen los dialogos del primer punto? 