# Punto 1: Pre-Procesamiento

- `[11 pts]` Leer el archivo `dialogos.csv` usando `pandas`
- `[11 pts]` Crear una nueva columna con el texto en minúscula, sin caracteres especiales ni números y sin palabras vacias

- Importar librerias:

In [46]:
import re
import pandas as pd

from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

from sklearn.feature_extraction.text import CountVectorizer

import operator

**1.1 Lectura archivo:**

In [2]:
# lectura de archivo
dialogos = pd.read_csv('dialogos.csv', sep=',')
dialogos.head()

Unnamed: 0,Locución
0,Francamente no
1,"Lo del canadiense. Por favor, como que vosotro..."
2,Tienes razón. A lo mejor así te liberas de tu ...
3,"Pues, tú sabrás"
4,Para mí que fue Krieger


In [3]:
dialogos.shape

(959, 1)

**1.2 texto en minúscula, sin caracteres especiales ni números y sin palabras vacias:**

- Definición de funciones:

In [31]:
def quitar_tildes(s):
    tildes = (
        ("á", "a"),
        ("é", "e"),
        ("í", "i"),
        ("ó", "o"),
        ("ú", "u"),
    )
    for origen, destino in tildes:
        s = s.replace(origen, destino)
    return s

In [32]:
def Preprocesamiento(s):
    
    texto_min = s.lower()
    texto_l = re.sub(r"[\W\d_]+", " ",texto_min)
    texto_sint = quitar_tildes(texto_l)
    texto_t = texto_sint.split()
    texto_stopW = [palabra for palabra in texto_t if palabra not in stopwords_sp]
    texto_procesado = " ".join(texto_stopW)
    
    return texto_procesado

- Creación de nueva columna con el pre-procesamiento:

In [35]:
dialogos['pre-procesado'] = dialogos['Locución'].apply(lambda comentario: Preprocesamiento(comentario))

In [36]:
dialogos

Unnamed: 0,Locución,pre-procesado
0,Francamente no,francamente
1,"Lo del canadiense. Por favor, como que vosotro...",canadiense favor tirariais alli si pudieseis
2,Tienes razón. A lo mejor así te liberas de tu ...,razon mejor asi liberas energia nagativa
3,"Pues, tú sabrás",pues sabras
4,Para mí que fue Krieger,krieger
...,...,...
954,"Yo qué sé, digo yo qué será",digo sera
955,Lo han entendido mal. Las joyas que venden en ...,entendido mal joyas venden canales siquiera in...
956,Oooo... Me llamo Vivian,oooo llamo vivian
957,¿De dónde? ¿Del coño de tu madre?,coño madre


In [83]:
#" ".join(dialogos['Locución'])

# Punto 2: Representación vectorial

- `[11 pts]` Crear una bolsa de palabras (BoW) del corpus usando la columna pre-procesada
- `[11 pts]` ¿Cuántas palabras hay en el vocabulario? (Usando la función de `sklearn`)

**2.1 Bolsa de palabras:**

In [37]:
# Se carga la función, por defecto cuenta las frecuencias
count_vect = CountVectorizer()

# solo determina la ocurrecia de la palabra
# count_vect = CountVectorizer(binary=True)

# Representación de Bolsa de palabras
bow_rep = count_vect.fit_transform(dialogos['pre-procesado'].values)

**2.2 ¿cuántas palabras hay en el vocabulario?**

In [45]:
print(f"El vocabulario tiene: {len(count_vect.vocabulary_)}")

El vocabulario tiene: 2103


- Vocabulario:

In [43]:
# Tipo de datos:
type(count_vect.vocabulary_)

dict

In [69]:
# ordenar el vocabulario
vocabulario_order = sorted(count_vect.vocabulary_.items(), key=operator.itemgetter(1), reverse=False)

In [74]:
# primeras 10 palabras del vocabulario
for i in range(0,10):
    print(vocabulario_order[i])
print("...")

('abastecido', 0)
('abogada', 1)
('abra', 2)
('abracen', 3)
('abracense', 4)
('abrazan', 5)
('abrazar', 6)
('abrazas', 7)
('abrazos', 8)
('abrelo', 9)
...


In [81]:
ejemplo = count_vect.transform(["abastecido abastecido abastecido abra abrazos"])
print("Representación BoW: 'abastecido abastecido abastecido abra abrazos':", ejemplo.toarray())

Representación BoW: 'abastecido abastecido abastecido abra abrazos': [[3 0 1 ... 0 0 0]]


# Punto 3: 🤔

- `[3pts]` ¿En qué casos es buena idea tomar en cuenta la frecuencia de las palabras para la bolsa de palabras?
- `[3pts]` ¿Cuándo es una mejor idea usar una bolsa de n-gramas en vez de una bolsa de palabras?

**3.1**

Puede ser útil para determinar de que trata el documento, ya que cuanto mas aparezca una palabra en él, podemos inferir sus temas más relevantes.

**3.2**

Los n-gramas pueden capturar mejor la semántica del mensaje, por ejemplo los bigramas: Redes-Sociales, New-York, Me-gustas, Te-amo, entre otras.

# BONUS Punto 4: 😜

- `[1pt]` ¿A qué pertenecen los dialogos del primer punto? 