# Ejercicio 1

Para esta seccion, seleccionamos un corpus de la biblioteca nltk. Para este ejercicio seleccionamos el corpus **cess_es**. Este corpus consiste un texto de noticias en espanol

In [1]:
import re
import os
import pandas as pd
import numpy as np
from collections import Counter

from preprocesamiento.preprocesador import *
from preprocesamiento.subword import *
from preprocesamiento.frecuencias import *

os.environ["NLTK_DATA"]="datos_nltk/"
import  nltk
from nltk.corpus import stopwords

## Paso 1
Nos aseguramos de tener disponible el corpus **cess_esp**. Aprovechamos la funcionalidad de nltk para obtener las palabras del corpus. Estas palabras funcionaran como nuestros tokens.
Notemos que el corpus tiene un total de __192686__ palabra (tokens)



In [2]:
## Seleccionamos un corpus en español que se encuentra en nltk
from nltk.corpus import cess_esp

nltk.download("cess_esp")
corpus_tokens = cess_esp.words()

print("Numero de tokens en el corpus:", len(corpus_tokens))

[nltk_data] Downloading package cess_esp to
[nltk_data]     C:\Users\dima\AppData\Roaming\nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


Numero de tokens en el corpus: 192686


## Paso 2
Aplicamos un pre procesamiento a todos los tokens de nuestro corpus. Los pasos a seguir en nuestro pre procesamiento son los siguientes:
- Pasamos todos los tokens a minusculas
- Eliminamos cualquier signo de puntacion en los tokens, es decir, eliminamos cualquier signo que no sea una letra del alfabeto en español o número
- Eliminamos todos los tokens que sean identificados como _stopword_. Para la lista de _stopword_ utilizamos la lista encontrada en ntlk para el lenguaje de español
- Finalmente eliminamos acentos. En este paso, para cada token, sustituimos sus vocales acentuadas por la misma vocal sin acento.



In [3]:
# Dado nuestro corpus tokenizado, normalizamos el texto:
# Removiendo acentos, puntuacion y stopwords

nltk.download('stopwords')
stopwords_list = stopwords.words('spanish')

#print(stopwords_list)
tokens_normalizados = pre_procesar(corpus_tokens, stopwords_list)

print("Numero de tokens, despues del preprocesamiento:", len(tokens_normalizados))

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\dima\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Numero de tokens, despues del preprocesamiento: 86640


## Paso 3

Dado nuestros tokens normalizados, procedemos a realizar a obtener sub words utilizando BPE.

In [4]:
# Obtenemos las frecuencias de los tipos de cada subword utilizando bpe y tambien las reglas
freqs_bpe, tokens_bpe = aplicar_byte_pair_encoding(tokens_normalizados, 500)
tokens_bpe = [palabra.split() for palabra in tokens_bpe]
tokens_bpe = [x for xs in tokens_bpe for x in xs]


In [5]:
# Tenemos el texto tokenizado
print(tokens_bpe)

['grupo', 'estatal', 'elec', 'tri', 'ci', 'te', 'de', 'fran', 'ce', 'e', 'd', 'f', 'anuncio', 'hoy', 'jue', 'ves', 'co', 'mp', 'ra', '5', '1', 'porciento', 'empresa', 'mexi', 'cana', 'elec', 'tri', 'ci', 'dadagui', 'lade', 'al', 'ta', 'mira', 'e', 'a', 'a', 'cre', 'ada', 'japones', 'mi', 't', 'subis', 'hi', 'cor', 'poration', 'ponerenmar', 'cha', 'central', 'gas', '4', '9', '5', 'me', 'ga', 'vatios', 'por', 'ta', 'vo', 'z', 'e', 'd', 'f', 'expli', 'co', 'efe', 'proye', 'cto', 'cons', 'truc', 'cion', 'al', 'ta', 'mira', '2', 'nor', 'te', 'ta', 'mpi', 'co', 'pre', 've', 'uti', 'lizacion', 'gas', 'natural', 'co', 'mbus', 'ti', 'ble', 'princi', 'pal', 'central', 'cic', 'lo', 'co', 'mbinado', 'debe', 'e', 'mpe', 'zar', 'fun', 'cionar', 'mayo', 'del', '200', '2', 'elec', 'tri', 'ci', 'dad', 'produci', 'da', 'pasara', 're', 'd', 'elec', 'tri', 'ca', 'publi', 'ca', 'mexi', 'co', 'en', 'vir', 'tu', 'd', 'de', 'acuerdo', 'venta', 'ener', 'gia', 'e', 'a', 'a', 'comision', 'fe', 'deral', 'de', 'el

In [None]:
# Tabla para ver las frecuencias de las palabras
tabla_frecuencias_bpe = crear_tabla_frecuencias(freqs_bpe)
print(tabla_frecuencias_bpe)

## Paso 4
Definimos los bigramas a usar para entrenar nuestra red neuronal