# **Práctica 1. Introducción al Procesamiento de Texto**

## 1. Introducción a Python

Aunque la sintaxis de Python permite muchas variaciones, existe una guía de estilo que es recomendable para todo programador de Python. Cuando acabe el curso y antes de empezar a usar Python como tu lenguaje de programación es más que aconsejable leerla atentamente:

[Guía de estilo de Python: PEP 8](https://www.python.org/dev/peps/pep-0008/)

Otras guías de estilo:

* [Guía de estilo de Python de Google](https://google.github.io/styleguide/pyguide.html).

A continuación, algunos conceptos básicos de Python para crear nuestros primeros programas.

### Comentarios

Para comentar código se utiliza la almohadilla (#). También puedes comentar múltiples líneas de código seleccionándolas y pulsando **Ctrl+Ç**.

### Variables

Python es un lenguaje **NO** tipado, lo que quiere decir que el intérprete deducirá el tipo de dato de una variable de forma dinámica. Por lo tanto, una variable puede cambiar de tipo en cualquier momento.



```
mi_variable = 1                 # Entero
mi_variable = True              # Booleano
mi_variable = 3e-3              # Flotante
mi_variable = "Hola mundo!"     # Cadena
```

Utilizando ```type``` podemos saber el tipo de una variable en un momento concreto.



```
type(mi_variable)
```



### Operadores

**Aritméticos:**

* Suma: +
* Resta: -
* Multiplicación: *
* División: /
* Módulo: %
* Exponenciación: **
* División entera: //

**De comparación:**

* Igual: ==
* Distinto: !=
* Mayor: >
* Menor: <
* Mayor o igual: >=
* Menor o igual: <=

**Lógicos:**

* and: Devuelve True si ambos valores son verdaderos.
* or: Devuelve True si solo uno de los valores es verdadero.
* not: Invierte el valor del booleano.

NOTA: `&`, `|`, `^`, y `~` en Python son operadores binarios, no son equivalentes a `and`, `or`, `xor` (este no existe en Python) o `not`.

### Listas y Tuplas

Otro tipo de datos muy importante que vamos a usar son las secuencias: tuplas y listas. Ambos son conjuntos ordenados de elementos: las tuplas se demarcan con paréntesis ( ) y las listas con corchetes [ ].

Diferencias:
* Una lista puede ser alterada, una tupla no. Las tuplas son "inmutables".
* Una tupla puede ser utilizada como clave en un diccionario, una lista no.
* Una tupla consume menos memoria que una lista.

Algunos ejemplos:

In [None]:
mi_lista = [1, 2, "5", 2]
mi_tupla = (1, 2, "5", 2)

In [None]:
# Podemos comprobar si un elemento está o no dentro de una secuencia
print(2 in mi_lista)
print(2 not in mi_tupla)

In [None]:
# Usamos len() para extraer la cantidad de elementos de la secuencia.
print(len(mi_lista))
print(len(mi_tupla))

In [None]:
mi_lista.append("A") # Añade el caracter A al final de la lista
mi_lista.extend(["B", "C"]) # Añade los caracteres B y C al final
mi_lista.insert(0, "D") # Añade el caracter D en la posición 0 (al principio)
mi_lista.remove(2) # Elimina la primera ocurrencia del elemento 2
dato = mi_lista.pop(0) # Extrae el primer elemento y lo devuelve
dato = mi_lista.pop() # Por defecto, extrae el último elemento. Igual que mi_lista.pop(-1)

print(mi_lista)
print(dato)

In [None]:
# Concatenar listas y tuplas
lista_1 = [1, 2, 3]
lista_2 = [4, 5, 6]
lista3 = lista_1 + lista_2
print(lista3)

tupla_1 = (1, 2, 3)
tupla_2 = (4, 5, 6)
tupla_3 = tupla_1 + tupla_2
print(tupla_3)

In [None]:
# También podemos hacer listas de listas
bolas = ['roja', 'negra', 'blanca', 'azul']
estudiantes = ['Rosa', 'Antonio', 'Ismael', 'Anabel']
edades = [15, 18, 25, 35]

lista_de_listas = [bolas, estudiantes, edades]

print(lista_de_listas)

In [None]:
# Para buscar y ordenar también tenemos varios métodos
estudiantes = ['Rosa', 'Antonio', 'Ismael', 'Anabel', 'Miguel', 'Cristina', 'Lucas', 'Miguel']

estudiantes.reverse()   # Invierte el orden de los elementos
print(".reverse()", estudiantes)

estudiantes.sort()      # Ordena los elementos (alfabéticamente para str)
print(".sort()", estudiantes)

estudiantes.sort(reverse=True)  # Ordena los elementos en orden inverso
print(".sort(reverse=True)", estudiantes)

print(f"Miguel aparece {estudiantes.count('Miguel')} veces.")   # Cuenta el número de apariciones del elemento buscado
print(f"Miguel aparece en la posición {estudiantes.index('Miguel')}")   # Extrae la posición del elemento buscado

### Rangos

Los rangos son tipos especiales en Python que devuelven un objeto que produce una secuencia de enteros desde `start` (incluido) hasta `stop` (no incluido) saltando `step` (opcional). Si solo se especifica un valor, Python lo interpretará como el valor de `stop`, y `start` valdrá 0.

Son especialmente útiles para iterar por ellos dentro de un bucle for.

In [None]:
print(list(range(6)))
print(list(range(0, 6, 2)))
print(list(range(5, -1, -1)))

### Diccionarios

En Python, un diccionario es una colección no-ordenada de valores que son accedidos a traves de una clave. Es decir, en lugar de acceder a la información mediante el índice numérico (posición), como es el caso de las listas y tuplas, es posible acceder a los **valores** a través de sus **claves**, que pueden ser de diversos tipos.

Las claves son **únicas** dentro de un diccionario, es decir que no puede haber un diccionario que tenga dos veces la misma clave, si se asigna un valor a una clave ya existente, se reemplaza el valor anterior.

No hay una forma directa de acceder a una clave a través de su valor, y nada impide que un mismo valor se encuentre asignado a distintas claves.

La informacion almacenada en los diccionarios no tiene un orden particular. Ni por clave, ni por valor, ni tampoco por el orden en que han sido agregados al diccionario.

Cualquier variable de tipo **inmutable, puede ser clave** de un diccionario: cadenas, enteros, tuplas (con valores inmutables en sus miembros), etc. **No hay restricciones para los valores** que el diccionario puede contener, cualquier tipo puede ser el valor: listas, cadenas, tuplas, otros diccionarios, objetos...

De la misma forma que con listas, es posible definir un diccionario directamente con los miembros que va a contener, o bien inicializar el diccionario vacío y luego agregar los valores de uno en uno o de muchos en muchos.

Para definirlo junto con los miembros que va a contener, se encierra el listado de valores entre llaves, las parejas de clave y valor se separan con comas, y la clave y el valor se separan con ":".

In [None]:
punto = {"x": 2, "y": 1, "z": 4}

materias = {}
materias["lunes"] = [6103, 7540]
materias["martes"] = [6201]
materias["miercoles"] = [6103, 7540]
materias["jueves"] = []
materias["viernes"] = [6201]

# Para acceder al valor asociado a una determinada clave, se hace de la misma
# forma que con las listas, pero utilizando la clave elegida en lugar del índice.

valor = materias["lunes"]
print(valor)

# También se puede acceder a los valores de un diccionario con el método
# "get(key, value)". Si la clave no existe, devuelve value.

valor = materias.get("sábado", [777])
print(valor)

### Estructuras de control

En Python los bloques se delimitan usando el indentado, utilizando siempre cuatro espacios (esto de cuatro es una norma de estilo). Cuando ponemos los dos puntos al final de la primera línea del condicional, todo lo que vaya a continuación con un nivel de indentado superior se considera dentro del condicional. En cuanto escribimos la primera línea con un nivel de indentado inferior, hemos cerrado el condicional. Si no seguimos esto a rajatabla, Python nos dará errores. Es una forma de forzar a que el código sea legible.

1. Condicionales
```
if <condición>:
        <haz lo que sea>
elif <condición>:
        <haz otra cosa>
else:
        <haz otra cosa>
```

2. Bucle while
```
while <condición>:
        <cosas que hacer>
```

3. Bucle for
```
for <elemento> in <objeto iterable>:
        <haz lo que sea...>
```








### Funciones

En Python, la definición de funciones se realiza mediante la instrucción def más un nombre de función descriptivo, para el que se aplican las mismas reglas que para el nombre de las variables, seguido de los paréntesis de apertura y cierre. La definición de la cabecera de la función termina con dos puntos (:). El algoritmo que la compone, irá indentado con 4 espacios:

In [None]:
def mi_funcion():
    print('¡Hola, mundo!')

mi_funcion()

A la hora de definir la función pueden especificarse tantos argumentos o parámetros de entrada como sean necesarios, que pueden o no tener valores por defecto.

In [None]:
def saludar(x, y="Lennon"):
    saludo = f"¡Hola, {x} {y}!"
    return saludo

nombre, apellido = "John", "Doe"

# Especificando apellido
saludo = saludar(nombre, apellido)
print(saludo)

# Sin especificar apellido, toma el valor por defecto
saludo = saludar(nombre)
print(saludo)

### Ficheros

Python tiene varios modos de lectura y escritura que se especifican como parámetro de la función `open()`:



* "r": Read - Valor por defecto. Abre un fichero existente, devuelve un error si no existe.
* "a": Append - Abre un fichero existente para añadir contenido, crea el fichero si no existe.
* "w": Write - Abre un fichero para escribir contenido, crea el fichero si no existe.
* "x": Create - Crea un nuevo fichero, devuelve un error si existe previamente.



#### Activar Google Drive

En los ejemplos siguientes se muestra cómo activar Google Drive en tu entorno de ejecución con un código de autorización y cómo puedes escribir y leer archivos en ese entorno. Cuando se haya ejecutado, podrás ver el nuevo archivo &#40;<code>cancion_del_pirata.txt</code>&#41; en <a href="https://drive.google.com/">https://drive.google.com/</a>.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

#### Escribir datos

Modo write ("w"):

In [None]:
nombre_fichero = "cancion_del_pirata.txt"

with open(f"{nombre_fichero}", "w") as f:
    f.write("Con diez cañones por banda\n")

```
# Alternativa:
f = open(f"{nombre_fichero}", "w")
f.write("Con diez cañones por banda\n")
f.close()
```

Modo append ("a"):

In [None]:
# Abre el fichero en modo append y escribe otra línea
with open(f"{nombre_fichero}", "a") as f:
    f.write("viento en popa a toda vela\n")



```
# Alternativa:
f = open(f"{nombre_fichero}", "a")
f.write("viento en popa a toda vela\n")
f.close()
```



#### Leer datos

Modo read ("r"):

La función `read()` devuelve el contenido completo de un fichero.

In [None]:
with open(f"{nombre_fichero}", "r") as f:
    contenido = f.read()

print(contenido)



```
# Alternativa:
f = open(f"{nombre_fichero}", "r")
contenido = f.read()
f.close()

print(contenido)
```



La función `readlines()` devuelve una lista de líneas dentro de un fichero.

In [None]:
with open(f"{nombre_fichero}", "r") as f:
    contenido = f.readlines()

print(contenido)



```
# Alternativa:
f = open(f"{nombre_fichero}", "r")
contenido = f.readlines()
f.close()

print(contenido)
```



### Bibliotecas

Una biblioteca es un conjunto de módulos que contienen código que puede ser reutilizado en diferentes programas. Python cuenta con una gran variedad de bibliotecas de forma nativa, pero es posible instalar muchas más mediante el comando de bash `pip install <biblioteca>` (en Colab se utiliza `!` para utilizar comandos de bash).

Hay varias formas de importar una biblioteca:

* `import <biblioteca>`
* `import <biblioteca> as <pseudónimo>`
* `from <biblioteca> import <módulo>`

Algunas de las bibliotecas "built-in" más utilizadas son:

* `os` - Funcionalidades dependientes del sistema operativo.
* `math` - Funciones matemáticas.
* `random` - Generación de números pseudo-aleatorios.
* `datetime` - Funciones relacionadas con fechas.

Algunas de las bibliotecas instalables más utilizadas son (al ser tan populares, Colab las tiene preinstaladas, pero para utilizarlas de forma local en tu ordenador sí tendrías que instalarlas:

* `numpy` - Para utilizar arrays numéricos. Importado típicamente bajo el pseudónimo `np` (`import numpy as np`)
* `pandas` - Para análisis de conjuntos de datos en ficheros csv, tsv, xlsl, etc. Importado típicamente bajo el pseudónimo `pd` (`import pandas as pd`)
* `sklearn` - Para machine learning.

In [None]:
from datetime import datetime
print(f"Fecha actual: {datetime.now()}") # Extraer fechas

import math
print(math.sqrt(144))   # Raíz cuadrada

import numpy as np
array_aleatorio = np.random.rand(5) # Creación de un array de dimensión 5 con valores aleatorios
print(array_aleatorio)
print(array_aleatorio.argmax()) # Índice del valor más alto dentro del array

## 2. Preprocesamiento de texto

### ¿Qué es **NLTK**?

[NLTK](http://www.nltk.org/) es una librería que proporciona interfaces para utilizar fácilmente una gran cantidad de recursos léxicos, así como métodos para el procesamiento, análisis y clasificación de textos.

La librería tiene asociado un libro, que además de instruir en su uso explica muchos conceptos de PLN: http://www.nltk.org/book/.

#### 1. Instalando NLTK en notebook

Este notebook tiene algunas dependencias, la mayoría de las cuales se pueden instalar a través del gestor de paquetes de python `pip`.


In [None]:
!pip install nltk

### Importación y Descarga de Recursos

El uso de NLTK requiere de su importación. NLTK es más que una librería, dado que ofrece la descarga de recursos lingüísticos.

In [None]:
import nltk
nltk.download()

### Preprocesamiento de un texto

El preprocesamiento suele estar asociado a la *tokenización* y segmentación de texto. Para ello existen paquetes específicos, como es el caso del paquete *punkt*.

Para su instalación debemos usar "nltk.download('punkt')".

In [None]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

#### 1. División del texto en oraciones

El primer paso consiste en separar el texto en oraciones. Para ello, la librería NLTK proporciona la función:

```
sent_tokenize(text, language='english')
```

Esta función, divide en oraciones el texto pasado como argumento utilizando el  idioma que queremos analizar. Esta función utiliza un modelo de lenguaje incluyendo caracteres que marcan el inicio y el fin de una oración, y están disponibles para 17 lenguas europeas (español, inglés, holandés, francés...).
Por defecto, si no se especifica ningún idioma, se utiliza el modelo en inglés.

Veamos un ejemplo. En primer lugar, importamos la función *sent_tokenize* y después la llamamos pasándole como argumento el texto que queremos dividir. El tipo de dato que devuelve es una lista con las oraciones del texto.

In [None]:
from nltk.tokenize import sent_tokenize

In [None]:
text = "Esto es una oración de prueba. ¿También divide las preguntas, Sr. Smith? Además, este tokenizador no separa por comas."
sent_tokenize(text, language="spanish")

#### 2. División de las oraciones en palabras (*tokenization*)

Una vez separado el texto en oraciones vamos a ver cómo dividir una oración en palabras, concretamente en tokens. La forma básica de *tokenización* consiste en separar el texto en tokens por medio de espacios y signos de puntuación. Para ello, nosotros vamos a utilizar el tokenizador *TreebankWordTokenizer* (aunque hay muchos más).

Lo primero que debemos hacer será importar el tokenizador y posteriomente instanciar la clase.

In [None]:
from nltk.tokenize import TreebankWordTokenizer

In [None]:
tokenizer = TreebankWordTokenizer()

In [None]:
text = "Esto es una oración de prueba. ¿También divide las preguntas, Sr. Smith? Además, este tokenizador no separa por comas."
tokenizer.tokenize(text)

NLTK proporciona otros tokenizadores como *RegexpTokenizer*, *WhitespaceTokenizer*, *SpaceTokenizer*, *WordPunctTokenizer*, etc., que deberéis probar para completar los ejercicios de esta práctica.

#### 3. Eliminación de palabras vacías (stop words)

Las palabras vacías (*stop words*) son palabras que carecen de significado por sí solas. Suelen ser artículos, pronombres, preposiciones...

En algunas tareas del Procesamiento del Lenguaje Natural resulta útil eliminar dichas palabras, por lo que a continuación vamos a ver cómo podríamos eliminar las palabras vacías que forman parte de un conjunto de tokens.

NLTK cuenta con una lista de palabras vacías para diferentes idiomas. Veamos cómo se utiliza:

In [None]:
from nltk.corpus import stopwords
nltk.download('stopwords')

In [None]:
spanish_stops = stopwords.words('spanish')
print(spanish_stops)

A continuación, dada una lista de palabras o tokens, vamos a filtrarlos para quitar aquellas palabras que son consideradas *stopwords*:

In [None]:
words = ['Esto', 'es', 'una', 'oración', 'de', 'prueba.', '¿También', 'divide', 'las', 'preguntas', ',', 'Sr.', 'Smith', '?', 'Además', ',', 'este', 'tokenizador', 'no', 'separa', 'por', 'comas', '.']

"""
filtered = []
for word in words:
#   if word not in spanish_stops:
#     filtered.append(word)
"""
filtered = [word for word in words if word not in spanish_stops]

print(filtered)

#### 4. Reducción de las palabras a su raíz (stemming)

*Stemming* es la técnica utilizada para eliminar los afijos de una palabra con el objetivo de obtener su raíz. Por ejemplo, la raíz de “biblioteca” es “bibliotec”.

Este método se suele utilizar en los sistemas de recuperación de información para la indexación de palabras ya que, en lugar de almacenar todas las formas de una palabra, permite almacenar sólo las raíces, reduciendo el tamaño del índice y mejorando el resultado.

Existen diferentes algoritmos de stemming: Porter Stemmer, Lancaster Stemmer, Snowball Stemmer...

NLTK cuenta con una implementación de algunos de estos algoritmos que son muy fáciles de utilizar. Simplemente hay que instanciar la clase, por ejemplo, *PorterStemmer* y llamar al método *stem()* con la palabra para la cual deseamos obtener su raíz.

A continuación, vamos a ver un ejemplo sobre cómo obtener las raíces de una lista de tokens utilizando el algoritmo *Snowball*:

In [None]:
from nltk.stem.snowball import SnowballStemmer

In [None]:
stemmer = SnowballStemmer("spanish")

In [None]:
print(stemmer.stem("corriendo"))
print(stemmer.stem("biblioteca"))
print(stemmer.stem("aburridos"))

#### 5. BPE: El algoritmo de tokenización de ChatGPT (y otros)

Byte-Pair Encoding (BPE) se desarrolló inicialmente como un algoritmo para comprimir textos, y OpenAI lo utilizó para la tokenización durante el preentrenamiento del modelo GPT aunque hoy en día lo utilizan muchos otros modelos Transformer como la familia GPT, RoBERTa, Llama-3 o Gemma.

BPE sustituye el par de elementos de mayor frecuencia por un nuevo elemento que no estaba contenido en el conjunto de datos inicial de forma iterativa hasta que se alcanza el tamaño de vocabulario deseado. Por ejemplo:

Partiendo de un corpus con las siguiente 5 palabras:



```
"hug", "pug", "pun", "bun", "hugs"
```

El vocabulario base será `["b", "g", "h", "n", "p", "s", "u"]`. En cada paso del entrenamiento de este tokenizador, el algoritmo buscará el par de tokens consecutivos más frecuente y los une. Así, la primera regla aprendida de este tokenizador sería: `("u", "g") -> "ug"` pues este par aparece 3 veces en el corpus, dando como resultado el siguiente vocabulario actualizado: `["b", "g", "h", "n", "p", "s", "u", "ug"]`. Este proceso se repite tantas veces como sea necesario hasta alcanzar el tamaño de vocabulario deseado (actualmente 8). El vocabulario de tokenizadores modernos suele rondar los 100k tokens.

Pueden utilizarse tokenizadores preentrenados por OpenAI a través de la biblioteca Tiktoken (https://github.com/openai/tiktoken).

```
!pip install tiktoken

import tiktoken
encoding = tiktoken.encoding_for_model("gpt-4o-mini")

encoded_text = encoding.encode("tiktoken is great!")
print(encoded_text)

print(encoding.decode(encoded_text))
print([encoding.decode_single_token_bytes(token) for token in encoded_text])

```

* Más información: https://huggingface.co/learn/nlp-course/en/chapter6/5

* Herramienta de prueba: https://tiktokenizer.vercel.app/?model=gpt-3.5-turbo

In [None]:
!pip install tiktoken

import tiktoken
encoding = tiktoken.encoding_for_model("gpt-4o-mini")

encoded_text = encoding.encode("Fragmentación de oraciones mediante el tokenizador de GPT4o.")

print("Texto codificado:", encoded_text)
print("Texto decodificado:", encoding.decode(encoded_text))
print("Visualización de tokens independientes:", [encoding.decode_single_token_bytes(token) for token in encoded_text])

## Ejercicios

El resultado de esta primera práctica deberá entregarse en PLATEA y tiene como límite de entrega las **23:59 horas del día 17 de febrero de 2025**. Se entregará este mismo notebook de extensión *.ipynb* y se renombrará de la siguiente forma: pr1_usuario1_usuario2.ipynb. Sustituye "usuario1" y "usuario2" por el alias de vuestro correo.


Para el desarrollo de estos ejercicios, debeis hacer uso de la colección de documentos de [SciELO](https://scielo.org/es/) disponible en PLATEA en la carpeta "Material Complementario" llamado "colección_SciELO_PLN".

Esta colección está compuesta por 25 ficheros en formato XML. Debéis realizar el tratamiento de cada fichero y tener en cuenta el texto incluido en la etiqueta  **<dc:description xml:lang="es">**

### Ejercicio 1

Crear una función que divida en oraciones los textos, haciendo uso de la función
*sent_tokenize*. La función mostrará el número medio de oraciones por cada fichero analizado, el nombre del fichero que contiene menos oraciones y el nombre del fichero que contiene más oraciones.

In [None]:
import os
import xml.etree.ElementTree as ET
import nltk
from nltk.tokenize import sent_tokenize

### Ejercicio 2

Crear un programa que divida en oraciones los textos presentes en él. Posteriormente, realize una tokenización de las palabras haciendo uso de la clase *WordPunctTokenizer*. Finalmente, la función debe mostrar el número medio de palabras por fichero, el fichero que contiene menos palabras y el fichero que contiene más palabras.

### Ejercicio 3

Dividir en tokens la oración que se muestra a continuación empleando los siguientes tokenizadores: “TreebankWordTokenizer”, "WhitespaceTokenizer”, “SpaceTokenizer” y "WordPunctTokenizer” de NLTK y `gpt-4o-mini` de Tiktoken.

¿Qué diferencias se observan en la salida producida por cada uno de
ellos?


In [None]:
sentence = "Sorry, I can't go to the meeting.\n"

### Ejercicio 4

Crear un tokenizador basado en expresiones regulares usando la clase *RegexpTokenizer* de NLTK que extraiga sólo las palabras presentes en el texto, es decir, que no devuelva como salida los signos de puntuación ni los tabuladores/saltos de línea, etc.

Además, el tokenizador no deberá separar las contracciones del texto.

¿Cuáles son los tokens extraídos si le pasamos la siguiente oración?


In [None]:
sentence = "Sorry, I can't, go to the meeting.\n"

### Ejercicio 5

Usando el *corpus* SFU, compuesto por 400 documentos de opiniones de 8 dominios diferentes (libros, coches, ordenadores, utensilios de cocina, hoteles, pelícuas y teléfons), se debene realizar las siguientes operaciones:

**Nota**: El *corpus* se encuentra en la sección "Material Complementario" de PLATEA.

*   Mostrar el tamaño del vocabulario (*tokens* únicos) de cada dominio (2 tokenizaodres, uno de ellos basado en BPE).
*   Mostrar el número total de palabras vacías por cada dominio (2 tokenizaodres, uno de ellos basado en BPE).
*   Mostrar el porcentaje de palabras vacías en relación al número *tokens* únicos y de palabras *unicas* (sin signos de puntuación; 2 tokenizaodres, uno de ellos basado en BPE).
*   Mostrar los 5 *stem* más comunes en cada dominio, evidentemente sin tener en cuenta las palabras vacías (2 tokenizaodres, uno de ellos basado en BPE).


