# Uso de herramientas preentrenadas

En esta práctica vamos a ver dos herramientas de NLP preentrenadas y cómo explotarlas desde Python.

## KeyBERT

Empezamos con KeyBERT que nos permite extraer las palabras clave un texto. Comenzamos instalando el módulo:

In [1]:
! pip install keybert


Collecting keybert
  Downloading keybert-0.8.4.tar.gz (29 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting sentence-transformers>=0.3.8 (from keybert)
  Downloading sentence_transformers-2.5.1-py3-none-any.whl (156 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m156.5/156.5 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
Building wheels for collected packages: keybert
  Building wheel for keybert (setup.py) ... [?25l[?25hdone
  Created wheel for keybert: filename=keybert-0.8.4-py3-none-any.whl size=39199 sha256=478f6efc96109ad73578f644048c0e106744d02de2512d27df418bb8c0f2058c
  Stored in directory: /root/.cache/pip/wheels/97/ef/4c/6588bd7072b0cc04225b40e639b991e49ebd4e21fb81f0acee
Successfully built keybert
Installing collected packages: sentence-transformers, keybert
Successfully installed keybert-0.8.4 sentence-transformers-2.5.1


Comenzamos trayendo la herramienta y cargando el moedlo con el que la vamos a usar. En este caso usaremos BERT multilingüe para poder probarla en varios idiomas:

In [2]:
from keybert import KeyBERT
modelo = KeyBERT('distilbert-base-multilingual-cased')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/466 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/542M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

El proceso de carga del modelo puede tomar unos segundos. A continuación construimos una función para utilizar dicho modelo:

In [3]:
def extrae_palabras_clave(texto):
  palabras_clave = modelo.extract_keywords(texto, top_n=10)
  return palabras_clave

In [4]:
texto_1 = """
Truman Streckfus Persons (Nueva Orleans, 30 de septiembre de 1924-Los Ángeles, 25 de agosto de 1984),
más conocido como Truman Capote, fue un novelista, guionista, dramaturgo y actor estadounidense.
Varios de sus cuentos, novelas y obras de teatro han sido elogiados como clásicos literarios, incluidas
las novelas Breakfast at Tiffany's (Desayuno en Tiffany's) (1958) y In Cold Blood (A sangre fría) (1966),
a la que calificó de "novela de no ficción". Sus obras han sido adaptadas a más de 20 películas y
series de televisión.
"""

In [5]:
palabras_texto_1 = extrae_palabras_clave(texto_1)
palabras_texto_1

[('literarios', 0.5047),
 ('elogiados', 0.4978),
 ('adaptadas', 0.4688),
 ('incluidas', 0.4572),
 ('dramaturgo', 0.4402),
 ('fría', 0.4224),
 ('novelista', 0.4186),
 ('ángeles', 0.4165),
 ('desayuno', 0.4145),
 ('cuentos', 0.4067)]

In [None]:
palabras_texto_1

In [6]:
texto_2 = """
Truman Garcia Capote born Truman Streckfus Persons; September 30, 1924 – August 25,
1984) was an American novelist, screenwriter, playwright, and actor. Several of his short stories, novels, and
plays have been praised as literary classics, including the novella Breakfast at Tiffany's (1958) and the true
crime novel In Cold Blood (1966). His works have been adapted into more than 20 films and television productions.
"""

In [7]:
palabras_texto_2 = extrae_palabras_clave(texto_2)
palabras_texto_2

[('classics', 0.4798),
 ('novels', 0.4752),
 ('playwright', 0.4537),
 ('screenwriter', 0.4434),
 ('stories', 0.443),
 ('novelist', 0.4366),
 ('novella', 0.4258),
 ('novel', 0.4253),
 ('literary', 0.377),
 ('adapted', 0.3686)]

In [8]:
texto_3 = """

El descubrimiento de la penicilina marcó un hito en la historia de la medicina.
En 1928, el científico Alexander Fleming notó casualmente que una colonia de hongos del género Penicillium
había inhibido el crecimiento de bacterias circundantes en una placa de cultivo.
Este descubrimiento casual llevó al desarrollo de la penicilina, el primer antibiótico efectivo que revolucionó
el tratamiento de las infecciones bacterianas y salvó innumerables vidas desde su introducción en la práctica médica.
"""

In [9]:
palabras_texto_3 = extrae_palabras_clave(texto_3)
palabras_texto_3

[('antibiótico', 0.6045),
 ('inhibido', 0.5619),
 ('penicilina', 0.5399),
 ('infecciones', 0.5392),
 ('penicillium', 0.4986),
 ('bacterianas', 0.4769),
 ('casualmente', 0.4628),
 ('bacterias', 0.4609),
 ('circundantes', 0.4483),
 ('casual', 0.4443)]

La extracción de palabras clave como podemos observar nos permite clasificar y entender el tema de los textos de una forma rápida pero que pasa si literalmente queremos un resumen de un texto.

## BART

El modelo Bart nos permite generar resúmenes de manera automática. Veamos unos ejemplos a continuación.

Empezamos instalando el módulo `transformers` necesario para poder utilizar este modelo:

In [10]:
! pip install transformers



Comenzamos cargando el tokenizador y el modelo de resúmenes:

In [13]:
from transformers import BartTokenizer, BartForConditionalGeneration

In [14]:
tokenizador = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
modelo = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.58k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

De nuevo construimos una función para generar los resúmenes:

In [15]:
def genera_resumen(texto, tokenizador = tokenizador, modelo = modelo, longitud_minima=30, longitud_maxima=100):
  texto_tokenizado = tokenizador.encode(texto, return_tensors='pt', max_length=1024, truncation=True)
  vector_resumen = modelo.generate(texto_tokenizado, max_length=longitud_maxima, min_length=longitud_minima, length_penalty=2.0, num_beams=4, early_stopping=True)
  texto_resumen = tokenizador.decode(vector_resumen[0], skip_special_tokens=True)
  return texto_resumen


In [16]:
resumen_1 = genera_resumen(texto_1, longitud_minima =80, longitud_maxima=120)
resumen_1

"Truman Streckfus Persons (Nueva Orleans, 30 de septiembre de 1924-Los Ángeles, 25 de agosto de 1984) fue un novelista, guionista, dramaturgo and actor estadounidense. His novelas Breakfast at Tiffany's (Desayuno en Tiffany's) (1958) and In Cold Blood (A sangre fría) (1966) han sido adaptadas a más de 20 películas y series de televisión."

In [17]:
resumen_2 = genera_resumen(texto_2)
resumen_2

'Truman Garcia Capote was an American novelist, screenwriter, playwright, and actor. Several of his short stories, novels, and plays have been praised as literary classics. His works have been adapted into more than 20 films and television productions.'

In [18]:
resumen_3 = genera_resumen(texto_3)
resumen_3

'En 1928, Alexander Fleming notó que una colonia de hongos del género Penicillium inhibido el crecimiento de bacterias circundantes.'

### Conclusiones

Hemos visto cómo con tan solo unas pocas líneas de código podemos aprovechar modelos preentrenados para lograr resultados de bastante calidad. Además, dados los grandes avances del PLN ya disponemos de modelos multilingües capaces de trabajar en distintos idiomas.

Os animo a probar a modificar los distintos parámetros para ver qué efecto produce esto sobre los resúmenes.