# Extracción de palabras clave
Usamos la librería `textacy` sobre `spaCy` (https://textacy.readthedocs.io/en/latest/). \
Instalamos con:
```
conda install -c conda-forge textacy
```

In [None]:
!pip install textacy

In [None]:
!python -m spacy download es_core_news_sm

In [None]:
import spacy
from textacy.extract import keyterms as kt
#https://textacy.readthedocs.io/en/latest/api_reference/extract.html#keyterms

nlp = spacy.load("es_core_news_sm")

In [None]:
texto = 'La Policía Nacional, en colaboración con la policía marroquí, ha desarticulado una \
"importante y peligrosa" célula del Estado Islámico (ISIS, en sus siglas en inglés) \
que pretendía impulsar atentados yihadistas en España y en otros países de Europa: \
"Tenía como objetivo materializar la estrategia de la organización terrorista en \
occidente", aseguran fuentes de la investigación, que aseguran que estaban en contacto \
con yihadistas ubicados en Siria. Los agentes de la Comisaría General de Información \
(CGI) y los de la Dirección General de Vigilancia del Territorio del Reino de Marruecos \
(DGST) han detenido en total a cinco personas, dos en España, en las localidades de \
Lorca (Murcia) y Abadiño (Bizkaia); y otras tres en Marruecos, que integraban la red \
de la organización terrorista.'

In [None]:
doc = nlp(texto)

In [None]:
len(doc)

In [None]:
kt.textrank(doc, normalize="lemma", topn=10)

In [None]:
kt.textrank(doc,topn=10)

In [None]:
kt.textrank(doc, normalize="lower", topn=10)

In [None]:
kt.sgrank(doc, normalize="lower", topn=10)

## Algoritmo KeyBERT
Probamos la extracción de palabras claves con KeyBERT. Usamos un modelo de embeddings SBERT multilingüe (`paraphrase-multilingual-MiniLM-L12-v2`)

In [None]:
!pip install keybert

In [None]:
from keybert import KeyBERT

kw_model = KeyBERT(model="paraphrase-multilingual-MiniLM-L12-v2")


In [None]:
keywords = kw_model.extract_keywords(texto, keyphrase_ngram_range=(1,2))

keywords

In [None]:
keywords = kw_model.extract_keywords(texto)

keywords

Las palabras se repiten mucho, hay que aumentar la diversidad

In [None]:
kw_model.extract_keywords(texto, keyphrase_ngram_range=(1,2), use_maxsum=True, nr_candidates=20, top_n=5)


In [None]:
kw_model.extract_keywords(texto, keyphrase_ngram_range=(1,2), use_mmr=True, diversity=0.7)

In [None]:
kw_model.extract_keywords(texto, keyphrase_ngram_range=(1,2), use_mmr=True, diversity=0.2)

Es importante utilizar un modelo de *embeddings* multilingüe o del idioma del texto

In [None]:
kw_model = KeyBERT() #modelo por defecto (inglés)



In [None]:
kw_model.extract_keywords(texto, keyphrase_ngram_range=(1,2), use_mmr=True, diversity=0.2)