# **LMRank**

This short guide presents minimum reproducible code examples that utilize the LMRank approach.

## About
LMRank is a keyphrase extraction approach, that builds on recent advancements in the fields of Keyphrase Extraction and Deep learning. Specifically, it utilizes dependency parsing, a technique which forms more coherent candidate keyphrases, as well as a highly accurate `sentence-transformers` models to semantically compare the candidate keyphrases with the text and extract the most relevant ones.

If you have any practical or research questions take a quick look at the [FAQ](https://github.com/NC0DER/LMRank/wiki/Frequently-Asked-Questions-(FAQ)). As shown in the FAQ, LMRank currently supports 14 languages including English, Greek and others.

##**Installing LMRank**

In [1]:
%%capture
!pip install git+https://github.com/NC0DER/LMRank/

**Note⚠️:**  Google colab notebooks can become unstable with time.   
If that happens you can restart this notebook by clicking **Runtime → Restart Runtime**, in the menu located near the upper left corner of the screen.

## **English Keyphrase Extraction**

First we import and initialize the model.

In [None]:
from LMRank.model import LMRank

text = """
      Machine learning (ML) is a field of inquiry devoted to understanding and building
      methods that 'learn', that is, methods that leverage data to improve performance
      on some set of tasks.[1]  It is seen as a part of artificial intelligence. Machine
      learning algorithms build a model based on sample data, known as training data,
      in order to make predictions or decisions without being explicitly programmed
      to do so.[2] Machine learning algorithms are used in a wide variety of
      applications, such as in medicine, email filtering, speech recognition, agriculture,
      and computer vision, where it is difficult or unfeasible to develop conventional
      algorithms to perform the needed tasks.[3][4] A subset of machine learning is closely
      related to computational statistics, which focuses on making predictions using computers.
"""
model = LMRank()

We need to specify the language code of the document, as LMRanks loads the correct spaCy NLP model for dependency parsing. If this is the first run, this small (sm) model is automatically downloaded.

In [3]:
model.extract_keyphrases(text, language_code = 'en', top_n = 10)

[('conventional algorithms', 0.03220074744562463),
 ('machine learning', 0.0320379078219184),
 ('training data', 0.02651275416153127),
 ('artificial intelligence', 0.023564133570545886),
 ('computational statistics', 0.018363250279455255),
 ('speech recognition', 0.017827318362436336),
 ('computer vision', 0.017721180700768415),
 ('data', 0.01647833767159313),
 ('sample data', 0.014187748325602852),
 ('predictions', 0.014133139194664955)]

## **Multilingual Keyphrase Extraction**

LMRank can also be used in a multilingual setting. For a list of supported languages and their codes see the [FAQ.](https://github.com/NC0DER/LMRank/wiki/Frequently-Asked-Questions-(FAQ)) Below follow some examples in Italian, Dutch and Japanese.

In [None]:
from LMRank.model import LMRank

it_text = """
      L'intelligenza artificiale (in sigla IA[1]) è una disciplina che studia se e in che
      modo si possano realizzare sistemi informatici intelligenti in grado di simulare la
      capacità e il comportamento del pensiero umano. «L'intelligenza artificiale è una
      disciplina appartenente all'informatica che studia i fondamenti teorici, le metodologie
      e le tecniche che consentono la progettazione di sistemi hardware e sistemi di programmi
      software capaci di fornire all'elaboratore elettronico prestazioni che, a un osservatore
      comune, sembrerebbero essere di pertinenza esclusiva dell'intelligenza umana.»
      (Marco Somalvico) Definizioni specifiche possono essere date focalizzandosi sui processi
      interni di ragionamento o sul comportamento esterno del sistema intelligente e utilizzando
      come misura di efficacia la somiglianza con il comportamento umano o con un comportamento
      ideale, detto razionale: Agire in modo analogo a quanto fatto dagli esseri umani: il
      risultato dell'operazione compiuta dal sistema intelligente non è distinguibile da
      quella svolta da un umano. Pensare in modo analogo a quanto fatto dagli esseri umani:
      il processo che porta il sistema intelligente a risolvere un problema ricalca quello umano.
      Questo approccio è associato alle scienze cognitive[2]. Pensare razionalmente: il processo
      che porta il sistema intelligente a risolvere un problema è un procedimento formale che si
      rifà alla logica. Agire razionalmente: il processo che porta il sistema intelligente a
      risolvere il problema è quello che gli permette di ottenere il miglior risultato atteso
      date le informazioni a disposizione. L'intelligenza artificiale è una disciplina dibattuta
      tra scienziati e filosofi poiché manifesta aspetti etici oltre che teorici e pratici.
      [3] Stephen Hawking nel 2014 ha messo in guardia riguardo ai pericoli dell'intelligenza
      artificiale, considerandola una minaccia per la sopravvivenza dell'umanità. [4]
"""

nl_text = """
      Kunstmatige intelligentie (KI) of artificiële intelligentie (AI)[1] is de wetenschap
      die zich bezighoudt met het creëren van een artefact dat een vorm van intelligentie
      vertoont. Het is moeilijk te definiëren wat 'intelligentie' precies is. Het is derhalve
      ook moeilijk te definiëren wat artificiële intelligentie precies is. Dingen die aanvankelijk
      als zeer intelligent werden beschouwd, zoals het winnen van een partij schaak van de
      wereldkampioen schaken, blijken opeens toch niet zo intelligent te zijn als het doel
      eenmaal is bereikt (Kasparov-Deep Blue, 1997). Soms wordt weleens half-schertsend gezegd
      'Kunstmatige intelligentie is wat we de computer nog niet kunnen laten doen'.
      Meer gedetailleerd definiëren Andreas Kaplan en Michael Haenlein artificiële intelligentie
      als "het vermogen van een systeem om externe gegevens correct te interpreteren, om te leren
      van deze gegevens, en om deze lessen te gebruiken om specifieke doelen en taken te
      verwezenlijken via flexibele aanpassing."[2] Geleend uit de managementliteratuur,
      classificeren Kaplan en Haenlein artificiële intelligentie in drie verschillende types van
      AI-systemen: analytisch, mens-geïnspireerd en vermenselijkte artificiële intelligentie.
      Analytische AI heeft enkel eigenschappen die consistent zijn met cognitieve intelligentie
      die een cognitieve voorstelling van de wereld genereert en die leren gebruikt op basis
      van vorige ervaringen om toekomstige beslissingen te beïnvloeden. Mens-geïnspireerde
      AI bevat elementen van cognitieve en emotionele intelligentie, begrip, in aanvulling
      op cognitieve elementen, alsook menselijke emoties waarmee rekening wordt gehouden
      in het beslissingsproces. Vermenselijkte AI vertoont eigenschappen van alle types
      competenties (cognitieve, emotionele en sociale intelligentie), en is in staat zelfbewust
      te zijn in interacties met anderen.  Een vrij algemeen geaccepteerde test voor kunstmatige
      intelligentie is de turingtest, geformuleerd door de Engelse wiskundige Alan Turing,
      een van de vaders van de informatica. Deze komt erop neer dat als een computer iemand
      voor de gek kan houden en deze kan laten geloven dat hij een mens is, de computer intelligent
      moet zijn.  Deze visie kan tot het 'extreme' doorgevoerd worden, wat leidt tot het idee dat
      een kunstmatig intelligente entiteit het ultieme model van de mens is. In deze hoedanigheid
      heeft de AI veel te maken met de psychologie. Een andere visie is om alleen de 'goede' dingen
      van de mens te gebruiken en waar mogelijk dingen te verbeteren. Computers zijn in verschillende
      dingen, zoals wiskunde, een stuk beter dan mensen. Een menselijke intelligentie gecombineerd
      met de rekenkracht en opslagtechnieken van een computer overstijgt de menselijke intelligentie.
      Bij dergelijke artefacten is de mens als maat overduidelijk minder geschikt. Als dit het doel
      is dan relateert de AI zich weer meer met de informatica.  Technieken als neurale netwerken
      en genetische algoritmen laten zien dat de AI ook inspiratie haalt uit de biologie. Zoals
      te lezen is zijn veel takken van de wetenschap gerelateerd aan de AI. De kunstmatige
      intelligentie zou dus ook gezien kunnen worden als een brug tussen verschillende disciplines.
      Artificiële intelligentie is allang niet meer alleen een onderwerp van onderzoek, maar
      iets dat steeds vaker in de praktijk wordt toegepast. Zo maakt het zoekalgoritme van Google
      steeds meer gebruik van AI, met technologieën als Hummingbird en RankBrain, en wordt ook
      in andere facetten van online marketing artificiële intelligentie steeds belangrijker.
      Zo kunnen AI-tools marketeers onder meer helpen bij marketing-automatisatie en personalisatie.[3]
"""

jp_text = """
      人工知能（じんこうちのう、英: artificial intelligence）、AI（エーアイ）とは、「『計算（computation）』
      という概念と『コンピュータ（computer）』という道具を用いて『知能』を研究する計算機科学（computer science）
      の一分野」を指す語[1]。「言語の理解や推論、問題解決などの知的行動を人間に代わってコンピューターに行わせる技術」[2]、
      または、「計算機（コンピュータ）による知的な情報処理システムの設計や実現に関する研究分野」ともされる[3]。
      大学でAI教育研究は、情報工学科[4][5][6]や情報理工学科コンピュータ科学専攻などの組織で行われている[4][7]
      （工学〔エンジニアリング〕とは、数学・化学・物理学などの基礎科学を工業生産に応用する学問[8][注釈 1]）。
      『日本大百科全書(ニッポニカ)』の解説で、情報工学者・通信工学者の佐藤理史は次のように述べている[1]。
      「 誤解を恐れず平易にいいかえるならば、「これまで人間にしかできなかった知的な行為（認識、推論、言語運用、創造など）を、
      どのような手順（アルゴリズム）とどのようなデータ（事前情報や知識）を準備すれば、それを機械的に実行できるか」を研究する分野である[1]。
      」ビル・ゲイツやイーロン・マスク、スティーブン・ホーキング、ヨシュア・ベンジオ、ピーター・ノーヴィグ、スチュアート・ラッセル、ジェフリ
      ー・ヒントンなどの専門家や著名人の多くが人類滅亡の可能性を含む、人工知能の将来的な危険性を指摘している[10][11][12][13][14][15][16][17][18][19]。
      この懸念に対して、マイクロソフトのような人工知能研究の大手組織は、人道的な人工知能活動、つまり善のためのAI活動を広めている[20]。
      人間の知的能力をコンピュータ上で実現する、様々な技術・ソフトウェア・コンピュータシステム[21]。応用例としては、自然言語処理（機械翻訳
      ・かな漢字変換・構文解析・形態素解析等）[22][23]、専門家の推論・判断を模倣するエキスパートシステム、画像データを解析し特定のパターンを検出・抽出する画像認識等がある[21]。
"""

model = LMRank(language_setting = 'multilingual')

As in the case of the English language we need to specify the language codes.
By default, LMRank uses a multilingual model, which supports many languages, this can be preloaded by setting the `language_setting`, however this is not necessary. If the user does not set the former, then this model will be automatically downloaded at the first call of `extract_keyphrases()`.

This model is shared between different languages and is loaded in-memory once at the class declaration for performance and efficiency reasons. As shown below, the same instance of the `LMRank` class object can be used for multiple languages.

In [7]:
model.extract_keyphrases(it_text, language_code = 'it', top_n = 10)

[('intelligenza artificiale', 0.034458516187358144),
 ('sistema intelligente', 0.030585801686949892),
 ('intelligenza umana', 0.028680306043423823),
 ('pensiero umano', 0.02519935951215235),
 ('ragionamento', 0.02082366775859126),
 ('filosofi', 0.020529689835492422),
 ('sistemi informatici', 0.02007152977482128),
 ('umanità', 0.01979030713503242),
 ('esseri umani', 0.01853905189982051),
 ('logica', 0.017243187892945246)]

In [11]:
model.extract_keyphrases(nl_text, language_code = 'nl', top_n = 10)

[('marketeers', 0.02483599608286735),
 ('kunstmatige intelligentie', 0.02405846227315525),
 ('artificiële intelligentie', 0.023963832920987103),
 ('cognitieve elementen', 0.018645181240139568),
 ('ai-tools', 0.017181328408428703),
 ('mens-geïnspireerde', 0.014388333959418133),
 ('marketing-automatisatie', 0.013296030756424767),
 ('begrip', 0.012789435151430351),
 ('genetische algoritmen', 0.01256202269359678),
 ('neurale netwerken', 0.011549356779741705)]

In [14]:
model.extract_keyphrases(jp_text, language_code = 'ja', top_n = 10)

[('人工知能研究', 0.04668628289446463),
 ('artificial intelligence）', 0.04656258182323882),
 ('情報工学科', 0.04152230442364311),
 ('ai教育研究', 0.03392002682114533),
 ('手順（アルゴリズム', 0.02920999737583826),
 ('研究分野', 0.02885210634012013),
 ('ai（エーアイ）', 0.02758989330102413),
 ('応用例', 0.026380280664661655),
 ('専門家', 0.02523460291693004),
 ('データ（事前情報', 0.024605315035618417)]

##**Utilizing a user-provided HuggingFace transformers model**

LMRank is build on top of the `sentence-transformers` library, which allows to load any transformers model uploaded in HuggingFace. Thus, LMRank also supports this functionality.

In [None]:
from LMRank.model import LMRank

text = """
      Machine learning (ML) is a field of inquiry devoted to understanding and building
      methods that 'learn', that is, methods that leverage data to improve performance
      on some set of tasks.[1]  It is seen as a part of artificial intelligence. Machine
      learning algorithms build a model based on sample data, known as training data,
      in order to make predictions or decisions without being explicitly programmed
      to do so.[2] Machine learning algorithms are used in a wide variety of
      applications, such as in medicine, email filtering, speech recognition, agriculture,
      and computer vision, where it is difficult or unfeasible to develop conventional
      algorithms to perform the needed tasks.[3][4] A subset of machine learning is closely
      related to computational statistics, which focuses on making predictions using computers.
"""
model = LMRank(model = 'jinaai/jina-embedding-l-en-v1')

**Note⚠️:** Make sure that the hugginface model you provided supports the natural language you are requesting through the language code.

In [17]:
model.extract_keyphrases(text, language_code = 'en', top_n = 10)

[('machine learning', 0.03719560323413626),
 ('artificial intelligence', 0.022943256543643164),
 ('speech recognition', 0.022299272421197006),
 ('training data', 0.019498117324721367),
 ('computer vision', 0.018394674218814935),
 ('computational statistics', 0.012852583117731707),
 ('conventional algorithms', 0.012310507678891275),
 ('agriculture', 0.009199340093852123),
 ('data', 0.009049208308237789),
 ('predictions', 0.008900549505358414)]