# Multilingual Rapid Automatic Keyword Extraction (RAKE) for Python

## Automatic keyword extraction from text written in any language

Original Code: https://github.com/vgrabovets/multi_rake

### Install python package 

In [1]:
%pip install multi-rake

Note: you may need to restart the kernel to use updated packages.


In [2]:
from multi_rake import Rake

## Basic example of multi rake without any specifications

In [3]:
text_de = (
    """Auguste Rodin (1840–1917) ist der bedeutendste Bildhauer Frankreichs in der zweiten Hälfte des 19. Jahrhunderts. 
    Rodin führte Bildhauerei und Plastik zu völlig neuen Ausdrucksformen und näherte sich stilistisch mit seinen bewegten 
    Oberflächen dem Impressionismus an. Inhaltlich ist Rodins Werk vom Symbolismus stark beeinflusst, suchte der Pariser 
    Künstler doch menschliche Emotionen und nicht das Erzählerische in den Vordergrund zu stellen. Mit Werken wie 
    „Der Denker“, „Der Kuss“, „Die Bürger von Calais“ und „Eva“ schuf Rodin Ikonen der Moderne, die bei den Zeitgenossen 
    häufig auf Unverständnis stießen. Dennoch gelang ihm - u.a. mit Hilfe der Fotografie - kurz nach 1900 der 
    internationale Durchbruch. Auguste Rodin stammte aus einer konservativen Beamtenfamilie; sein Vater arbeitete in der 
    Polizeiverwaltung. Mit 13 Jahren wurde Rodin 1853 Schüler an der École Spéciale de Dessin et de Mathématiques, 
    bekannt als „Petite École“. Dort blieb er bis 1857. Während dieser Zeit versuchte er dreimal vergeblich, als Student an der berühmten École 
    nationale supérieure des beaux-arts de Paris aufgenommen zu werden, um Bildhauerei zu studieren. Daher setzte er 
    seine künstlerische Karriere ohne weitere offizielle Ausbildung fort. Als 1862 seine Schwester starb, geriet Rodin 
    in eine Lebenskrise und trat dem Orden Pères du Saint-Sacrement bei. Doch schon beim Eintritt in den Orden wurde 
    Rodin für sein künstlerisches Schaffen für alle Zeit freigestellt. Zwei Jahre später wurde Rodin Schüler von 
    Albert-Ernest Carrier-Belleuse. Er folgte seinem Meister 1870 nach Brüssel, aber die künstlerische 
    Auseinandersetzung wuchs zu einem handfesten Streit aus, und Rodin trennte sich 1870 von Carrier-Belleuse. 
    Ab dieser Zeit erfuhr Rodin durch öffentliche Aufträge auch seine erste künstlerische Anerkennung. Camille Claudel 
    (1884). In den Jahren 1875/76 unternahm Rodin eine Studienreise nach Italien, um das Geheimnis Michelangelos 
    zu entschlüsseln. 1877 kehrte er wieder nach Paris zurück, unter anderem, um Frankreichs gotische Kathedralen 
    zu studieren. Die Porzellanmanufaktur in Sèvres nahm Rodin für die Jahre 1879/82 unter Vertrag. 1883 lernte 
    Rodin Camille Claudel kennen. Sie wurde zuerst seine Schülerin, später seine Geliebte. Die Trennung erfolgte 
    im Jahr 1893. 1894 ließ sich Rodin in Meudon nieder und scharte dort einen Kreis junger Schriftsteller und 
    Künstler um sich. „Sie sind es, der in unserem Jahrhundert die glorreichste, die vollendetste Verkörperung der 
    plastischen Kunst darstellt“, so der zeitgenössische prominente Kunstkritiker Octave Mirbeau zu Rodin. Gwen John: 
    Selbstporträt (1902: Tate Gallery, London). Um die Jahrhundertwende nahm Rodin an den frühen Ausstellungen der 
    Pastel Society teil. Bei der Weltausstellung in Paris 1900 wurden im Pavillon Rodin 171 seiner Werke präsentiert. 
    Im Jahr 1904 lernte er die Malerin Gwen John aus Wales kennen, sie wurde sein Modell und für etwa zehn Jahre 
    seine Geliebte. Im selben Jahr wurde er Präsident der International Society of Sculptors, Painters and Gravers 
    (zuvor Vizepräsident) und löste in dieser Position James McNeill Whistler ab. In den Jahren 1905/06 war Rainer 
    Maria Rilke als Privatsekretär Rodins tätig. Im Pariser Hôtel Biron installierte Rodin 1907 ein weiteres Atelier, 
    das heute als Musée Rodin zu besichtigen ist. Im Alter von 76 Jahren heiratete Rodin im Januar 1917 seine 
    langjährige Lebensgefährtin Rose Beuret, die jedoch bereits im Februar an einer Lungenentzündung starb. 
    Am 17. November 1917 starb Auguste Rodin in Meudon. Am 24. November wurde Rodin im Park des Musée Rodin de 
    Meudon neben seiner Frau Rose beigesetzt.
    """
)

In [4]:
rake = Rake()

keywords = rake.apply(text_de)

print(keywords[:10])

[('bedeutendste bildhauer frankreichs', 9.0), ('völlig neuen ausdrucksformen', 9.0), ('seinen bewegten oberflächen', 9.0), ('symbolismus stark beeinflusst', 9.0), ('dennoch gelang ihm', 9.0), ('künstlerische karriere ohne', 9.0), ('offizielle ausbildung fort', 9.0), ('schon beim eintritt', 9.0), ('künstlerische auseinandersetzung wuchs', 9.0), ('erste künstlerische anerkennung', 9.0)]


#### Even without any explicit specifications one can see that the text is about an artist (sculptor) and his art work

## Create a specified multi-rake object for German

In [5]:
from nltk.corpus import stopwords

rake_specified = Rake(
    min_chars=3,
    max_words=2,
    min_freq=1,
    language_code="de",  # language code german
    stopwords= stopwords.words('german'),  # {'und', 'auf', 'dann'}
    max_words_unknown_lang=2,
    generated_stopwords_percentile=80,
    generated_stopwords_max_len=10,
    generated_stopwords_min_freq=2,
)

**min_chars** - word is selected as keyword if its length is >= min_chars. (Default 3)

**max_words** - maximum number of words in phrase considered to be a keyword. (Default 3)

**min_freq** - minimum number of occurences of a phrase to be considered a keyword. (Default 1)

**language_code** - provide language code as string. Even without specifying language algorithm will try to determine language with cld2 and use corresponding set of built-in stopwords. See original code for provided languages. (Default None)

**stopwords** - provide own collection of stopwords. Here we use German stopwords from NLTK (Default None)

Keep language_code and stopwords as None and stopwords will be generated from provided text.

**max_words_unknown_lang** - the same as max_words but will be used if language is unknown and stopwords are generated from provided text. (Default 2)

**generated_stopwords_percentile** - to generate stopwords distribution of every word is created in text by frequency. Words above this percentile (0 - 100) will be considered candidates to become stopwords. (Default 80)

**generated_stopwords_max_len** - maximum character length of generated stopwords. (Default 3)

**generated_stopwords_min_freq** - minimum frequency of generated stopwords in the distribution. (Default 2)

In [6]:
keywords = rake_specified.apply(
    text_de,
)

In [7]:
keywords[:20] #top 20 keywords from text

#

[('zweiten hälfte', 4.0),
 ('bewegten oberflächen', 4.0),
 ('rodins werk', 4.0),
 ('menschliche emotionen', 4.0),
 ('„der denker', 4.0),
 ('„der kuss', 4.0),
 ('„die bürger', 4.0),
 ('zeitgenossen häufig', 4.0),
 ('unverständnis stießen', 4.0),
 ('dennoch gelang', 4.0),
 ('internationale durchbruch', 4.0),
 ('konservativen beamtenfamilie', 4.0),
 ('vater arbeitete', 4.0),
 ('„petite école', 4.0),
 ('zeit versuchte', 4.0),
 ('dreimal vergeblich', 4.0),
 ('daher setzte', 4.0),
 ('künstlerische karriere', 4.0),
 ('schwester starb', 4.0),
 ('orden pères', 4.0)]