# Multilingual Rapid Automatic Keyword Extraction (RAKE) for Python

## Automatic keyword extraction from text written in any language

Original Code: https://github.com/vgrabovets/multi_rake

### Install python package 

In [None]:
%pip install multi-rake

## Basic example of multi rake without any specifications

In [16]:
from multi_rake import Rake

text_de = (
    """Jury im Weinstein-Prozess anscheinend uneins.
    Nach einer Woche Beratung sind die Geschworenen zu keinem Ergebnis gekommen. 
    Vor allem bei den schwersten Anklagepunkten scheint die Jury sich nicht einig zu sein.
    Im aufsehenerregenden Vergewaltigungsprozess um Harvey Weinstein scheint die Jury bei den 
    schwersten Vorwürfen offenbar zu keiner Einigung zu kommen. 
    Seit 2017 haben mehr als 80 Frauen Weinstein sexuelle Übergriffe vorgeworfen. 
    In dem weltweit beachteten New Yorker Prozess geht es seit Januar aber vor allem um zwei Anschuldigungen: 
    Weinstein soll 2006 Miriam Haley zum Oralsex gezwungen und Jessica Mann 2013 vergewaltigt haben. 
    Der Prozess gilt als Zäsur der sogenannten MeToo-Bewegung, die von dem Fall ausgelöst wurde. 
    Unter diesem Schlagwort sammelten unzählige Frauen in aller Welt ihre eigenen Erfahrungen 
    mit chauvinistischen Sprüchen, unflätigem Verhalten und sexueller Gewalt, die sie in den Geschichten der 
    mutmaßlichen Weinstein-Opfer wiedererkannten.
    """
)

rake = Rake()

keywords = rake.apply(text_en)

print(keywords[:10])

[('weinstein-prozess anscheinend uneins', 9.0), ('keinem ergebnis gekommen', 9.0), ('schwersten anklagepunkten scheint', 9.0), ('schwersten vorwürfen offenbar', 9.0), ('einstimmiges urteil abgeben', 9.0), ('woche beratung', 4.0), ('keiner einigung', 4.0), ('fünf anklagepunkte', 4.0), ('beratungen fortführen', 4.0), ('danach beendete', 4.0)]


#### Even without any specifications one can see that the text is about the Weinstein lawsuit

## Create a specified multi-rake object for German

In [29]:
from nltk.corpus import stopwords

rake_specified = Rake(
    min_chars=3,
    max_words=1,
    min_freq=1,
    language_code="de",  # language code german
    stopwords= stopwords.words('german'),  # {'und', 'auf', 'dann'}
    max_words_unknown_lang=2,
    generated_stopwords_percentile=80,
    generated_stopwords_max_len=10,
    generated_stopwords_min_freq=2,
)

**min_chars** - word is selected as keyword if its length is >= min_chars. (Default 3)

**max_words** - maximum number of words in phrase considered to be a keyword. (Default 3)

**min_freq** - minimum number of occurences of a phrase to be considered a keyword. (Default 1)

**language_code** - provide language code as string. Even without specifying language algorithm will try to determine language with cld2 and use corresponding set of built-in stopwords. See original code for provided languages. (Default None)

**stopwords** - provide own collection of stopwords. Here we use German stopwords from NLTK (Default None)

Keep language_code and stopwords as None and stopwords will be generated from provided text.

**max_words_unknown_lang** - the same as max_words but will be used if language is unknown and stopwords are generated from provided text. (Default 2)

**generated_stopwords_percentile** - to generate stopwords distribution of every word is created in text by frequency. Words above this percentile (0 - 100) will be considered candidates to become stopwords. (Default 80)

**generated_stopwords_max_len** - maximum character length of generated stopwords. (Default 3)

**generated_stopwords_min_freq** - minimum frequency of generated stopwords in the distribution. (Default 2)

In [30]:
keywords = rake_specified.apply(
    text_de,
)

In [31]:
keywords

[('jury', 1.0),
 ('geschworenen', 1.0),
 ('einigung', 1.0),
 ('kommen', 1.0),
 ('mehr', 1.0),
 ('weinstein', 1.0),
 ('zäsur', 1.0),
 ('welt', 1.0),
 ('geschichten', 1.0)]

A Python module implementation of the Rapid Automatic Keyword Extraction (RAKE) algorithm as described in: Rose, S., Engel, D., Cramer, N., & Cowley, W. (2010). Automatic Keyword Extraction from Individual Documents. In M. W. Berry & J. Kogan (Eds.), Text Mining: Theory and Applications: John Wiley & Sons. Initially by @aneesha, packaged by @tomaspinho.