`string` `rake algorithm` `tokenization` `automatic text summarization`

In [None]:
# Место для вашего имени и фамилии
# Напоминаю, что сам листок должен называться rake_and_rank_yoursurname.ipynb

Ссылка на данный листок:

https://colab.research.google.com/drive/1DqLxbm0sdcDyIammVqrjyg1_4H0QPkpj

### Про что листок?

Время NLP! (офк я не про ~нейролингвистическое программирование~, а про автоматическую обработку текста &mdash; _Natural Language Processing_)

В этом листочке мы будем реализовывать алгоритм извлечения ключевых слов под названием **RAKE**.

Вот ссылка на статью:

https://www.researchgate.net/publication/227988510_Automatic_Keyword_Extraction_from_Individual_Documents




### Что за ключевые слова?

Ключевые слова &mdash; некоторое множество слов/словосочетаний, которые в совокупности дают неплохое описание текста и его тематики.


### Как работает алгоритм?

Алгоритму на вход подаётся некоторый текст на английском языке (новость, абстракт статьи, ...).

Задача алгоритма &mdash; выдать некоторое количество ключевых слов (_keywords_), то есть словосочетаний, которые в совокупности дают хорошее описание текста и его тематики.

TODO: тут будет дописано когда-нибудь :)

### Начальное понимание (вряд ли будет обновляться)

Вы знаете, что у строки есть метод `str.split`, который возвращает список из частей строки, разбитой по некоторому разделителю `sep`:

In [None]:
help(str.split)

Help on method_descriptor:

split(self, /, sep=None, maxsplit=-1)
    Return a list of the words in the string, using sep as the delimiter string.
    
    sep
      The delimiter according which to split the string.
      None (the default value) means split according to any whitespace,
      and discard empty strings from the result.
    maxsplit
      Maximum number of splits to do.
      -1 (the default value) means no limit.



In [None]:
print("ae be ce de".split(" "))  # ['ae', 'be', 'ce', 'de']
print("aaa,bb,cccc,d".split(","))  # ['aaa', 'bb', 'cccc', 'd']
print("a, b, c, d".split(", "))  # ['a', 'b', 'c', 'd']
print("a, b, c, , d".split(", "))  # ['a', 'b', 'c', '', 'd'] -- строки могут быть пустыми!
print("a  b".split(" "))  # ['a', '', 'b']
print("""a b\t
c
""".split())  # ['a', 'b', 'c'] -- если не указать sep, split разбивает по всем пробельным символам

['ae', 'be', 'ce', 'de']
['aaa', 'bb', 'cccc', 'd']
['a', 'b', 'c', 'd']
['a', 'b', 'c', '', 'd']
['a', '', 'b']
['a', 'b', 'c']


Ваша задача чуть сложнее -- реализовать такой вариант split, который будет не только разбивать по пробельным символам (`WHITESPACES`), но и отделять от слов все знаки препинания, кроме апострофов.

Также ваша функция должна не включит в итоговый список строк пустые строки!

Знаки препинания возьмём из библиотеки `string`. Кстати, полезная библиотека! Почитайте :)

Назовём функцию, которую вам надо реализовать, `split_to_tokens()`.

Чтобы лучше понять работу функции -- как всегда, посмотрите на тесты! (они в конце блока)

Помните, что и в начале, и в конце слова может быть больше от одного до скольки угодно знаков препинания ;)

После этого вам нужно реализовать функцию `split_tokens_to_phrases()`.

### Файл с функциями, которые вам нужно реализовать (будет обновляться)

In [None]:
%%file rake_rank.py
"""
Module containing utilities for RAKE algorithm.
"""
import string

from typing import Dict, List, Tuple

WHITESPACES = ' \t\r\n\v\f'  # Но можно обойтись и без этой константы!
PUNCTUATION = string.punctuation.replace("'", "")  # Удалим апостроф из знаков препинания


def split_to_tokens(text: str) -> List[str]:
    """
    Функция работает почти как метод str.split(), с некоторыми особенностями:
    - пустые строки не остаются в итоговом списке
    - знаки препинания в начале и в конце слова (все, кроме апострофа) отделяются от слова

    Example:
    split_to_tokens('John     said "Hey!" (and some other words.)') ->
    -> ['John', 'said', '"', 'Hey', '!', '"', '(', 'and', 'some', 'other', 'words', '.', ')']
    """
    raise NotImplementedError


# вам может понадобиться " ".join(...)
def split_tokens_to_phrases(tokens: List[str], stoplist: List[str]) -> List[str]:
    """
    Функция получает на вход список токенов tokens и список разделителей stoplist,
    а возвращает список фраз.
    Фраза -- такой набор токенов, что
    - фраза содержит несколько токенов (>0), идущих в списке tokens подряд
    - фраза не содержит разделителей
    - перед фразой стоит разделитель из stoplist или начало списка tokens
    - после фразы стоит разделитель из stoplist или конец списка tokens

    Если простыми словами, нужно сложить слова в словосочетаниями,
    а границами этих словосочетаний являются элементы stoplist
    Example:
    split_tokens_to_phrases(
        tokens=["Mary", "and", "John", ",", "some", "words", "(", "and", "other", "words", ")"],
        stoplist=["and", ",", ".", "(", ")"]) ->
    -> ["Mary", "John", "some words", "other words"]
    """
    raise NotImplementedError


def get_cooccurrence_graph(phrases: List[str]) -> Dict[str, Dict[str, int]]:
    """
    Функция принимает список фраз и возвращает таблицу совместной встречаемости в виде словаря,
    где ключом является токен, а значением -- словарём
    (в этом внутреннем словаре ключ -- токен, а значение -- встречаемость).

    Пример: смотрите тесты!
    """
    raise NotImplementedError


def get_degrees(cooccurrence_graph: Dict[str, Dict[str, int]]) -> Dict[str, int]:
    """
    Функция принимает таблицу встречаемости и для каждого токена возвращает его СТЕПЕНЬ:
    сумму длин фраз, в которых встречается этот токен.

    Пример: смотрите тесты!
    """
    raise NotImplementedError


def get_frequencies(cooccurrence_graph: Dict[str, Dict[str, int]]) -> Dict[str, int]:
    """
    Функция принимает таблицу встречаемости и для каждого токена возвращает его ЧАСТОТУ:
    количество раз, которое этот токен встречается.

    Пример: смотрите тесты!
    """
    raise NotImplementedError


def get_ranked_phrases(phrases: List[str], *,
                       degrees: Dict[str, int],
                       frequencies: Dict[str, int]) -> List[Tuple[str, float]]:
    """
    Функция принимает список фраз, степени и частоты токенов.
    Функция возвращает список кортежей, где каждый кортеж -- фраза и её score.
    Score должен быть округлен до 2 знаков после запятой.
    Элементы списка упорядочены по убыванию score,
    при равенстве score -- в алфавитном порядке по фразе.
    """
    raise NotImplementedError



Overwriting rake_rank.py


### Файл с тестами (будет обновляться)

In [None]:
%%file test_public.py
from collections import namedtuple
import pytest

from rake_rank import get_cooccurrence_graph, get_degrees, get_frequencies, get_ranked_phrases
from rake_rank import split_to_tokens, split_tokens_to_phrases

# LINEAR DIOPHANTINE EQUATIONS ARTICLE

DIOPHANTINE_ABSTRACT = """
Compatibility of systems of linear constraints over the set of natural numbers.
Criteria of compatibility of a system of linear Diophantine equations, strict inequations,
and nonstrict inequations are considered.
Upper bounds for components of a minimal set of solutions and algorithms of construction
of minimal generating sets of solutions for all types of systems are given.
These criteria and the corresponding algorithms for constructing a minimal supporting set
of solutions can be used in solving all the considered types of systems and systems.
"""

DIOPHANTINE_TOKENS_EXPECTED = [
    'Compatibility', 'of', 'systems', 'of', 'linear', 'constraints', 'over', 'the', 'set', 'of',
    'natural', 'numbers', '.', 'Criteria', 'of', 'compatibility', 'of', 'a', 'system', 'of',
    'linear', 'Diophantine', 'equations', ',', 'strict', 'inequations', ',', 'and', 'nonstrict',
    'inequations', 'are', 'considered', '.', 'Upper', 'bounds', 'for', 'components', 'of', 'a',
    'minimal', 'set', 'of', 'solutions', 'and', 'algorithms', 'of', 'construction', 'of',
    'minimal', 'generating', 'sets', 'of', 'solutions', 'for', 'all', 'types', 'of', 'systems',
    'are', 'given', '.', 'These', 'criteria', 'and', 'the', 'corresponding', 'algorithms', 'for',
    'constructing', 'a', 'minimal', 'supporting', 'set', 'of', 'solutions', 'can', 'be', 'used',
    'in', 'solving', 'all', 'the', 'considered', 'types', 'of', 'systems', 'and', 'systems', '.'
]

DIOPHANTINE_PHRASES_EXPECTED = [
    'Compatibility', 'systems', 'linear constraints', 'set', 'natural numbers', 'Criteria',
    'compatibility', 'system', 'linear Diophantine equations', 'strict inequations',
    'nonstrict inequations', 'Upper bounds', 'components', 'minimal set', 'solutions',
    'algorithms', 'construction', 'minimal generating sets', 'solutions', 'systems',
    'criteria', 'corresponding algorithms', 'constructing', 'minimal supporting set',
    'solutions', 'solving', 'systems', 'systems'
]

DIOPHANTINE_COOCCURRENCE_EXPECTED = {
    'algorithms': {'algorithms': 2, 'corresponding': 1},
    'bounds': {'bounds': 1, 'upper': 1},
    'compatibility': {'compatibility': 2},
    'components': {'components': 1},
    'constraints': {'constraints': 1, 'linear': 1},
    'constructing': {'constructing': 1},
    'construction': {'construction': 1},
    'corresponding': {'algorithms': 1, 'corresponding': 1},
    'criteria': {'criteria': 2},
    'diophantine': {'diophantine': 1, 'equations': 1, 'linear': 1},
    'equations': {'diophantine': 1, 'equations': 1, 'linear': 1},
    'generating': {'generating': 1, 'minimal': 1, 'sets': 1},
    'inequations': {'inequations': 2, 'nonstrict': 1, 'strict': 1},
    'linear': {'constraints': 1, 'diophantine': 1, 'equations': 1, 'linear': 2},
    'minimal': {
        'generating': 1,
        'minimal': 3,
        'set': 2,
        'sets': 1,
        'supporting': 1
    },
    'natural': {'natural': 1, 'numbers': 1},
    'nonstrict': {'inequations': 1, 'nonstrict': 1},
    'numbers': {'natural': 1, 'numbers': 1},
    'set': {'minimal': 2, 'set': 3, 'supporting': 1},
    'sets': {'generating': 1, 'minimal': 1, 'sets': 1},
    'solutions': {'solutions': 3},
    'solving': {'solving': 1},
    'strict': {'inequations': 1, 'strict': 1},
    'supporting': {'minimal': 1, 'set': 1, 'supporting': 1},
    'system': {'system': 1},
    'systems': {'systems': 4},
    'upper': {'bounds': 1, 'upper': 1}
 }

DIOPHANTINE_DEGREES_EXPECTED = {
    'compatibility': 2, 'systems': 4, 'linear': 5, 'constraints': 2, 'set': 6, 'natural': 2,
    'numbers': 2, 'criteria': 2, 'system': 1, 'diophantine': 3, 'equations': 3, 'strict': 2,
    'inequations': 4, 'nonstrict': 2, 'upper': 2, 'bounds': 2, 'components': 1, 'minimal': 8,
    'solutions': 3, 'algorithms': 3, 'construction': 1, 'generating': 3, 'sets': 3,
    'corresponding': 2, 'constructing': 1, 'supporting': 3, 'solving': 1
}

DIOPHANTINE_FREQUENCIES_EXPECTED = {
    'compatibility': 2, 'systems': 4, 'linear': 2, 'constraints': 1, 'set': 3, 'natural': 1,
    'numbers': 1, 'criteria': 2, 'system': 1, 'diophantine': 1, 'equations': 1, 'strict': 1,
    'inequations': 2, 'nonstrict': 1, 'upper': 1, 'bounds': 1, 'components': 1, 'minimal': 3,
    'solutions': 3, 'algorithms': 2, 'construction': 1, 'generating': 1, 'sets': 1,
    'corresponding': 1, 'constructing': 1, 'supporting': 1, 'solving': 1
}

DIOPHANTINE_RANKED_EXPECTED = [
    ('minimal generating sets', 8.67), ('linear diophantine equations', 8.5),
    ('minimal supporting set', 7.67), ('minimal set', 4.67), ('linear constraints', 4.5),
    ('natural numbers', 4.0), ('nonstrict inequations', 4.0), ('strict inequations', 4.0),
    ('upper bounds', 4.0), ('corresponding algorithms', 3.5), ('set', 2.0), ('algorithms', 1.5),
    ('compatibility', 1.0), ('components', 1.0), ('constructing', 1.0), ('construction', 1.0),
    ('criteria', 1.0), ('solutions', 1.0), ('solving', 1.0), ('system', 1.0), ('systems', 1.0)
]

# HHV-8 KS ARTICLE

HVV8_KS_ABSTRACT = """
The epidemiology of Kaposi's sarcoma (KS) amongst North American and Northern European patients
with AIDS suggests that an infectious agent other than HIV is involved in its pathogenesis.
Several lines of evidence indicate that human herpesvirus 8 (HHV-8),
also termed Kaposi's sarcoma associated herpesvirus, is the sought after agent.
DNA of HHV-8 is invariably found in all forms of KS where the virus is present
 in the KS spindle cell.
 In contrast, HHV-8 DNA is not regularly detected in most other malignancies.
Antibodies against HHV-8 are more frequently found in groups at risk of KS,
and HHV-8 seroconversion precedes KS development.
Several HHV-8 genes have been identified that exhibit transforming potential
 in cell culture systems. In addition, the virus encodes and induces several cytokines
  and angiogenic factors. This is of particular interest as models of KS pathogenesis developed
   before the discovery of HHV-8 emphasized the importance of inflammatory cytokines.
   Although the expression pattern of viral genes in KS is not certain yet,
   it appears likely that the pathogenetic role of HHV-8 in KS may be rather complex and
   differs from other virus-induced malignancies. 1999 Academic Press.
"""

HVV8_KS_TOKENS_EXPECTED = [
    'The', 'epidemiology', 'of', "Kaposi's", 'sarcoma', '(', 'KS', ')', 'amongst', 'North',
    'American', 'and', 'Northern', 'European', 'patients', 'with', 'AIDS', 'suggests', 'that',
    'an', 'infectious', 'agent', 'other', 'than', 'HIV', 'is', 'involved', 'in', 'its',
    'pathogenesis', '.', 'Several', 'lines', 'of', 'evidence', 'indicate', 'that', 'human',
    'herpesvirus', '8', '(', 'HHV-8', ')', ',', 'also', 'termed', "Kaposi's", 'sarcoma',
    'associated', 'herpesvirus', ',', 'is', 'the', 'sought', 'after', 'agent', '.', 'DNA',
    'of', 'HHV-8', 'is', 'invariably', 'found', 'in', 'all', 'forms', 'of', 'KS', 'where',
    'the', 'virus', 'is', 'present', 'in', 'the', 'KS', 'spindle', 'cell', '.', 'In',
    'contrast', ',', 'HHV-8', 'DNA', 'is', 'not', 'regularly', 'detected', 'in', 'most',
    'other', 'malignancies', '.', 'Antibodies', 'against', 'HHV-8', 'are', 'more',
    'frequently', 'found', 'in', 'groups', 'at', 'risk', 'of', 'KS', ',', 'and', 'HHV-8',
    'seroconversion', 'precedes', 'KS', 'development', '.', 'Several', 'HHV-8', 'genes',
    'have', 'been', 'identified', 'that', 'exhibit', 'transforming', 'potential', 'in',
    'cell', 'culture', 'systems', '.', 'In', 'addition', ',', 'the', 'virus', 'encodes',
    'and', 'induces', 'several', 'cytokines', 'and', 'angiogenic', 'factors', '.', 'This',
    'is', 'of', 'particular', 'interest', 'as', 'models', 'of', 'KS', 'pathogenesis',
    'developed', 'before', 'the', 'discovery', 'of', 'HHV-8', 'emphasized', 'the',
    'importance', 'of', 'inflammatory', 'cytokines', '.', 'Although', 'the', 'expression',
    'pattern', 'of', 'viral', 'genes', 'in', 'KS', 'is', 'not', 'certain', 'yet', ',', 'it',
    'appears', 'likely', 'that', 'the', 'pathogenetic', 'role', 'of', 'HHV-8', 'in', 'KS',
    'may', 'be', 'rather', 'complex', 'and', 'differs', 'from', 'other', 'virus-induced',
    'malignancies', '.', '1999', 'Academic', 'Press', '.'
]

HVV8_KS_PHRASES_EXPECTED = [
    'epidemiology', "Kaposi's sarcoma", 'KS', 'North American', 'Northern European patients',
    'AIDS', 'infectious agent', 'HIV', 'involved', 'pathogenesis', 'lines',
    'evidence indicate', 'human herpesvirus 8', 'HHV-8',
    "termed Kaposi's sarcoma associated herpesvirus", 'sought', 'agent', 'DNA', 'HHV-8',
    'invariably found', 'forms', 'KS', 'virus', 'present', 'KS spindle cell', 'contrast',
    'HHV-8 DNA', 'not regularly detected', 'malignancies', 'Antibodies', 'HHV-8',
    'frequently found', 'groups', 'risk', 'KS', 'HHV-8 seroconversion', 'KS development',
    'HHV-8 genes', 'identified', 'exhibit transforming potential', 'cell culture systems',
    'addition', 'virus encodes', 'induces', 'cytokines', 'angiogenic factors',
    'particular interest', 'models', 'KS pathogenesis developed', 'discovery',
    'HHV-8 emphasized', 'importance', 'inflammatory cytokines', 'expression pattern',
    'viral genes', 'KS', 'not certain', 'appears', 'pathogenetic role', 'HHV-8', 'KS',
    'complex', 'differs', 'virus-induced malignancies', '1999 Academic Press'
]

HVV8_KS_COOCCURRENCE_EXPECTED = {
    '1999': {'1999': 1, 'academic': 1, 'press': 1},
    '8': {'8': 1, 'herpesvirus': 1, 'human': 1},
    'academic': {'1999': 1, 'academic': 1, 'press': 1},
    'addition': {'addition': 1},
    'agent': {'agent': 2, 'infectious': 1},
    'aids': {'aids': 1},
    'american': {'american': 1, 'north': 1},
    'angiogenic': {'angiogenic': 1, 'factors': 1},
    'antibodies': {'antibodies': 1},
    'appears': {'appears': 1},
    'associated': {
        'associated': 1,
        'herpesvirus': 1,
        "kaposi's": 1,
        'sarcoma': 1,
        'termed': 1
    },
    'cell': {'cell': 2, 'culture': 1, 'ks': 1, 'spindle': 1, 'systems': 1},
    'certain': {'certain': 1, 'not': 1},
    'complex': {'complex': 1},
    'contrast': {'contrast': 1},
    'culture': {'cell': 1, 'culture': 1, 'systems': 1},
    'cytokines': {'cytokines': 2, 'inflammatory': 1},
    'detected': {'detected': 1, 'not': 1, 'regularly': 1},
    'developed': {'developed': 1, 'ks': 1, 'pathogenesis': 1},
    'development': {
        'development': 1,
        'ks': 1,
    },
    'differs': {'differs': 1},
    'discovery': {'discovery': 1},
    'dna': {'dna': 2, 'hhv-8': 1},
    'emphasized': {'emphasized': 1, 'hhv-8': 1},
    'encodes': {'encodes': 1, 'virus': 1},
    'epidemiology': {'epidemiology': 1},
    'european': {'european': 1, 'northern': 1, 'patients': 1},
    'evidence': {'evidence': 1, 'indicate': 1},
    'exhibit': {'exhibit': 1, 'potential': 1, 'transforming': 1},
    'expression': {'expression': 1, 'pattern': 1},
    'factors': {'angiogenic': 1, 'factors': 1},
    'forms': {'forms': 1},
    'found': {'found': 2, 'frequently': 1, 'invariably': 1},
    'frequently': {'found': 1, 'frequently': 1},
    'genes': {'genes': 2, 'hhv-8': 1, 'viral': 1},
    'groups': {'groups': 1},
    'herpesvirus': {
        '8': 1,
        'associated': 1,
        'herpesvirus': 2,
        'human': 1,
        "kaposi's": 1,
        'sarcoma': 1,
        'termed': 1
    },
    'hhv-8': {
        'dna': 1,
        'emphasized': 1,
        'genes': 1,
        'hhv-8': 8,
        'seroconversion': 1
    },
    'hiv': {'hiv': 1},
    'human': {'8': 1, 'herpesvirus': 1, 'human': 1},
    'identified': {'identified': 1},
    'importance': {'importance': 1},
    'indicate': {'evidence': 1, 'indicate': 1},
    'induces': {'induces': 1},
    'infectious': {'agent': 1, 'infectious': 1},
    'inflammatory': {'cytokines': 1, 'inflammatory': 1},
    'interest': {'interest': 1, 'particular': 1},
    'invariably': {'found': 1, 'invariably': 1},
    'involved': {'involved': 1},
    "kaposi's": {
        'associated': 1,
        'herpesvirus': 1,
        "kaposi's": 2,
        'sarcoma': 2,
        'termed': 1
    },
    'ks': {
        'cell': 1,
        'developed': 1,
        'development': 1,
        'ks': 8,
        'pathogenesis': 1,
        'spindle': 1
    },
    'lines': {'lines': 1},
    'malignancies': {'malignancies': 2, 'virus-induced': 1},
    'models': {'models': 1},
    'north': {'american': 1, 'north': 1},
    'northern': {'european': 1, 'northern': 1, 'patients': 1},
    'not': {'certain': 1, 'detected': 1, 'not': 2, 'regularly': 1},
    'particular': {'interest': 1, 'particular': 1},
    'pathogenesis': {'developed': 1, 'ks': 1, 'pathogenesis': 2},
    'pathogenetic': {'pathogenetic': 1, 'role': 1},
    'patients': {'european': 1, 'northern': 1, 'patients': 1},
    'pattern': {'expression': 1, 'pattern': 1},
    'potential': {'exhibit': 1, 'potential': 1, 'transforming': 1},
    'present': {'present': 1},
    'press': {'1999': 1, 'academic': 1, 'press': 1},
    'regularly': {'detected': 1, 'not': 1, 'regularly': 1},
    'risk': {'risk': 1},
    'role': {'pathogenetic': 1, 'role': 1},
    'sarcoma': {
        'associated': 1,
        'herpesvirus': 1,
        "kaposi's": 2,
        'sarcoma': 2,
        'termed': 1
    },
    'seroconversion': {
        'hhv-8': 1,
        'seroconversion': 1
    },
    'sought': {'sought': 1},
    'spindle': {'cell': 1, 'ks': 1, 'spindle': 1},
    'systems': {'cell': 1, 'culture': 1, 'systems': 1},
    'termed': {
        'associated': 1,
        'herpesvirus': 1,
        "kaposi's": 1,
        'sarcoma': 1,
        'termed': 1
    },
    'transforming': {'exhibit': 1, 'potential': 1, 'transforming': 1},
    'viral': {'genes': 1, 'viral': 1},
    'virus': {'encodes': 1, 'virus': 2},
    'virus-induced': {'malignancies': 1, 'virus-induced': 1}
 }

HVV8_KS_DEGREES_EXPECTED = {
    'epidemiology': 1, "kaposi's": 7, 'sarcoma': 7, 'ks': 13, 'north': 2, 'american': 2,
    'northern': 3, 'european': 3, 'patients': 3, 'aids': 1, 'infectious': 2, 'agent': 3, 'hiv': 1,
    'involved': 1, 'pathogenesis': 4, 'lines': 1, 'evidence': 2, 'indicate': 2, 'human': 3,
    'herpesvirus': 8, '8': 3, 'hhv-8': 12, 'termed': 5, 'associated': 5, 'sought': 1, 'dna': 3,
    'invariably': 2, 'found': 4, 'forms': 1, 'virus': 3, 'present': 1, 'spindle': 3, 'cell': 6,
    'contrast': 1, 'not': 5, 'regularly': 3, 'detected': 3, 'malignancies': 3, 'antibodies': 1,
    'frequently': 2, 'groups': 1, 'risk': 1, 'seroconversion': 2, 'development': 2,
    'genes': 4, 'identified': 1, 'exhibit': 3, 'transforming': 3, 'potential': 3, 'culture': 3,
    'systems': 3, 'addition': 1, 'encodes': 2, 'induces': 1, 'cytokines': 3, 'angiogenic': 2,
    'factors': 2, 'particular': 2, 'interest': 2, 'models': 1, 'developed': 3, 'discovery': 1,
    'emphasized': 2, 'importance': 1, 'inflammatory': 2, 'expression': 2, 'pattern': 2, 'viral': 2,
    'certain': 2, 'appears': 1, 'pathogenetic': 2, 'role': 2, 'complex': 1, 'differs': 1,
    'virus-induced': 2, '1999': 3, 'academic': 3, 'press': 3
}

HVV8_KS_FREQUENCIES_EXPECTED = {
    'epidemiology': 1, "kaposi's": 2, 'sarcoma': 2, 'ks': 8, 'north': 1, 'american': 1,
    'northern': 1, 'european': 1, 'patients': 1, 'aids': 1, 'infectious': 1, 'agent': 2, 'hiv': 1,
    'involved': 1, 'pathogenesis': 2, 'lines': 1, 'evidence': 1, 'indicate': 1, 'human': 1,
    'herpesvirus': 2, '8': 1, 'hhv-8': 8, 'termed': 1, 'associated': 1, 'sought': 1, 'dna': 2,
    'invariably': 1, 'found': 2, 'forms': 1, 'virus': 2, 'present': 1, 'spindle': 1, 'cell': 2,
    'contrast': 1, 'not': 2, 'regularly': 1, 'detected': 1, 'malignancies': 2, 'antibodies': 1,
    'frequently': 1, 'groups': 1, 'risk': 1, 'seroconversion': 1, 'development': 1,
    'genes': 2, 'identified': 1, 'exhibit': 1, 'transforming': 1, 'potential': 1, 'culture': 1,
    'systems': 1, 'addition': 1, 'encodes': 1, 'induces': 1, 'cytokines': 2, 'angiogenic': 1,
    'factors': 1, 'particular': 1, 'interest': 1, 'models': 1, 'developed': 1, 'discovery': 1,
    'emphasized': 1, 'importance': 1, 'inflammatory': 1, 'expression': 1, 'pattern': 1,
    'viral': 1, 'certain': 1, 'appears': 1, 'pathogenetic': 1, 'role': 1, 'complex': 1,
    'differs': 1, 'virus-induced': 1, '1999': 1, 'academic': 1, 'press': 1
}


HVV8_KS_RANKED_EXPECTED = [
    ("termed kaposi's sarcoma associated herpesvirus", 21.0), ('human herpesvirus 8', 10.0),
    ('1999 academic press', 9.0), ('cell culture systems', 9.0),
    ('exhibit transforming potential', 9.0), ('northern european patients', 9.0),
    ('not regularly detected', 8.5), ('ks spindle cell', 7.62), ("kaposi's sarcoma", 7.0),
    ('ks pathogenesis developed', 6.62), ('not certain', 4.5), ('angiogenic factors', 4.0),
    ('evidence indicate', 4.0), ('expression pattern', 4.0), ('frequently found', 4.0),
    ('invariably found', 4.0), ('north american', 4.0), ('particular interest', 4.0),
    ('pathogenetic role', 4.0), ('viral genes', 4.0), ('ks development', 3.62),
    ('hhv-8 emphasized', 3.5), ('hhv-8 genes', 3.5), ('hhv-8 seroconversion', 3.5),
    ('infectious agent', 3.5), ('inflammatory cytokines', 3.5), ('virus encodes', 3.5),
    ('virus-induced malignancies', 3.5), ('hhv-8 dna', 3.0), ('pathogenesis', 2.0), ('ks', 1.62),
    ('agent', 1.5), ('cytokines', 1.5), ('dna', 1.5), ('hhv-8', 1.5), ('malignancies', 1.5),
    ('virus', 1.5), ('addition', 1.0), ('aids', 1.0), ('antibodies', 1.0), ('appears', 1.0),
    ('complex', 1.0), ('contrast', 1.0), ('differs', 1.0), ('discovery', 1.0),
    ('epidemiology', 1.0), ('forms', 1.0), ('groups', 1.0), ('hiv', 1.0), ('identified', 1.0),
    ('importance', 1.0), ('induces', 1.0), ('involved', 1.0), ('lines', 1.0), ('models', 1.0),
    ('present', 1.0), ('risk', 1.0), ('sought', 1.0)
]


BIG_STOPLIST = [
    '(', ')', 'and', 'of', 'the', 'amongst', 'with', 'from', 'after', 'its', 'it', 'at', 'is',
    'this', ',', '.', 'be', 'in', 'that', 'an', 'other', 'than', 'also', 'are', 'may', 'suggests',
    'all', 'where', 'most', 'against', 'more', 'have', 'been', 'several', 'as', 'before',
    'although', 'yet', 'likely', 'rather', 'over', 'a', 'for', 'can', 'these', 'considered',
    'used', 'types', 'given', 'precedes',
]


Case = namedtuple('Case', ['data', 'expected', 'name'])


TOKENS_TEST_CASES = [
    Case(data=HVV8_KS_ABSTRACT, expected=HVV8_KS_TOKENS_EXPECTED, name='hhv8-ks'),
    Case(data=DIOPHANTINE_ABSTRACT, expected=DIOPHANTINE_TOKENS_EXPECTED, name='diophantine'),
]


PHRASES_TEST_CASES = [
    Case(data=HVV8_KS_ABSTRACT, expected=HVV8_KS_PHRASES_EXPECTED, name='hhv8-ks'),
    Case(data=DIOPHANTINE_ABSTRACT, expected=DIOPHANTINE_PHRASES_EXPECTED, name='diophantine'),
]


COOCCURRENCE_TEST_CASES = [
    Case(data=HVV8_KS_ABSTRACT, expected=HVV8_KS_COOCCURRENCE_EXPECTED, name='hhv8-ks'),
    Case(data=DIOPHANTINE_ABSTRACT, expected=DIOPHANTINE_COOCCURRENCE_EXPECTED, name='diophantine'),
]


DEGREES_TEST_CASES = [
    Case(data=HVV8_KS_ABSTRACT, expected=HVV8_KS_DEGREES_EXPECTED, name='hhv8-ks'),
    Case(data=DIOPHANTINE_ABSTRACT, expected=DIOPHANTINE_DEGREES_EXPECTED, name='diophantine'),
]


FREQUENCIES_TEST_CASES = [
    Case(data=HVV8_KS_ABSTRACT, expected=HVV8_KS_FREQUENCIES_EXPECTED, name='hhv8-ks'),
    Case(data=DIOPHANTINE_ABSTRACT, expected=DIOPHANTINE_FREQUENCIES_EXPECTED, name='diophantine'),
]


RANKED_TEST_CASES = [
    Case(data=HVV8_KS_ABSTRACT, expected=HVV8_KS_RANKED_EXPECTED, name='hhv8-ks'),
    Case(data=DIOPHANTINE_ABSTRACT, expected=DIOPHANTINE_RANKED_EXPECTED, name='diophantine'),
]



def test_split_to_tokens_simple() -> None:
    assert split_to_tokens("OSX 13.0") == ["OSX", "13.0"]
    assert split_to_tokens("a b c") == ['a', 'b', 'c']
    assert split_to_tokens('John    said "Hey!" (and some other words.)') == \
        ['John', 'said', '"', 'Hey', '!', '"', '(', 'and', 'some', 'other', 'words', '.', ')']
    assert split_to_tokens('A  and   B.  ') == ['A', 'and', 'B', '.']
    assert split_to_tokens("(Hey...)") == ['(', 'Hey', '.', '.', '.', ')']


@pytest.mark.parametrize('case', TOKENS_TEST_CASES, ids=lambda c: c.name)
def test_split_to_tokens(case: Case) -> None:
    tokens = split_to_tokens(case.data)
    for i, token in enumerate(tokens):
        assert token == case.expected[i], f"Mismatch at token #{i}: {token}"
    assert len(tokens) == len(case.expected), "Wrong number of tokens"


def test_split_tokens_to_phrases_simple() -> None:
    assert split_tokens_to_phrases(
        tokens=["Mary", "and", "John", ",", "some", "words", "(", "and", "other", "words", ")"],
        stoplist=["and", ",", ".", "(", ")"]) == ["Mary", "John", "some words", "other words"]
    assert split_tokens_to_phrases(tokens=["a", "b"], stoplist=[]) == ["a b"]
    assert split_tokens_to_phrases(tokens=["a", "b", ",", ",", "c", "d", ",", "e", "f", "g"],
                                   stoplist=[","]) == ["a b", "c d", "e f g"]


@pytest.mark.parametrize('case', PHRASES_TEST_CASES, ids=lambda c: c.name)
def test_split_tokens_to_phrases(case: Case) -> None:
    tokens = split_to_tokens(case.data)
    phrases = split_tokens_to_phrases(tokens, stoplist=BIG_STOPLIST)
    for i, phrase in enumerate(phrases):
        assert phrase == case.expected[i], f"Mismatch at phrase #{i}: {phrase}"
    assert len(phrases) == len(case.expected), "Wrong number of phrases"


@pytest.mark.parametrize('case', COOCCURRENCE_TEST_CASES, ids=lambda c: c.name)
def test_get_cooccurrence_graph(case: Case) -> None:
    tokens = split_to_tokens(case.data)
    phrases = split_tokens_to_phrases(tokens, stoplist=BIG_STOPLIST)
    cooccurrence_result = get_cooccurrence_graph(phrases)
    for key in cooccurrence_result:
        assert cooccurrence_result[key] == case.expected[key], f"Mismatch at token {key}"
    assert len(cooccurrence_result) == len(case.expected), "Wrong number of tokens"


@pytest.mark.parametrize('case', DEGREES_TEST_CASES, ids=lambda c: c.name)
def test_get_degrees(case: Case) -> None:
    tokens = split_to_tokens(case.data)
    phrases = split_tokens_to_phrases(tokens, stoplist=BIG_STOPLIST)
    cooccurrence = get_cooccurrence_graph(phrases)
    degrees_result = get_degrees(cooccurrence)
    for key in degrees_result:
        assert degrees_result[key] == case.expected[key], f"Mismatch at token {key}"
    assert len(degrees_result) == len(case.expected), "Wrong number of tokens"


@pytest.mark.parametrize('case', FREQUENCIES_TEST_CASES, ids=lambda c: c.name)
def test_get_frequencies(case: Case) -> None:
    tokens = split_to_tokens(case.data)
    phrases = split_tokens_to_phrases(tokens, stoplist=BIG_STOPLIST)
    cooccurrence = get_cooccurrence_graph(phrases)
    degrees_result = get_frequencies(cooccurrence)
    for key in degrees_result:
        assert degrees_result[key] == case.expected[key], f"Mismatch at token {key}"
    assert len(degrees_result) == len(case.expected), "Wrong number of tokens"


@pytest.mark.parametrize('case', RANKED_TEST_CASES, ids=lambda c: c.name)
def test_get_ranked_phrases(case: Case) -> None:
    tokens = split_to_tokens(case.data)
    phrases = split_tokens_to_phrases(tokens, stoplist=BIG_STOPLIST)
    cooccurrence = get_cooccurrence_graph(phrases)
    degrees = get_degrees(cooccurrence)
    frequencies = get_frequencies(cooccurrence)
    ranked_result = get_ranked_phrases(phrases, degrees=degrees, frequencies=frequencies)
    for i, phrase in enumerate(ranked_result):
        assert phrase[0] == case.expected[i][0], f"Mismatch at phrase #{i}: {phrase[0]}"
        assert phrase[1] == case.expected[i][1], \
            f"Wrong score {phrase[1]} at phrase #{i}: {phrase[0]}"
    assert len(ranked_result) == len(case.expected), "Wrong number of phrases"



### pylint + flake8

In [None]:
!python -m pip install pylint flake8

In [None]:
!python -m pylint rake_rank.py --max-line-length=100
!python -m flake8 rake_rank.py --max-line-length=100

### Запуск тестов

In [None]:
!python -m pip install pytest

In [None]:
!python -m pytest test_public.py -vv