In [11]:
# ! pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.2.1-cp38-cp38-macosx_10_9_x86_64.whl (9.0 MB)
[K     |████████████████████████████████| 9.0 MB 3.0 MB/s eta 0:00:01
Collecting threadpoolctl>=2.0.0
  Downloading threadpoolctl-3.1.0-py3-none-any.whl (14 kB)
Installing collected packages: threadpoolctl, scikit-learn
Successfully installed scikit-learn-1.2.1 threadpoolctl-3.1.0
You should consider upgrading via the '/Users/anastasiaalimova/.pyenv/versions/3.8.12/bin/python3.8 -m pip install --upgrade pip' command.[0m


In [462]:
import re

text = "Ночь, улица, фонарь, аптека, Бессмысленный и тусклый свет. Живи еще хоть четверть века — Всё будет так. Исхода нет.'"
tokens = re.findall(r'\b\w+(?:-\w+)*\b', text, flags=re.IGNORECASE)
print(tokens)

['Ночь', 'улица', 'фонарь', 'аптека', 'Бессмысленный', 'и', 'тусклый', 'свет', 'Живи', 'еще', 'хоть', 'четверть', 'века', 'Всё', 'будет', 'так', 'Исхода', 'нет']


In [463]:
def tokenize_text(text):
    """
    разбиение на токены (слова)
    предложения разбиваются на слова, причем сокращенич типа (т.к.) будут считаться одним словом
    """
    token_pattern = r'\b(?:[А-Яа-яЁё]\.)+[А-Яа-яЁё]?\.?|\b\w+(?:-\w+)*\b'
    tokens = re.findall(token_pattern, text, flags=re.IGNORECASE)
    return tokens

def split_sentences(text):
    """
    Регулярное выражение для разбиения текста на предложения.
    Согласно правилам русской грамматики, предложение начинается с заглавной буквы
    и заканчивается точкой, восклицательным или вопросительным знаком.
    """
    pattern = r'(?<!\w\.\w.)(?<![А-ЯЁ][а-яё]\.)(?<=\.|\?|\!)\s'
    
    # Разбиваем текст на предложения, используя регулярное выражение
    sentences = re.split(pattern, text)
    # Удаляем знаки препинания в конце предложений
    sentences = [sentence.strip('.').strip('?').strip('!') for sentence in sentences if sentence.strip()]
    
    return sentences

In [464]:
# Пример использования
text = 'Ночь, улица, фонарь, аптека, Бессмысленный и тусклый свет. Живи еще хоть четверть века — Всё будет так. Исхода нет.'
text_2 = 'Я люблю мороженое, т.к. оно вкусное!'

print("Результат токенизации по словам:\n", tokenize_text(text), '\n')
print("Разбиение на предложения:\n", split_sentences(text), '\n')

print("Результат токенизации по словам текста 2:\n", tokenize_text(text_2))

Результат токенизации по словам:
 ['Ночь', 'улица', 'фонарь', 'аптека', 'Бессмысленный', 'и', 'тусклый', 'свет', 'Живи', 'еще', 'хоть', 'четверть', 'века', 'Всё', 'будет', 'так', 'Исхода', 'нет'] 

Разбиение на предложения:
 ['Ночь, улица, фонарь, аптека, Бессмысленный и тусклый свет', 'Живи еще хоть четверть века — Всё будет так', 'Исхода нет'] 

Результат токенизации по словам текста 2:
 ['Я', 'люблю', 'мороженое', 'т.к.', 'оно', 'вкусное']


Чтобы изменить функцию nltk_tokenization так, чтобы в результате получался список списков токенов предложений, мы можем использовать sent_tokenize из библиотеки NLTK для разделения текста на предложения, а затем применить word_tokenize к каждому предложению, чтобы получить список токенов для каждого предложения. Вот как будет выглядеть новый код:

In [465]:
from nltk.tokenize import word_tokenize

def nltk_tokenization(text):
    # применяем готовую функцию из nltk 
    # разбиваем текст на предложения
    sentences = nltk.sent_tokenize(text, language='russian')
    
    # токенизируем каждое предложение и сохраняем результат в списке
    tokenized_sentences = []
    for sentence in sentences:
        tokenized_sentence = nltk.word_tokenize(sentence, language='russian')
        tokenized_sentences.append(tokenized_sentence)
    
    return tokenized_sentences


text = 'Ночь, улица, фонарь, аптека, Бессмысленный и тусклый свет. Живи еще хоть четверть века — Всё будет так. Исхода нет.'
text_2 = 'Я люблю мороженое, т.к. оно вкусное! И полезное'

text_tokens = nltk_tokenization(text)
text_2_tokens = nltk_tokenization(text_2)

print(text_tokens, '\n')
print(text_2_tokens)               

[['Ночь', ',', 'улица', ',', 'фонарь', ',', 'аптека', ',', 'Бессмысленный', 'и', 'тусклый', 'свет', '.'], ['Живи', 'еще', 'хоть', 'четверть', 'века', '—', 'Всё', 'будет', 'так.', 'Исхода', 'нет', '.']] 

[['Я', 'люблю', 'мороженое', ',', 'т.к.', 'оно', 'вкусное', '!'], ['И', 'полезное']]


In [466]:
t = 'Последние новости: SpaceX запускает новую миссию в космос! В рамках миссии запланировано выведение на орбиту нескольких спутников и отправка груза на Международную космическую станцию. Запуск состоится завтра в 10:00 утра.'
del_punct(nltk_tokenization(t))

[['Последние',
  'новости',
  'SpaceX',
  'запускает',
  'новую',
  'миссию',
  'в',
  'космос'],
 ['В',
  'рамках',
  'миссии',
  'запланировано',
  'выведение',
  'на',
  'орбиту',
  'нескольких',
  'спутников',
  'и',
  'отправка',
  'груза',
  'на',
  'Международную',
  'космическую',
  'станцию'],
 ['Запуск', 'состоится', 'завтра', 'в', '10:00', 'утра']]

In [467]:
def del_punct(token_list):
    """ 
    удаляем знаки отдельно стоящие знаки препинания из списка списков токенов
    """
    new_token_list = []
    for sentence_tokens in token_list:
        tokens = [elem for elem in sentence_tokens if elem not in [',', '.', '—', '–', '!', '?', ':', ';', '"', '«', '»']]
        new_token_list.append(tokens)
    return new_token_list

In [468]:
text_2_tokens = del_punct(text_2_tokens)
text_2_tokens

[['Я', 'люблю', 'мороженое', 'т.к.', 'оно', 'вкусное'], ['И', 'полезное']]

Тестирование

In [469]:
def read_file(file_path):
    """
    читает текстовый файл и возвращает строку с текстом содержимого
    """
    with open(file_path, 'r', encoding='utf-8') as f:
        text = f.read()
    return text.replace("\n", " ")

In [470]:
# Исходные тексты
text_1 = read_file("Текст научной статьи.txt")
print(text_1, '\n')
text_2 = read_file("текст художественный.txt")
print(text_2, '\n')
text_3 = read_file("текст новостной статьи.txt")
print(text_3)

Аннотация Предмет. Проблема бедности играет доминирующую роль в экономике России не только как «социальная болезнь», но и как образец поведения населения и фактор, влияющий на множество важных показателей страны. Бедность – это многомерное явление, являющееся результатом влияния большого количества факторов, которые, с одной стороны, воздействуют на все сферы общественного воспроизводства, а с другой – могут быть порождены социально-психологической сущностью самого человека. В данной статье понятие «бедность» рассматривается с точки зрения институционального подхода. Цели. Комплексное авторское исследование проблемы институционализации бедности в России. Выработка качественно новой стратегии социально-экономического развития, которая будет ориентирована прежде всего на предупреждение бедности и на борьбу с ее причинами в Российской Федерации. Методология. В процессе исследования проблемы институционализации бедности использовались методы логического, статистического анализа. Результаты

In [471]:
def read_txt_get_sentenses(file_name):
    """
    Читайем в файл с текстами, вручную разбитыми на токены и разделенными на предложения и возвращаем список из всех предложений
    """

    with open(file_name) as file:
        text = file.read()

    sentenses = [sentense.strip() for sentense in text.strip("\n| ").split("|")]
    
    return sentenses


def read_txt_get_tokens(file_name):
    """
    Читайем в файл с текстами, вручную разбитыми на токены и разделенными на предложения и возвращаем список токенов
    """

    sentenses = read_txt_get_sentenses(file_name)

    tokens = []
    for sentense in sentenses:
        tokens.append(sentense.split())
    
    return tokens

In [474]:
# файлы с ручным (эталонным) разбиением на предложения
first_txt_true_sentenses = read_txt_get_sentenses("токены для научной статьи.txt")
second_txt_true_sentenses = read_txt_get_sentenses("токены для художественного текста.txt")
third_txt_true_sentenses = read_txt_get_sentenses("токены для новостной статьи.txt")

print(first_txt_true_sentenses)
print(second_txt_true_sentenses)
print(third_txt_true_sentenses)

['Аннотация', 'Предмет', 'Проблема бедности играет доминирующую роль в экономике России не только как социальная болезнь, но и как образец поведения населения и фактор, влияющий на множество важных показателей страны', 'Бедность это многомерное явление, являющееся результатом влияния большого количества факторов, которые, с одной стороны, воздействуют на все сферы общественного воспроизводства, а с другой могут быть порождены социально-психологической сущностью самого человека', 'В данной статье понятие бедность рассматривается с точки зрения институционального подхода', 'Цели', 'Комплексное авторское исследование проблемы институционализации бедности в России', 'Выработка качественно новой стратегии социально-экономического развития, которая будет ориентирована прежде всего на предупреждение бедности и на борьбу с ее причинами в Российской Федерации', 'Методология', 'В процессе исследования проблемы институционализации бедности использовались методы логического, статистического анализ

In [475]:
# файлы с ручным (эталонным) разбиением на токены
first_txt_true_tokens = read_txt_get_tokens("токены для научной статьи.txt")
second_txt_true_tokens = read_txt_get_tokens("токены для художественного текста.txt")
third_txt_true_tokens = read_txt_get_tokens("токены для новостной статьи.txt")

print(first_txt_true_tokens)
print(second_txt_true_tokens)
print(third_txt_true_tokens)

[['Аннотация'], ['Предмет'], ['Проблема', 'бедности', 'играет', 'доминирующую', 'роль', 'в', 'экономике', 'России', 'не', 'только', 'как', 'социальная', 'болезнь,', 'но', 'и', 'как', 'образец', 'поведения', 'населения', 'и', 'фактор,', 'влияющий', 'на', 'множество', 'важных', 'показателей', 'страны'], ['Бедность', 'это', 'многомерное', 'явление,', 'являющееся', 'результатом', 'влияния', 'большого', 'количества', 'факторов,', 'которые,', 'с', 'одной', 'стороны,', 'воздействуют', 'на', 'все', 'сферы', 'общественного', 'воспроизводства,', 'а', 'с', 'другой', 'могут', 'быть', 'порождены', 'социально-психологической', 'сущностью', 'самого', 'человека'], ['В', 'данной', 'статье', 'понятие', 'бедность', 'рассматривается', 'с', 'точки', 'зрения', 'институционального', 'подхода'], ['Цели'], ['Комплексное', 'авторское', 'исследование', 'проблемы', 'институционализации', 'бедности', 'в', 'России'], ['Выработка', 'качественно', 'новой', 'стратегии', 'социально-экономического', 'развития,', 'котора

In [476]:
# Разбиваем тексты на предложения и токены c помощью созданных нами функций
predicted_sentences_1 = split_sentences(text_1)
predicted_sentences_2 = split_sentences(text_2)
predicted_sentences_3 = split_sentences(text_3)

predicted_tokens_1 = [tokenize_text(sentence) for sentence in predicted_sentences_1]
predicted_tokens_2 = [tokenize_text(sentence) for sentence in predicted_sentences_2]
predicted_tokens_3 = [tokenize_text(sentence) for sentence in predicted_sentences_3]

Для определения точности токенизации можно использовать метрику precision, которая показывает соотношение количества правильно определенных токенов к общему количеству токенов в эталонном разбиении. Напишем функцию, которая сравнивает два списка списков токенов и вычисляет precision:

Функция принимает два списка списков токенов - true_tokens и predicted_tokens, соответствующие эталонному разбиению и предсказанию. Сначала функция преобразует каждый список списков токенов в один плоский список токенов. Затем она находит пересечение множеств предсказанных и эталонных токенов, чтобы определить количество правильно предсказанных токенов. Значение precision вычисляется как отношение количества правильно предсказанных токенов к общему количеству предсказанных токенов.

In [477]:
from typing import List

def tokenization_precision(true_tokens, predicted_tokens) -> float:
    """
    Вычисляет precision для списка списков эталонных токенов и списка списков предсказанных токенов.
    
    Аргументы:
    true_tokens: Список списков эталонных токенов.
    predicted_tokens: Список списков предсказанных токенов.
    
    Возвращает:
    Значение precision в диапазоне от 0 до 1.
    """
    true_tokens = [token for sentence in true_tokens for token in sentence]
    predicted_tokens = [token for sentence in predicted_tokens for token in sentence]

    correct_tokens = set(predicted_tokens).intersection(set(true_tokens))
    precision = len(correct_tokens) / len(predicted_tokens)

    return precision

In [478]:
text_1_scores = tokenization_precision(first_txt_true_tokens, predicted_tokens_1)
text_2_scores = tokenization_precision(second_txt_true_tokens, predicted_tokens_2)
text_3_scores = tokenization_precision(third_txt_true_tokens, predicted_tokens_3)

print(f'precision токенизации новостной статьи:\n{text_1_scores}\n')
print(f'precision токенизации художественного текста:\n{text_2_scores}\n')
print(f'precision токенизации научной статьи:\n{text_3_scores}')    

precision токенизации новостной статьи:
0.7262569832402235

precision токенизации художественного текста:
0.6926229508196722

precision токенизации научной статьи:
0.8674698795180723


In [479]:
def sentence_precision(true_sentences, predicted_sentences):
    """
    Определяет точность разбиения на предложения.
    
    Аргументы:
    true_sentences - список эталонных предложений
    predicted_sentences - список предложений, полученных в результате тестирования
    
    Возвращает:
    Значение точности в диапазоне от 0 до 1.
    """
    if len(predicted_sentences) == 0:
        return 0
    
    true_positives = 0
    
    for sentence in predicted_sentences:
        if sentence in true_sentences:
            true_positives += 1
    
    precision = true_positives / len(predicted_sentences)
    
    return precision

Эта функция сравнивает список эталонных предложений true_sentences с полученным в результате тестирования списком предложений test_sentences и вычисляет точность разбиения на предложения.

Для вычисления точности используется метрика precision, которая показывает соотношение количества правильно определенных предложений к общему количеству предложений в полученном списке predicted_sentences.

In [480]:
text_1_scores = sentence_precision(real_sentences1, sentences1)
text_2_scores = sentence_precision(real_sentences1, sentences1)
text_3_scores = sentence_precision(real_sentences1, sentences1)

print(f'precision разбиения на предложения новостной статьи:\n{text_1_scores}\n')
print(f'precision разбиения на предложения научной статьи:\n{text_2_scores}\n')
print(f'precision разбиения на предложения художественного текста:\n{text_3_scores}')  

precision разбиения на предложения новостной статьи:
1.0

precision разбиения на предложения научной статьи:
1.0

precision разбиения на предложения художественного текста:
1.0


Теперь сравним результаты работы самостоятельно написанной функции с готовой функией из nltk

In [482]:
tokens_by_nltk_text_1 = del_punct(nltk_tokenization(text_1))
tokens_by_nltk_text_2 = del_punct(nltk_tokenization(text_2))
tokens_by_nltk_text_3 = del_punct(nltk_tokenization(text_3))

In [483]:
text_1_scores = tokenization_precision(first_txt_true_tokens, tokens_by_nltk_text_1)
text_2_scores = tokenization_precision(second_txt_true_tokens, tokens_by_nltk_text_2)
text_3_scores = tokenization_precision(third_txt_true_tokens, tokens_by_nltk_text_3)

print(f'precision токенизации новостной статьи:\n{text_1_scores}\n')
print(f'precision токенизации художественного текста:\n{text_2_scores}\n')
print(f'precision токенизации научной статьи:\n{text_3_scores}')    

precision токенизации новостной статьи:
0.7262569832402235

precision токенизации художественного текста:
0.680161943319838

precision токенизации научной статьи:
0.8181818181818182
