<a href="https://colab.research.google.com/github/zZilman/---/blob/main/nlp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import re # Импортируем модуль для работы с регулярными выражениями

test_str = '<p>Hello <b>World!!!</b><p>'
print(test_str)

# Используем функцию re.sub. Первый ее аргумент - шаблон строки, по которому нужно искать подстроки.
# Второй аргумент - строка, на которую нужно заменить найденную подстроку. Третий аргумент - строка, 
# в которой нужно искать и заменять подстроки.
clear_str = re.sub(r'<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});', '', test_str)
print(clear_str)

<p>Hello <b>World!!!</b><p>
Hello World!!!


In [None]:
import stanza # Импортируем библиотеку stanza
# Чтобы использовать библиотеку для английского языка, нужно скачать набор моделей.
stanza.download('en')

test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))


# Создадим обработчик для английского языка, который будет включать в себя токенизатор
nlp = stanza.Pipeline(lang='en', processors='tokenize')

# Передаем в созданный обработчик заданный текст и получаем на выходе обработанный текст, 
# записанный в определенной структуре.
doc = nlp(test_str)

tokens = [] # Создадим список, в котором будем хранить отдельные слова
for sent in doc.sentences: # Перебираем предложения
    for word in sent.words: # Перебираем все слова в каждом из предложений
        tokens.append(word.text) # Чтобы получить доступ к слову, необходимо обратиться к нему word.text

tokenized_str = ' '.join(tokens) # Объединяем отдельные слова в один текст, разделяя слова пробелами
print('Токенизированный текст: {}'.format(tokenized_str))

In [None]:
from nltk.tokenize import word_tokenize

tokens = word_tokenize(test_str)

tokenized_str = ' '.join(tokens)
print('Токенизированный текст: {}'.format(tokenized_str))


In [None]:
test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        tokens.append(word.text.lower()) # Приведение к нижнему регистру

tokenized_str = ' '.join(tokens)
print('Токенизированный текст: {}'.format(tokenized_str))

In [None]:
test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

# Помимо токенизатора используем модули, отвечающие за определение части речи. 
nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos')

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        # Все числа имеюбт часть речи NUM
        # А если вы захотите удалить все знаки пунктуации, то вам поможет часть речи PUNCT
        if word.upos == 'NUM':
            tokens.append('__NUM__') # Заменяем все числа на специальный токен
        else:
            tokens.append(word.text.lower()) # Если нам встретилось не число, то помещаем его в список

tokenized_str = ' '.join(tokens)
print('Токенизированный текст без чисел: {}'.format(tokenized_str))


In [None]:
from nltk.corpus import stopwords

swords = stopwords.words('english')
print(swords)


Рассмотрим, как удалить стоп-слова при обработке текста библиотекой stanza и при разделении текста с помощью функции split.

In [None]:
test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos')

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        if word.upos == 'NUM':
            tokens.append('__NUM__')
        else:
            token = word.text.lower()
            if token not in swords:
                tokens.append(token)

tokenized_str = ' '.join(tokens)
print('Токенизированный текст без чисел: {}'.format(tokenized_str))


Рассмотрим, как можно реализовать лематизацию при помощи библиотеки stanza.

In [None]:
est_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

# Добавляем обработчик, ответственный за нахождение изначальных форм слов
nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos,lemma')

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        if word.upos == 'NUM':
            tokens.append('__NUM__')
        else:
            token = word.lemma.lower() # Находим изначальную форму слова
            if token not in swords:
                tokens.append(token)

tokenized_str = ' '.join(tokens)
print('Токенизированный текст без чисел: {}'.format(tokenized_str))