<a href="https://colab.research.google.com/github/dashadrgna/dashadrgna/blob/master/Deryagina_L8_1_NLP_Preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

# Токенизация

## Токенизация по предложениям

In [5]:
text = """There was clearly nothing to do but flop down on the shabby little
couch and howl. So Della did it."""

In [6]:
nltk.download('punkt')
nltk.sent_tokenize(text)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['There was clearly nothing to do but flop down on the shabby little\ncouch and howl.',
 'So Della did it.']

In [7]:
text_2 = """Один доллар восемьдесят семь центов. Это было все. Из них шестьдесят центов монетками по одному центу. За каждую из этих
 монеток пришлось торговаться с бакалейщиком, зеленщиком, мясником так, что даже уши горели от безмолвного неодобрения,
которое вызывала подобная бережливость."""

In [8]:
nltk.sent_tokenize(text_2, language='russian')

['Один доллар восемьдесят семь центов.',
 'Это было все.',
 'Из них шестьдесят центов монетками по одному центу.',
 'За каждую из этих\n монеток пришлось торговаться с бакалейщиком, зеленщиком, мясником так, что даже уши горели от безмолвного неодобрения,\nкоторое вызывала подобная бережливость.']

## Токенизация по словам

In [9]:
en_tokens = nltk.word_tokenize(text)
print(en_tokens)

['There', 'was', 'clearly', 'nothing', 'to', 'do', 'but', 'flop', 'down', 'on', 'the', 'shabby', 'little', 'couch', 'and', 'howl', '.', 'So', 'Della', 'did', 'it', '.']


In [10]:
sentence = "Della finished her cry and attended to her cheeks with the powder rag."

In [11]:
tokens = nltk.wordpunct_tokenize(sentence)
print(tokens)

['Della', 'finished', 'her', 'cry', 'and', 'attended', 'to', 'her', 'cheeks', 'with', 'the', 'powder', 'rag', '.']


In [12]:

from nltk.tokenize import TreebankWordTokenizer as twt
list(twt().span_tokenize(sentence))



[(0, 5),
 (6, 14),
 (15, 18),
 (19, 22),
 (23, 26),
 (27, 35),
 (36, 38),
 (39, 42),
 (43, 49),
 (50, 54),
 (55, 58),
 (59, 65),
 (66, 69),
 (69, 70)]

In [13]:
sentence_2 = "Делла рыскала по магазинам в поисках подарка для Джима."

In [14]:
ru_tokens = nltk.word_tokenize(sentence_2, language='russian')
print(ru_tokens)

['Делла', 'рыскала', 'по', 'магазинам', 'в', 'поисках', 'подарка', 'для', 'Джима', '.']


# Фильтрация по стоп-словам

In [15]:
from nltk.corpus import stopwords

nltk.download('stopwords')
stopwords = stopwords.words('english')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [16]:
print(en_tokens)

['There', 'was', 'clearly', 'nothing', 'to', 'do', 'but', 'flop', 'down', 'on', 'the', 'shabby', 'little', 'couch', 'and', 'howl', '.', 'So', 'Della', 'did', 'it', '.']


In [17]:
filtered_tokens = [i for i in en_tokens if i not in stopwords]
print(filtered_tokens)

['There', 'clearly', 'nothing', 'flop', 'shabby', 'little', 'couch', 'howl', '.', 'So', 'Della', '.']


# Нормализация

## Английский язык

### Стемминг

In [18]:
p_stemmer = nltk.PorterStemmer()

for word in en_tokens:
     print(p_stemmer.stem(word))

there
wa
clearli
noth
to
do
but
flop
down
on
the
shabbi
littl
couch
and
howl
.
So
della
did
it
.


### Лемматизация

In [19]:
nltk.download('wordnet')
wordnet_lemmatizer = nltk.WordNetLemmatizer()

for word in en_tokens:
    print(wordnet_lemmatizer.lemmatize(word))

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
There
wa
clearly
nothing
to
do
but
flop
down
on
the
shabby
little
couch
and
howl
.
So
Della
did
it
.


## Русский язык

In [20]:
!pip install pymorphy2

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[K     |████████████████████████████████| 55 kB 1.9 MB/s 
Collecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[K     |████████████████████████████████| 8.2 MB 8.6 MB/s 
[?25hCollecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Installing collected packages: pymorphy2-dicts-ru, dawg-python, pymorphy2
Successfully installed dawg-python-0.7.2 pymorphy2-0.9.1 pymorphy2-dicts-ru-2.4.417127.4579844


In [21]:
import pymorphy2

In [23]:
morph = pymorphy2.MorphAnalyzer()

for token in ru_tokens:
    ps = morph.parse(token)
    # print(ps)

    max_score = max([p.score for p in ps])

    for p in ps:
      if p.score == max_score:
        print(p.word, '->', p.normal_form)

делла -> делла
рыскала -> рыскать
по -> по
магазинам -> магазин
в -> в
поисках -> поиск
подарка -> подарок
для -> для
джима -> джим
джима -> джим
. -> .
