<a href="https://colab.research.google.com/github/PavelNovikov888/data_science/blob/main/TextPreprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Этапы (простой) обработки текста

<img src="images/textm.png">


## Декодирование


**Def.**  
перевод последовательности байт в последовательность символов

* Распаковка  
*plain/.zip/.gz/...*
* Кодировка  
*ASCII/utf-8/Windows-1251/...*
* Формат  
*csv/xml/json/doc...*

Кроме того: что такое документ?



## Разбиение на токены
**Def.**  
разбиение последовательности символов на части (токены), возможно, исключая из рассмотрения некоторые символы  
Наивный подход: разделить строку пробелами и выкинуть знаки препинания  


*Трисия любила Нью-Йорк, поскольку любовь к Нью-Йорку могла положительно повлиять на ее карьеру.*  


**Проблемы:**  
* example@example.com, 127.0.0.1
* С++, C#
* York University vs New York University
* Зависимость от языка (“Lebensversicherungsgesellschaftsangestellter”, “l’amour”)
Альтернатива: n-граммы

In [1]:
import nltk
# выберите пакеты или коллекции, которые вы хотите загрузить.
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
from nltk.tokenize import RegexpTokenizer


s = "Трисия любила Нью-Йорк, поскольку любовь к Нью-Йорку могла положительно повлиять на ее карьеру."

tokenizer = RegexpTokenizer("\w+|[^\w\s]+")
for t in tokenizer.tokenize(s):
    print(t)

Трисия
любила
Нью
-
Йорк
,
поскольку
любовь
к
Нью
-
Йорку
могла
положительно
повлиять
на
ее
карьеру
.


## Стоп-слова
**Def.**  
Наиболее частые слова в языке, не содержащие никакой информации о содержании текста



In [2]:
from nltk.corpus import stopwords


print(" ".join(stopwords.words("russian")[1:20]))

в во не что он на я с со как а то все она так его но да ты


Проблема: “To be or not to be"

## Нормализация
**Def.**  
Приведение токенов к единому виду для того, чтобы избавиться от поверхностной разницы в написании  

Подходы  
* сформулировать набор правил, по которым преобразуется токен  
Нью-Йорк → нью-йорк → ньюйорк → ньюиорк
* явно хранить связи между токенами (WordNet – Princeton)  
машина → автомобиль, Windows 6→ window

In [3]:
s = "Нью-Йорк"
s1 = s.lower()
print(s1)

нью-йорк


In [4]:
import re
s2 = re.sub(r"\W", "", s1, flags=re.U)
print(s2)

ньюйорк


In [8]:
s3 = re.sub(r"й", u"и", s2, flags=re.U)
print(s3)

ньюиорк


## Стемминг и Лемматизация
**Def.**  
Приведение грамматических форм слова и однокоренных слов к единой основе (lemma):
* Stemming – с помощью простых эвристических правил
  * Porter (Cambridge – 1980)
        5 этапов, на каждом применяется набор правил, таких как
            sses → ss (caresses → caress)
            ies → i (ponies → poni)

  * Lovins (1968)
  * Paice (1990)
  * другие
* Lemmatization – с использованием словарей и морфологического анализа


## Стемминг

In [9]:
from nltk.stem.snowball import PorterStemmer
from nltk.stem.snowball import RussianStemmer


s = PorterStemmer()
print(s.stem("Tokenization"))
print(s.stem("stemming"))

r = RussianStemmer()
print(r.stem("Авиация"))
print(r.stem("национальный"))

token
stem
авиац
национальн


**Наблюдение**  
для сложных языков лучше подходит лемматизация

## Лемматизация

In [10]:
#  !pip install pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4 (from pymorphy2)
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m59.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13705 sha256=1f2c4e74e2cc821dc3e7d9bef8f7d550db61bbe43bb8e70067dda0a6077d9bf9
  Stored in directory: /root/.

In [11]:
import pymorphy2


morph = pymorphy2.MorphAnalyzer()
print(morph.parse("думающему")[0].normal_form)

думать


In [18]:
morph.parse('думающему')

[Parse(word='думающему', tag=OpencorporaTag('PRTF,impf,intr,pres,actv masc,sing,datv'), normal_form='думать', score=0.25, methods_stack=((DictionaryAnalyzer(), 'думающему', 15, 15),)),
 Parse(word='думающему', tag=OpencorporaTag('PRTF,impf,intr,pres,actv neut,sing,datv'), normal_form='думать', score=0.25, methods_stack=((DictionaryAnalyzer(), 'думающему', 15, 29),)),
 Parse(word='думающему', tag=OpencorporaTag('PRTF,impf,tran,pres,actv masc,sing,datv'), normal_form='думать', score=0.25, methods_stack=((DictionaryAnalyzer(), 'думающему', 1399, 15),)),
 Parse(word='думающему', tag=OpencorporaTag('PRTF,impf,tran,pres,actv neut,sing,datv'), normal_form='думать', score=0.25, methods_stack=((DictionaryAnalyzer(), 'думающему', 1399, 29),))]

## Heaps' law
Эмпирическая закономерность в лингвистике, описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины.

$$
M = k T^\beta, \;M \text{ -- размер словаря}, \; T \text{ -- количество слов в корпусе}
$$
$$
30 \leq k \leq 100, \; b \approx 0.5
$$

<img src="images/dim.png">
<img src="images/heaps.png">

## Представление документов
**Boolean Model.** Присутствие или отсутствие слова в документе  
**Bag of Words.** Порядок токенов не важен  

*Погода была ужасная, принцесса была прекрасная.
Или все было наоборот?*

Координаты
* Мультиномиальные: количество токенов в документе
* Числовые: взвешенное количество токенов в документе

## Zipf's law
Эмпирическая закономерность распределения частоты слов естественного языка

$t_1, \ldots, t_N$ - токены, отранжированные по убыванию частоты

$f_1, \dots, f_N$ - соответствующие частоты

**Закон Ципфа**
	$$
	f_i = \frac{c}{i^k}
	$$

	Что еще? Посещаемость сайтов, количество друзей, население городов...
<img src="images/zipf.png">


In [13]:
import pandas as pd
import string
from string import punctuation

удалить все символы пунктуации из текстов;
привести каждый из текстов к нижнему регистру;
убрать лишние пробелы с обеих сторон текстов;
разбить тексты по пробелу на слова.
В результате работы программы у вас должна получиться новая Series с именем new_s, которая состоит из списков слов.

In [18]:
s = pd.Series(
    ["Авторитет и дружба вода и огонь, вещи разнородные и враждебные; равенство условие дружбы.",
     "Нет силы более могучей, чем знание; человек, вооружённый знанием, — непобедим.",
     "Истинная сила человека не в порывах, а в нерушимом спокойствии.",
     "Величайшее богатство народа его язык."
     ],
    dtype="string"
)
new_s = s.str.replace(f'[{string.punctuation}]', '', regex=True).str.lower().str.strip(' ').str.split(' ')
# new_s.head()
# new_s.map(lambda i: "".join(i for i in new_s if i not in exclude))
# new_s = s.str.lower().str.strip(' ').str.split(' ')
print(new_s)

0    [авторитет, и, дружба, вода, и, огонь, вещи, р...
1    [нет, силы, более, могучей, чем, знание, челов...
2    [истинная, сила, человека, не, в, порывах, а, ...
3           [величайшее, богатство, народа, его, язык]
dtype: object


In [11]:
exclude

['!',
 '"',
 '#',
 '$',
 '%',
 '&',
 "'",
 '(',
 ')',
 '*',
 '+',
 ',',
 '-',
 '.',
 '/',
 ':',
 ';',
 '<',
 '=',
 '>',
 '?',
 '@',
 '[',
 '\\',
 ']',
 '^',
 '_',
 '`',
 '{',
 '|',
 '}',
 '~']