## Этапы (простой) обработки текста

<img src="images/textm.png">


## Декодирование


**Def.**  
перевод последовательности байт в последовательность символов

* Распаковка  
*plain/.zip/.gz/...*
* Кодировка  
*ASCII/utf-8/Windows-1251/...*
* Формат  
*csv/xml/json/doc...*

Кроме того: что такое документ?



## Разбиение на токены
**Def.**  
разбиение последовательности символов на части (токены), возможно, исключая из рассмотрения некоторые символы  
Наивный подход: разделить строку пробелами и выкинуть знаки препинания  


*Трисия любила Нью-Йорк, поскольку любовь к Нью-Йорку могла положительно повлиять на ее карьеру.*  


**Проблемы:**  
* example@example.com, 127.0.0.1
* С++, C#
* York University vs New York University
* Зависимость от языка (“Lebensversicherungsgesellschaftsangestellter”, “l’amour”)
Альтернатива: n-граммы

In [3]:
%pip install nltk

Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'c:\Users\vsevolod.volkov\AppData\Local\Programs\Python\Python39\python.exe -m pip install --upgrade pip' command.


In [4]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\vsevolod.volkov\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [5]:
from nltk.tokenize import RegexpTokenizer


s = "Трисия любила Нью-Йорк, поскольку любовь к Нью-Йорку могла положительно повлиять на ее карьеру."

tokenizer = RegexpTokenizer("\w+|[^\w\s]+")
for t in tokenizer.tokenize(s): 
    print(t)

Трисия
любила
Нью
-
Йорк
,
поскольку
любовь
к
Нью
-
Йорку
могла
положительно
повлиять
на
ее
карьеру
.


## Стоп-слова
**Def.**  
Наиболее частые слова в языке, не содержащие никакой информации о содержании текста



In [7]:
from nltk.corpus import stopwords


print(" ".join(stopwords.words("russian")))

и в во не что он на я с со как а то все она так его но да ты к у же вы за бы по только ее мне было вот от меня еще нет о из ему теперь когда даже ну вдруг ли если уже или ни быть был него до вас нибудь опять уж вам ведь там потом себя ничего ей может они тут где есть надо ней для мы тебя их чем была сам чтоб без будто чего раз тоже себе под будет ж тогда кто этот того потому этого какой совсем ним здесь этом один почти мой тем чтобы нее сейчас были куда зачем всех никогда можно при наконец два об другой хоть после над больше тот через эти нас про всего них какая много разве три эту моя впрочем хорошо свою этой перед иногда лучше чуть том нельзя такой им более всегда конечно всю между


Проблема: “To be or not to be"

## Нормализация
**Def.**  
Приведение токенов к единому виду для того, чтобы избавиться от поверхностной разницы в написании  

Подходы  
* сформулировать набор правил, по которым преобразуется токен  
Нью-Йорк → нью-йорк → ньюйорк → ньюиорк
* явно хранить связи между токенами (WordNet – Princeton)  
машина → автомобиль, Windows 6→ window

In [8]:
s = "Нью-Йорк"
s1 = s.lower()
print(s1)

нью-йорк


In [9]:
import re
s2 = re.sub(r"\W", "", s1, flags=re.U)
print(s2)

ньюйорк


In [10]:
s3 = re.sub(r"й", u"и", s2, flags=re.U)
print(s3)

ньюиорк


## Стемминг и Лемматизация
**Def.**  
Приведение грамматических форм слова и однокоренных слов к единой основе (lemma):
* Stemming – с помощью простых эвристических правил
  * Porter (Cambridge – 1980)
        5 этапов, на каждом применяется набор правил, таких как
            sses → ss (caresses → caress)
            ies → i (ponies → poni)

  * Lovins (1968)
  * Paice (1990)
  * другие
* Lemmatization – с использованием словарей и морфологического анализа


## Стемминг

In [11]:
from nltk.stem.snowball import PorterStemmer
from nltk.stem.snowball import RussianStemmer


s = PorterStemmer()
print(s.stem("Tokenization"))
print(s.stem("stemming"))

r = RussianStemmer()
print(r.stem("Авиация"))
print(r.stem("национальный"))

token
stem
авиац
национальн


**Наблюдение**  
для сложных языков лучше подходит лемматизация

## Лемматизация

In [13]:
%pip install pymorphy2

Collecting pymorphy2
  Using cached pymorphy2-0.9.1-py3-none-any.whl (55 kB)
Collecting dawg-python>=0.7.1
  Using cached DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting docopt>=0.6
  Using cached docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting pymorphy2-dicts-ru<3.0,>=2.4
  Using cached pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
Using legacy 'setup.py install' for docopt, since package 'wheel' is not installed.
Installing collected packages: pymorphy2-dicts-ru, docopt, dawg-python, pymorphy2
  Running setup.py install for docopt: started
  Running setup.py install for docopt: finished with status 'done'
Successfully installed dawg-python-0.7.2 docopt-0.6.2 pymorphy2-0.9.1 pymorphy2-dicts-ru-2.4.417127.4579844
Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'c:\Users\vsevolod.volkov\AppData\Local\Programs\Python\Python39\python.exe -m pip install --upgrade pip' command.


In [15]:
import pymorphy2


morph = pymorphy2.MorphAnalyzer()
print(morph.parse("думающему")[0].normal_form)
print(morph.parse("думающему"))

думать
[Parse(word='думающему', tag=OpencorporaTag('PRTF,impf,intr,pres,actv masc,sing,datv'), normal_form='думать', score=0.25, methods_stack=((DictionaryAnalyzer(), 'думающему', 15, 15),)), Parse(word='думающему', tag=OpencorporaTag('PRTF,impf,intr,pres,actv neut,sing,datv'), normal_form='думать', score=0.25, methods_stack=((DictionaryAnalyzer(), 'думающему', 15, 29),)), Parse(word='думающему', tag=OpencorporaTag('PRTF,impf,tran,pres,actv masc,sing,datv'), normal_form='думать', score=0.25, methods_stack=((DictionaryAnalyzer(), 'думающему', 1399, 15),)), Parse(word='думающему', tag=OpencorporaTag('PRTF,impf,tran,pres,actv neut,sing,datv'), normal_form='думать', score=0.25, methods_stack=((DictionaryAnalyzer(), 'думающему', 1399, 29),))]


In [17]:
print(type(morph.parse("думающему")[0]))

<class 'pymorphy2.analyzer.Parse'>


## Heaps' law
Эмпирическая закономерность в лингвистике, описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины.

$$
M = k T^\beta, \;M \text{ -- размер словаря}, \; T \text{ -- количество слов в корпусе}
$$
$$
30 \leq k \leq 100, \; b \approx 0.5
$$

<img src="images/dim.png">
<img src="images/heaps.png">

## Представление документов
**Boolean Model.** Присутствие или отсутствие слова в документе  
**Bag of Words.** Порядок токенов не важен  

*Погода была ужасная, принцесса была прекрасная.
Или все было наоборот?*

Координаты
* Мультиномиальные: количество токенов в документе
* Числовые: взвешенное количество токенов в документе

## Zipf's law
Эмпирическая закономерность распределения частоты слов естественного языка

$t_1, \ldots, t_N$ - токены, отранжированные по убыванию частоты
   	
$f_1, \dots, f_N$ - соответствующие частоты

**Закон Ципфа**
	$$
	f_i = \frac{c}{i^k}
	$$	
	
	Что еще? Посещаемость сайтов, количество друзей, население городов...
<img src="images/zipf.png">


In [20]:
# %pip install pandas
%pip install --upgrade pip

Collecting pip
  Using cached pip-22.2.2-py3-none-any.whl (2.0 MB)
Installing collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 22.0.4
    Uninstalling pip-22.0.4:
      Successfully uninstalled pip-22.0.4
Successfully installed pip-22.2.2
Note: you may need to restart the kernel to use updated packages.


In [21]:
import pandas as pd
s=pd.Series(["Мама мыла раму мылом", "У попа была собака он её любил"],dtype=str)
# s = s.apply(lambda x: x.lower())
s=s.str.lower()
s=s.str.strip()
s
nn=set()
def growset(x):
    for w in x.split():
        nn.add(w)
s.apply(growset)        
df=pd.DataFrame(data=[(list(nn))],columns=[f'col{i}' for i in range(len(nn))])
df

list(nn)
[(list(nn))]
s = s.str.split(" ", expand=True)
s


Unnamed: 0,0,1,2,3,4,5,6
0,мама,мыла,раму,мылом,,,
1,у,попа,была,собака,он,её,любил


In [4]:
%pip install morpher 


Note: you may need to restart the kernel to use updated packages.


ERROR: Could not find a version that satisfies the requirement morpher (from versions: none)
ERROR: No matching distribution found for morpher


In [22]:
import string
import pymorphy2
morpher = pymorphy2.MorphAnalyzer()

def preprocess_txt(line):
    sw=[]
    # Почистим строку от пунктуации. Для этого пробежимся по каждому символу и проверим, не является ли он знаком пунктуации
    exclude = set(string.punctuation)
    spls = "".join(i for i in line.strip() if i not in exclude).split()
    # Лемматизируем все слова в нашем тексте
    spls = [morpher.parse(i.lower())[0].normal_form for i in spls]
    spls = [i for i in spls if i not in sw and i != ""]
    return spls

In [23]:
import pandas as pd
s = pd.Series(["Мама мыла раму мылом", "У попа была собака он её любил"], dtype="string")
s = s.apply(lambda x: preprocess_txt(x))
s

0                  [мама, мыло, рама, мыло]
1    [у, поп, быть, собака, он, её, любить]
dtype: object

In [24]:
def preprocess_txt(line):
    line1=line.lower()
    line2=line1.split(" ")
    line3=" ".join(line2[::-1])
    return line3
s=s.apply(preprocess_txt)    

preprocess_txt("Мама мыла раму мылом")    

'мылом раму мыла мама'

In [None]:
def reverter(line):  return line.lower().split()[::-1]  
s["text"] = s["text"].apply(lambda x: reverter(x))
s

In [26]:
%pip install sklearn

Collecting sklearn
  Using cached sklearn-0.0.tar.gz (1.1 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting scikit-learn
  Downloading scikit_learn-1.1.2-cp39-cp39-win_amd64.whl (7.4 MB)
     ---------------------------------------- 7.4/7.4 MB 6.6 MB/s eta 0:00:00
Collecting scipy>=1.3.2
  Downloading scipy-1.9.0-cp39-cp39-win_amd64.whl (38.6 MB)
     ---------------------------------------- 38.6/38.6 MB 4.8 MB/s eta 0:00:00
Collecting threadpoolctl>=2.0.0
  Using cached threadpoolctl-3.1.0-py3-none-any.whl (14 kB)
Using legacy 'setup.py install' for sklearn, since package 'wheel' is not installed.
Installing collected packages: threadpoolctl, scipy, scikit-learn, sklearn
  Running setup.py install for sklearn: started
  Running setup.py install for sklearn: finished with status 'done'
Successfully installed scikit-learn-1.1.2 scipy-1.9.0 sklearn-0.0 threadpoolctl-3.1.0
Note: you may need to restart the kernel to use up

In [28]:
documents = ["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

count_vectorizer = CountVectorizer()

# Создаем the Bag-of-Words модель
bag_of_words = count_vectorizer.fit_transform(documents)

# Отобразим Bag-of-Words модель как DataFrame
feature_names = count_vectorizer.get_feature_names()
pd.DataFrame(bag_of_words.toarray(), columns = feature_names)



Unnamed: 0,awesome,funny,hate,it,like,love,movie,nice,one,this,was
0,0,1,0,1,1,0,1,0,0,1,0
1,0,0,1,0,0,0,1,0,0,1,0
2,1,0,0,1,1,0,0,0,0,1,1
3,0,0,0,1,0,1,0,1,1,0,0


In [30]:
from nltk.util import ngrams
text = "I like this movie, it's funny. I hate this movie. This was awesome! I like it. Nice one. I love it."
tokenized = text.split()
bigrams = ngrams(tokenized, 2)
bigrams

<zip at 0x200b90fa140>

In [31]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
document = ["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']
tfidf_vectorizer = TfidfVectorizer()
values = tfidf_vectorizer.fit_transform(document)
# Show the Model as a pandas DataFrame
feature_names = tfidf_vectorizer.get_feature_names()
pd.DataFrame(values.toarray(), columns = feature_names)



Unnamed: 0,awesome,funny,hate,it,like,love,movie,nice,one,this,was
0,0.0,0.571848,0.0,0.365003,0.450852,0.0,0.450852,0.0,0.0,0.365003,0.0
1,0.0,0.0,0.702035,0.0,0.0,0.0,0.553492,0.0,0.0,0.4481,0.0
2,0.539445,0.0,0.0,0.344321,0.425305,0.0,0.0,0.0,0.0,0.344321,0.539445
3,0.0,0.0,0.0,0.345783,0.0,0.541736,0.0,0.541736,0.541736,0.0,0.0


In [32]:
from sklearn.feature_extraction.text import HashingVectorizer
document = ["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']
vectorizer = HashingVectorizer(n_features=2**4)
values = vectorizer.fit_transform(document)
values

<4x16 sparse matrix of type '<class 'numpy.float64'>'
	with 14 stored elements in Compressed Sparse Row format>