# Базовая обработка текста

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* https://www.nltk.org/api/nltk.html
* https://pymorphy2.readthedocs.io/en/stable/
* https://docs.python.org/3/library/re.html
* https://regex101.com/

## Задачи для совместного разбора

In [2]:
import re
import subprocess
from collections import defaultdict
from pathlib import Path

import nltk
import nltk.stem
import pandas as pd
import pymorphy2
from nltk import word_tokenize
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer

nltk.download('stopwords')
repo_dir = Path(subprocess.check_output(["git", "rev-parse", "--show-toplevel"]).decode().strip())

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\anvbakhmatov\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


1. Найдите все суммы (число плюс валюта), которые упоминаются в данном тексте. Выведите результат в виде списка кортежей из двух элементов (число, валюта)

In [1]:
text = """During my trip to Europe, I exchanged $10.50 for €20,00 at the currency exchange booth.
With ¥5000, I bought some souvenirs from a local market.
Later, I treated myself to a delicious meal at a restaurant, which cost me £15,99.
Finally, I converted 100₹ into the local currency to buy a traditional Indian artwork."""

In [11]:
patt = re.compile(r"([$€£¥₹]?)(\d+[.,]?\d+)([$€£¥₹]?)")
result = patt.findall(text)
[(c1 or c2, v) for c1, v, c2 in result]

[('$', '10.50'), ('€', '20,00'), ('¥', '5000'), ('£', '15,99'), ('₹', '100')]

2\. Выясните, встречается ли в представленном фрагменте текста тавтология.

In [12]:
text = """Вода - это жидкость, которая имеет свойство быть водой.
Она состоит из молекул, которые образуют воду.
Вода, будучи водой, обладает свойствами, характерными для воды.
Ее молекулы, составляющие воду, образуют воду, которая является водой.
Таким образом, вода, будучи водой, является водой."""

In [17]:
nltk.download("punkt")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [22]:
words = word_tokenize(text.lower())
words[:5]

['вода', '-', 'это', 'жидкость', ',']

In [20]:
# text.split()

In [24]:
tokenizer = RegexpTokenizer(r"\w+")
words = tokenizer.tokenize(text.lower())
words[:5]

['вода', 'это', 'жидкость', 'которая', 'имеет']

In [None]:
stemmer = nltk.stem.SnowballStemmer("russian")
stemmed = pd.Series([stemmer.stem(w) for w in words])
stemmed.value_counts()

In [33]:
morph = pymorphy2.MorphAnalyzer()

In [37]:
lemmatized = pd.Series([morph.parse(w)[0].normal_form for w in words])
lemmatized.value_counts()

вода           12
который         3
быть            3
являться        2
свойство        2
она             2
молекула        2
образовать      2
характерный     1
такой           1
составлять      1
для             1
из              1
обладать        1
это             1
состоять        1
иметь           1
жидкость        1
образ           1
dtype: int64

## Задачи для самостоятельного решения

<p class="task" id="1"></p>

1\. Исследуйте, какие формы слова "кот" или "кошка" встречаются в текстах из файла `moya-semia/Лучше кошки зверя нет 2.csv`. Сгруппируйте найденные слова по начальной форме и представьте результата в виде словаря, где ключом является начальная форма слова, а значением - список форм этого слова, которые встретились в тексте. Примеры подходящих слов: "котейки", "кошечка", "котик" и т.д.

In [6]:
df = pd.read_csv(repo_dir / r'data\moya-semia\Лучше кошки зверя нет 2.csv', header=None)

texts = df[1].tolist()
text = ' '.join(texts)

words_to_ignore = stopwords.words('russian')

tokenizer = RegexpTokenizer(r"\w+")
words = tokenizer.tokenize(text.lower())
words = set([word for word in words if word not in words_to_ignore])
words

{'пропадала',
 'проволоку',
 'конкурентами',
 'котлетки',
 'перевыполнила',
 'пердержкой',
 'обижаюсь',
 'спасал',
 'тех',
 'отгонял',
 'лирическое',
 'раздаются',
 'чеков',
 'выслушав',
 'маячком',
 'отстой',
 'охотятся',
 'халяву',
 'позвонков',
 'балдеют',
 'запретила',
 'представьте',
 '150',
 'ударила',
 'старту',
 'подлетаю',
 'возьмутсявозьмите',
 'тычась',
 'привередливые',
 'лизину',
 'троцким',
 'рассказывабт',
 'отклонений',
 'обиженных',
 'ужинает',
 'рассказывай',
 'упорно',
 'пораньше',
 'упавшего',
 'нахождению',
 'гимнастический',
 'субботу',
 'начищай',
 'выложил',
 'развлекать',
 'обиженный',
 'костюме',
 'покричала',
 'точная',
 'мозга',
 'некоторую',
 'трапезу',
 'пододеяльники',
 'ледяной',
 'копченую',
 'открывала',
 'выборе',
 'показывать',
 'задавила',
 'стул',
 'плавниками',
 'помета',
 'дунька',
 'обедают',
 'завтрака',
 'выпозли',
 'больной',
 'полных',
 'наглядное',
 'ангор',
 'нoвая',
 'прикидывает',
 'выражением',
 'осторожная',
 'разводить',
 'кольца',
 '

In [None]:

morph = pymorphy2.MorphAnalyzer()
lemmatized_to_original = defaultdict(list)

for word in words:
    lemm_word = morph.parse(word)[0].normal_form
    lemmatized_to_original[lemm_word].append(word)

In [8]:
[
 (lemm_word, els) for lemm_word, els in lemmatized_to_original.items()
 if 'кот' in lemm_word or 'кош' in lemm_word
]

[('котлетка', ['котлетки', 'котлетку']),
 ('некоторый',
  ['некоторую', 'некоторых', 'некоторые', 'некоторое', 'некоторым']),
 ('котейшество', ['котейшество', 'котейшества']),
 ('котишка', ['котишки', 'котишка']),
 ('котовместимость', ['котовместимость']),
 ('кошатник',
  ['кошатник',
   'кошатникам',
   'кошатнике',
   'кошатники',
   'кошатником',
   'кошатника']),
 ('котейка',
  ['котейки', 'котеек', 'котейке', 'котейку', 'котейка', 'котейками']),
 ('котёнок',
  ['котята',
   'котенка',
   'котят',
   'котятам',
   'котёнком',
   'котёнку',
   'котенком',
   'котёнок',
   'котятами',
   'котенок',
   'котёнке',
   'котёнка',
   'котенку']),
 ('котенёк', ['котеньку', 'котеньке', 'котеньки', 'котенек', 'котенька']),
 ('котяк', ['котяка', 'котяки']),
 ('кошак', ['кошака', 'кошак', 'кошакам', 'кошаки', 'кошаками', 'кошаков']),
 ('котодевочка', ['котодевочек']),
 ('котофей', ['котофей', 'котофеи', 'котофея', 'котофеям', 'котофеев']),
 ('которебёнок', ['которебенку', 'которебенок', 'котор

<p class="task" id="2"></p>

2\. Получите и выведите на экран набор имён питомцев, упомянутых в текстах из файла `moya-semia/Лучше кошки зверя нет 2.csv`. Для простоты считайте, что имя питомца начинается с заглавной буквы и стоит не в начале предложения.

<p class="task" id="3"></p>

3\. Вычислите среднюю длину сообщения (в количестве предложений) в различных темах форума газеты "Моя Семья" (каждый файл из каталога `data/moya-semia` соответствует отдельной теме". Представьте результат в виде столбчатой диаграммы. Подпишите рисунок и дайте названия осям.  

<p class="task" id="4"></p>

4\. Замените все текстовые смайлики из файла `livejounal/психология.csv` на соответствующие символы юникода. Для поиска смайликов воспользуйтесь регулярными выражениями. Ниже представлен список (не исчерпывающий) примеров возможных смайликов и символ, на который их нужно заменить:

* :=), =-), =-))), ))) и т.д. -> \u263A
* ;), ;-), ;-)) и т.д. -> \U0001F609
* :D, :-D, =-D, =-DDD и т.д. -> \U0001F600
* :=(, :-(, =-(((, (((, ;-( и т.д. -> \U0001F641

<p class="task" id="5"></p>

5\. Для каждого поста из файла `livejounal/психология.csv` создайте числовой вектор, в котором содержится следующая информация

* количество абзацев
* количество предложений
* количество слов
* количество смайликов \u263A
* количество смайликов \U0001F609
* количество смайликов \U0001F600
* количество смайликов \U0001F641

<p class="task" id="6"></p>

6\. На основе файла `livejounal/психология.csv` выясните, кто из пользователей обладает наиболее широким словарным запасом (т.е. использовал максимальное количество различных слов в своих постах). При подсчете количества слов не учитывайте различные формы одного и того же слова, а также токены, не являющиеся словами (знаки препинания, цифры и т.д.). Выведите на экран имя пользователя и набор используемых им различных слов.