## Сравнение стилей (PyMorphy & NLTK)
### Выполнил: Хорин М. А.

В рамках выполнения домашнего задания необходимо для коллекции текстов разных стилей проверить гипотезу о том, что частоты частей речи в них имеют разные характеры распределений.<br><br>
<b>1.</b> По составленным коллекциям публицистического и художественного стилей посчитаем количество токенов и типов в каждой из них.

#### Для публицистического стиля
Чтобы считать количество токенов и типов в коллекции изначально необходимо считать файл с текстовыми данными, а затем произвести очистку текста от знаков пунктуации и иных ненужных символов.<br><br>
Для начала считаем файл.

In [1]:
publicistic_file = 'publicistic.txt' # запоминаем файл с коллекцией текстов публицистического стиля
publicistic_collection = open(publicistic_file, encoding='utf-8-sig').read() # считываем файл

In [2]:
publicistic_collection[:1000]

'Президент России Владимир Путин прокомментировал ситуацию в Донбассе, заявив, что ее обострение спровоцировано украинской стороной. Такое заявление российский президент сделал на пресс-конференции в Будапеште после встречи с премьером Венгрии Виктором Орбаном. Путин подчеркнул, что обострение ситуации в Донбассе спровоцировала украинская сторона. Отвечая на вопрос журналистов, что стало причиной обострения ситуации, президент сказал, что их несколько. «Первая причина заключается в том, что украинскому руководству сегодня нужны деньги, деньги лучше всего вышибать из Евросоюза, отдельных стран Европы, из Соединенных Штатов и из международных финансовых институтов, выставляя себя в качестве жертвы агрессии», — сказал президент (цитата по РИА Новости). Путин также считает, что обострением ситуации в Донбассе Киев «затыкает» оппозицию, которая активизировалась на фоне «явных неудач в сфере экономической и социальной политик». Кроме того, по мнению Путина, сегодняшняя украинская власть «не 

Как можно заметить выше, исходные текстовые данные малопригодны для обработки, поскольку содержат знаки пунктуации, символы кодировки, числовые знаки и иной ненужный мусор, от которого необходимо избавиться.<br><br>
Для предобработки коллекции текстов была создана функция preprocess_text, которая очищает исходные текстовые данные, используя библиотеку string, и делает их пригодными для дальнейшей обработки.

In [3]:
from string import punctuation

def preprocess_text(collection):
    exclude = set(punctuation + u'0123456789№[]—«»–\n'+ '""') # множество элементов для исключения из коллекции
    collection = collection.replace('-',' ') # разделение элементов коллекции типа "из-за" на отдельные части, разделенные пробелом
    collection = "".join(c for c in collection if c not in exclude) # посимвольный анализ коллекции с исключением лишних элементов
    collection.replace('\u200b', '') # очистка коллекции от знаков старой кодировки
    return collection.lower() # возвращение очищенной коллекции в нижнем регистре

In [4]:
publicistic_collection = preprocess_text(publicistic_collection)
publicistic_collection[:1000]

'президент россии владимир путин прокомментировал ситуацию в донбассе заявив что ее обострение спровоцировано украинской стороной такое заявление российский президент сделал на пресс конференции в будапеште после встречи с премьером венгрии виктором орбаном путин подчеркнул что обострение ситуации в донбассе спровоцировала украинская сторона отвечая на вопрос журналистов что стало причиной обострения ситуации президент сказал что их несколько первая причина заключается в том что украинскому руководству сегодня нужны деньги деньги лучше всего вышибать из евросоюза отдельных стран европы из соединенных штатов и из международных финансовых институтов выставляя себя в качестве жертвы агрессии  сказал президент цитата по риа новости путин также считает что обострением ситуации в донбассе киев затыкает оппозицию которая активизировалась на фоне явных неудач в сфере экономической и социальной политик кроме того по мнению путина сегодняшняя украинская власть не готова вообще к реализации минск

Как можно заметить выше, теперь коллекция текстов пригодна для полноценной обработки.<br><br>
Посчитаем количество токенов и типов в коллекции, используя библиотеку nltk. Разобьем коллекцию на токены, используя токенизатор WhitespaceTokenizer, а типы в коллекции определим через частотный словарь nltk.FreqDist().

In [5]:
import nltk
from nltk.tokenize import WhitespaceTokenizer

tokenizer = WhitespaceTokenizer() # создаем токенизатор

publicistic_tokens = tokenizer.tokenize(publicistic_collection) # разбиваем коллекцию на токены
publicistic_types = nltk.FreqDist(publicistic_tokens) # определяем типы

print('Количество токенов в коллекции текстов публицистичекого стиля:', len(publicistic_tokens)) # подсчитываем количество токенов
print('Количество типов в коллекции текстов публицистичекого стиля:', len(publicistic_types)) # подсчитываем количество типов

Количество токенов в коллекции текстов публицистичекого стиля: 5044
Количество типов в коллекции текстов публицистичекого стиля: 2594


In [6]:
publicistic_tokens[:10]

['президент',
 'россии',
 'владимир',
 'путин',
 'прокомментировал',
 'ситуацию',
 'в',
 'донбассе',
 'заявив',
 'что']

Как можно заметить выше, коллекция разбита на токены верно.<br>
Теперь повторим вышеописанные операции для коллекции текстов художественного стиля. 

#### Для художественного стиля

In [7]:
fiction_lit_file = 'fiction_lit.txt'
fiction_collection = open(fiction_lit_file, encoding='utf-8-sig').read()

In [8]:
fiction_collection[:1000]

'Мне потребовалось много лет и странствий по всему миру, чтобы узнать все то, что я знаю о любви, о судьбе и о выборе, который мы делаем в жизни, но самое главное я понял в тот миг, когда меня, прикованного цепями к стене, избивали. Мой разум кричал, однако и сквозь этот крик я сознавал, что даже в этом распятом беспомощном состоянии я свободен – я могу ненавидеть своих мучителей или простить их. Свобода, казалось бы, весьма относительная, но когда ты ощущаешь только приливы и отливы боли, она открывает перед тобой целую вселенную возможностей. И сделанный тобой выбор между ненавистью и прощением может стать историей твоей жизни. \nВ моем случае это долгая история, заполненная людьми и событиями. Я был революционером, растерявшим свои идеалы в наркотическом тумане, философом, потерявшим самого себя в мире преступности, и поэтом, утратившим свой дар в тюрьме особо строгого режима. Сбежав из этой тюрьмы через стену между двумя пулеметными вышками, я стал самым популярным в стране человек

In [9]:
fiction_collection = preprocess_text(fiction_collection)
fiction_collection[:1000]

'мне потребовалось много лет и странствий по всему миру чтобы узнать все то что я знаю о любви о судьбе и о выборе который мы делаем в жизни но самое главное я понял в тот миг когда меня прикованного цепями к стене избивали мой разум кричал однако и сквозь этот крик я сознавал что даже в этом распятом беспомощном состоянии я свободен  я могу ненавидеть своих мучителей или простить их свобода казалось бы весьма относительная но когда ты ощущаешь только приливы и отливы боли она открывает перед тобой целую вселенную возможностей и сделанный тобой выбор между ненавистью и прощением может стать историей твоей жизни в моем случае это долгая история заполненная людьми и событиями я был революционером растерявшим свои идеалы в наркотическом тумане философом потерявшим самого себя в мире преступности и поэтом утратившим свой дар в тюрьме особо строгого режима сбежав из этой тюрьмы через стену между двумя пулеметными вышками я стал самым популярным в стране человеком  ни с кем не искали встречи

In [10]:
fiction_tokens = tokenizer.tokenize(fiction_collection)
fiction_types = nltk.FreqDist(fiction_tokens)
print('Количество токенов в коллекции текстов художественного стиля:', len(fiction_tokens))
print('Количество типов: в коллекции текстов художественного стиля:', len(fiction_types))

Количество токенов в коллекции текстов художественного стиля: 5115
Количество типов: в коллекции текстов художественного стиля: 2637


In [11]:
fiction_tokens[:10]

['мне',
 'потребовалось',
 'много',
 'лет',
 'и',
 'странствий',
 'по',
 'всему',
 'миру',
 'чтобы']

<b>2.</b> Используя морфологический процессор pymorphy2, определим к какой части речи относятся слова из каждой коллекции текстов. При помощи nltk.FreqDist() составим частотные словари: часть речи - количество слов, к ней относящихся.

Для выполнения данного пункта ДЗ необходимо сначала узнать, какие части речи встречаются в обеих коллекциях текстов. Для этого была реализована функция makePOSList, которая, анализируя части речи типов коллекции, возвращает список частей речи, которые встречаются в ней. 
<br><br>
Создание частотного словаря часть речи - количество слов для коллекции текстов реализуется через функцию makePOSFreqDict и осуществляется следующим образом: 
<ol>
<li>Создаётся исходный частотный словарь, содержащий в качестве ключей части речи, встречающиеся в коллекции;</li>
<li>Для каждой последовательно анализируемой части речи, встречающейся в списке частей речи коллекции, подсчитывается количество слов, которые к ней относятся. Данное количество добавляется в исходный словарь.</li>
</ol>

In [12]:
from pymorphy2 import MorphAnalyzer
analyzer = MorphAnalyzer() # морфологический анализатор

def makePOSList(types):
    POS_list = [] # создание списка частей речи
    for t in types: #  идём по всем типам коллекции
        gram_POS = analyzer.parse(t)[0].tag.POS # смотрим часть речи
        if (gram_POS not in POS_list) & (gram_POS != None): # проверяем часть речи на наличие в списке и на тип None, который нам не нужен
            POS_list.append(gram_POS) # добавляем часть речи, если проверка пройдена
        else:
            continue
    return POS_list
    
def makePOSFreqDict(types, pos_list):
    freqDict = nltk.FreqDist({pos:0 for pos in pos_list}) # создаём исходный словарь часть речи - количество слов
    
    for pos in pos_list: # последовательно идём по частям речи из списка
        for t in types: # последовательно идём по всем типам
            try:
                gram_info = analyzer.parse(t)[0] # собираем информацию о слове
                if pos == gram_info.tag.POS: # проверяем соответствие части речи слова и рассматриваемой части речи из списка
                    freqDict[pos] += types[t] # увеличиваем количество, если части речи совпадают    
                else:
                    continue
            except IndexError:
                pass
    return freqDict

Посмотрим на части речи, встречающиеся в коллекции текстов публицистического стиля.

In [13]:
publPOSList = makePOSList(publicistic_types)
print(publPOSList)

['VERB', 'NOUN', 'PREP', 'ADJF', 'ADVB', 'ADJS', 'PRTF', 'GRND', 'INFN', 'PRTS', 'NPRO', 'NUMR', 'PRCL', 'CONJ', 'PRED', 'COMP', 'INTJ']


Создадим частотный словарь часть речи - количество слов для коллекции текстов публицистического стиля.

In [14]:
publPOSFreqDict = makePOSFreqDict(publicistic_types, publPOSList)
publPOSFreqDict

Counter({'ADJF': 645,
         'ADJS': 39,
         'ADVB': 104,
         'COMP': 7,
         'CONJ': 302,
         'GRND': 14,
         'INFN': 85,
         'INTJ': 8,
         'NOUN': 2312,
         'NPRO': 117,
         'NUMR': 28,
         'PRCL': 83,
         'PRED': 2,
         'PREP': 706,
         'PRTF': 63,
         'PRTS': 62,
         'VERB': 435})

Как можно заметить выше, в собранной коллекции текстов публицистического стиля больше всего существительных - 2312 шт., затем следуют предлоги - 706 шт., тройку замыкают прилагательные - 684 шт. (645 в полной форме и 39 - в краткой).

Посмотрим части речи, встречающиеся в коллекции текстов художественного стиля.

In [15]:
fictionPOSList = makePOSList(fiction_types)
print(fictionPOSList)

['NOUN', 'ADJF', 'ADVB', 'VERB', 'PREP', 'CONJ', 'GRND', 'PRED', 'INFN', 'ADJS', 'PRTS', 'PRCL', 'PRTF', 'NPRO', 'NUMR', 'COMP', 'INTJ']


Создадим частотный словарь часть речи - количество слов для коллекции текстов художественного стиля.

In [16]:
fictionPOSFreqDict = makePOSFreqDict(fiction_types, fictionPOSList)
fictionPOSFreqDict

Counter({'ADJF': 620,
         'ADJS': 55,
         'ADVB': 329,
         'COMP': 26,
         'CONJ': 565,
         'GRND': 60,
         'INFN': 89,
         'INTJ': 6,
         'NOUN': 1435,
         'NPRO': 431,
         'NUMR': 31,
         'PRCL': 198,
         'PRED': 9,
         'PREP': 559,
         'PRTF': 71,
         'PRTS': 13,
         'VERB': 609})

Как можно заметить выше, в собранной коллекции текстов художественного стиля также больше всего существительных - 1435 шт., затем следуют прилагательные - 675 шт. (620 в полной форме и 55 - в краткой), тройку замыкают глаголы - 698 шт. (609 в личной форме и 89 - в начальной).<br><br>
По сравнению с публицистическим стилем, рассматриваемая художественная коллекция содержит меньше существительных,  предлогов и причастий, но больше глаголов, прилагательных в краткой форме, союзов и наречий.

<b>3.</b> Посчитаем коэффициент корреляции Спирмена для полученных на предыдущем шаге частот частей речи.<br><br>
Перед расчетом коэффициента корреляции Спирмена получим соответствующие по частям речи списки частот частей речи из созданных выше словарей. Это реализует созданная функция get_freqList.

In [17]:
def get_freqList(FreqDict): # возвращает упорядоченный список частот частей речи в соответствии со значениями из словаря
    freqList = [] # создаем список количества слов
    for i in sorted(FreqDict.keys()): # идём по отсортированному списку ключей из словаря часть речи - количество слов
        freqList.append(FreqDict[i]) # добавляем в список количество слов, относящихся к части речи
    return freqList

publ_freqList = get_freqList(publPOSFreqDict) # список частот для коллекции публицистического стиля (по типам)
fict_freqList = get_freqList(fictionPOSFreqDict) # список частот для коллекции художественного стиля (по типам)

print("Частоты для публицистического стиля:", publ_freqList)
print("Частоты для художественного стиля:", fict_freqList)

Частоты для публицистического стиля: [645, 39, 104, 7, 302, 14, 85, 8, 2312, 117, 28, 83, 2, 706, 63, 62, 435]
Частоты для художественного стиля: [620, 55, 329, 26, 565, 60, 89, 6, 1435, 431, 31, 198, 9, 559, 71, 13, 609]


Для расчета коэффициента корреляции Спирмена для полученных на предыдущем шаге частот частей речи воспользуемся функцией spearmanr библиотеки scipy.

In [18]:
from scipy.stats import spearmanr

spearman_cor = spearmanr(publ_freqList, fict_freqList)
print("Значение корреляциии Спирмена:", spearman_cor[0])

Значение корреляциии Спирмена: 0.941176470588


Как можно заметить выше, значение корреляции Спирмена равно примерно 0.94. Следовательно, для данных двух коллекций текстов гипотеза о том, что в текстах публицистического и художественного стилей частоты частей речи имеют разные характеры распределений, отвергается. 