In [1]:
import nltk
from nltk.tokenize import WhitespaceTokenizer
from string import punctuation
from pymorphy2 import MorphAnalyzer
from nltk.corpus import stopwords
import scipy.stats as sts

1. Составьте самостоятельно как минимум две коллекции текстов разных стилей (например, коллекция текстов в публицистическом стиле и коллекция текстов в научном стиле). Коллекции текстов должны быть достаточно большие (порядка 5000 токенов). Посчитайте количество токенов и типов в каждой коллекции.

Функция read_file считывает текстовый файл.

In [2]:
def read_file(file):
    f = open(file)
    text = f.read()
    f.close()
    return text

Функция tokenize выделяет токены.

In [3]:
def tokenize(text):
    exclude = set(punctuation + '0123456789\n'+u'–—'+u'«»')
    merged_text = ''.join(ch for ch in text if ch not in exclude)
    tokens = WhitespaceTokenizer().tokenize(merged_text.lower())
    for i in tokens[:10]: 
        print(i)
    return tokens

Функция print_numbers подсчитывает количество токенов и типов в тексте.

In [4]:
def print_numbers(tokens):
    print('Число токенов:', len(tokens))
    types = nltk.FreqDist(tokens)
    print('Число типов:', len(types))
    print(types)

Для анализа были выбраны три текста: "Преступление и наказание" Ф.М. Достоевского (художественный стиль), Налоговый кодекс РФ (официально-деловой стиль) и кандидатская диссертация К.Р. Абаноковой на тему "Изменение структуры домохозяйства как стратегия преодоления макроэкономического шока" (научный стиль).

Считаем тексты из файлов и подсчитаем количество токенов и типов в каждом из них. 

Художественный стиль:

In [5]:
text_art = read_file('dostoevsky.txt')
tokens_art = tokenize(text_art)

в
начале
июля
в
чрезвычайно
жаркое
время
под
вечер
один


In [6]:
print_numbers(tokens_art)

Число токенов: 42088
Число типов: 10332
<FreqDist with 10332 samples and 42088 outcomes>


Научный стиль:

In [7]:
text_sci = read_file('science.txt')
tokens_sci = tokenize(text_sci)

введение
актуальность
за
последние
два
десятка
лет
российские
домохозяйства
испытали


In [8]:
print_numbers(tokens_sci)

Число токенов: 6070
Число типов: 1999
<FreqDist with 1999 samples and 6070 outcomes>


Официально-деловой стиль:

In [9]:
text_ofi = read_file('taxes_law.txt')
tokens_ofi = tokenize(text_ofi)

часть
первая
принята
государственной
думой
июля
года
одобрена
советом
федерации


In [10]:
print_numbers(tokens_ofi)

Число токенов: 28224
Число типов: 3649
<FreqDist with 3649 samples and 28224 outcomes>


2.Используя любой морфологический процессор, который вам нравится (pymorphy2, mystem), определите к какой части речи относятся слова из каждой коллекции текстов. При помощи nltk.FreqDist() составьте частотные словари: часть речи – количество слов, к ней относящихся.

Функция pos_freq фильтрует стоп-слова, а также определяет части речи, к которым они относятся, при этом возвращая FreqDist.

In [11]:
morph = MorphAnalyzer()

def pos_freq(tokens):
    filtered_text = [] # список для хранения отфильтрованного текста
    pos = [] # список частей речи
    for word in tokens:
        if not word in stopwords.words('russian'): 
            filtered_text.append(word)
            pos.append(morph.parse(word)[0].tag.POS)   
    for i in range(20):
        print(filtered_text[i] + ':' + pos[i])
    return nltk.FreqDist(pos)

In [12]:
POS_freq_art = pos_freq(tokens_art)

начале:NOUN
июля:NOUN
чрезвычайно:ADVB
жаркое:NOUN
время:NOUN
вечер:NOUN
молодой:NOUN
человек:NOUN
вышел:VERB
своей:ADJF
каморки:NOUN
которую:ADJF
нанимал:VERB
жильцов:NOUN
переулке:NOUN
улицу:NOUN
медленно:ADVB
нерешимости:NOUN
отправился:VERB
мосту:NOUN


Распределение слов по частям речи в тексте художественного стиля:

In [13]:
POS_freq_art

FreqDist({'ADJF': 3487,
          'ADJS': 519,
          'ADVB': 2047,
          'COMP': 145,
          'CONJ': 401,
          'GRND': 467,
          'INFN': 1000,
          'INTJ': 71,
          'NOUN': 8535,
          'NPRO': 284,
          'NUMR': 259,
          'PRCL': 436,
          'PRED': 34,
          'PREP': 133,
          'PRTF': 302,
          'PRTS': 254,
          'VERB': 5072})

Научный стиль:

In [14]:
POS_freq_sci = pos_freq(tokens_sci)

введение:NOUN
актуальность:NOUN
последние:ADJF
десятка:NOUN
лет:NOUN
российские:ADJF
домохозяйства:NOUN
испытали:VERB
несколько:ADVB
экономических:ADJF
шоков:ADJS
повлекших:PRTF
собой:NPRO
части:NOUN
снижение:NOUN
благосостояния:NOUN
кризис:NOUN
года:NOUN
привел:VERB
обесцениванию:NOUN


In [15]:
POS_freq_sci

FreqDist({'ADJF': 932,
          'ADJS': 35,
          'ADVB': 71,
          'COMP': 2,
          'CONJ': 62,
          'GRND': 24,
          'INFN': 132,
          'NOUN': 2759,
          'NPRO': 8,
          'NUMR': 10,
          'PRCL': 10,
          'PREP': 35,
          'PRTF': 147,
          'PRTS': 50,
          'VERB': 379})

Официально-деловой стиль:

In [16]:
POS_freq_ofi = pos_freq(tokens_ofi)

часть:NOUN
первая:ADJF
принята:PRTS
государственной:ADJF
думой:NOUN
июля:NOUN
года:NOUN
одобрена:PRTS
советом:NOUN
федерации:NOUN
июля:NOUN
года:NOUN
раздел:NOUN
общие:ADJF
положения:NOUN
глава:NOUN
законодательство:NOUN
налогах:NOUN
сборах:NOUN
иные:ADJF


In [17]:
POS_freq_ofi

FreqDist({'ADJF': 5672,
          'ADJS': 52,
          'ADVB': 239,
          'CONJ': 166,
          'GRND': 14,
          'INFN': 272,
          'NOUN': 13477,
          'NPRO': 31,
          'NUMR': 60,
          'PRCL': 17,
          'PRED': 32,
          'PREP': 38,
          'PRTF': 833,
          'PRTS': 238,
          'VERB': 883})

3.Посчитайте коэффициент корреляции Спирмена для полученных на предыдущем шаге частот частей речи. На основании полученного значения, сделайте вывод: подтверждается ли гипотеза,сформулированная в задании?  Если вы рассматривали больше двух стилей, можно ли утверждать, что один стиль больше похож на второй, чем на третий?

Чтобы подсчитать корреляцию Спирмена, необходимо сначала составить список всех частей речи, которые встретились в трех текстах, а затем для каждого текста каждой части речи сопоставить число слов, принадлежащих этой части речи и входящих к текст.

In [18]:
# записываем все возможные части речи в один список
a = list(POS_freq_sci.keys())
a.extend(list(POS_freq_ofi.keys()))
a.extend(list(POS_freq_art.keys()))
a = set(a)
a = list(a)

In [19]:
# списки для хранения векторов чисел, соответствующих частям речи списка a
art = []
sci = []
ofi = []

In [20]:
for k in a:
    art.append(POS_freq_art[k])
    sci.append(POS_freq_sci[k])
    ofi.append(POS_freq_ofi[k])

# теперь в списках art, sci, ofi лежат упорядоченные значения

Подсчитаем все возможные парные корреляции:

In [21]:
sts.spearmanr(art, ofi)

SpearmanrResult(correlation=0.68669540804024132, pvalue=0.0023287175307992749)

In [22]:
sts.spearmanr(art, sci)

SpearmanrResult(correlation=0.8029479546287005, pvalue=0.00010423561745532498)

In [23]:
sts.spearmanr(sci, ofi)

SpearmanrResult(correlation=0.9281333785094753, pvalue=7.8977964188378654e-08)

Все p-value оказались достаточно малы (меньше 0.01), а это значит, что на уровне значимости 0.01 можно отвергнуть основную гипотезу, которая заключается в том, что корреляция равна 0.

Можно наблюдать, что наиболее сильно коррелируют тексты научного и официального стиля (spearmanr = 0.93), в то время как каждый из них коррелирует с текстом художественного стиля не так сильно: spearmanr(art, ofi) = 0.69, spearmanr(art, sci) = 0.80. Таким образом, научный и официальный стиль похожи друг на друга больше, чем каждый из них похож на художественный.

Можно заметить, что несмотря на фильтрацию стоп-слов, в частотных словарях все равно остались некоторые служебные части речи. Попробуем их отфильтровать и посмотреть, что получится.

In [24]:
for fd in [POS_freq_art, POS_freq_sci, POS_freq_ofi]:
    del fd['PREP'] # удаляем предлоги
    del fd['CONJ'] # удаляем союзы
    del fd['NPRO'] # удаляем местоимения
    del fd['PRCL'] # удаляем частицы

Частотные словари, образующиеся в итоге:

In [25]:
POS_freq_art

FreqDist({'ADJF': 3487,
          'ADJS': 519,
          'ADVB': 2047,
          'COMP': 145,
          'GRND': 467,
          'INFN': 1000,
          'INTJ': 71,
          'NOUN': 8535,
          'NUMR': 259,
          'PRED': 34,
          'PRTF': 302,
          'PRTS': 254,
          'VERB': 5072})

In [26]:
POS_freq_sci

FreqDist({'ADJF': 932,
          'ADJS': 35,
          'ADVB': 71,
          'COMP': 2,
          'GRND': 24,
          'INFN': 132,
          'NOUN': 2759,
          'NUMR': 10,
          'PRTF': 147,
          'PRTS': 50,
          'VERB': 379})

In [27]:
POS_freq_ofi

FreqDist({'ADJF': 5672,
          'ADJS': 52,
          'ADVB': 239,
          'GRND': 14,
          'INFN': 272,
          'NOUN': 13477,
          'NUMR': 60,
          'PRED': 32,
          'PRTF': 833,
          'PRTS': 238,
          'VERB': 883})

Проделаем процедуру, аналогичную вышеописанной:

In [28]:
b = list(POS_freq_sci.keys())
b.extend(list(POS_freq_ofi.keys()))
b.extend(list(POS_freq_art.keys()))
b = set(b)
b = list(b)

art_no_sw = []
sci_no_sw = []
ofi_no_sw = []

for k in b:
    art_no_sw.append(POS_freq_art[k])
    sci_no_sw.append(POS_freq_sci[k])
    ofi_no_sw.append(POS_freq_ofi[k])

Рассчитаем новые корреляции:

In [29]:
sts.spearmanr(art_no_sw, ofi_no_sw)

SpearmanrResult(correlation=0.81155510062407588, pvalue=0.00075652329921874391)

In [30]:
sts.spearmanr(art_no_sw, sci_no_sw)

SpearmanrResult(correlation=0.88858405932737805, pvalue=4.9102393737752382e-05)

In [31]:
sts.spearmanr(sci_no_sw, ofi_no_sw)

SpearmanrResult(correlation=0.95179063360881544, pvalue=5.546738050422406e-07)

Можно наблюдать увеличение коэффициентов корреляции Спирмена во всех трех случаях, однако принципиальные выводы остаются неизменными: гипотеза о равенстве корреляции 0 отвергается в пользу альтернативной (о неравенстве), тексты научного и официального стиля более близки друг к другу, нежели к художественному тексту.