In [1]:
import os
import nltk
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import pymorphy2
import seaborn as sns
sns.set_style("whitegrid")
from nltk.tokenize import WhitespaceTokenizer
from nltk.corpus import stopwords
from string import punctuation

# HW1:  Сравнение стилей текстов
### Выполнили:  Булгаков Дмитрий, Тефикова Алие
### Группа ИАД-2

# 1. Загрузка данных

Составьте самостоятельно как минимум две коллекции
текстов разных стилей (например, коллекция текстов в публицистическом
стиле и коллекция текстов в научном стиле). Коллекции текстов
должны быть достаточно большие (порядка 5000 токенов). Посчитайте
количество токенов и типов в каждой коллекции.

### 1.1 Получение  данных из файла

In [2]:
def remove_control_characters(text_string):
    return ''.join(filter(None, text_string.splitlines()))

### 1.1.1 Загрузка художественных текстов (Портрет Дориана Грея,  Оскар Уайльд)

«Портре́т Дориана Гре́я» (англ. The Picture of Dorian Gray) — единственный опубликованный роман Оскара Уайльда. В жанровом отношении представляет смесь романа воспитания с моральной притчей. Существует в двух версиях — в 13 главах (1890 года) и в 20 главах (1891 года). Стал самым успешным произведением Уайльда, более 30 раз экранизировался.

<b>Link:<b> http://lib.ru/WILDE/doriangray.txt

In [3]:
fiction = open('data/dorian_gray.txt', encoding='utf-8').read()
fiction = remove_control_characters(fiction)

### 1.1.2 Загрузка  публицистических текстов (статьи lenta.ru) 

Lenta.ru — одно из ведущих российских новостных интернет-изданий, основанное в 1999 году Антоном Носиком при содействии Фонда эффективной политики. Работает круглосуточно, освещая мировые и внутрироссийские новости.

<b>Link<b>: http://lenta.ru

In [4]:
journalistic = open('data/lentaru.txt', encoding='utf-8').read()
journalistic = remove_control_characters(journalistic)

### 1.1.3 Загрузка  научных текстов (Молодежная Наука 2016)

Материалы Всероссийской научно-практической конференции молодых ученых, аспирантов и студентов, посвященной 150-летию со дня рождения профессора В.Н. Варгина (Пермь, 14-18 марта 2016 года)

<b>Link<b>: http://pgsha.ru/web/science/scientificarticles/

In [5]:
scientific = open('data/perm_conf.txt', encoding='utf-8').read()
scientific = remove_control_characters(scientific)

### 1.1.4 Загрузка  текстов  разговорного стиля (корпус составленный на базе Twitter )

В качестве источника текстов была выбрана платформа микроблогинга Twitter. Современные поисковые системы и имеющиеся в открытом доступе инструменты по сбору текстовых отзывов не позволяют собирать актуальные отзывы и оперативно работать с данными. В связи с этим на основе программного интерефейса API twitter  был разработан программный инструмент для извлечения отзывов об интересующих товарах, услугах,  событиях,  персонах из микроблоггинг-платформы twitter,  который позволяет учитывать время публикации сообщения и авторитетность автора сообщения. Этот инструмент использовался для сбора неразмеченного корпуса. В корпусе содержится более 15 миллионов записей за время с конца ноября 2013 года до конца февраля 2014 года.

<b>Link:<b> http://study.mokoron.com

In [6]:
conversational = open('data/twitter.txt', encoding='utf-8').read()
conversational = remove_control_characters(conversational)

### 1.2 Подсчет токенов и типов

In [7]:
exclude_symbols = set(punctuation + '0123456789'+u'–—'+u'«»'+u'“')

In [8]:
def tokenize(text, exlude_symb):
    text = text.lower()
    text_merged = ''.join(ch for ch in text if ch not in exlude_symb)
    text_tokens = WhitespaceTokenizer().tokenize(text_merged.lower())
    return text_tokens

In [9]:
def print_results(tokens):
    print('N of tokens: ', len(tokens))
    types = nltk.FreqDist(tokens)
    print('N of types:', len(types))

### 1.2.1 Токены и типы для  художественного стиля

In [10]:
fiction_tokens = tokenize(fiction, exclude_symbols)
print_results(fiction_tokens)

N of tokens:  60528
N of types: 18236


### 1.2.2 Токены и типы для публицистического стиля

In [11]:
journalistic_tokens = tokenize(journalistic, exclude_symbols)
print_results(journalistic_tokens)

N of tokens:  13699
N of types: 6015


### 1.2.3 Токены и типы для  научного стиля

In [12]:
scientific_tokens = tokenize(scientific, exclude_symbols)
print_results(scientific_tokens)

N of tokens:  265376
N of types: 57790


### 1.2.4 Токены и типы для  разговорного стиля

In [13]:
conversational_tokens = tokenize(conversational, exclude_symbols)
print_results(conversational_tokens)

N of tokens:  255367
N of types: 56878


### 2. Подсчет частей речи

Используя любой морфологический процессор, который вам нравится (pymorphy2, mystem), определите к какой части речиотносятся слова из каждой коллекции текстов. При помощи nltk.FreqDist() составьте частотные словари: часть речи – количество слов, к ней относящихся.

In [14]:
mystopwords = stopwords.words('russian')

#### fiction

In [15]:
morph = pymorphy2.MorphAnalyzer()
lemmata = nltk.FreqDist()

mystopwords = stopwords.words('english')

f_types = nltk.FreqDist(fiction_tokens)

In [16]:
print(morph.parse('picture')[0].tag)

LATN


In [None]:
lemmata_no_sw = nltk.FreqDist()
for l in lemmata:
    if not l in mystopwords:
        lemmata_no_sw[l] = lemmata[l]
for i in lemmata_no_sw.most_common(20):
    print(i[0], i[1])

#### conversational

In [None]:
morph = pymorphy2.MorphAnalyzer()
lemmata = nltk.FreqDist()

mystopwords = stopwords.words('english')

c_types = nltk.FreqDist(conversational_tokens)
for t in c_types:
    try:
        l = morph.parse(t)[0].normal_form
        if l in lemmata:
            lemmata[l] += c_types[t]
        else:
            lemmata[l] = c_types[t]
    except IndexError:
        if t in lemmata:
            lemmata[t] += c_types[t]
        else:
            lemmata[t] = c_types[t]
print('N of lemmata:', len(lemmata))
for i in lemmata.most_common(10):
    print(i[0], i[1])

In [None]:
lemmata_no_sw = nltk.FreqDist()
for l in lemmata:
    if not l in mystopwords:
        lemmata_no_sw[l] = lemmata[l]
for i in lemmata_no_sw.most_common(20):
    print(i[0], i[1])

#### scientific

In [None]:
morph = pymorphy2.MorphAnalyzer()
lemmata = nltk.FreqDist()

mystopwords = stopwords.words('english')

s_types = nltk.FreqDist(scientific_tokens)
for t in s_types:
    try:
        l = morph.parse(t)[0].normal_form
        if l in lemmata:
            lemmata[l] += s_types[t]
        else:
            lemmata[l] = s_types[t]
    except IndexError:
        if t in lemmata:
            lemmata[t] += s_types[t]
        else:
            lemmata[t] = s_types[t]
print('N of lemmata:', len(lemmata))
for i in lemmata.most_common(10):
    print(i[0], i[1])

In [None]:
lemmata_no_sw = nltk.FreqDist()
for l in lemmata:
    if not l in mystopwords:
        lemmata_no_sw[l] = lemmata[l]
for i in lemmata_no_sw.most_common(20):
    print(i[0], i[1])

#### journalistic

In [None]:
morph = pymorphy2.MorphAnalyzer()
lemmata = nltk.FreqDist()

mystopwords = stopwords.words('english') + [u'mln', u'dlrs', u'vs', u'pct', u'cts', u'us', u'would']

j_types = nltk.FreqDist(journalistic_tokens)
for t in j_types:
    try:
        l = morph.parse(t)[0].normal_form
        if l in lemmata:
            lemmata[l] += j_types[t]
        else:
            lemmata[l] = j_types[t]
    except IndexError:
        if t in lemmata:
            lemmata[t] += j_types[t]
        else:
            lemmata[t] = j_types[t]
print('N of lemmata:', len(lemmata))
for i in lemmata.most_common(10):
    print(i[0], i[1])

In [None]:
lemmata_no_sw = nltk.FreqDist()
for l in lemmata:
    if not l in mystopwords:
        lemmata_no_sw[l] = lemmata[l]
for i in lemmata_no_sw.most_common(20):
    print(i[0], i[1])