# Домашнее задание №1

### **Dataset of depressive posts in Russian language collected from social media** [(paper)](https://www.sciencedirect.com/science/article/pii/S2352340920300895)

Скачать датасет в формате .tsv можно [здесь](https://yadi.sk/d/G5rq-R3AK8SOuw).


В качестве задания предлагается:
1. Использовать ```pandas``` и ряд инструментов для автоматической обработки текстов на русском языке, чтобы ответить на вопросы.
2. Написать функции для извлечения текстовых признаков.

Не рекомендуется использовать ```nltk``` для сегментации/токенизации текстов, поскольку существуют инструменты, которые выполняют свою задачу для русского значительно лучше – их мы обсуждали с вами на занятии.


**Дедлайн**: 23 сентября 23:59

In [1]:
import pandas as pd


df = pd.read_csv("depression_data.tsv", sep="\t")
df.head()

Unnamed: 0,text,label,age
0,"Когда-то я был добрым романтиком, который стре...",1,32.0
1,Здраствуйте! Я каждый день просыпаюсь с мыслью...,1,28.0
2,У меня проблемы с девушкой. Каждую ссору я не ...,1,16.0
3,"Вся моя жизнь это один сплошной ад, в котором ...",1,32.0
4,Я хочу уснуть и не проснуться.каждый день одно...,1,14.0


### Часть 1: Простая статистика (2 балла)

Зачастую в данных, с которыми вы работаете, может быть много неприятных для обработки вещей. Например, мы видим, что в колонке ```age``` очень грязные значения.

In [2]:
df["age"].value_counts()

16.0      1823
17.0      1811
18.0      1661
15.0      1582
20.0      1543
          ... 
116.0        1
295.0        1
2425.0       1
92.0         1
830.0        1
Name: age, Length: 128, dtype: int64

1. Найдите среднее значение возраста в диапазоне от 14 до 50 лет включительно.

In [3]:
# your code and output here
import numpy

new_df = df[df['age'] >= 14]
new_df = new_df[new_df['age'] <= 50]

numpy.mean(new_df['age'])

22.704171601526518

2. Какую долю 16-летние авторы составляют в диапазоне от 16 до 26 лет включительно?

In [4]:
# your code and output here
new_df = df[df['age'] >= 16]
new_df = new_df[new_df['age'] <= 26]

In [5]:
df_16 = df[df['age'] == 16]

In [6]:
part_of_16 = len(df_16['age'])/len(new_df['age'])
part_of_16

0.1259412780656304

3. Сколько в датасете текстов, авторам которых 28 или 30 лет?

In [7]:
# your code and output here
df_28 = df[df['age'] == 28]
df_30 = df[df['age'] == 30]

sum_of_28_30 = len(df_28['age']) + len(df_30['age'])
sum_of_28_30

1185

4. С помощью одной встроенной в ```pandas``` функции отобразите всю статистику по колонке ```age``` в диапазоне от 18 до 30 лет включительно.

In [8]:
# your code and output here
new_df = df[df['age'] >= 18]
new_df = new_df[new_df['age'] <= 30]
new_df['age'].describe()

count    13205.000000
mean        22.676638
std          3.550254
min         18.000000
25%         20.000000
50%         22.000000
75%         25.000000
max         30.000000
Name: age, dtype: float64

5. Сколько в датасете положительных / отрицательных примеров?

In [9]:
# your code and output here
label_0 = df[df['label'] == 0]
label_1 = df[df['label'] == 1]

print(len(label_0['label']))

print(len(label_1['label']))

32021
32018


### Часть 2: Предобработка (3 балла)

1. Посчитайте количество предложений в каждом тексте. Сохраните эти значения в отдельной колонке датафрейма.

In [10]:
# your code and output here
import re
numbers = []
for text in df['text']:
    new_text = re.sub(r'[.!?]\s', r'|', text)
    num = len(new_text.split('|'))
    numbers.append(num)
df['sent_count'] = numbers

In [11]:
df

Unnamed: 0,text,label,age,sent_count
0,"Когда-то я был добрым романтиком, который стре...",1,32.0,16
1,Здраствуйте! Я каждый день просыпаюсь с мыслью...,1,28.0,6
2,У меня проблемы с девушкой. Каждую ссору я не ...,1,16.0,11
3,"Вся моя жизнь это один сплошной ад, в котором ...",1,32.0,6
4,Я хочу уснуть и не проснуться.каждый день одно...,1,14.0,18
...,...,...,...,...
64034,Южная Корея будет внедрять свои технологии в К...,0,,1
64035,В минувшие выходные в спортблоке КалмГУ прошли...,0,,12
64036,ВТБ подвел итоги первого корпоративного акселе...,0,,19
64037,ВТБ запустит бесплатное пополнение карт других...,0,,6


2. Напишите функцию для токенизации текста. Удалите стоп-слова.

In [12]:
# your code and output here
from nltk.corpus import stopwords
stop_words = set(stopwords.words("russian"))

In [13]:
def tokenize (text):
    text = text.lower()
    text = re.sub(r'[.!?]\s', r' ', text)
    words = text.split()
    clean_words = []
    for word in words:
        if word not in stop_words:
            clean_words.append(word)
    return clean_words

3. Посчитайте количество токенов в тексте (без стоп-слов). Найдите среднее этих значений как по всей выборке, так и внутри каждого класса. 

In [14]:
# your code and output here
token_count = []
for text in df['text']:
    num = len(tokenize(text))
    token_count.append(num)
df['token_count'] = token_count
df

Unnamed: 0,text,label,age,sent_count,token_count
0,"Когда-то я был добрым романтиком, который стре...",1,32.0,16,167
1,Здраствуйте! Я каждый день просыпаюсь с мыслью...,1,28.0,6,67
2,У меня проблемы с девушкой. Каждую ссору я не ...,1,16.0,11,44
3,"Вся моя жизнь это один сплошной ад, в котором ...",1,32.0,6,25
4,Я хочу уснуть и не проснуться.каждый день одно...,1,14.0,18,196
...,...,...,...,...,...
64034,Южная Корея будет внедрять свои технологии в К...,0,,1,21
64035,В минувшие выходные в спортблоке КалмГУ прошли...,0,,12,66
64036,ВТБ подвел итоги первого корпоративного акселе...,0,,19,227
64037,ВТБ запустит бесплатное пополнение карт других...,0,,6,100


In [15]:
label_0 = df[df['label'] == 0]
label_1 = df[df['label'] == 1]

all_mean = numpy.mean(df['token_count'])
label_0_mean = numpy.mean(label_0['token_count'])
label_1_mean = numpy.mean(label_1['token_count'])

print('Среднее по всей выборке:', all_mean)
print('Среднее в группе 0:', label_0_mean)
print('Среднее в группе 1:', label_1_mean)

Среднее по всей выборке: 108.10306219647403
Среднее в группе 0: 144.53852159520315
Среднее в группе 1: 71.66418889374727


4. Напишите функцию, которая переводит текст в последовательность лемм.

In [16]:
# your code and output here
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

def lemmatize (text):
    words = tokenize(text)
    lemmas = []
    for word in words:
        lemma = morph.parse(word)[0].normal_form
        lemmas.append(lemma)
    return lemmas

5. Напишите функцию, которая переводит текст в последовательность частеречных тегов.

In [17]:
# your code and output here
def tagging (text):
    words = tokenize(text)
    tags = []
    for word in words:
        p = morph.parse(word)[0]
        pos_tag = p.tag.POS
        tags.append(pos_tag)
    return tags

6. Какие слова мы можем добавить в список стоп-слов? Приведите примеры и объясните, почему.

In [18]:
# your code and output here

### Часть 3: Визуализация (1 балл)

1. Визуализируйте распределение количество предложений / текст.

In [19]:
# your code and output here

2. Визуализируйте распределение количество-предложений / текст внутри каждого класса.

In [20]:
# your code and output here

3. Верно ли, что количество предложений в тексте коррелирует с возрастом автора в подвыборке от 16 до 32 лет включительно? Если да, какая это корреляция – положительная или отрицательная? Визуализируйте матрицу корреляции.

In [21]:
# your code and output here

### Часть 4: Извлечение текстовых признаков (4 балла)

1. Самостоятельно реализуйте функцию для получения посимвольных н-грамм (без использования библиотек).

In [22]:
# your code and output here
def char_ngrams(text, n):
    ngrams = []
    for i in range(0, len(text)-n+1):
        ngram = text[i:i+n]
        ngrams.append(ngram)
    return ngrams

In [23]:
# пример работы функции

text = "уставшая мама мыла грязную раму"

char_ngrams(text, n=3)[:10]

['уст', 'ста', 'тав', 'авш', 'вша', 'шая', 'ая ', 'я м', ' ма', 'мам']

2. Самостоятельно реализуйте функцию для получения пословных н-грамм (без использования библиотек).

In [24]:
# your code and output here
def word_ngrams(text, n):
    ngrams = []
    new_text = tokenize(text)
    for i in range(0, len(new_text)-n+1):
        ngram = new_text[i:i+n]
        ngrams.append(ngram)
    return ngrams

In [25]:
# пример работы функции

word_ngrams(text, n=3)

[['уставшая', 'мама', 'мыла'],
 ['мама', 'мыла', 'грязную'],
 ['мыла', 'грязную', 'раму']]

In [26]:
word_ngrams(text, n=4)

[['уставшая', 'мама', 'мыла', 'грязную'], ['мама', 'мыла', 'грязную', 'раму']]

3. Самостоятельно реализуйте функцию для получения н-грамм лемм (без использования библиотек).

In [27]:
# your code and output here
def lemma_ngrams(text, n):
    ngrams = []
    new_text = lemmatize(text)
    for i in range(0, len(new_text)-n+1):
        ngram = new_text[i:i+n]
        ngrams.append(ngram)
    return ngrams

In [28]:
# пример работы функции

lemma_ngrams(text, n=3)

[['устать', 'мама', 'мыло'],
 ['мама', 'мыло', 'грязный'],
 ['мыло', 'грязный', 'рам']]

In [29]:
lemma_ngrams(text, n=4)

[['устать', 'мама', 'мыло', 'грязный'], ['мама', 'мыло', 'грязный', 'рам']]

4. Самостоятельно реализуйте функцию для получения н-грамм частеречных тегов (без использования библиотек).

In [30]:
# your code and output here
def pos_ngrams(text, n):
    ngrams = []
    new_text = tagging(text)
    for i in range(0, len(new_text)-n+1):
        ngram = new_text[i:i+n]
        ngrams.append(ngram)
    return ngrams

In [31]:
# пример работы функции

pos_ngrams(text, n=3)

[['PRTF', 'NOUN', 'NOUN'], ['NOUN', 'NOUN', 'ADJF'], ['NOUN', 'ADJF', 'NOUN']]

In [32]:
pos_ngrams(text, n=4)

[['PRTF', 'NOUN', 'NOUN', 'ADJF'], ['NOUN', 'NOUN', 'ADJF', 'NOUN']]

5. Самостоятельно реализуйте функцию для получения частотного словаря частеречных тегов по коллекции документов.

In [33]:
# your code and output here
def build_pos_dict(corpus):
    pos_dict = {}
    for text in corpus:
        new_text = tagging(text)
        for pos in new_text:
            if pos in pos_dict:
                pos_dict[pos] += 1
            else:
                pos_dict[pos] = 1
    return pos_dict

In [34]:
# пример работы функции

corpus = [
    "мама мыла уставшую раму",
    "высшая школа экономики",
    "компьютерная лингвистика",
    "осень наступила"
]

build_pos_dict(corpus)

{'NOUN': 7, 'PRTF': 1, 'ADJF': 2, 'VERB': 1}

6. Постройте частотный словарь лемм по текстам внутри каждого класса. Найдите топ-15 лемм для текстов каждого класса. Есть ли между этими списками пересечение? Если да, сколько лемм пересекается?

In [35]:
# your code and output here
label_0 = df[df['label'] == 0]
label_1 = df[df['label'] == 1]

def first_n(dic, n):
    new_dic = {}
    for i in dic:
        new_dic[dic[i]] = i
    list_keys = list(new_dic.keys())
    list_keys.sort(reverse = True)
    out_dic = {}
    for i in list_keys[:n]:
        out_dic[new_dic[i]] = i
    return out_dic

In [36]:
def build_lem_dict(corpus):
    lem_dict = {}
    for text in corpus:
        new_text = lemmatize(text)
        for lemm in new_text:
            if lemm in lem_dict:
                lem_dict[lemm] += 1
            else:
                lem_dict[lemm] = 1
    return lem_dict

In [37]:
lem_dict_0 = build_lem_dict(label_0['text'])

In [39]:
first_15_0 = first_n(lem_dict_0, 15)
first_15_0

{'-': 46206,
 'год': 42421,
 '–': 31924,
 'который': 25743,
 '—': 20064,
 'один': 16770,
 'это': 16717,
 'наш': 15441,
 'свой': 15332,
 'проект': 14077,
 'также': 13346,
 'работа': 12154,
 'апрель': 12130,
 'день': 12060,
 'город': 11587}

In [42]:
lem_dict_1 = build_lem_dict(label_1['text'])

In [43]:
first_15_1 = first_n(lem_dict_1, 15)
first_15_1

{'это': 31882,
 'хотеть': 21176,
 'год': 20505,
 'жить': 19101,
 'мочь': 18524,
 'очень': 17426,
 'жизнь': 17254,
 'мой': 16873,
 'весь': 16427,
 'просто': 15025,
 'свой': 14199,
 'который': 13349,
 '-': 12304,
 'человек': 11626,
 'один': 10117}

7. Какие текстовые признаки могли бы быть полезными для решения задачи классификации на этих данных? Приведите примеры и перечислите ресурсы, которые вы бы использовали для конструирования этих признаков.

In [None]:
# your answer text here