## Предсказание промышленного индекса Доу — Джонса по заголовкам новостей

Источник (соревнование Kaggle): https://www.kaggle.com/aaron7sun/stocknews

Входная коллекция данных состоит из двух частей:
1. заголовки новостных сообщений, входящих в топ-25 по популярности, опубликованных на  Reddit WorldNews Channel
2. бинаризованный промышленный индекса Доу — Джонса DJIA (0, если значение индекса за день понизилось, 1 – если осталось на прежнем уровне или выросло). 

Данные собраны за период с 2008-08-08 до 2016-07-01.

Данные представлены в файле Combined_News_DJIA.csv. Первая колонка – дата, вторая – бинаризованный промышленный индекса Доу — Джонса, оставшиеся 25 – заголовки новостей. 

### Часть 1 [3 балла] Предварительная обработка текстов
Проведите предобработку текстов: если считаете нужным, выполните токенизацию, приведение к нижнему регистру, лемматизацию и/или стемминг. 
Ответьте на следующие вопросы:
1. Есть ли корреляция между средней длинной текста за день и DJIA?
2. Есть ли корреляция между количеством упоминаний Барака Обамы и США в день и DJIA? Учтите разные варианты написания США.
3. Каких статей больше: статей о России и Путине или об Исламском государстве (запрещенной законом РФ террористическая организации)?
4. О каких кризисах (crisis) пишут статьи?


### Часть 2 [5 баллов] Классификация

Вам предстоит решить следующую задачу: по текстам новостей за день определить, вырастет или понизится DJIA. То есть, метки класса (y) заданы DJIA, признаки (X) требуется извлечь из текстов.

Обучающее и тестовое множество строится так: данные до начала 2015 года используются для обучения, данные с 2015 года и позже – для тестировани.

Подсказка:

Используйте любой известный вам алгоритм классификации текстов для того,  Используйте $tf-idf$ преобразование, сингулярное разложение, нормировку признакого пространства и любые другие техники обработки данных, которые вы считаете нужным. Используйте accuracy и F-measure  для оценки качества классификации. Покажите, как  $tf-idf$ преобразование или сингулярное разложение или любая другая использованная вами техника влияет на качество классификации. 

Если у выбранного вами алгоритма есть гиперпараметры (например, $\alpha$ в преобразовании Лапласа для метода наивного Байеса), покажите, как изменение гиперпараметра влияет на качество классификации. 

### Часть 3 [2 балла] Творческая
Придумайте и попытайтесь сделать еще что-нибудь, чтобы улучшить качество классификации. Например:
* использовать в качестве признаков только именованные сущности; 
* использовать в качестве признаков скрытые темы;
* добавить признак, отвечающий за какие-то важные темы или тональность новостей.

# Домашка 

In [1]:
from pandas import DataFrame, concat
from nltk.corpus import stopwords
import numpy as np
import xgboost as xgb
from sklearn.model_selection import KFold
from sklearn.metrics import f1_score, accuracy_score

stop = stopwords.words('english')

Загружаем данные

In [2]:
data = DataFrame.from_csv('stocknews/Combined_News_DJIA.csv').reset_index()

In [3]:
train = data[data['Date'] < '2015-01-01']
test = data[data['Date'] > '2014-12-31']
y_train = train.Label.values
y_test = test.Label.values

In [4]:
col_number = 26

### Тут будет анализ данных

### Простые фичи

In [5]:
lambda_func_features = [
    (lambda x: len(str(x).split()), 'NumWords'),
    (lambda x: len(set(str(x).split())), 'NumUniqueWords'),
    (lambda x: len(str(x)), 'NumChars'),
    (lambda x: len([w for w in str(x).lower().split() if w in stop]), 'NumStopWords'),
    (lambda x: np.mean([len(w) for w in str(x).split()]), 'MeanWordLen')
]

In [6]:
def generate_features(train, test, lambda_func, func_name):
    train_features = DataFrame([train.loc[:,'Top' + str(col)].apply(lambda_func) for col in range(1, col_number)]).transpose()
    test_features = DataFrame([test.loc[:,'Top' + str(col)].apply(lambda_func) for col in range(1, col_number)]).transpose()
    train_features.columns = [func_name + str(i) for i in range(1, col_number)]
    test_features.columns = [func_name + str(i) for i in range(1, col_number)]
    return concat([train, train_features], axis=1), concat([test, test_features], axis=1)

In [7]:
for lambda_func, func_name in lambda_func_features:
    train, test = generate_features(train, test, lambda_func, func_name)

### Фичи сгенерированы, убираем лишнее

In [8]:
train = train.drop(train.columns[0:col_number+2], axis=1)
test = test.drop(test.columns[0:col_number+2], axis=1)

### Задаём параметры градиентного бустинга

In [9]:
params = {}
params['objective'] = 'multi:softprob'
params['eta'] = 0.1
params['max_depth'] = 3
params['silent'] = 1
params['num_class'] = 3
params['eval_metric'] = 'mlogloss'
params['min_child_weight'] = 1
params['subsample'] = 0.8
params['colsample_bytree'] = 0.3
params['seed'] = 0

### Классификация

In [10]:
pred_full_test = 0
pred_train = np.zeros([train.shape[0], 3])
for dev_index, val_index in KFold(n_splits=5, shuffle=True, random_state=42).split(train):
    dev_X, val_X = train.loc[dev_index], train.loc[val_index]
    dev_y, val_y = y_train[dev_index], y_train[val_index]
    xgtrain = xgb.DMatrix(dev_X, dev_y)
    xgtest = xgb.DMatrix(test)
    model = xgb.train(params=list(params.items()), dtrain=xgtrain, num_boost_round=20)
    predictions = model.predict(xgtest, ntree_limit=model.best_ntree_limit)
    pred_full_test = pred_full_test + predictions
pred_full_test = pred_full_test / 5.

### Считаем результаты

In [11]:
f1_score(pred_full_test.argmax(axis=1), y_test) 

0.67034990791896865

In [12]:
accuracy_score(pred_full_test.argmax(axis=1), y_test) 

0.52645502645502651