In [None]:
%pylab inline

import pandas as pd
import seaborn as sns
from tqdm import tqdm
from sklearn.datasets import fetch_20newsgroups

import pprint

from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error

import xgboost as xgb

# Feature engeneering

Откуда взять признаки?

1) Преобразовать исходные признаки (повороты, вращения, расстояния, переход в другую систему координат; месяцы, дни недели, часы открытия и т.п.; расстояние/время и др.)

2) Создать календарь с праздниками, Черными пятницами, днями голосований и другими важными событиями

3) Подгрузить географические данные: координаты общественных мест, остановок,  аэропортов и т.п.

4) Напарсить чего-нибудь в Интернете: отзывы, цены в каталогах, рейтинги продуктов

5) Найти похожий датасет с новыми фичами


## Работа с текстовыми данными

Как правило, модели машинного обучения действуют в предположении, что матрица "объект-признак" является вещественнозначной, поэтому при работе с текстами сперва для каждого из них необходимо составить его признаковое описание. Для этого широко используются техники векторизации, tf-idf и пр. 


In [None]:
#?fetch_20newsgroups

In [None]:
data = fetch_20newsgroups(subset='all', categories=['comp.graphics', 'sci.med'])

In [None]:
type(data)

In [None]:
data.keys()

In [None]:
len(data['data'])

Данные содержат тексты новостей, которые надо классифицировать на разделы.

In [None]:
data['target_names']

In [None]:
texts = data['data']
target = data['target']

Например:

In [None]:
texts[0]

### Bag-of-words (сколько раз слово из словаря входило в данный текст)

Самый очевидный способ формирования признакового описания текстов — векторизация. Пусть у нас имеется коллекция текстов $D = \{d_i\}_{i=1}^l$ и словарь всех слов, встречающихся в выборке $V = \{v_j\}_{j=1}^d.$ В этом случае некоторый текст $d_i$ описывается вектором $(x_{ij})_{j=1}^d,$ где
$$x_{ij} = \sum_{v \in d_i} [v = v_j].$$

Таким образом, текст $d_i$ описывается вектором количества вхождений каждого слова из словаря в данный текст.

In [2]:
from sklearn.feature_extraction.text import CountVectorizer


texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer()
cv_fit=cv.fit_transform(texts)

print(cv.get_feature_names())
print(cv_fit.toarray())
print(cv.get_feature_names().index('cat'))
print(cv.vocabulary_)

['bird', 'cat', 'dog', 'fish']
[[0 1 1 1]
 [0 2 1 0]
 [1 0 0 1]
 [1 0 0 0]]
1
{'dog': 2, 'cat': 1, 'fish': 3, 'bird': 0}


In [3]:

# разбить предложение на токены и подсчитывает число повторений этого токена в документе
vectorizer = CountVectorizer(encoding='utf8')
vectorizer.fit(texts)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

Результатом является разреженная матрица.

In [None]:
texts[:1]

In [4]:
vec1 = vectorizer.transform(texts[:1]) # закодировать один документ как вектор (нужна не строка, а лист)

#vec1.toarray()

In [5]:
#vec1.shape

Ответ на задачку: max(vec1.toarray()[0])

In [None]:
print(vec1.indptr)
print(vec1.indices)
print(vec1.data)

### TF-IDF

Ещё один способ работы с текстовыми данными — [TF-IDF](https://en.wikipedia.org/wiki/Tf–idf) (**T**erm **F**requency–**I**nverse **D**ocument **F**requency). Рассмотрим коллекцию текстов $D$.  Для каждого уникального слова $t$ из документа $d \in D$ вычислим следующие величины:

1. Term Frequency – количество вхождений слова в отношении к общему числу слов в тексте:
$$\text{tf}(t, d) = \frac{n_{td}}{\sum_{t \in d} n_{td}},$$
где $n_{td}$ — количество вхождений слова $t$ в текст $d$.
1. Inverse Document Frequency
$$\text{idf}(t, D) = \log \frac{\left| D \right|}{\left| \{d\in D: t \in d\} \right|},$$
где $\left| \{d\in D: t \in d\} \right|$ – количество текстов в коллекции, содержащих слово $t$.

Тогда для каждой пары (слово, текст) $(t, d)$ вычислим величину:

$$\text{tf-idf}(t,d, D) = \text{tf}(t, d)\cdot \text{idf}(t, D).$$

Смысл в том, чтобы дать больший вес тем словам, которые характерны для конкретного документа, но не для всех документов вообще.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(encoding='utf8', min_df=1)
vectorizer.fit(texts)

На выходе получаем разреженную матрицу.

In [None]:
vec2 = vectorizer.transform(texts[:1])

In [None]:
print(vec2.indptr)
print(vec2.indices)
print(vec2.data)

Заметим, что одно и то же слово может встречаться в различных формах (например, "сотрудник" и "сотрудника"), но описанные выше методы интерпретируют их как различные слова, что делает признаковое описание избыточным. Устранить эту проблему можно при помощи **лемматизации** и **стемминга**.

### Стемминг

[**Stemming**](https://en.wikipedia.org/wiki/Stemming) –  это процесс нахождения основы слова. В результате применения данной процедуры однокоренные слова, как правило, преобразуются к одинаковому виду.

**Примеры стемминга:**

| Word        | Stem           |
| ----------- |:-------------:|
| вагон | вагон |
| вагона | вагон |
| вагоне | вагон |
| вагонов | вагон |
| вагоном | вагон |
| вагоны | вагон |
| важная | важн |
| важнее | важн |
| важнейшие | важн |
| важнейшими | важн |
| важничал | важнича |
| важно | важн |

[Snowball](http://snowball.tartarus.org/) – фрэймворк для написания алгоритмов стемминга. Алгоритмы стемминга отличаются для разных языков и используют знания о конкретном языке – списки окончаний для разных чистей речи, разных склонений и т.д. Пример алгоритма для русского языка – [Russian stemming](http://snowballstem.org/algorithms/russian/stemmer.html).

In [None]:
import nltk
stemmer = nltk.stem.snowball.RussianStemmer()

In [None]:
#пример
print(stemmer.stem('приветливый'), stemmer.stem('приветик'))

In [None]:
stemmer_eng = nltk.stem.snowball.EnglishStemmer()
stemmer_eng.stem('ridiculous')

In [None]:
stemmer_eng = nltk.stem.snowball.EnglishStemmer()

def stem_text(text, stemmer):
    tokens = text.split()
    return ' '.join(map(lambda w: stemmer.stem(w), tokens))

stemmed_texts = []
for t in tqdm(texts):
    stemmed_texts.append(stem_text(t, stemmer_eng))

In [None]:
#print(texts[0])

In [None]:
#print(stemmed_texts[0])

Как видим, стеммер работает не очень быстро и запускать его для всей выборки достаточно накладно.

### Лемматизация

[Лемматизация](https://en.wikipedia.org/wiki/Lemmatisation) — процесс приведения слова к его нормальной форме (**лемме**):
- для существительных — именительный падеж, единственное число;
- для прилагательных — именительный падеж, единственное число, мужской род;
- для глаголов, причастий, деепричастий — глагол в инфинитиве.

Например, для русского языка есть библиотека pymorphy2.
В ней для морфологического анализа слов (русских) есть класс MorphAnalyzer.

In [None]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

Метод MorphAnalyzer.parse() принимает слово  и возвращает все возможные разборы слова:

In [None]:
morph.parse('делавших')

Сравним работу стеммера и лемматизатора на примере:

In [None]:
stemmer = nltk.stem.snowball.RussianStemmer()
print(stemmer.stem('играющих'))

In [None]:
morph.parse('играющих')

In [None]:
print(morph.parse('играющих')[0].normal_form)

Кроме того, у каждого разбора есть тег.

Тег - это набор граммем, характеризующих данное слово. Например, тег 'VERB,perf,intr plur,past,indc' означает, что слово - глагол (VERB) совершенного вида (perf), непереходный (intr), множественного числа (plur), прошедшего времени (past), изъявительного наклонения (indc).

In [None]:
morph.parse('играющих')[0].tag

In [None]:
privetiki = morph.parse('приветики')[0]
privetiki.inflect({'gent'})

In [None]:
privetiki.inflect({'plur', 'gent'})

In [None]:
X = vectorizer.transform(texts)

#### Применение в задаче классификации

In [None]:
from sklearn.model_selection import cross_val_score, ShuffleSplit
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score, accuracy_score

In [None]:
#count_vectorizer
cv = ShuffleSplit(n_splits=5, test_size=0.3)
for train_ids, test_ids in cv.split(X):
    lr = LogisticRegression(solver='lbfgs')
    lr.fit(X[train_ids], target[train_ids])
    preds = lr.predict_proba(X[test_ids])[:,1]
    print('ROC-AUC: %.3f, ACC: %.3f' % (roc_auc_score(target[test_ids], preds), 
                                        accuracy_score(target[test_ids], (preds > 0.5).astype(int))))

In [None]:
vectorizer_tfidf = TfidfVectorizer(encoding='utf8', min_df=1)
vectorizer_tfidf.fit(texts)

In [None]:
#tf-idf
X = vectorizer_tfidf.transform(texts)

In [None]:
for train_ids, test_ids in cv.split(X):
    lr = LogisticRegression(solver='lbfgs')
    lr.fit(X[train_ids], target[train_ids])
    preds = lr.predict_proba(X[test_ids])[:,1]
    print('ROC-AUC: %.3f, ACC: %.3f' % (roc_auc_score(target[test_ids], preds), 
                                        accuracy_score(target[test_ids], (preds > 0.5).astype(int))))

In [None]:
X = vectorizer_tfidf.transform(stemmed_texts)

In [None]:
for train_ids, test_ids in cv.split(X):
    lr = LogisticRegression(solver='lbfgs')
    lr.fit(X[train_ids], target[train_ids])
    preds = lr.predict_proba(X[test_ids])[:,1]
    print('ROC-AUC: %.3f, ACC: %.3f' % (roc_auc_score(target[test_ids], preds), 
                                        accuracy_score(target[test_ids], (preds > 0.5).astype(int))))

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize


print(stopwords.words('russian'))

In [None]:
my_sentence = 'Между прочим, вы сегодня более сообразительны, чем вчера'

In [None]:
stop_words = stopwords.words('russian')
word_tokens = word_tokenize(my_sentence) 
  
filtered_sentence = [w for w in word_tokens if not w in stop_words] 
  
print(filtered_sentence) 

In [None]:
def remove_stop_words(text):
    stop_words = stopwords.words('english')
    tokens =  word_tokenize(text) 
    filtered_text = [w for w in tokens if not w in stop_words] 
    return ' '.join(filtered_text)

filtered_text = []
for t in tqdm(texts):
    filtered_text.append(remove_stop_words(t))

In [None]:
X = vectorizer_tfidf.transform(filtered_text)

In [None]:
for train_ids, test_ids in cv.split(X):
    lr = LogisticRegression(solver='lbfgs')
    lr.fit(X[train_ids], target[train_ids])
    preds = lr.predict_proba(X[test_ids])[:,1]
    print('ROC-AUC: %.3f, ACC: %.3f' % (roc_auc_score(target[test_ids], preds), 
                                        accuracy_score(target[test_ids], (preds > 0.5).astype(int))))

### Визуализация текстов

#### Wordcloud

In [None]:
import wordcloud as wc

In [None]:
print(wordcloud)

In [None]:
wc_im = wc.WordCloud(width = 3000, height = 2000, random_state=1, background_color='grey', collocations=False, stopwords = stopwords.words('english')).generate(texts[0])

plt.figure(figsize=(10, 12))
plt.imshow(wc_im) 
plt.axis("off")
plt.show()

#### Scattertext

In [None]:
import scattertext as st
import spacy
#!python -m spacy download en

In [None]:
speach_df = st.SampleCorpora.ConventionData2012.get_data()  

In [None]:
nlp =spacy.load('en_core_web_sm')

In [None]:
corpus = st.CorpusFromPandas(speach_df, 
                              category_col='party', 
                              text_col='text',
                            nlp=nlp).build()

In [None]:
list(corpus.get_scaled_f_scores_vs_background().index[:10])

In [None]:
term_freq_df = corpus.get_term_freq_df()
term_freq_df['Democratic Score'] = corpus.get_scaled_f_scores('democrat')
print(list(term_freq_df.sort_values(by='Democratic Score', ascending=False).index[:10]))

In [None]:
html = st.produce_scattertext_explorer(corpus,
          category='democrat',
          category_name='Democratic',
          not_category_name='Republican',
          width_in_pixels=1000,
          metadata=speach_df['speaker'])

open("my_best_vis.html", 'wb').write(html.encode('utf-8'))

### Задача предсказания длительности позедки такси

In [None]:
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

In [None]:
old_features = list(train.columns)
y = train.trip_duration

Описание данных:

 - **id** - a unique identifier for each trip
 - **vendor_id** - a code indicating the provider associated with the trip record
 - **pickup_datetime** - date and time when the meter was engaged
 - **dropoff_datetime** - date and time when the meter was disengaged
 - **passenger_count** - the number of passengers in the vehicle (driver entered value)
 - **pickup_longitude** - the longitude where the meter was engaged
 - **pickup_latitude** - the latitude where the meter was engaged
 - **dropoff_longitude** - the longitude where the meter was disengaged
 - **dropoff_latitude** - the latitude where the meter was disengaged
 - **store_and_fwd_flag** - This flag indicates whether the trip record was held in vehicle memory before sending to the vendor because the vehicle did not have a connection to the server (Y=store and forward; N=not a store and forward trip)
 - **trip_duration** - duration of the trip in seconds

In [None]:
train['pickup_datetime'] = pd.to_datetime(train.pickup_datetime)
train['pickup_date'] = train['pickup_datetime'].dt.date
train['dropoff_datetime'] = pd.to_datetime(train.dropoff_datetime)
train['store_and_fwd_flag'] = train.store_and_fwd_flag == 'Y'

test['store_and_fwd_flag'] = test.store_and_fwd_flag == 'Y'
test['pickup_date'] = test['pickup_datetime'].dt.date
test['pickup_datetime'] = pd.to_datetime(test.pickup_datetime)

In [None]:
plt.hist(train['trip_duration'].values, bins=100)
#plt.hist(train['trip_duration'].loc[train['trip_duration']<9000].values, bins=100)
plt.xlabel('log(trip_duration)')
plt.ylabel('')
plt.show()

Если решаете соревнование, может быть ползеным проверить, насколко трэйн похож на тест

In [None]:
plt.plot(train.groupby('pickup_date').count()[['id']], 'o-', label='train')
plt.plot(test.groupby('pickup_date').count()[['id']], 'o-', label='test')
plt.title('Число поездок по дням')
plt.legend()
plt.ylabel('Число поездок')
plt.show()

### Welcome to NY

In [None]:
N = 30**4
city_long_border = (-74.03, -73.75)
city_lat_border = (40.63, 40.85)
fig, ax = plt.subplots(ncols=2, sharex=True, sharey=True, figsize=(10,16))
ax[0].scatter(train['pickup_longitude'].values[:N], train['pickup_latitude'].values[:N],
              color='blue', s=1, label='train', alpha=0.1)
ax[1].scatter(test['pickup_longitude'].values[:N], test['pickup_latitude'].values[:N],
              color='green', s=1, label='test', alpha=0.1)
fig.suptitle('Распределение поездок по городу.')
ax[0].legend(loc=0)
ax[0].set_ylabel('latitude')
ax[0].set_xlabel('longitude')
ax[1].set_xlabel('longitude')
ax[1].legend(loc=0)
plt.ylim(city_lat_border)
plt.xlim(city_long_border)
plt.show()

In [None]:
def haversine_array(lat1, lng1, lat2, lng2):
    lat1, lng1, lat2, lng2 = map(np.radians, (lat1, lng1, lat2, lng2))
    r = 6371  # in km
    lat = lat2 - lat1
    lng = lng2 - lng1
    d = np.sin(lat * 0.5) ** 2 + np.cos(lat1) * np.cos(lat2) * np.sin(lng * 0.5) ** 2
    h = 2 * r * np.arcsin(np.sqrt(d))
    return h

def dummy_manhattan_distance(lat1, lng1, lat2, lng2):
    a = haversine_array(lat1, lng1, lat1, lng2)
    b = haversine_array(lat1, lng1, lat2, lng1)
    return a + b


train.loc[:, 'distance_haversine'] = haversine_array(train['pickup_latitude'].values, train['pickup_longitude'].values, train['dropoff_latitude'].values, train['dropoff_longitude'].values)
train.loc[:, 'distance_dummy_manhattan'] = dummy_manhattan_distance(train['pickup_latitude'].values, train['pickup_longitude'].values, train['dropoff_latitude'].values, train['dropoff_longitude'].values)

test.loc[:, 'distance_haversine'] = haversine_array(test['pickup_latitude'].values, test['pickup_longitude'].values, test['dropoff_latitude'].values, test['dropoff_longitude'].values)
test.loc[:, 'distance_dummy_manhattan'] = dummy_manhattan_distance(test['pickup_latitude'].values, test['pickup_longitude'].values, test['dropoff_latitude'].values, test['dropoff_longitude'].values)


train.loc[:, 'pickup_weekday'] = train['pickup_datetime'].dt.weekday
train.loc[:, 'pickup_hour'] = train['pickup_datetime'].dt.hour
train.loc[:, 'pickup_minute'] = train['pickup_datetime'].dt.minute
train.loc[:, 'pickup_dt'] = (train['pickup_datetime'] - train['pickup_datetime'].min()).dt.total_seconds()
train.loc[:, 'pickup_week_hour'] = train['pickup_weekday'] * 24 + train['pickup_hour']

test.loc[:, 'pickup_weekday'] = test['pickup_datetime'].dt.weekday
test.loc[:, 'pickup_hour'] = test['pickup_datetime'].dt.hour
test.loc[:, 'pickup_minute'] = test['pickup_datetime'].dt.minute
test.loc[:, 'pickup_dt'] = (test['pickup_datetime'] - train['pickup_datetime'].min()).dt.total_seconds()
test.loc[:, 'pickup_week_hour'] = test['pickup_weekday'] * 24 + test['pickup_hour']

In [None]:
train.loc[:, 'avg_speed_h'] = 1000 * train['distance_haversine'] / train['trip_duration']
train.loc[:, 'avg_speed_m'] = 1000 * train['distance_dummy_manhattan'] / train['trip_duration']

fig, ax = plt.subplots(ncols=3, sharey=True, figsize=(10,8))
ax[0].plot(train.groupby('pickup_hour').mean()['avg_speed_h'], 'bo-', lw=2, alpha=0.7)
ax[1].plot(train.groupby('pickup_weekday').mean()['avg_speed_h'], 'go-', lw=2, alpha=0.7)
ax[2].plot(train.groupby('pickup_week_hour').mean()['avg_speed_h'], 'ro-', lw=2, alpha=0.7)
ax[0].set_xlabel('hour')
ax[1].set_xlabel('weekday')
ax[2].set_xlabel('weekhour')
ax[0].set_ylabel('average speed')
fig.suptitle('Rush hour average traffic speed')
plt.show()

In [None]:
drop_f = ['id', 'log_trip_duration', 'pickup_datetime', 'dropoff_datetime',
                           'trip_duration', 'pickup_date', 'avg_speed_h', 'avg_speed_m']
feature_names = [f for f in train.columns if f not in drop_f]

old_feat = [f for f in old_features if f not in drop_f]

In [None]:
y_log = np.log(y + 1)

In [None]:
Xtr, Xv, ytr, yv = train_test_split(train[old_feat].values, y_log, test_size=0.2, random_state=1987)
dtrain = xgb.DMatrix(Xtr, label=ytr)
dvalid = xgb.DMatrix(Xv, label=yv)
dtest = xgb.DMatrix(test[old_feat].values)
watchlist = [(dtrain, 'train'), (dvalid, 'valid')]

xgb_pars = {'min_child_weight': 50, 'eta': 0.3, 'colsample_bytree': 0.3, 'max_depth': 10,
            'subsample': 0.8, 'lambda': 1., 'nthread': 4, 'booster' : 'gbtree', 'silent': 1,
            'eval_metric': 'rmse'}

In [None]:
model = xgb.train(xgb_pars, dtrain, 60, watchlist, early_stopping_rounds=50,
                  maximize=False, verbose_eval=10)

In [None]:
print('Modeling RMSE %.5f' % model.best_score)

In [None]:
Xtr, Xv, ytr, yv = train_test_split(train[feature_names].values, y_log, test_size=0.2, random_state=1987)
dtrain = xgb.DMatrix(Xtr, label=ytr)
dvalid = xgb.DMatrix(Xv, label=yv)
dtest = xgb.DMatrix(test[feature_names].values)
watchlist = [(dtrain, 'train'), (dvalid, 'valid')]


In [None]:
model2 = xgb.train(xgb_pars, dtrain, 60, watchlist, early_stopping_rounds=50,
                  maximize=False, verbose_eval=10)

In [None]:
print('Modeling RMSE %.5f' % model2.best_score)