## Данные

Данные -  https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps
Необходимо предсказать рейтинг приложения 

In [3]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

Matplotlib created a temporary config/cache directory at /tmp/matplotlib-b1fpx6aq because the default path (/home/nikita/.config/matplotlib) is not a writable directory; it is highly recommended to set the MPLCONFIGDIR environment variable to a writable directory, in particular to speed up the import of Matplotlib and to better support multiprocessing.
Matplotlib is building the font cache; this may take a moment.


In [4]:
data = pd.read_csv('./AppleStore.csv')
data.head()

Unnamed: 0.1,Unnamed: 0,id,track_name,size_bytes,currency,price,rating_count_tot,rating_count_ver,user_rating,user_rating_ver,ver,cont_rating,prime_genre,sup_devices.num,ipadSc_urls.num,lang.num,vpp_lic
0,1,281656475,PAC-MAN Premium,100788224,USD,3.99,21292,26,4.0,4.5,6.3.5,4+,Games,38,5,10,1
1,2,281796108,Evernote - stay organized,158578688,USD,0.0,161065,26,4.0,3.5,8.2.2,4+,Productivity,37,5,23,1
2,3,281940292,"WeatherBug - Local Weather, Radar, Maps, Alerts",100524032,USD,0.0,188583,2822,3.5,4.5,5.0.0,4+,Weather,37,5,3,1
3,4,282614216,"eBay: Best App to Buy, Sell, Save! Online Shop...",128512000,USD,0.0,262241,649,4.0,4.5,5.10.0,12+,Shopping,37,5,9,1
4,5,282935706,Bible,92774400,USD,0.0,985920,5320,4.5,5.0,7.5.1,4+,Reference,37,5,45,1


Поделим фичи на числовые и категориальные


In [5]:
num_cols = [
    'size_bytes',
    'price',
    'rating_count_tot',
    'rating_count_ver',
    'sup_devices.num',
    'ipadSc_urls.num',
    'lang.num',
    'cont_rating',
]

cat_cols = [
    'currency',
    'prime_genre'
]

target_col = 'user_rating'

cols = num_cols + cat_cols + [target_col]

In [6]:
data = data[cols]
data['cont_rating'] = data['cont_rating'].str.slice(0, -1).astype(int)
data.head()

Unnamed: 0,size_bytes,price,rating_count_tot,rating_count_ver,sup_devices.num,ipadSc_urls.num,lang.num,cont_rating,currency,prime_genre,user_rating
0,100788224,3.99,21292,26,38,5,10,4,USD,Games,4.0
1,158578688,0.0,161065,26,37,5,23,4,USD,Productivity,4.0
2,100524032,0.0,188583,2822,37,5,3,4,USD,Weather,3.5
3,128512000,0.0,262241,649,37,5,9,12,USD,Shopping,4.0
4,92774400,0.0,985920,5320,37,5,45,4,USD,Reference,4.5


In [7]:
data.isna().mean()

size_bytes          0.0
price               0.0
rating_count_tot    0.0
rating_count_ver    0.0
sup_devices.num     0.0
ipadSc_urls.num     0.0
lang.num            0.0
cont_rating         0.0
currency            0.0
prime_genre         0.0
user_rating         0.0
dtype: float64

In [8]:
#распределение категориальных фичей
for col in cat_cols:
    print(f"{col} DISTRIBUTION")
    print(data[col].value_counts())
    print()

currency DISTRIBUTION
USD    7197
Name: currency, dtype: int64

prime_genre DISTRIBUTION
Games                3862
Entertainment         535
Education             453
Photo & Video         349
Utilities             248
Health & Fitness      180
Productivity          178
Social Networking     167
Lifestyle             144
Music                 138
Shopping              122
Sports                114
Book                  112
Finance               104
Travel                 81
News                   75
Weather                72
Reference              64
Food & Drink           63
Business               57
Navigation             46
Medical                23
Catalogs               10
Name: prime_genre, dtype: int64



In [9]:
#в колонке currency только одно значение, можно колонку убрать
data = data.drop(columns=['currency'])
cat_cols.remove('currency')

In [None]:
#распредление величин
data.hist(column=num_cols+cat_cols+[target_col], figsize=(14, 10))
None

А теперь посмотрим на корреляции между фичами

In [None]:
data.corr().style.background_gradient(cmap='coolwarm').set_precision(2)

In [None]:
# Добавим категориальную фичу, которая говорит, бесплатное приложение или нет
data['is_free'] = data['price'] == 0
cat_cols.append('is_free')
data.head()

#### One-hot-encoding
Самый простой способ закодировать категориальные фичи - one hot encoding. Представьте, что у нас есть категориальная фича prime_genre с возможными значениями 
> ['Games', 'Entertainment', 'Education', 'Photo & Video']

мы можем создать 4 новые бинарные фичи для каждого из столбцов

> 'Entertaiment' -> [0, 1, 0, 0]

В pandas очень удобно использовать get_dummies для one-hot-encoding

In [None]:
a = pd.DataFrame.from_dict({'categorical': ['a', 'b', 'a', 'c']})
a

In [None]:
pd.get_dummies(a)


In [None]:
# Задание: 
# добавьте в датафрейм колонки для всех категориальных фичей и обновите список категориальных фичей


In [None]:
data = pd.get_dummies(data, columns=["prime_genre"], prefix=["prime_genre"])

In [None]:
cat_cols = list(data.columns.values)[9:]
data.info()
display(num_cols)
display(cat_cols)

### Масштабирование признаков

Как мы говорили в лекции часто необходимо привести все признаки к одному масштабу. Для этого в sklearn есть специальный Transformer -- StandardScaler и MinMaxScaler.

StandardScaler во время .fit() для каждого признака $x_i$ считает среднее $\mu_i$ и стандартное отклонение $\sigma_i$ на обучающем датасете. Во время .transform() к каждому признаку применяется:

$$\mathbf{x_i}^{\text{new}} = \frac{\mathbf{x_i} - \mu_i}{\sigma_i}$$


MinMaxScaler во время .fit() для каждого признака $x_i$ считает минимум $x_{i, \text{min}}$ и максимум $x_{i, \text{max}}$ на обучающем датасете. Во время .transform() к каждому признаку применяется:

$$\mathbf{x_i}^{\text{new}} = \frac{\mathbf{x_i} - x_{i, \text{min}}}{x_{i, \text{max}} - x_{i, \text{min}}}$$

In [None]:
from sklearn.preprocessing import StandardScaler

pca = StandardScaler()
pca.fit(data[num_cols + cat_cols])
# Выход pca - numpy матрица, положим ее в новую переменную со всеми фичами
X = pca.transform(data[num_cols + cat_cols])

## Разделение на train/test



In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, data[target_col], test_size=0.2)

## Обучение


In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score, mean_squared_error

Поговорим про метрики. Метрика это, так же как и функция потерь, какая-то функция, показывающая насколько хорошо работает наша модель. Например, любой лосс можно назвать метрикой. Но не любую метрику можно назвать лоссом: лосс это именно то число, которое мы уменьшаем в процессе обучения модели + для лосса всегда верно, что чем он меньше, тем лучше. Метрики нужны как раз для того, чтобы оценивать работу алгоритма с помощью числа, которое он не учился напрямую минимизировать.

Для классификации наиболее простой метрикой будет являться точность или accuracy (доля совпавших предсказаний и настоящих классов). Она никогда не используется внутри лоссов, потому что нет эффективного алгоритма, который бы позволил ее обучать модели с такой функцией потерь.

В данном случае у нас задача регрессии, поэтому мы используем метрику MSE

In [None]:
def print_metrics(y_preds, y):
    print(f'R^2: {r2_score(y_preds, y)}')
    print(f'MSE: {mean_squared_error(y_preds, y)}')

In [None]:
# Используем обычную линейную регрессию, минимизирующую сумму квадратов ошибки
lr = LinearRegression()
lr.fit(X_train, y_train)

print_metrics(lr.predict(X_test), y_test)

In [None]:
knn = KNeighborsRegressor(n_neighbors=5)
knn.fit(X_train, y_train)

print_metrics(knn.predict(X_test), y_test)

## Cross Validation


Получим из кроссвалидации метрики

In [None]:
from sklearn.metrics import make_scorer
from sklearn.model_selection import cross_validate

In [None]:
cross_validate(LinearRegression(), X, data[target_col], cv=5, 
               scoring={'r2_score': make_scorer(r2_score), 
                        'mean_squared_error': make_scorer(mean_squared_error)})

In [None]:
cross_validate(KNeighborsRegressor(), X, data[target_col], cv=5, 
               scoring={'r2_score': make_scorer(r2_score, ), 
                        'mean_squared_error': make_scorer(mean_squared_error)})

In [None]:
dtc = DecisionTreeRegressor()
dtc.fit(X_train, y_train)
print_metrics(dtc.predict(X_test), y_test)


cross_validate(DecisionTreeRegressor(), X, data[target_col], cv=5, 
               scoring={'r2_score': make_scorer(r2_score), 
                        'mean_squared_error': make_scorer(mean_squared_error)})

In [None]:
from sklearn.ensemble import RandomForestRegressor

dtc = RandomForestRegressor(10)
dtc.fit(X_train, y_train)
print_metrics(dtc.predict(X_test), y_test)


cross_validate(RandomForestRegressor(), X, data[target_col], cv=5, 
               scoring={'r2_score': make_scorer(r2_score), 
                        'mean_squared_error': make_scorer(mean_squared_error)})

## GridSearchCV
А еще с помощью кросс валидации можно искать гиперпараметры.

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
gbr_grid_search = GridSearchCV(KNeighborsRegressor(), 
                               [{'n_neighbors': [1, 2, 3, 4, 6, 8, 10, 15]}],
                               cv=5,
                               scoring = make_scorer(r2_score),
                               #error_score=make_scorer(mean_squared_error),
                               verbose=10)
gbr_grid_search.fit(X_train, y_train)

In [None]:
print(gbr_grid_search.best_params_)
print(gbr_grid_search.best_score_)
print(gbr_grid_search.best_estimator_)

#### Задание: Убучите несколько других моделей и получите лучшие скоры

##### Деревья решений

In [314]:
gbr_grid_search = GridSearchCV(DecisionTreeRegressor(),
                               {'max_depth': [5,10,15]
                               },
                               cv=5,
                               scoring = make_scorer(r2_score),
                               #error_score=make_scorer(mean_squared_error),
                               verbose=10)
gbr_grid_search.fit(X_train, y_train)

Fitting 5 folds for each of 3 candidates, totalling 15 fits
[CV 1/5; 1/3] START max_depth=5.................................................
[CV 1/5; 1/3] END ..................max_depth=5;, score=0.818 total time=   0.0s
[CV 2/5; 1/3] START max_depth=5.................................................
[CV 2/5; 1/3] END ..................max_depth=5;, score=0.835 total time=   0.0s
[CV 3/5; 1/3] START max_depth=5.................................................
[CV 3/5; 1/3] END ..................max_depth=5;, score=0.801 total time=   0.0s
[CV 4/5; 1/3] START max_depth=5.................................................
[CV 4/5; 1/3] END ..................max_depth=5;, score=0.825 total time=   0.0s
[CV 5/5; 1/3] START max_depth=5.................................................
[CV 5/5; 1/3] END ..................max_depth=5;, score=0.835 total time=   0.0s
[CV 1/5; 2/3] START max_depth=10................................................
[CV 1/5; 2/3] END .................max_depth=10;,

GridSearchCV(cv=5, estimator=DecisionTreeRegressor(),
             param_grid={'max_depth': [5, 10, 15]},
             scoring=make_scorer(r2_score), verbose=10)

In [307]:
print(gbr_grid_search.best_params_)
print(gbr_grid_search.best_score_)
print(gbr_grid_search.best_estimator_)

{'max_depth': 5}
-0.4321852722790066
DecisionTreeRegressor(max_depth=5)


##### Линейная регрессия

In [316]:
gbr_grid_search = GridSearchCV(LinearRegression(),
                               {'fit_intercept': [False, True],
                                'n_jobs': [-1, 1, None]},
                               cv=5,
                               scoring = make_scorer(r2_score),
                               #error_score=make_scorer(mean_squared_error),
                               verbose=10)
gbr_grid_search.fit(X_train, y_train)

Fitting 5 folds for each of 6 candidates, totalling 30 fits
[CV 1/5; 1/6] START fit_intercept=False, n_jobs=-1..............................
[CV 1/5; 1/6] END fit_intercept=False, n_jobs=-1;, score=-5.184 total time=   0.0s
[CV 2/5; 1/6] START fit_intercept=False, n_jobs=-1..............................
[CV 2/5; 1/6] END fit_intercept=False, n_jobs=-1;, score=-5.251 total time=   0.0s
[CV 3/5; 1/6] START fit_intercept=False, n_jobs=-1..............................
[CV 3/5; 1/6] END fit_intercept=False, n_jobs=-1;, score=-5.921 total time=   0.0s
[CV 4/5; 1/6] START fit_intercept=False, n_jobs=-1..............................
[CV 4/5; 1/6] END fit_intercept=False, n_jobs=-1;, score=-5.031 total time=   0.0s
[CV 5/5; 1/6] START fit_intercept=False, n_jobs=-1..............................
[CV 5/5; 1/6] END fit_intercept=False, n_jobs=-1;, score=-5.156 total time=   0.0s
[CV 1/5; 2/6] START fit_intercept=False, n_jobs=1...............................
[CV 1/5; 2/6] END fit_intercept=False, 

GridSearchCV(cv=5, estimator=LinearRegression(),
             param_grid={'fit_intercept': [False, True],
                         'n_jobs': [-1, 1, None]},
             scoring=make_scorer(r2_score), verbose=10)

In [317]:
print(gbr_grid_search.best_params_)
print(gbr_grid_search.best_score_)
print(gbr_grid_search.best_estimator_)

{'fit_intercept': True, 'n_jobs': -1}
0.12068720721012587
LinearRegression(n_jobs=-1)


##### Случайный лес

In [324]:
from sklearn.ensemble import RandomForestRegressor

gbr_grid_search = GridSearchCV(RandomForestRegressor(),
                               {'n_estimators': [10,50,100]},
                               cv=5,
                               scoring = make_scorer(r2_score),
                               #scoring = make_scorer(mean_squared_error),
                               #error_score=make_scorer(mean_squared_error),
                               verbose=10)
gbr_grid_search.fit(X_train, y_train)

Fitting 5 folds for each of 3 candidates, totalling 15 fits
[CV 1/5; 1/3] START n_estimators=10.............................................
[CV 1/5; 1/3] END ..............n_estimators=10;, score=0.808 total time=   0.3s
[CV 2/5; 1/3] START n_estimators=10.............................................
[CV 2/5; 1/3] END ..............n_estimators=10;, score=0.822 total time=   0.3s
[CV 3/5; 1/3] START n_estimators=10.............................................
[CV 3/5; 1/3] END ..............n_estimators=10;, score=0.797 total time=   0.3s
[CV 4/5; 1/3] START n_estimators=10.............................................
[CV 4/5; 1/3] END ..............n_estimators=10;, score=0.816 total time=   0.3s
[CV 5/5; 1/3] START n_estimators=10.............................................
[CV 5/5; 1/3] END ..............n_estimators=10;, score=0.826 total time=   0.3s
[CV 1/5; 2/3] START n_estimators=50.............................................
[CV 1/5; 2/3] END ..............n_estimators=50;,

GridSearchCV(cv=5, estimator=RandomForestRegressor(),
             param_grid={'n_estimators': [10, 50, 100]},
             scoring=make_scorer(r2_score), verbose=10)

In [325]:
print(gbr_grid_search.best_params_)
print(gbr_grid_search.best_score_)
print(gbr_grid_search.best_estimator_)

{'n_estimators': 100}
0.8305011342320544
RandomForestRegressor()


In [327]:
dtc = RandomForestRegressor(100)
dtc.fit(X_train, y_train)
print_metrics(dtc.predict(X_test), y_test)

R^2: 0.8079453463160674
MSE: 0.3747399131944445


### Выводы

###### Лучшие результаты:
    Из использованный мною алгоритмов регрессии наилучшие результаты зафиксированы при использовании случайного Леса.
    Чем ближе R^2 к 1, тем лучше обобщающая способность модели(в какой мере результаты данного исследования применимы к другим группам данных).
    Самое низкое значение средней квадратичной ошибки также зафиксировано при использовании алгоритма случайного леса.
   
Данный датасет имееет преимущенное значение категориальных фич, поэтому неудивительно, что метод с использованием переобученных деревьев решений берет верх.
