# Домашнее задание № 2

### Выполнил: Кузнецов С.И.

#### Датасет медиа

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
import math
import statsmodels.formula.api as smf

In [2]:
# Загружаем датасет
adv_df = pd.read_csv('Advertising.csv')
adv_df.drop('Unnamed: 0', axis = 1, inplace = True)
adv_df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [3]:
adv_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 4 columns):
TV           200 non-null float64
radio        200 non-null float64
newspaper    200 non-null float64
sales        200 non-null float64
dtypes: float64(4)
memory usage: 6.3 KB


**Задание:**

1. Разделить дата сет на трейн и тест в отношение 50:50 70:30 80:20 (с перемешиванием)
2. Обучать наши модели на трейне. Предсказывать и замерять метрику R^2 и на трейне и на тесте
3. Проверить следующие модели, для каждого разделения: а) sales ~ log_tv + radio б) sales ~ TV + radio в) sales ~ TV + radio + newspaper

Добавим в датасет переменную *log_tv*

In [4]:
adv_df['log_tv'] = adv_df.TV.apply(lambda x: math.log(x, 2))
adv_df.head()

Unnamed: 0,TV,radio,newspaper,sales,log_tv
0,230.1,37.8,69.2,22.1,7.846117
1,44.5,39.3,45.1,10.4,5.475733
2,17.2,45.9,69.3,9.3,4.104337
3,151.5,41.3,58.5,18.5,7.243174
4,180.8,10.8,58.4,12.9,7.498251


In [5]:
def get_R2(df, test_part, target, model_vars, RS = 45):
    '''
    Функция разбивает датасет df на обучающую и тестовую выборки, после чего обучает модель на обучающей выборке
    и возвращает R^2 для обучающей и тестовой выборок.
    
    test_part - доля тестовой выборки в исходном датасете,
    target - целевая переменная
    model_vars - список переменных, участвующих в модели
    RS - random state
    '''
    
    # Разбиваем выборку на обучающую и тестовую
    df_train, df_test = train_test_split(df, test_size = test_part, random_state = RS)
    
    # Обучаем модель
    x_lm = smf.ols('{} ~ {}'.format(target, ' + '.join(model_vars)), df_train).fit()
    
    # Возвращаем R^2 для обучающей и тестовой выборок
    r2_train = r2_score(y_true = df_train[target], y_pred = x_lm.predict(df_train))
    r2_test = r2_score(y_true = df_test[target], y_pred = x_lm.predict(df_test))
    
    return r2_train, r2_test
    

* Соотношение обучающей и тестовой выборок 50:50

а) sales ~ log_tv + radio

In [6]:
R2_train, R2_test = get_R2(df = adv_df, 
                           test_part = .5, 
                           target = 'sales', 
                           model_vars = ['log_tv', 'radio']
                          )
print(' R^2: \n train set: {:.4} \n test set:  {:.4}'.format(R2_train, R2_test))

 R^2: 
 train set: 0.927 
 test set:  0.8761


б) sales ~ TV + radio

In [7]:
R2_train, R2_test = get_R2(df = adv_df, 
                           test_part = .5, 
                           target = 'sales', 
                           model_vars = ['TV', 'radio']
                          )
print(' R^2: \n train set: {:.4} \n test set:  {:.4}'.format(R2_train, R2_test))

 R^2: 
 train set: 0.8925 
 test set:  0.8863


в) sales ~ TV + radio + newspaper

In [8]:
R2_train, R2_test = get_R2(df = adv_df, 
                           test_part = .5, 
                           target = 'sales', 
                           model_vars = ['TV', 'radio', 'newspaper']
                          )
print(' R^2: \n train set: {:.4} \n test set:  {:.4}'.format(R2_train, R2_test))

 R^2: 
 train set: 0.8934 
 test set:  0.8843


По проверке на тестовой выборке видно, что переменная *log_tv* вместо *TV* улучшает модель. А добавление дополнительной переменной *newspaper* делает модель менее точной.

* Соотношение обучающей и тестовой выборок 70:30

а) sales ~ log_tv + radio

In [9]:
R2_train, R2_test = get_R2(df = adv_df, 
                           test_part = .3, 
                           target = 'sales', 
                           model_vars = ['log_tv', 'radio']
                          )
print(' R^2: \n train set: {:.4} \n test set:  {:.4}'.format(R2_train, R2_test))

 R^2: 
 train set: 0.9063 
 test set:  0.8956


б) sales ~ TV + radio

In [10]:
R2_train, R2_test = get_R2(df = adv_df, 
                           test_part = .3, 
                           target = 'sales', 
                           model_vars = ['TV', 'radio']
                          )
print(' R^2: \n train set: {:.4} \n test set:  {:.4}'.format(R2_train, R2_test))

 R^2: 
 train set: 0.8885 
 test set:  0.9103


в) sales ~ TV + radio + newspaper

In [11]:
R2_train, R2_test = get_R2(df = adv_df, 
                           test_part = .3, 
                           target = 'sales', 
                           model_vars = ['TV', 'radio', 'newspaper']
                          )
print(' R^2: \n train set: {:.4} \n test set:  {:.4}'.format(R2_train, R2_test))

 R^2: 
 train set: 0.8897 
 test set:  0.9042


* Соотношение обучающей и тестовой выборок 80:20

а) sales ~ log_tv + radio

In [12]:
R2_train, R2_test = get_R2(df = adv_df, 
                           test_part = .2, 
                           target = 'sales', 
                           model_vars = ['log_tv', 'radio']
                          )
print(' R^2: \n train set: {:.4} \n test set:  {:.4}'.format(R2_train, R2_test))

 R^2: 
 train set: 0.9013 
 test set:  0.9301


б) sales ~ TV + radio

In [13]:
R2_train, R2_test = get_R2(df = adv_df, 
                           test_part = .2, 
                           target = 'sales', 
                           model_vars = ['TV', 'radio']
                          )
print(' R^2: \n train set: {:.4} \n test set:  {:.4}'.format(R2_train, R2_test))

 R^2: 
 train set: 0.8956 
 test set:  0.8988


в) sales ~ TV + radio + newspaper

In [14]:
R2_train, R2_test = get_R2(df = adv_df, 
                           test_part = .2, 
                           target = 'sales', 
                           model_vars = ['TV', 'radio', 'newspaper']
                          )
print(' R^2: \n train set: {:.4} \n test set:  {:.4}'.format(R2_train, R2_test))

 R^2: 
 train set: 0.8959 
 test set:  0.8956


Видно, что самая лучшая модель получилась при соотношении обучающей и тестовой выборок как 80:20

**Выводы:**
* Чем больше размер обучающей выборки, тем точнее модель
* Увеличение количества переменных может привести к потере точности
* "Удачное" преобразование переменной может повысить точность модели