# Тема "Обучение с учителем"

In [34]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston

In [14]:
def reduce_mem_usage(df):
    """ iterate through all the columns of a dataframe and modify the data type
        to reduce memory usage.        
    """
    start_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')

    end_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))
    
    return df

## Задание 1

Импортируйте библиотеки `pandas` и `numpy`.
Загрузите "Boston House Prices dataset" из встроенных наборов данных библиотеки `sklearn`. Создайте датафреймы `X` и `Y` из этих данных. <br>
Разбейте эти датафреймы на тренировочные (`X_train`, `y_train`) и тестовые (`X_test`, `y_test`) с помощью функции `train_test_split` так, чтобы размер тестовой выборки составлял 30% от всех данных, при этом аргумент `random_state` должен быть равен 42. <br>
Создайте модель линейной регрессии под названием `lr` с помощью класса `LinearRegression` из модуля
`sklearn.linear_model`. <br>
Обучите модель на тренировочных данных (используйте все признаки) и сделайте предсказание на
тестовых. <br>
Вычислите `R2` полученных предказаний с помощью `r2_score` из модуля `sklearn.metrics`. 

In [5]:
boston = load_boston()
boston.keys()

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])

In [12]:
X = pd.DataFrame(boston['data'], columns=boston['feature_names'])
X.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [13]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 13 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    float64
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    float64
 9   TAX      506 non-null    float64
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
dtypes: float64(13)
memory usage: 51.5 KB


In [15]:
x = reduce_mem_usage(X)

Memory usage of dataframe is 0.05 MB
Memory usage after optimization is: 0.01 MB
Decreased by 74.8%


In [16]:
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 13 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float16
 1   ZN       506 non-null    float16
 2   INDUS    506 non-null    float16
 3   CHAS     506 non-null    float16
 4   NOX      506 non-null    float16
 5   RM       506 non-null    float16
 6   AGE      506 non-null    float16
 7   DIS      506 non-null    float16
 8   RAD      506 non-null    float16
 9   TAX      506 non-null    float16
 10  PTRATIO  506 non-null    float16
 11  B        506 non-null    float16
 12  LSTAT    506 non-null    float16
dtypes: float16(13)
memory usage: 13.0 KB


In [17]:
y = pd.DataFrame(boston['target'], columns=['price'])
y.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   price   506 non-null    float64
dtypes: float64(1)
memory usage: 4.1 KB


In [18]:
from sklearn.model_selection import train_test_split

In [20]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [22]:
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

In [23]:
lr.fit(X_train, y_train)

LinearRegression()

In [25]:
y_pred = lr.predict(X_test)
y_pred.shape

(152, 1)

In [27]:
y_test.head()

Unnamed: 0,price
173,23.6
274,32.4
491,13.6
72,22.8
452,16.1


In [32]:
check_test = pd.DataFrame({
    "y_test": y_test["price"],
    "y_pred": y_pred.flatten(),
})

check_test.head()

Unnamed: 0,y_test,y_pred
173,23.6,28.656277
274,32.4,36.504917
491,13.6,15.433378
72,22.8,25.406307
452,16.1,18.862297


In [26]:
from sklearn.metrics import r2_score

In [33]:
r2_score(check_test["y_test"], check_test["y_pred"])

0.7112973522673642

## Задание 2

Создайте модель под названием `model` с помощью `RandomForestRegressor` из модуля
`sklearn.ensemble`. <br>
Сделайте агрумент `n_estimators` равным 1000, `max_depth` должен быть равен 12 и `random_state` сделайте равным 42. <br>
Обучите модель на тренировочных данных аналогично тому, как вы обучали модель `LinearRegression`, но при этом в метод `fit` вместо датафрейма `y_train` поставьте `y_train.values[:, 0]`, чтобы получить из датафрейма одномерный массив `Numpy`, так как для класса `RandomForestRegressor` в данном методе для аргумента y предпочтительно
применение массивов вместо датафрейма. <br>
Сделайте предсказание на тестовых данных и посчитайте `R2`. Сравните с результатом из предыдущего задания. <br>
Напишите в комментариях к коду, какая модель в данном случае работает лучше.

In [38]:
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(n_estimators=1000, max_depth=12, random_state=42)

In [45]:
model.fit(X_train, y_train.values[:, 0])

RandomForestRegressor(max_depth=12, n_estimators=1000, random_state=42)

In [50]:
y_pred = model.predict(X_test)
y_pred[:5]

array([22.80611956, 31.22868352, 16.33457583, 23.85202847, 17.1254019 ])

In [51]:
r2_score(y_test["price"], y_pred)

0.8738172573227014

## \*Задание 3

Вызовите документацию для класса `RandomForestRegressor`, найдите информацию об атрибуте `feature_importances_`.
С помощью этого атрибута найдите сумму всех показателей важности, установите, какие два признака показывают наибольшую важность.

In [55]:
RandomForestRegressor?

In [53]:
model.feature_importances_

array([0.03162369, 0.00155322, 0.00728865, 0.00118705, 0.01428215,
       0.40232099, 0.01439642, 0.06384838, 0.00515261, 0.01182786,
       0.01792489, 0.0119908 , 0.41660327])

Из документации: "The importance of a feature is computed as the (normalized) total reduction of the criterion brought by that feature." поэтому сумма признаков всегда будет равна 1

In [95]:
model_feature = pd.DataFrame({
    "name": boston['feature_names'],
    "value": model.feature_importances_,
})
np.sum(model_feature.values[:, 1])

1.0

In [96]:
model_feature

Unnamed: 0,name,value
0,CRIM,0.031624
1,ZN,0.001553
2,INDUS,0.007289
3,CHAS,0.001187
4,NOX,0.014282
5,RM,0.402321
6,AGE,0.014396
7,DIS,0.063848
8,RAD,0.005153
9,TAX,0.011828


In [202]:
model_feature.nlargest(2, "value")

Unnamed: 0,name,value
12,LSTAT,0.416603
5,RM,0.402321


Признаки с наибольшей важностью: <br>
RM - average number of rooms per dwelling <br>
LSTAT - % lower status of the population

## \*Задание 4

В этом задании мы будем работать с датасетом, с которым мы уже знакомы по домашнему заданию по библиотеке `Matplotlib`, это датасет Credit Card Fraud Detection. Для этого датасета мы будем решать задачу классификации - будем определять, какие из транзакциции по кредитной карте являются мошенническими. Данный датасет сильно несбалансирован (так как случаи мошенничества относительно редки), так что применение метрики `accuracy` не принесет пользы и не поможет выбрать лучшую модель. <br>
Мы будем вычислять `AUC`, то есть площадь под кривой `ROC`. <br>
Импортируйте из соответствующих модулей `RandomForestClassifier`, `GridSearchCV` и `train_test_split`.
Загрузите датасет `creditcard.csv` и создайте датафрейм `df`. <br>
С помощью метода `value_counts` с аргументом `normalize=True` убедитесь в том, что выборка
несбалансирована. Используя метод `info`, проверьте, все ли столбцы содержат числовые данные и нет ли в них пропусков. <br>
Примените следующую настройку, чтобы можно было просматривать все столбцы датафрейма: `pd.options.display.max_columns = 100`. <br>
Просмотрите первые 10 строк датафрейма `df`. <br>
Создайте датафрейм `X` из датафрейма `df`, исключив столбец `Class`. <br>
Создайте объект `Series` под названием `y` из столбца `Class`. <br>
Разбейте `X` и `y` на тренировочный и тестовый наборы данных при помощи функции `train_test_split`, используя аргументы: `test_size=0.3`, `random_state=100`, `stratify=y`. <br>
У вас должны получиться объекты `X_train, X_test, y_train` и `y_test`. <br>
Просмотрите информацию о их форме. Для поиска по сетке параметров задайте такие параметры:
```Python
parameters = [{'n_estimators': [10, 15],
               'max_features': np.arange(3, 5),
               'max_depth': np.arange(4, 7)}]
```
Создайте модель `GridSearchCV` со следующими аргументами:
```Python
estimator=RandomForestClassifier(random_state=100),
param_grid=parameters,
scoring='roc_auc',
cv=3.
```
Обучите модель на тренировочном наборе данных (может занять несколько минут). Просмотрите параметры лучшей модели с помощью атрибута `best_params_`. Предскажите вероятности классов с помощью полученнной модели и метода `predict_proba`. <br>
Из полученного результата (массив `Numpy`) выберите столбец с индексом 1 (вероятность класса 1) и
запишите в массив `y_pred_proba`. Из модуля `sklearn.metrics` импортируйте метрику `roc_auc_score`.
Вычислите `AUC` на тестовых данных и сравните с результатом, полученным на тренировочных данных, используя в качестве аргументовмассивы `y_test` и `y_pred_proba`.

In [112]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

In [113]:
df = pd.read_csv("creditcard/creditcard.csv")

In [114]:
df = reduce_mem_usage(df)

Memory usage of dataframe is 67.36 MB
Memory usage after optimization is: 17.11 MB
Decreased by 74.6%


In [167]:
df["Class"].value_counts(normalize=True)

0    0.998273
1    0.001727
Name: Class, dtype: float64

In [121]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284807 entries, 0 to 284806
Data columns (total 31 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   Time    284807 non-null  float32
 1   V1      284807 non-null  float16
 2   V2      284807 non-null  float16
 3   V3      284807 non-null  float16
 4   V4      284807 non-null  float16
 5   V5      284807 non-null  float16
 6   V6      284807 non-null  float16
 7   V7      284807 non-null  float16
 8   V8      284807 non-null  float16
 9   V9      284807 non-null  float16
 10  V10     284807 non-null  float16
 11  V11     284807 non-null  float16
 12  V12     284807 non-null  float16
 13  V13     284807 non-null  float16
 14  V14     284807 non-null  float16
 15  V15     284807 non-null  float16
 16  V16     284807 non-null  float16
 17  V17     284807 non-null  float16
 18  V18     284807 non-null  float16
 19  V19     284807 non-null  float16
 20  V20     284807 non-null  float16
 21  V21     28

In [122]:
pd.options.display.max_columns = 100

In [123]:
df.head(10)

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359375,-0.072754,2.537109,1.37793,-0.338379,0.462402,0.239624,0.098694,0.36377,0.09082,-0.551758,-0.617676,-0.991211,-0.311279,1.467773,-0.470459,0.208008,0.025787,0.404053,0.251465,-0.018311,0.277832,-0.110474,0.066956,0.12854,-0.189087,0.133545,-0.021057,149.625,0
1,0.0,1.191406,0.266113,0.166504,0.448242,0.060028,-0.082336,-0.078796,0.085083,-0.255371,-0.166992,1.612305,1.06543,0.489014,-0.143799,0.635742,0.463867,-0.114807,-0.18335,-0.145752,-0.069092,-0.22583,-0.638672,0.101318,-0.339844,0.167114,0.125854,-0.00898,0.014725,2.689453,0
2,1.0,-1.358398,-1.339844,1.773438,0.379883,-0.503418,1.800781,0.791504,0.247681,-1.514648,0.207642,0.624512,0.066101,0.717285,-0.165894,2.345703,-2.890625,1.110352,-0.121338,-2.261719,0.524902,0.248047,0.771484,0.90918,-0.689453,-0.327637,-0.139038,-0.055359,-0.059753,378.75,0
3,1.0,-0.966309,-0.185181,1.792969,-0.863281,-0.010307,1.24707,0.237549,0.377441,-1.386719,-0.054962,-0.22644,0.178223,0.507812,-0.287842,-0.631348,-1.05957,-0.684082,1.96582,-1.232422,-0.208008,-0.108276,0.005272,-0.190308,-1.175781,0.647461,-0.221924,0.062744,0.061462,123.5,0
4,2.0,-1.158203,0.87793,1.548828,0.403076,-0.407227,0.095947,0.592773,-0.270508,0.817871,0.75293,-0.822754,0.538086,1.345703,-1.120117,0.175171,-0.451416,-0.237061,-0.038208,0.803711,0.408447,-0.00943,0.79834,-0.137451,0.141235,-0.206055,0.502441,0.219482,0.21521,70.0,0
5,2.0,-0.426025,0.960449,1.140625,-0.168213,0.420898,-0.029724,0.476318,0.260254,-0.568848,-0.371338,1.34082,0.359863,-0.358154,-0.137085,0.517578,0.401611,-0.058136,0.068665,-0.033203,0.084961,-0.208252,-0.560059,-0.026398,-0.371338,-0.232788,0.105896,0.253906,0.081055,3.669922,0
6,4.0,1.229492,0.140991,0.04538,1.202148,0.191895,0.272705,-0.005157,0.081238,0.464844,-0.099243,-1.416992,-0.153809,-0.750977,0.167358,0.05014,-0.443604,0.002821,-0.611816,-0.045563,-0.219604,-0.167725,-0.270752,-0.154053,-0.780273,0.75,-0.257324,0.034515,0.005169,4.988281,0
7,7.0,-0.644043,1.417969,1.074219,-0.492188,0.94873,0.428223,1.121094,-3.808594,0.615234,1.249023,-0.619629,0.291504,1.757812,-1.324219,0.686035,-0.076111,-1.22168,-0.358154,0.324463,-0.156738,1.943359,-1.015625,0.057495,-0.649902,-0.415283,-0.051636,-1.207031,-1.084961,40.8125,0
8,7.0,-0.894043,0.286133,-0.11322,-0.271484,2.669922,3.722656,0.370117,0.851074,-0.39209,-0.4104,-0.705078,-0.110474,-0.286133,0.074341,-0.328857,-0.210083,-0.499756,0.118774,0.570312,0.052734,-0.073425,-0.268066,-0.204224,1.011719,0.373291,-0.384277,0.011749,0.142456,93.1875,0
9,9.0,-0.338379,1.119141,1.043945,-0.222168,0.499268,-0.246704,0.651367,0.069519,-0.736816,-0.366943,1.017578,0.836426,1.006836,-0.443604,0.150269,0.739258,-0.541016,0.476562,0.45166,0.203735,-0.246948,-0.633789,-0.120789,-0.38501,-0.069763,0.094177,0.246216,0.083069,3.679688,0


In [164]:
X = df[df.columns[:-1]]

In [137]:
y = df['Class']

In [170]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100, stratify=y)

In [172]:
X_train.shape

(199364, 30)

In [173]:
y_train.shape

(199364,)

In [174]:
X_test.shape

(85443, 30)

In [175]:
parameters = [{"n_estimators": [10, 15],
               "max_features": np.arange(3, 5),
               "max_depth": np.arange(4, 7)}]

In [None]:
GridSearchCV
estimator=RandomForestClassifier(random_state=100),
param_grid=parameters,
scoring='roc_auc',
cv=3.

In [176]:
clf = GridSearchCV(estimator=RandomForestClassifier(random_state=100),
                   param_grid=parameters,
                   scoring="roc_auc",
                   cv=3)

In [177]:
clf.fit(X_train, y_train)

GridSearchCV(cv=3, estimator=RandomForestClassifier(random_state=100),
             param_grid=[{'max_depth': array([4, 5, 6]),
                          'max_features': array([3, 4]),
                          'n_estimators': [10, 15]}],
             scoring='roc_auc')

In [218]:
clf.best_params_

{'max_depth': 5, 'max_features': 4, 'n_estimators': 15}

In [179]:
clf.best_score_

0.9631404210532448

In [225]:
y_pred_proba = clf.predict_proba(X_test)[:, 1]

In [226]:
y_pred_proba

array([0.00065102, 0.00037951, 0.00033822, ..., 0.00033822, 0.00065098,
       0.00168331])

In [188]:
from sklearn.metrics import roc_auc_score

In [227]:
roc_auc_score(y_test, y_pred_proba_best)

0.9436068065838276