
# Тема “Обучение с учителем”

## Задание 1

Импортируйте библиотеки **pandas** и **numpy**. Загрузите **"Boston House Prices dataset"** из встроенных наборов данных библиотеки **sklearn**. Создайте датафреймы _**X**_ и _**y**_ из этих данных. Разбейте эти датафреймы на тренировочные (_**X_train, y_train**_) и тестовые (_**X_test, y_test**_) с помощью функции **train_test_split** так, чтобы размер тестовой выборки составлял 30% от всех данных, при этом аргумент **random_state** должен быть равен 42. Создайте модель линейной регрессии под названием _**lr**_ с помощью класса **LinearRegression** из модуля **sklearn.linear_model**. Обучите модель на тренировочных данных (используйте все признаки) и сделайте предсказание на тестовых. Вычислите _**R^2**_ полученных предказаний с помощью **r2_score** из модуля **sklearn.metrics**.


In [1]:
# Проигнорируем предупреждения Анаконды3:
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Загрузим библиотеки и данные:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston

In [3]:
# Поместим данные в переменную boston и определим тип данных:
boston = load_boston()
print(type(boston))

<class 'sklearn.utils.Bunch'>


In [4]:
# Набор данных является объектом Bunch, который представляет собой подкласс словаря,
# посмотрим на его ключи:
print(boston.keys())

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename', 'data_module'])


В разделе **data** содержится информация о признаках (независиммые переменные), т.е. данные о недвижимости; в разделе **target** содержится целевая (зависимая) переменная, т.е. цены на недвижимость; в разделе **feature_names** - наименование признаков; а раздел **DESCR** содержит описание датасета.

In [5]:
# Посмотрим для начала описание:
print(boston['DESCR'])

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [6]:
# Посмотрим на характеристики массива данных о недвижимости по ключу "data":
data = boston['data']
print('Тип массива data:', data.dtype)
print('Форма  массива data:', data.shape)
print('Размерность массива data:', data.ndim)
print('Количество элементов массива data:', data.size)

Тип массива data: float64
Форма  массива data: (506, 13)
Размерность массива data: 2
Количество элементов массива data: 6578


In [7]:
# Посмотрим на характеристики массива с целевыми значениями (ценами на недвижимость) 
# по ключу "target":
target = boston['target']
print('Тип массива target:', target.dtype)
print('Форма массива target:', target.shape)
print('Размерность массива target:', target.ndim)
print('Количество элементов массива target:', target.size)

Тип массива target: float64
Форма массива target: (506,)
Размерность массива target: 1
Количество элементов массива target: 506


In [8]:
# Посмотрим на названия признаков по ключу "feature_names":
feature_names = boston['feature_names']
print('Признаки:\n', feature_names)
print('Количество элементов feature_names:', feature_names.size)

Признаки:
 ['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']
Количество элементов feature_names: 13


In [9]:
# Преобразуем исходные данные в DataFrame и посмотрим на них:
X = pd.DataFrame(boston['data'], columns = boston['feature_names'])
X.head(10)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33
5,0.02985,0.0,2.18,0.0,0.458,6.43,58.7,6.0622,3.0,222.0,18.7,394.12,5.21
6,0.08829,12.5,7.87,0.0,0.524,6.012,66.6,5.5605,5.0,311.0,15.2,395.6,12.43
7,0.14455,12.5,7.87,0.0,0.524,6.172,96.1,5.9505,5.0,311.0,15.2,396.9,19.15
8,0.21124,12.5,7.87,0.0,0.524,5.631,100.0,6.0821,5.0,311.0,15.2,386.63,29.93
9,0.17004,12.5,7.87,0.0,0.524,6.004,85.9,6.5921,5.0,311.0,15.2,386.71,17.1


In [10]:
# Посмотрим информацию о переменных DataFrame, и убедимся,
# что все они являются количественными, а также не имеют пропусков:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 13 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    float64
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    float64
 9   TAX      506 non-null    float64
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
dtypes: float64(13)
memory usage: 51.5 KB


In [11]:
# Создадим DataFrame из целевой переменной (в нашем случае - цены на недвижимость),
# и посмотрим на него:
y = pd.DataFrame(boston['target'], columns = ['MEDV'])
y.head(10)

Unnamed: 0,MEDV
0,24.0
1,21.6
2,34.7
3,33.4
4,36.2
5,28.7
6,22.9
7,27.1
8,16.5
9,18.9


In [12]:
# Ещё раз посмотрим информацию о целевой переменной:
y.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   MEDV    506 non-null    float64
dtypes: float64(1)
memory usage: 4.1 KB


In [13]:
# Для разбиения данных X и y на тренировочные и тестовые выборки
# для дальнейшего обучения модели, импортируем соответствующую функцию:
from sklearn.model_selection import train_test_split

# Разобъём два DataFrame X и y на тренировочные и тестовые выборки,
# где на долю тестовых выборок приходится по 30%:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

In [14]:
# Посмотрим на формы новых наборов данных:
print('Формы тренировочных выборок:', X_train.shape, y_train.shape)
print('Формы тестовых выборок:', X_test.shape, y_test.shape)

Формы тренировочных выборок: (354, 13) (354, 1)
Формы тестовых выборок: (152, 13) (152, 1)


In [15]:
# Для создания модели импортируем класс линейной регрессии (наименьших квадратов):
from sklearn.linear_model import LinearRegression

# Создадим объект этого класса и запишем в переменную lr:
lr = LinearRegression()

In [16]:
# Обучим нашу модель на тренировочных выборках:
lr.fit(X_train, y_train)

LinearRegression()

In [17]:
# На основе независимых тестовых переменных (X) предскажем цену на жильё:
y_pred = lr.predict(X_test)
print('Форма выборки предсказаний:', y_pred.shape)
print('Размерность выборки предсказаний:', y_pred.ndim)

Форма выборки предсказаний: (152, 1)
Размерность выборки предсказаний: 2


In [18]:
# Создадим таблицу DataFrame чтобы сопоставить реальные значения с предсказанными. 
# Поскольку массив y_pred является двумерным, переведём его в одномерный, используя метод .flatten.
check_test = pd.DataFrame({'y_test': y_test['MEDV'], 'y_pred': y_pred.flatten()})
check_test.head(10).round(1)

Unnamed: 0,y_test,y_pred
173,23.6,28.6
274,32.4,36.5
491,13.6,15.4
72,22.8,25.4
452,16.1,18.9
76,20.0,23.1
316,17.8,17.4
140,14.0,14.1
471,19.6,23.0
500,16.8,20.6


In [19]:
# Чтобы оценить то, насколько отличаются предсказанные значения от реальных,
# создадим отдельный столбец с их разностями:
check_test['y_difference'] = check_test['y_pred'] - check_test['y_test']
check_test.head(10).round(1)

Unnamed: 0,y_test,y_pred,y_difference
173,23.6,28.6,5.0
274,32.4,36.5,4.1
491,13.6,15.4,1.8
72,22.8,25.4,2.6
452,16.1,18.9,2.8
76,20.0,23.1,3.1
316,17.8,17.4,-0.4
140,14.0,14.1,0.1
471,19.6,23.0,3.4
500,16.8,20.6,3.8


In [20]:
# Для оценки качества модели линейной регресии при помощи метрики R^2,
# импортируем соответствующую функцию:
from sklearn.metrics import r2_score

# Вычислим коэффициент детерминации (R^2), который показывает, какая доля изменчивости целевой переменной 
# объясняется с помощью модели Линейной регрессии:
print('R^2 (LinearRegression):', r2_score(check_test['y_test'], check_test['y_pred']))

R^2 (LinearRegression): 0.7112260057484973


По независимым данным и обучающей модели **LinearRegression** мы получили 71% изменчивости цены на жильё, тогда как остальные 29% изменчивости цены остались не учтёнными. То есть наши предсказания цен на жильё в Бостоне при помощи модели Линейной регрессии оказались верными на 71%.

_**Примечание:**_ Модуль **sklearn.metrics** предоставляет набор простых функций, измеряющих ошибку предсказания с учётом истинности и предсказания: функции, заканчивающиеся на **_score** возвращают значение для максимизации, чем выше, тем лучше; а функции, заканчивающиеся на **_error** или **_loss** возвращающие значение, которое нужно минимизировать, чем ниже, тем лучше. 

## Задание 2

Создайте модель под названием **model** с помощью **RandomForestRegressor** из модуля **sklearn.ensemble**. Сделайте агрумент _**n_estimators**_ равным 1000, _**max_depth**_ должен быть равен 12, и _**random_state**_ сделайте равным 42. Обучите модель на тренировочных данных аналогично тому, как вы обучали модель **LinearRegression**, но при этом в метод **fit** вместо датафрейма **y_train** поставьте **y_train.values[:, 0]**, чтобы получить из датафрейма одномерный массив **Numpy**, так как для класса **RandomForestRegressor** в данном методе для аргумента _**y**_ предпочтительно применение массивов вместо датафрейма. Сделайте предсказание на тестовых данных и посчитайте **R^2**. Сравните с результатом из предыдущего задания. Напишите в комментариях к коду, какая модель в данном случае работает лучше.

In [21]:
# Импортируем заданный класс регрессии - Случайный лес:
from sklearn.ensemble import RandomForestRegressor

# Создадим заданную модель этого класса:
model = RandomForestRegressor(n_estimators = 1000, max_depth = 12, random_state = 42)

In [22]:
# Переделаем DataFrame y_train в одномерный массив, и посмотрим его характеристики:
y_train2 = np.array(y_train.values[:, 0])
print('Тип массива y_train2:', y_train2.dtype)
print('Форма массива y_train2:', y_train2.shape)
print('Размерность массива y_train2:', y_train2.ndim)
print('Количество элементов массива y_train2:', y_train2.size)

Тип массива y_train2: float64
Форма массива y_train2: (354,)
Размерность массива y_train2: 1
Количество элементов массива y_train2: 354


In [23]:
# Обучим нашу модель:
model.fit(X_train, y_train2)

RandomForestRegressor(max_depth=12, n_estimators=1000, random_state=42)

In [24]:
# На основе независимых тестовых переменных (X) предскажем цену на жильё:
y_pred2 = model.predict(X_test)

In [25]:
# Создадим таблицу DataFrame чтобы сопоставить реальные значения с предсказанными. 
# Поскольку массив y_pred является двумерным, переведём его в одномерный, используя метод .flatten:
check_test2 = pd.DataFrame({'y_test': y_test['MEDV'], 'y_pred': y_pred.flatten(), "y_pred2": y_pred2})
check_test2.head(10).round(1)

Unnamed: 0,y_test,y_pred,y_pred2
173,23.6,28.6,22.8
274,32.4,36.5,31.1
491,13.6,15.4,16.3
72,22.8,25.4,23.8
452,16.1,18.9,17.1
76,20.0,23.1,21.8
316,17.8,17.4,19.9
140,14.0,14.1,14.8
471,19.6,23.0,21.2
500,16.8,20.6,20.9


In [26]:
# Вычислим коэффициент детерминации (R^2), который показывает, какая доля изменчивости целевой переменной 
# объясняется с помощью модели регрессии - Случайный лес:
print('R^2 (RandomForestRegressor):', r2_score(check_test2['y_test'], check_test2['y_pred2']))

R^2 (RandomForestRegressor): 0.87472606157312


Наши предсказания цены на жильё в Бостане по независимым данным и обучающей модели RandomForestRegressor оказались верными на 87%, что гораздо эффективнее, чем предсказания по модели LinearRegression.

## Задание 3*

Вызовите документацию для класса **RandomForestRegressor**, найдите информацию об атрибуте **feature_importances_**. С помощью этого атрибута найдите сумму всех показателей важности, установите, какие два признака показывают наибольшую важность.

In [27]:
# Просмотр документации (следует снять комментирование со следующей строки):
# ?RandomForestRegressor

In [28]:
# Посмотрим на значения атрибута важности:
print(model.feature_importances_)

[0.03167574 0.00154252 0.00713813 0.00123624 0.01426897 0.40268179
 0.01429864 0.06397257 0.00528122 0.01152493 0.01808108 0.01245085
 0.41584732]


In [29]:
# Найдём сумму всех показателей важности:
print(model.feature_importances_.sum())

1.0


In [30]:
# Найдём индекс максимального значения:
max_value = model.feature_importances_.argmax()
print(max_value)

12


In [31]:
# Создадим DataFrame соответствия назнания признаков и показателей важности:
df_fi = pd.DataFrame({'feature_name': boston['feature_names'],
    'feature_importance': model.feature_importances_})
df_fi

Unnamed: 0,feature_name,feature_importance
0,CRIM,0.031676
1,ZN,0.001543
2,INDUS,0.007138
3,CHAS,0.001236
4,NOX,0.014269
5,RM,0.402682
6,AGE,0.014299
7,DIS,0.063973
8,RAD,0.005281
9,TAX,0.011525


In [32]:
# Отсортируем показатели важности по убыванию и выведем два наиболее важных:
df_fi.sort_values("feature_importance", ascending = False).head(2)

Unnamed: 0,feature_name,feature_importance
12,LSTAT,0.415847
5,RM,0.402682


Таким образом, признаки LSTAT и RM обладают наибольшей важностью.

## Задание 4*

В этом задании мы будем работать с датасетом, с которым мы уже знакомы по домашнему заданию по библиотеке **Matplotlib**, это датасет **Credit Card Fraud Detection**. Для этого датасета мы будем решать задачу классификации - будем определять, какие из транзакциций по кредитной карте являются мошенническими. Данный датасет сильно несбалансирован (так как случаи мошенничества относительно редки), так что применение метрики **accuracy** не принесёт пользы и не поможет выбрать лучшую модель. Мы будем вычислять **AUC**, то есть площадь под кривой **ROC**.

Импортируйте из соответствующих модулей **RandomForestClassifier**, **GridSearchCV** и **train_test_split**. Загрузите датасет **creditcard.csv** и создайте датафрейм **df**. С помощью метода **value_counts** с аргументом **normalize = True** убедитесь в том, что выборка несбалансирована. Используя метод **info**, проверьте, все ли столбцы содержат числовые данные и нет ли в них пропусков.Примените следующую настройку, чтобы можно было просматривать все столбцы датафрейма: **pd.options.display.max_columns = 100**.

Просмотрите первые 10 строк датафрейма **df**. Создайте датафрейм _**X**_ из датафрейма **df**, исключив столбец **Class**. Создайте объект **Series** под названием _**y**_ из столбца **Class**.

Разбейте _**X**_ и _**y**_ на тренировочный и тестовый наборы данных при помощи функции **train_test_split**, используя аргументы: **test_size = 0.3, random_state = 100, stratify = y**. У вас должны получиться объекты _**X_train, X_test, y_train и y_test**_. Просмотрите информацию о их форме. Для поиска по сетке параметров задайте такие параметры: **parameters = [{'n_estimators': [10, 15], 'max_features': np.arange(3, 5), 'max_depth': np.arange(4, 7)}]**. Создайте модель **GridSearchCV** со следующими аргументами: **estimator = RandomForestClassifier(random_state = 100), param_grid=parameters, scoring = 'roc_auc', cv = 3**. Обучите модель на тренировочном наборе данных (может занять несколько минут). Просмотрите параметры лучшей модели с помощью атрибута **best_params_**. Предскажите вероятности классов с помощью полученнной модели и метода **predict_proba**. Из полученного результата (массив **Numpy**) выберите столбец с индексом 1 (вероятность класса 1) и запишите в массив **y_pred_proba**. Из модуля **sklearn.metrics** импортируйте метрику **roc_auc_score**. Вычислите **AUC** на тестовых данных и сравните с результатом, полученным на тренировочных данных, используя в качестве аргументов массивы **y_test и y_pred_proba**.

In [33]:
# Импортируем заданные классы и функцию разделения данных:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split

In [34]:
# Загрузим DataSet и создадим DataFrame:
FILE_PATH = 'creditcard.csv'
creditcard = pd.read_csv(FILE_PATH)
print('Форма датафрейма:', creditcard.shape)

Форма датафрейма: (284807, 31)


In [35]:
# Убедимся, что выборка несбалонсированна,
# т.е. объектов одного класса сильно больше, чем объектов другого:
class_variable = creditcard['Class'].value_counts(normalize = True)
print(class_variable)

0    0.998273
1    0.001727
Name: Class, dtype: float64


In [36]:
# Посмотрим информацию о DataFrame, где все столбцы имеют числовые значения,
# и в них нет пропусков:
creditcard.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284807 entries, 0 to 284806
Data columns (total 31 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   Time    284807 non-null  float64
 1   V1      284807 non-null  float64
 2   V2      284807 non-null  float64
 3   V3      284807 non-null  float64
 4   V4      284807 non-null  float64
 5   V5      284807 non-null  float64
 6   V6      284807 non-null  float64
 7   V7      284807 non-null  float64
 8   V8      284807 non-null  float64
 9   V9      284807 non-null  float64
 10  V10     284807 non-null  float64
 11  V11     284807 non-null  float64
 12  V12     284807 non-null  float64
 13  V13     284807 non-null  float64
 14  V14     284807 non-null  float64
 15  V15     284807 non-null  float64
 16  V16     284807 non-null  float64
 17  V17     284807 non-null  float64
 18  V18     284807 non-null  float64
 19  V19     284807 non-null  float64
 20  V20     284807 non-null  float64
 21  V21     28

In [37]:
# Применим настройку для просмотра всех стобцов DataFrame:
pd.options.display.max_columns = 100

In [38]:
# Посмотрим первые десять строк DataFrame:
creditcard.head(10).round(2)

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.36,-0.07,2.54,1.38,-0.34,0.46,0.24,0.1,0.36,0.09,-0.55,-0.62,-0.99,-0.31,1.47,-0.47,0.21,0.03,0.4,0.25,-0.02,0.28,-0.11,0.07,0.13,-0.19,0.13,-0.02,149.62,0
1,0.0,1.19,0.27,0.17,0.45,0.06,-0.08,-0.08,0.09,-0.26,-0.17,1.61,1.07,0.49,-0.14,0.64,0.46,-0.11,-0.18,-0.15,-0.07,-0.23,-0.64,0.1,-0.34,0.17,0.13,-0.01,0.01,2.69,0
2,1.0,-1.36,-1.34,1.77,0.38,-0.5,1.8,0.79,0.25,-1.51,0.21,0.62,0.07,0.72,-0.17,2.35,-2.89,1.11,-0.12,-2.26,0.52,0.25,0.77,0.91,-0.69,-0.33,-0.14,-0.06,-0.06,378.66,0
3,1.0,-0.97,-0.19,1.79,-0.86,-0.01,1.25,0.24,0.38,-1.39,-0.05,-0.23,0.18,0.51,-0.29,-0.63,-1.06,-0.68,1.97,-1.23,-0.21,-0.11,0.01,-0.19,-1.18,0.65,-0.22,0.06,0.06,123.5,0
4,2.0,-1.16,0.88,1.55,0.4,-0.41,0.1,0.59,-0.27,0.82,0.75,-0.82,0.54,1.35,-1.12,0.18,-0.45,-0.24,-0.04,0.8,0.41,-0.01,0.8,-0.14,0.14,-0.21,0.5,0.22,0.22,69.99,0
5,2.0,-0.43,0.96,1.14,-0.17,0.42,-0.03,0.48,0.26,-0.57,-0.37,1.34,0.36,-0.36,-0.14,0.52,0.4,-0.06,0.07,-0.03,0.08,-0.21,-0.56,-0.03,-0.37,-0.23,0.11,0.25,0.08,3.67,0
6,4.0,1.23,0.14,0.05,1.2,0.19,0.27,-0.01,0.08,0.46,-0.1,-1.42,-0.15,-0.75,0.17,0.05,-0.44,0.0,-0.61,-0.05,-0.22,-0.17,-0.27,-0.15,-0.78,0.75,-0.26,0.03,0.01,4.99,0
7,7.0,-0.64,1.42,1.07,-0.49,0.95,0.43,1.12,-3.81,0.62,1.25,-0.62,0.29,1.76,-1.32,0.69,-0.08,-1.22,-0.36,0.32,-0.16,1.94,-1.02,0.06,-0.65,-0.42,-0.05,-1.21,-1.09,40.8,0
8,7.0,-0.89,0.29,-0.11,-0.27,2.67,3.72,0.37,0.85,-0.39,-0.41,-0.71,-0.11,-0.29,0.07,-0.33,-0.21,-0.5,0.12,0.57,0.05,-0.07,-0.27,-0.2,1.01,0.37,-0.38,0.01,0.14,93.2,0
9,9.0,-0.34,1.12,1.04,-0.22,0.5,-0.25,0.65,0.07,-0.74,-0.37,1.02,0.84,1.01,-0.44,0.15,0.74,-0.54,0.48,0.45,0.2,-0.25,-0.63,-0.12,-0.39,-0.07,0.09,0.25,0.08,3.68,0


In [39]:
# Создадим DataFrame X из creditcard, и исключим из него столбец Class:
X = creditcard[creditcard.columns.drop('Class')]

# Посмотрим информацию об обновлённом DataFrame:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284807 entries, 0 to 284806
Data columns (total 30 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   Time    284807 non-null  float64
 1   V1      284807 non-null  float64
 2   V2      284807 non-null  float64
 3   V3      284807 non-null  float64
 4   V4      284807 non-null  float64
 5   V5      284807 non-null  float64
 6   V6      284807 non-null  float64
 7   V7      284807 non-null  float64
 8   V8      284807 non-null  float64
 9   V9      284807 non-null  float64
 10  V10     284807 non-null  float64
 11  V11     284807 non-null  float64
 12  V12     284807 non-null  float64
 13  V13     284807 non-null  float64
 14  V14     284807 non-null  float64
 15  V15     284807 non-null  float64
 16  V16     284807 non-null  float64
 17  V17     284807 non-null  float64
 18  V18     284807 non-null  float64
 19  V19     284807 non-null  float64
 20  V20     284807 non-null  float64
 21  V21     28

In [40]:
# Создадим объект Series под названием y из столбца Class:
y = pd.Series(creditcard['Class'])
y.info()

<class 'pandas.core.series.Series'>
RangeIndex: 284807 entries, 0 to 284806
Series name: Class
Non-Null Count   Dtype
--------------   -----
284807 non-null  int64
dtypes: int64(1)
memory usage: 2.2 MB


In [41]:
# Разобъём созданные объекты X и y на тренировочные и тестовые выборки,
# где на долю тестовых выборок приходится по 30%:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 100, stratify = y)

In [42]:
# Посмотрим на формы новых наборов данных:
print('Форма тренировочной выборки:', X_train.shape, y_train.shape)
print('Форма тестовой выборки:', X_test.shape, y_test.shape)

Форма тренировочной выборки: (199364, 30) (199364,)
Форма тестовой выборки: (85443, 30) (85443,)


In [43]:
# Для поиска по сетке параметров зададим параметры: 
parameters = [{'n_estimators': [10, 15], 'max_features': np.arange(3, 5), 'max_depth': np.arange(4, 7)}]

In [44]:
# Создадим классификатор clf со следующими аргументами:
clf = GridSearchCV(estimator = RandomForestClassifier(random_state = 100),
    param_grid = parameters, scoring = 'roc_auc', cv = 3)

In [45]:
# Обучим нашу модель на тренировочных выборках:
clf.fit(X_train, y_train)

GridSearchCV(cv=3, estimator=RandomForestClassifier(random_state=100),
             param_grid=[{'max_depth': array([4, 5, 6]),
                          'max_features': array([3, 4]),
                          'n_estimators': [10, 15]}],
             scoring='roc_auc')

In [46]:
# Посмотрим налучшие параметры модели:
clf.best_params_

{'max_depth': 6, 'max_features': 3, 'n_estimators': 15}

In [47]:
# Создадим и вновь обучим нашу модель на наилучших параметрах:
clf = RandomForestClassifier(max_depth = 6, max_features = 3, n_estimators = 15)
clf.fit(X_train, y_train)

RandomForestClassifier(max_depth=6, max_features=3, n_estimators=15)

In [48]:
# Предскажем вероятность принадлежности к классу 1 классифицируемых объектов,
# и запишем в массив предсказаний на тестовых данных:
y_pred_proba_test = clf.predict_proba(X_test)[:, 1]
y_pred_proba_test

array([0.00080271, 0.0003267 , 0.0002506 , ..., 0.00027726, 0.00027726,
       0.17621409])

In [49]:
# Предскажем вероятность принадлежности к классу 1 классифицируемых объектов,
# и запишем в массив предсказаний на тренировочных данных:
y_pred_proba_train = clf.predict_proba(X_train)[:, 1]
y_pred_proba_train

array([0.0002506 , 0.00035337, 0.0002506 , ..., 0.00027726, 0.00027726,
       0.0003267 ])

In [50]:
# Для оценки качества классификационнной модели - Случайный лес при помощи метрики AUC,
# импортируем соответствующую функцию:
from sklearn.metrics import roc_auc_score

# Вычислим площади под кривой ROC при помощи метрики AUC на двух типах данных:
print('ROC AUC на тестовых данных:', roc_auc_score(y_test, y_pred_proba_test))
print('ROC AUC на тренировочных данных:', roc_auc_score(y_train, y_pred_proba_train))

ROC AUC на тестовых данных: 0.9569873554896122
ROC AUC на тренировочных данных: 0.9737509289705603


Из полученных величин можно сделать заключение, что площадь под кривой ROC на обоих типах данных определена достаточно хорошо и приблизительно одинакова. Таким образом, полученная модель может с вероятностью от 94% до 97% опредилить мошеннические транзакции по кредитной карте.

-----

END Части 1