# Тема “Обучение с учителем”

## Задание 1

Импортируйте библиотеки pandas и numpy.

Загрузите "Boston House Prices dataset" из встроенных наборов данных библиотеки sklearn.

Разбейте эти датафреймы на тренировочные (X_train, y_train) и тестовые (X_test, y_test) с помощью функции train_test_split так, чтобы размер тестовой выборки составлял 30% от всех данных, при этом аргумент random state должен быть равен 42.

Создайте модель линейной регрессии под названием lr с помощью класса LinearRegression из модуля sklearn.linear_model.

Обучите модель на тренировочных данных (используйте все признаки) и сделайте предсказание на тестовых.

### Решение:

In [1]:
# Импорт необходимых библиотек
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [2]:
# Функция load_boston была удалена из sklearn начиная с версии 1.2,
# поэтому мы загружаем его через OpenML с помощью функции fetch_openml.
# Используем идентификатор data_id=531, который соответствует Boston House Prices,
# Параметр as_frame=True преобразует загруженные данные сразу в DataFrame и Series.

# Загрузка набора данных Boston House Prices через OpenML
boston = fetch_openml(data_id=531, parser='auto', as_frame=True)

In [3]:
# Разделение данных на признаки (X) и целевую переменную (y)
X = boston.data  # X содержит все признаки (features)
y = boston.target  # y содержит целевую переменную (target), т.е. цены домов

In [4]:
# Просмотр первых 5 строк датасета X (признаки)
X.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33


In [5]:
# Просмотр первых 5 строк датасета y (целевая переменная)
y.head()

Unnamed: 0,MEDV
0,24.0
1,21.6
2,34.7
3,33.4
4,36.2


In [6]:
# Просмотр информации о датасете X (признаки)
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 13 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   CRIM     506 non-null    float64 
 1   ZN       506 non-null    float64 
 2   INDUS    506 non-null    float64 
 3   CHAS     506 non-null    category
 4   NOX      506 non-null    float64 
 5   RM       506 non-null    float64 
 6   AGE      506 non-null    float64 
 7   DIS      506 non-null    float64 
 8   RAD      506 non-null    category
 9   TAX      506 non-null    float64 
 10  PTRATIO  506 non-null    float64 
 11  B        506 non-null    float64 
 12  LSTAT    506 non-null    float64 
dtypes: category(2), float64(11)
memory usage: 45.1 KB


In [7]:
# Просмотр информации о датасете y (целевая переменная)
y.info()

<class 'pandas.core.series.Series'>
RangeIndex: 506 entries, 0 to 505
Series name: MEDV
Non-Null Count  Dtype  
--------------  -----  
506 non-null    float64
dtypes: float64(1)
memory usage: 4.1 KB


In [8]:
# Просмотр статистики по каждому столбцу датасета X (признаки)
X.describe()

Unnamed: 0,CRIM,ZN,INDUS,NOX,RM,AGE,DIS,TAX,PTRATIO,B,LSTAT
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.554695,6.284634,68.574901,3.795043,408.237154,18.455534,356.674032,12.653063
std,8.601545,23.322453,6.860353,0.115878,0.702617,28.148861,2.10571,168.537116,2.164946,91.294864,7.141062
min,0.00632,0.0,0.46,0.385,3.561,2.9,1.1296,187.0,12.6,0.32,1.73
25%,0.082045,0.0,5.19,0.449,5.8855,45.025,2.100175,279.0,17.4,375.3775,6.95
50%,0.25651,0.0,9.69,0.538,6.2085,77.5,3.20745,330.0,19.05,391.44,11.36
75%,3.677083,12.5,18.1,0.624,6.6235,94.075,5.188425,666.0,20.2,396.225,16.955
max,88.9762,100.0,27.74,0.871,8.78,100.0,12.1265,711.0,22.0,396.9,37.97


In [9]:
# Просмотр статистики целевой переменной y (целевая переменная)
y.describe()

Unnamed: 0,MEDV
count,506.0
mean,22.532806
std,9.197104
min,5.0
25%,17.025
50%,21.2
75%,25.0
max,50.0


In [10]:
# Преобразуем категориальные признаки (CHAS и RAD) датасета X в числовые с помощью One-Hot Encoding
X = pd.get_dummies(X, drop_first=True)

In [11]:
# Просмотр первых 5 строк датасета X (признаки)
X.head()

Unnamed: 0,CRIM,ZN,INDUS,NOX,RM,AGE,DIS,TAX,PTRATIO,B,LSTAT,CHAS_1,RAD_2,RAD_24,RAD_3,RAD_4,RAD_5,RAD_6,RAD_7,RAD_8
0,0.00632,18.0,2.31,0.538,6.575,65.2,4.09,296.0,15.3,396.9,4.98,False,False,False,False,False,False,False,False,False
1,0.02731,0.0,7.07,0.469,6.421,78.9,4.9671,242.0,17.8,396.9,9.14,False,True,False,False,False,False,False,False,False
2,0.02729,0.0,7.07,0.469,7.185,61.1,4.9671,242.0,17.8,392.83,4.03,False,True,False,False,False,False,False,False,False
3,0.03237,0.0,2.18,0.458,6.998,45.8,6.0622,222.0,18.7,394.63,2.94,False,False,False,True,False,False,False,False,False
4,0.06905,0.0,2.18,0.458,7.147,54.2,6.0622,222.0,18.7,396.9,5.33,False,False,False,True,False,False,False,False,False


In [12]:
# Просмотр информации о датасете X (признаки)
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 20 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   NOX      506 non-null    float64
 4   RM       506 non-null    float64
 5   AGE      506 non-null    float64
 6   DIS      506 non-null    float64
 7   TAX      506 non-null    float64
 8   PTRATIO  506 non-null    float64
 9   B        506 non-null    float64
 10  LSTAT    506 non-null    float64
 11  CHAS_1   506 non-null    bool   
 12  RAD_2    506 non-null    bool   
 13  RAD_24   506 non-null    bool   
 14  RAD_3    506 non-null    bool   
 15  RAD_4    506 non-null    bool   
 16  RAD_5    506 non-null    bool   
 17  RAD_6    506 non-null    bool   
 18  RAD_7    506 non-null    bool   
 19  RAD_8    506 non-null    bool   
dtypes: bool(9), float64(11)
memory usage: 48.1 KB


In [13]:
# Разделение данных на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=42)

In [14]:
# Создание модели линейной регрессии
lr = LinearRegression()

In [15]:
# Обучение модели на тренировочных данных
lr.fit(X_train, y_train)

In [16]:
# Предсказание на тестовых данных
y_pred = lr.predict(X_test)

In [17]:
# Результаты сравнения предсказанных и истинных значений
print("Предсказанные значения: ", y_pred[:5])
print("Истинные значения: ", y_test[:5].values)

Предсказанные значения:  [28.7076458  35.88434003 16.72701609 24.96758958 18.78548806]
Истинные значения:  [23.6 32.4 13.6 22.8 16.1]


## Задание 2

Создайте модель под названием model с помощью класса RandomForestRegressor из модуля sklearn.ensemble.

Сделайте агрумент n_estimators равным 1000, max_depth должен быть равен 12 и random_state сделайте равным 42.

Обучите модель на тренировочных данных аналогично тому, как вы обучали модель LinearRegression, но при этом в метод fit вместо датафрейма y_train поставьте y_train.values[:, 0], чтобы получить из датафрейма одномерный массив Numpy, так как для класса RandomForestRegressor в данном методе для аргумента y предпочтительно применение массивов вместо датафрейма.

Сделайте предсказание на тестовых данных и посчитайте R2. Сравните с результатом из предыдущего задания. Напишите в комментариях к коду, какая модель в данном случае работает лучше.

### Решение:

In [18]:
# Импорт необходимых библиотек
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score

In [19]:
# Создание модели
model = RandomForestRegressor(n_estimators=1000,
                              max_depth=12,
                              random_state=42)

In [20]:
# Обучение модели на тренировочных данных
# Используем y_train.values без [:, 0], так как это уже одномерный массив
model.fit(X_train, y_train.values)

In [21]:
# Предсказание на тестовых данных
y_pred_rf = model.predict(X_test)

In [22]:
# Результаты сравнения предсказанных и истинных значений
print("Предсказанные значения: ", y_pred_rf[:5])
print("Истинные значения: ", y_test[:5].values)

Предсказанные значения:  [22.71638558 31.15216034 16.33470457 23.80154411 17.14598728]
Истинные значения:  [23.6 32.4 13.6 22.8 16.1]


In [23]:
# Подсчитываем коэффициент детерминации R2 для модели RandomForestRegressor
r2_rf = r2_score(y_test, y_pred_rf)

In [24]:
# Подсчитываем коэффициент детерминации R2 для модели LinearRegression
r2_lr = r2_score(y_test, y_pred)

In [25]:
# Результаты сравнения R2 для моделей RandomForestRegressor и LinearRegression
print("R2 для модели RandomForestRegressor: ", r2_rf)
print("R2 для модели LinearRegression: ", r2_lr)

R2 для модели RandomForestRegressor:  0.8745621407072757
R2 для модели LinearRegression:  0.7146830631847123


In [26]:
# Модель RandomForestRegressor работает лучше, так как ее значение R2 выше,
# чем у модели LinearRegression. Это означает, что RandomForestRegressor лучше
# улавливает сложные и нелинейные зависимости в данных, что делает ее более
# точной в предсказаниях для этого набора данных. LinearRegression показывает
# менее точные результаты в этом конкретном случае.

## *Задание 3

Вызовите документацию для класса RandomForestRegressor, найдите информацию об атрибуте feature_importances_.

С помощью этого атрибута найдите сумму всех показателей важности, установите, какие два признака показывают наибольшую важность.

### Решение:

In [27]:
# Вызов документации
?RandomForestRegressor

In [28]:
# Также можно использовать эту команду для вызова документации
# help(RandomForestRegressor)

In [29]:
# После обучения модели используем feature_importances_ для оценки важности каждого признака
importances = model.feature_importances_

In [30]:
# Вывод значений importances
importances

array([3.23791925e-02, 1.51539715e-03, 7.26756190e-03, 1.45193631e-02,
       4.02183903e-01, 1.45913078e-02, 6.37482050e-02, 1.18819964e-02,
       1.78605031e-02, 1.21562522e-02, 4.15523244e-01, 9.60228027e-04,
       4.90175014e-04, 1.96248327e-03, 5.45675129e-04, 4.30631480e-04,
       9.62175002e-04, 2.71190451e-04, 1.66652888e-04, 5.83862200e-04])

In [31]:
# Суммируем все показатели важности признаков
total_importance = importances.sum()

In [32]:
# Выводим сумму всех показателей важности
print("Сумма всех показателей важности: ", total_importance)

Сумма всех показателей важности:  0.9999999999999999


In [33]:
# Определяем индексы двух признаков с наибольшей важностью
top_two_indices = importances.argsort()[-2:][::-1]

In [34]:
# Вывод значений top_two_indices
top_two_indices

array([10,  4])

In [35]:
# Выбираем названия признаков, соответствующие этим индексам
top_two_features = X_train.columns[top_two_indices]

In [36]:
# Вывод значений top_two_features
top_two_features

Index(['LSTAT', 'RM'], dtype='object')

In [37]:
# Извлекаем значения важности для этих двух признаков
top_two_importances = importances[top_two_indices]

In [38]:
# Вывод значений top_two_importances
top_two_importances

array([0.41552324, 0.4021839 ])

In [39]:
# Выводим названия этих признаков и их значения важности
print("Два признака с наибольшей важностью:")
for feature, importance in zip(top_two_features, top_two_importances):
    print(f"{feature}: {importance}")

Два признака с наибольшей важностью:
LSTAT: 0.41552324403724017
RM: 0.40218390344069405


In [40]:
# Признаки LSTAT (процент населения с низким социальным статусом)
# и RM (среднее количество комнат в доме) оказали наибольшее
# влияние на предсказания модели.

## *Задание 4

В этом задании мы будем работать с датасетом, с которым мы уже знакомы по домашнему заданию по библиотеке Matplotlib, это датасет [Credit Card Fraud Detection](https://www.kaggle.com/mlg-ulb/creditcardfraud). Для этого датасета мы будем решать задачу классификации - будем определять, какие из транзакции по кредитной карте являются мошенническими. Данный датасет сильно несбалансирован (так как случаи мошенничества относительно редки), так что применение метрики accuracy не принесет пользы и не поможет выбрать лучшую модель. Мы будем вычислять AUC, то есть площадь под кривой ROC.

Импортируйте из соответствующих модулей RandomForestClassifier, GridSearchCV и train_test_split.

Загрузите датасет creditcard.csv и создайте датафрейм df.

С помощью метода value_counts с аргументом normalize=True убедитесь в том, что выборка несбалансирована. Используя метод info, проверьте, все ли столбцы содержат числовые данные и нет ли в них пропусков. Примените следующую настройку, чтобы можно было просматривать все столбцы датафрейма: pd.options.display.max_columns = 100.

Просмотрите первые 10 строк датафрейма df.

Создайте датафрейм X из датафрейма df, исключив столбец Class.

Создайте объект Series под названием y из столбца Class.

Разбейте X и y на тренировочный и тестовый наборы данных при помощи функции train_test_split, используя аргументы: test_size=0.3, random_state=100, stratify=y.

У вас должны получиться объекты X_train, X_test, y_train и y_test.

Просмотрите информацию об их форме.

Для поиска по сетке параметров задайте такие параметры: parameters = [{'n_estimators': [10, 15],
'max_features': np.arange(3, 5), 'max_depth': np.arange(4, 7)}]

Создайте модель GridSearchCV со следующими аргументами: estimator=RandomForestClassifier(random_state=100), param_grid=parameters, scoring='roc_auc', cv=3.

Обучите модель на тренировочном наборе данных (может занять несколько минут).

Просмотрите параметры лучшей модели с помощью атрибута best_params_.

Предскажите вероятности классов с помощью полученной модели и метода predict_proba. Из полученного результата (массив Numpy) выберите столбец с индексом 1 (вероятность класса 1) и запишите в массив y_pred_proba.

Из модуля sklearn.metrics импортируйте метрику roc_auc_score. Вычислите AUC на тестовых данных и сравните с результатом, полученным на тренировочных данных, используя в качестве аргументов массивы y_test и y_pred_proba.

### Решение:

In [41]:
# Импорт необходимых библиотек
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV, train_test_split

In [42]:
# Загрузка датасета
df = pd.read_csv('creditcard.csv')

In [43]:
# Проверка несбалансированности выборки
class_distribution = df['Class'].value_counts(normalize=True)
print("Распределение классов:\n", class_distribution)

Распределение классов:
 Class
0    0.998273
1    0.001727
Name: proportion, dtype: float64


In [44]:
# Таким образом, выборка действительно сильно несбалансирована:
# большинство всех транзакций в датасете являются нормальными (класс 0),
# и лишь очень малая часть транзакций являются мошенническими (класс 1).

In [45]:
# Проверка информации о данных
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284807 entries, 0 to 284806
Data columns (total 31 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   Time    284807 non-null  float64
 1   V1      284807 non-null  float64
 2   V2      284807 non-null  float64
 3   V3      284807 non-null  float64
 4   V4      284807 non-null  float64
 5   V5      284807 non-null  float64
 6   V6      284807 non-null  float64
 7   V7      284807 non-null  float64
 8   V8      284807 non-null  float64
 9   V9      284807 non-null  float64
 10  V10     284807 non-null  float64
 11  V11     284807 non-null  float64
 12  V12     284807 non-null  float64
 13  V13     284807 non-null  float64
 14  V14     284807 non-null  float64
 15  V15     284807 non-null  float64
 16  V16     284807 non-null  float64
 17  V17     284807 non-null  float64
 18  V18     284807 non-null  float64
 19  V19     284807 non-null  float64
 20  V20     284807 non-null  float64
 21  V21     28

In [46]:
# Настройка отображения всех столбцов
pd.options.display.max_columns = 100

In [47]:
# Просмотр первых 10 строк датафрейма
df.head(10)

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,0.090794,-0.5516,-0.617801,-0.99139,-0.311169,1.468177,-0.470401,0.207971,0.025791,0.403993,0.251412,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.16648,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,-0.166974,1.612727,1.065235,0.489095,-0.143772,0.635558,0.463917,-0.114805,-0.183361,-0.145783,-0.069083,-0.225775,-0.638672,0.101288,-0.339846,0.16717,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.37978,-0.503198,1.800499,0.791461,0.247676,-1.514654,0.207643,0.624501,0.066084,0.717293,-0.165946,2.345865,-2.890083,1.109969,-0.121359,-2.261857,0.52498,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,-0.054952,-0.226487,0.178228,0.507757,-0.287924,-0.631418,-1.059647,-0.684093,1.965775,-1.232622,-0.208038,-0.1083,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.5,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,0.753074,-0.822843,0.538196,1.345852,-1.11967,0.175121,-0.451449,-0.237033,-0.038195,0.803487,0.408542,-0.009431,0.798278,-0.137458,0.141267,-0.20601,0.502292,0.219422,0.215153,69.99,0
5,2.0,-0.425966,0.960523,1.141109,-0.168252,0.420987,-0.029728,0.476201,0.260314,-0.568671,-0.371407,1.341262,0.359894,-0.358091,-0.137134,0.517617,0.401726,-0.058133,0.068653,-0.033194,0.084968,-0.208254,-0.559825,-0.026398,-0.371427,-0.232794,0.105915,0.253844,0.08108,3.67,0
6,4.0,1.229658,0.141004,0.045371,1.202613,0.191881,0.272708,-0.005159,0.081213,0.46496,-0.099254,-1.416907,-0.153826,-0.751063,0.167372,0.050144,-0.443587,0.002821,-0.611987,-0.045575,-0.219633,-0.167716,-0.27071,-0.154104,-0.780055,0.750137,-0.257237,0.034507,0.005168,4.99,0
7,7.0,-0.644269,1.417964,1.07438,-0.492199,0.948934,0.428118,1.120631,-3.807864,0.615375,1.249376,-0.619468,0.291474,1.757964,-1.323865,0.686133,-0.076127,-1.222127,-0.358222,0.324505,-0.156742,1.943465,-1.015455,0.057504,-0.649709,-0.415267,-0.051634,-1.206921,-1.085339,40.8,0
8,7.0,-0.894286,0.286157,-0.113192,-0.271526,2.669599,3.721818,0.370145,0.851084,-0.392048,-0.41043,-0.705117,-0.110452,-0.286254,0.074355,-0.328783,-0.210077,-0.499768,0.118765,0.570328,0.052736,-0.073425,-0.268092,-0.204233,1.011592,0.373205,-0.384157,0.011747,0.142404,93.2,0
9,9.0,-0.338262,1.119593,1.044367,-0.222187,0.499361,-0.246761,0.651583,0.069539,-0.736727,-0.366846,1.017614,0.83639,1.006844,-0.443523,0.150219,0.739453,-0.54098,0.476677,0.451773,0.203711,-0.246914,-0.633753,-0.120794,-0.38505,-0.069733,0.094199,0.246219,0.083076,3.68,0


In [48]:
# Создание датафрейма X, исключив столбец Class
X = df.drop(columns=['Class'])

In [49]:
# Создание объекта Series для целевой переменной y
y = df['Class']

In [50]:
# Разделение данных на тренировочные и тестовые наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
                                                    random_state=100,
                                                    stratify=y)

In [51]:
# Просмотр информации о форме наборов данных
print("Форма X_train:", X_train.shape)
print("Форма y_train:", y_train.shape)
print("Форма X_test:", X_test.shape)
print("Форма y_test:", y_test.shape)

Форма X_train: (199364, 30)
Форма y_train: (199364,)
Форма X_test: (85443, 30)
Форма y_test: (85443,)


In [52]:
# X_train и y_train содержат 199364 наблюдений для обучения,
# X_test и y_test содержат 85443 наблюдения для тестирования,
# каждый с 30 признаками.

In [53]:
# Определение параметров для поиска по сетке
parameters = [{'n_estimators': [10, 15],
               'max_features': np.arange(3, 5),
               'max_depth': np.arange(4, 7)}]

In [54]:
# Создание модели GridSearchCV
grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=100),
                           param_grid=parameters,
                           scoring='roc_auc',
                           cv=3)

In [55]:
# Обучение модели на тренировочном наборе данных
grid_search.fit(X_train, y_train)

In [56]:
# Вывод лучших параметров модели
best_params = grid_search.best_params_
print("Лучшие параметры модели:", best_params)

Лучшие параметры модели: {'max_depth': 6, 'max_features': 3, 'n_estimators': 15}


In [57]:
# Таким образом, лучшие параметры модели выглядят следующим образом:
# max_depth=6: максимальная глубина деревьев ограничена до 6 уровней.
# max_features=3: на каждом разбиении дерева рассматриваются 3 случайных признака.
# n_estimators=15: в случайном лесу будет построено 15 деревьев.

In [58]:
# Импорт необходимой библиотеки
from sklearn.metrics import roc_auc_score

In [59]:
# Предсказание вероятностей классов на тестовых данных
y_pred_proba = grid_search.predict_proba(X_test)[:, 1]

In [60]:
# Вычисление AUC на тестовых данных
auc_score_test = roc_auc_score(y_test, y_pred_proba)
print("AUC на тестовых данных:", auc_score_test)

AUC на тестовых данных: 0.9462664156037156


In [61]:
# Предсказание вероятностей на тренировочных данных
y_train_pred_proba = grid_search.predict_proba(X_train)[:, 1]

In [62]:
# Вычисление AUC на тренировочных данных
auc_score_train = roc_auc_score(y_train, y_train_pred_proba)
print("AUC на тренировочных данных:", auc_score_train)

AUC на тренировочных данных: 0.9703527882554751


In [63]:
# Сравнение результатов
if auc_score_train > auc_score_test:
    print("Модель работает лучше на тренировочных данных.")
elif auc_score_train < auc_score_test:
    print("Модель работает лучше на тестовых данных.")
else:
    print("Модель показывает одинаковые результаты на тренировочных и тестовых данных.")

Модель работает лучше на тренировочных данных.


In [64]:
# Значение AUC на тренировочных данных немного выше, чем на тестовых.
# Разница невелика, поэтому сложно сказать, это небольшое переобучение
# или просто нормальное поведение модели.

# *Дополнительные задания

##### 1. Загрузите датасет Wine из встроенных датасетов sklearn.datasets с помощью функции load_wine в переменную data.

In [65]:
# Импорт необходимой библиотеки
from sklearn.datasets import load_wine

In [66]:
# Загрузка датасета Wine
data = load_wine()

##### 2. Полученный датасет не является датафреймом. Это структура данных, имеющая ключи аналогично словарю. Просмотрите тип данных этой структуры данных и создайте список data_keys, содержащий ее ключи.

In [67]:
# Определение типа данных структуры
data_type = type(data)
print("Тип данных:", data_type)

Тип данных: <class 'sklearn.utils._bunch.Bunch'>


In [68]:
# Получение ключей структуры данных
data_keys = list(data.keys())
print("Ключи структуры данных:", data_keys)

Ключи структуры данных: ['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names']


##### 3. Просмотрите данные, описание и названия признаков в датасете. Описание нужно вывести в виде привычного, аккуратно оформленного текста, без обозначений переноса строки, но с самими переносами и т.д.

In [69]:
# Просмотр первых 5 строк данных
print("Данные (первые 5 строк):")
print(data['data'][:5])

Данные (первые 5 строк):
[[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
  2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 1.120e+01 1.000e+02 2.650e+00 2.760e+00
  2.600e-01 1.280e+00 4.380e+00 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 1.860e+01 1.010e+02 2.800e+00 3.240e+00
  3.000e-01 2.810e+00 5.680e+00 1.030e+00 3.170e+00 1.185e+03]
 [1.437e+01 1.950e+00 2.500e+00 1.680e+01 1.130e+02 3.850e+00 3.490e+00
  2.400e-01 2.180e+00 7.800e+00 8.600e-01 3.450e+00 1.480e+03]
 [1.324e+01 2.590e+00 2.870e+00 2.100e+01 1.180e+02 2.800e+00 2.690e+00
  3.900e-01 1.820e+00 4.320e+00 1.040e+00 2.930e+00 7.350e+02]]


In [70]:
# Просмотр названий признаков
print("Названия признаков:")
print(data['feature_names'])

Названия признаков:
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


In [71]:
# Просмотр описания датасета
print("Описание датасета:")
print(data['DESCR'])

Описание датасета:
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0.98  3.88  

##### 4. Сколько классов содержит целевая переменная датасета? Выведите названия классов.

In [72]:
# Получение количества классов
num_classes = len(data['target_names'])
print("Количество классов:", num_classes)

Количество классов: 3


In [73]:
# Получение названия классов
class_names = data['target_names']
print("Названия классов:", class_names)

Названия классов: ['class_0' 'class_1' 'class_2']


##### 5. На основе данных датасета (они содержатся в двумерном массиве Numpy) и названий признаков создайте датафрейм под названием X.

In [74]:
# Создание DataFrame на основе данных и названий признаков
X = pd.DataFrame(data['data'], columns=data['feature_names'])

In [75]:
# Просмотр первых 5 строк датафрейма
X.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


##### 6. Выясните размер датафрейма X и установите, имеются ли в нем пропущенные значения.

In [76]:
# Определение размера датафрейма
size_X = X.shape
print("Размер датафрейма X:", size_X)

Размер датафрейма X: (178, 13)


In [77]:
# Проверка на наличие пропущенных значений
missing_values = X.isnull().sum().sum()
print("Количество пропущенных значений в X:", missing_values)

Количество пропущенных значений в X: 0


##### 7. Добавьте в датафрейм поле с классами вин в виде чисел, имеющих тип данных numpy.int64. Название поля - 'target'.

In [78]:
# Добавление в датафрейм поля target с классами вина
X['target'] = data['target'].astype(np.int64)

In [79]:
# Просмотр первых 5 строк датафрейма после добавления поля target
X.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


##### 8. Постройте матрицу корреляций для всех полей X. Дайте полученному датафрейму название X_corr.

In [80]:
# Построение матрицы корреляций для всех полей X
X_corr = X.corr()

In [81]:
# Вывод первых нескольких строк матрицы корреляций
X_corr.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
alcohol,1.0,0.094397,0.211545,-0.310235,0.270798,0.289101,0.236815,-0.155929,0.136698,0.546364,-0.071747,0.072343,0.64372,-0.328222
malic_acid,0.094397,1.0,0.164045,0.2885,-0.054575,-0.335167,-0.411007,0.292977,-0.220746,0.248985,-0.561296,-0.36871,-0.192011,0.437776
ash,0.211545,0.164045,1.0,0.443367,0.286587,0.12898,0.115077,0.18623,0.009652,0.258887,-0.074667,0.003911,0.223626,-0.049643
alcalinity_of_ash,-0.310235,0.2885,0.443367,1.0,-0.083333,-0.321113,-0.35137,0.361922,-0.197327,0.018732,-0.273955,-0.276769,-0.440597,0.517859
magnesium,0.270798,-0.054575,0.286587,-0.083333,1.0,0.214401,0.195784,-0.256294,0.236441,0.19995,0.055398,0.066004,0.393351,-0.209179


##### 9. Создайте список high_corr из признаков, корреляция которых с полем target по абсолютному значению превышает 0.5 (причем, само поле target не должно входить в этот список).

In [82]:
# Вычисление корреляции признаков с полем target
target_corr = X_corr['target']

In [83]:
# Создание списка признаков с корреляцией по абсолютному значению > 0.5
high_corr = target_corr[target_corr.abs() > 0.5].index.tolist()

In [84]:
# Удаление из списка поля target
high_corr.remove('target')

In [85]:
# Вывод списка признаков с высокой корреляцией с полем target
print("Признаки с корреляцией > 0.5 по абсолютному значению с полем target:\n", high_corr)

Признаки с корреляцией > 0.5 по абсолютному значению с полем target:
 ['alcalinity_of_ash', 'total_phenols', 'flavanoids', 'hue', 'od280/od315_of_diluted_wines', 'proline']


##### 10. Удалите из датафрейма X поле с целевой переменной. Для всех признаков, названия которых содержатся в списке high_corr, вычислите квадрат их значений и добавьте в датафрейм X соответствующие поля с суффиксом '_2', добавленного к первоначальному названию признака. Итоговый датафрейм должен содержать все поля, которые, были в нем изначально, а также поля с признаками из списка high_corr, возведенными в квадрат. Выведите описание полей датафрейма X с помощью метода describe.

In [86]:
# Удаление из датафрейма X поля target
X = X.drop(columns=['target'])

In [87]:
# Вычисление квадрата значений признаков из списка high_corr и добавление их в датафрейм
for feature in high_corr:
    X[f"{feature}_2"] = X[feature] ** 2

In [88]:
# Вывод описания полей датафрейма X с помощью метода describe
X.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,alcalinity_of_ash_2,total_phenols_2,flavanoids_2,hue_2,od280/od315_of_diluted_wines_2,proline_2
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258,391.142865,5.65703,5.110049,0.968661,7.322155,656459.1
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474,133.671775,2.936294,4.211441,0.443798,3.584316,555859.1
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0,112.36,0.9604,0.1156,0.2304,1.6129,77284.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5,295.84,3.036325,1.4521,0.612325,3.754075,250501.0
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5,380.25,5.54605,4.55825,0.93125,7.7284,453604.5
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0,462.25,7.84,8.2657,1.2544,10.0489,970225.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0,900.0,15.0544,25.8064,2.9241,16.0,2822400.0
