## Задачи

Прогноз цены на дом - регрессия  
Предсказать, вернет ли клиент кредит - классификация  
Предсказать, когда пациенту необходимо принять лекарство - регрессия  
Выберите, какое лекарство из имеющихся в наличии следует принять пациенту - классификация  
Выберите сегмент клиентов для промо-коммуникации - кластеризация  
Распознавание дефектной продукции на производственной линии (на основе фотосканирования) - классификация  
Решите, как разместить продукцию на полке в магазине - ассоциация  
Поиск сайтов для ввода текстового запроса - классификация  
Разделите покупателей магазина на сегменты, чтобы понять различия в их поведении - кластеризация  
Обнаружение аномалий в трафике сайта - классификация

# Введение

## 5 примеров применения методов МО

1) Классификация - классификация болезни/диагноза пациента на основе жалоб, симптомов, персональных данных и т.д. Преимущества - автоматизация диагноза, снижение человеческих ошибок, учет сложных неочевидных взаимосвязей между симптомами, масштабируемость — обработка тысяч пациентов в минуту.
   
2) Регрессия - прогнозирование цен на акции на основе исторических данных о цене и объемах. Преимущества - учет множество факторов одновременно, адаптация к изменениям рынка, возмонжость построения стратегий на основе предсказаний.
3) Кластеризация - разбить на группы автомобили по их характеристикам. Преимущества - персонализация маркетинга, оптимизация ассортимента.
4) Ассоциация - найти, какие товары чаще покупают вместе с другим товаром. Преимущества - выявление неочевидных связей, повышение среднего чека.
5) Сокращение размерности - уменьшить количество признаков для данных, в которых их очень много. Преимущества - упрощение моделей, ускорение обучения.

## Определение классов

Предсказать, вернет ли клиент кредит - да / нет  
Выберите, какое лекарство из имеющихся в наличии следует принять пациенту - перечень лекарств  
Распознавание дефектной продукции на производственной линии (на основе фотосканирования) - дефектная / бездефектная  
Обнаружение аномалий в трафике сайта - да / нет  
Постановка диагноза - перечень заболеваний

## Разница между мультиклассом и мультиметкой

Мультиклассовая классификация - классификация, при которой каждый объект может принадлежать лишь одному классу  
Мультиметочная классификация - классификация, при которой каждый объект может принадлежать к нескольким классам

## Является ли пример с ценами на жилье из теории классификацией регрессионной проблемы? Можно ли свести регрессионную проблему к классификации?

Нет, не является. Можно, сгруппировав цены на интервалы. Допустим менее 5 000 000 дешево, 5 000 000 - 10 000 000 средне, 10 000 000 + дорого

# Введение в анализ данных

## Импорт библиотек

In [1]:
import pandas as pd
import numpy as np

In [2]:
import plotly.express as px

## Загрузка данных

In [3]:
data = pd.read_json('data/train.json')
data.head()

Unnamed: 0,bathrooms,bedrooms,building_id,created,description,display_address,features,latitude,listing_id,longitude,manager_id,photos,price,street_address,interest_level
4,1.0,1,8579a0b0d54db803821a35a4a615e97a,2016-06-16 05:55:27,Spacious 1 Bedroom 1 Bathroom in Williamsburg!...,145 Borinquen Place,"[Dining Room, Pre-War, Laundry in Building, Di...",40.7108,7170325,-73.9539,a10db4590843d78c784171a107bdacb4,[https://photos.renthop.com/2/7170325_3bb5ac84...,2400,145 Borinquen Place,medium
6,1.0,2,b8e75fc949a6cd8225b455648a951712,2016-06-01 05:44:33,BRAND NEW GUT RENOVATED TRUE 2 BEDROOMFind you...,East 44th,"[Doorman, Elevator, Laundry in Building, Dishw...",40.7513,7092344,-73.9722,955db33477af4f40004820b4aed804a0,[https://photos.renthop.com/2/7092344_7663c19a...,3800,230 East 44th,low
9,1.0,2,cd759a988b8f23924b5a2058d5ab2b49,2016-06-14 15:19:59,**FLEX 2 BEDROOM WITH FULL PRESSURIZED WALL**L...,East 56th Street,"[Doorman, Elevator, Laundry in Building, Laund...",40.7575,7158677,-73.9625,c8b10a317b766204f08e613cef4ce7a0,[https://photos.renthop.com/2/7158677_c897a134...,3495,405 East 56th Street,medium
10,1.5,3,53a5b119ba8f7b61d4e010512e0dfc85,2016-06-24 07:54:24,A Brand New 3 Bedroom 1.5 bath ApartmentEnjoy ...,Metropolitan Avenue,[],40.7145,7211212,-73.9425,5ba989232d0489da1b5f2c45f6688adc,[https://photos.renthop.com/2/7211212_1ed4542e...,3000,792 Metropolitan Avenue,medium
15,1.0,0,bfb9405149bfff42a92980b594c28234,2016-06-28 03:50:23,Over-sized Studio w abundant closets. Availabl...,East 34th Street,"[Doorman, Elevator, Fitness Center, Laundry in...",40.7439,7225292,-73.9743,2c3b41f588fbb5234d8a1e885a436cfa,[https://photos.renthop.com/2/7225292_901f1984...,2795,340 East 34th Street,low


## Каков размер (количество строк и столбцов) данных?

In [4]:
rows, cols = data.shape
print(f"Строк: {rows}\nСтолбцов: {cols}")

Строк: 49352
Столбцов: 15


## Показать список столбцов. Какой столбец является целевым?

In [5]:
data.columns

Index(['bathrooms', 'bedrooms', 'building_id', 'created', 'description',
       'display_address', 'features', 'latitude', 'listing_id', 'longitude',
       'manager_id', 'photos', 'price', 'street_address', 'interest_level'],
      dtype='object')

Столбец price является целевым

## Быстрый анализ данных. Есть ли пустые столбцы?

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 49352 entries, 4 to 124009
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   bathrooms        49352 non-null  float64
 1   bedrooms         49352 non-null  int64  
 2   building_id      49352 non-null  object 
 3   created          49352 non-null  object 
 4   description      49352 non-null  object 
 5   display_address  49352 non-null  object 
 6   features         49352 non-null  object 
 7   latitude         49352 non-null  float64
 8   listing_id       49352 non-null  int64  
 9   longitude        49352 non-null  float64
 10  manager_id       49352 non-null  object 
 11  photos           49352 non-null  object 
 12  price            49352 non-null  int64  
 13  street_address   49352 non-null  object 
 14  interest_level   49352 non-null  object 
dtypes: float64(3), int64(3), object(9)
memory usage: 6.0+ MB


В выводе содержится информация о каждой колонке: название, кол-во ненулевых (непустых) элементов, тип хранимых данных.

In [7]:
data.describe()

Unnamed: 0,bathrooms,bedrooms,latitude,listing_id,longitude,price
count,49352.0,49352.0,49352.0,49352.0,49352.0,49352.0
mean,1.21218,1.54164,40.741545,7024055.0,-73.955716,3830.174
std,0.50142,1.115018,0.638535,126274.6,1.177912,22066.87
min,0.0,0.0,0.0,6811957.0,-118.271,43.0
25%,1.0,1.0,40.7283,6915888.0,-73.9917,2500.0
50%,1.0,1.0,40.7518,7021070.0,-73.9779,3150.0
75%,1.0,2.0,40.7743,7128733.0,-73.9548,4100.0
max,10.0,8.0,44.8835,7753784.0,0.0,4490000.0


Основные статистические характеристики для каждой колонки: кол-во элементов, среднее, стандартное отклонение, минимальное значение, первый квартиль, медиана (второй квартиль), третий квартиль, максимальное значение

In [8]:
data.corr(numeric_only=True)

Unnamed: 0,bathrooms,bedrooms,latitude,listing_id,longitude,price
bathrooms,1.0,0.533446,-0.009657,0.000776,0.010393,0.069661
bedrooms,0.533446,1.0,-0.004745,0.011968,0.006892,0.051788
latitude,-0.009657,-0.004745,1.0,0.001712,-0.966807,-0.000707
listing_id,0.000776,0.011968,0.001712,1.0,-0.000907,0.00809
longitude,0.010393,0.006892,-0.966807,-0.000907,1.0,-8.7e-05
price,0.069661,0.051788,-0.000707,0.00809,-8.7e-05,1.0


Матрица корреляций между всеми числовыми признаками (колонками) датафрейма

### Пустых столбцов нет

## Датафрейм с тремя столбцами

In [9]:
df = data[['bathrooms', 'bedrooms', 'interest_level', 'price']]
df.head()

Unnamed: 0,bathrooms,bedrooms,interest_level,price
4,1.0,1,medium,2400
6,1.0,2,low,3800
9,1.0,2,medium,3495
10,1.5,3,medium,3000
15,1.0,0,low,2795


# Статистический анализ данных

## Анализ цели

### a) Постройте гистограмму, чтобы понять распределение цели

In [10]:
hist_plot = px.histogram(df, x='price', title='Гистограмма распределения цены')
hist_plot.show()

Не понятно

### b) Ящик с усами

In [11]:
box_plot = px.box(df, y='price', title='Ящик с усами распределения цены')
box_plot.show()

Есть выбросы

### c) Удалите из целевого столбца строки, находящиеся за пределами 1-го и 99-го процентилей.

In [12]:
p1 = df['price'].quantile(0.01)
p99 = df['price'].quantile(0.99)

In [13]:
filtered_df = df[(df['price'] >= p1) & (df['price'] <= p99)]

### d) Постройте еще одну гистограмму для цены

In [14]:
new_hist = px.histogram(filtered_df, x='price', title='Распределение цены без 1го и 99го процентилей')
new_hist.show()

Так как мы убрали значения за пределами 1го и 99го процентилей, мы избавились от выбросов, график распределения стал понятнее

In [15]:
df = filtered_df

## Анализ характеристик

### a) Каков тип столбца «interest_level»?

In [16]:
print(df['interest_level'].dtype)

object


### b) Распечатайте значения в этом столбце. Сколько записей содержит каждое значение?

In [17]:
print(*set(df['interest_level'].values))

low high medium


In [18]:
df['interest_level'].value_counts()

interest_level
low       33697
medium    11116
high       3566
Name: count, dtype: int64

### c) Закодируйте эти значения

In [19]:
def coding(st):
    res = ''
    if st == 'low':
        res = 0
    elif st == 'medium':
        res = 1
    else:
        res = 2
    return res


In [20]:
df['interest_level'] = df['interest_level'].apply(coding)

In [21]:
df['interest_level'].value_counts()

interest_level
0    33697
1    11116
2     3566
Name: count, dtype: int64

### d) Постройте гистограммы для признаков «ванные комнаты», «спальни». Есть ли выбросы?

In [22]:
bath_hist = px.histogram(df, x='bathrooms', title='График распределения ванных комнат', color_discrete_sequence=['rgb(93,192,249)'])
bath_hist.show()

In [23]:
bed_hist = px.histogram(df, x='bedrooms', title='График распределения спален', color_discrete_sequence=['rgb(122,43,19)'])
bed_hist.show()

Выбросов нет

## Комплексный анализ

### a) Постройте матрицу корреляции, чтобы понять корреляцию между признаками и целью. Постройте тепловую карту для матрицы корреляции. Есть ли корреляция?

In [24]:
matrix_corr = df.corr()
matrix_corr

Unnamed: 0,bathrooms,bedrooms,interest_level,price
bathrooms,1.0,0.517574,-0.063635,0.671943
bedrooms,0.517574,1.0,0.050654,0.545948
interest_level,-0.063635,0.050654,1.0,-0.200111
price,0.671943,0.545948,-0.200111,1.0


In [25]:
matrix_plot = px.imshow(matrix_corr, text_auto=True, color_continuous_scale='RdBu_r', title='Тепловая карта матрицы корреляции')
matrix_plot.update_layout(
    width=600,
    height=600,
)
matrix_plot.show()

Есть, несильная. Самая значимая корреляция - между количеством ванных комнат и ценой (0,67)

### Постройте диаграмму рассеивания для визуализации корреляции между признаками и целью. Вы должны вернуть 3 графика, где ось X — цель, а ось Y — признак.

In [26]:
fig = px.scatter(df, 
                 x='price', 
                 y=['bathrooms', 'bedrooms', 'interest_level'],
                 facet_col='variable',
                 facet_col_wrap=3,
                 title='Корреляция признаков с ценой')

fig.update_xaxes(title_text='Цена')
fig.update_yaxes(title_text='Признак')
fig.show()

# Создание функций

## Новые признаки

In [27]:
new_features = ['bathrooms_squared', 'bedrooms_squared', 'interest_level_squared']

In [28]:
df[new_features[0]] = df['bathrooms'] ** 2
df[new_features[1]] = df['bedrooms'] ** 2
df[new_features[2]] = df['interest_level'] ** 2
df.head()

Unnamed: 0,bathrooms,bedrooms,interest_level,price,bathrooms_squared,bedrooms_squared,interest_level_squared
4,1.0,1,1,2400,1.0,1,1
6,1.0,2,0,3800,1.0,4,0
9,1.0,2,1,3495,1.0,4,1
10,1.5,3,1,3000,2.25,9,1
15,1.0,0,0,2795,1.0,0,0


In [29]:
new_features.append('price')

In [30]:
new_features_matrix = df[new_features].corr()
new_features_matrix

Unnamed: 0,bathrooms_squared,bedrooms_squared,interest_level_squared,price
bathrooms_squared,1.0,0.522227,-0.06224,0.648486
bedrooms_squared,0.522227,1.0,0.035718,0.543406
interest_level_squared,-0.06224,0.035718,1.0,-0.182672
price,0.648486,0.543406,-0.182672,1.0


In [31]:
new_matrix_plot = px.imshow(new_features_matrix, text_auto=True, color_continuous_scale='RdBu_r', title='Тепловая карта матрицы корреляции с новыми признаками')
new_matrix_plot.update_layout(width=600, height=600)
new_matrix_plot.show()

### Нет, не являются

## Подготовка к обучению

In [32]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split

In [33]:
df = df[['bathrooms', 'bedrooms', 'price']]
df.head()

Unnamed: 0,bathrooms,bedrooms,price
4,1.0,1,2400
6,1.0,2,3800
9,1.0,2,3495
10,1.5,3,3000
15,1.0,0,2795


In [34]:
x = df.drop(columns='price')
y = df['price']

In [35]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=21)

## Полиномиальные преобразования

In [36]:
poly = PolynomialFeatures(degree=10)

In [37]:
x_train_poly = poly.fit_transform(x_train)

In [38]:
x_test_poly = poly.transform(x_test)

# Обучение моделей

In [39]:
def models_processing(x_train, x_test, y_train, y_test):
    # Таблица результатов
    result_MAE = pd.DataFrame(columns=['model', 'train', 'test'])
    result_RMSE = pd.DataFrame(columns=['model', 'train', 'test'])

    # Линейная регрессия
    lin_model = LinearRegression()
    lin_model.fit(x_train, y_train)

    test_pred_lin = lin_model.predict(x_test)
    train_pred_lin = lin_model.predict(x_train)

    test_lin_mae = mean_absolute_error(y_test, test_pred_lin)
    train_lin_mae = mean_absolute_error(y_train, train_pred_lin)

    test_lin_rmse = mean_squared_error(y_test, test_pred_lin) ** 0.5
    train_lin_rmse = mean_squared_error(y_train, train_pred_lin) ** 0.5

    result_MAE.loc[len(result_MAE)] = ['linear_regression', train_lin_mae, test_lin_mae]
    result_RMSE.loc[len(result_RMSE)] = ['linear_regression', train_lin_rmse, test_lin_rmse]

    # Дерево решений
    tree_model = DecisionTreeRegressor(random_state=21)
    tree_model.fit(x_train, y_train)

    train_tree_pred = tree_model.predict(x_train)
    test_tree_pred = tree_model.predict(x_test)

    train_tree_mae = mean_absolute_error(y_train, train_tree_pred)
    test_tree_mae = mean_absolute_error(y_test, test_tree_pred)

    train_tree_rmse = mean_squared_error(y_train, train_tree_pred) ** 0.5
    test_tree_rmse = mean_squared_error(y_test, test_tree_pred) ** 0.5

    result_MAE.loc[len(result_MAE)] = ['decision_tree', train_tree_mae, test_tree_mae]
    result_RMSE.loc[len(result_RMSE)] = ['decision_tree', train_tree_rmse, test_tree_rmse]

    # Наивные модели
    train_mean_price = y_train.mean()
    test_mean_price = y_test.mean()

    train_med_price = y_train.median()
    test_med_price = y_test.median()

    test_price_metrics = pd.DataFrame()
    test_price_metrics['mean'] = [test_mean_price] * len(y_test)
    test_price_metrics['median'] = [test_med_price] * len(y_test)

    train_price_metrics = pd.DataFrame()
    train_price_metrics['mean'] = [train_mean_price] * len(y_train)
    train_price_metrics['median'] = [train_med_price] * len(y_train)

    train_mean_price_mae = mean_absolute_error(y_train, train_price_metrics['mean'])
    test_mean_price_mae = mean_absolute_error(y_test, test_price_metrics['mean'])

    train_med_price_mae = mean_absolute_error(y_train, train_price_metrics['median'])
    test_med_price_mae = mean_absolute_error(y_test, test_price_metrics['median'])

    train_mean_price_rmse = mean_squared_error(y_train, train_price_metrics['mean']) ** 0.5
    test_mean_price_rmse = mean_squared_error(y_test, test_price_metrics['mean']) ** 0.5

    train_med_price_rmse = mean_squared_error(y_train, train_price_metrics['median']) ** 0.5
    test_med_price_rmse = mean_squared_error(y_test, test_price_metrics['median']) ** 0.5

    result_MAE.loc[len(result_MAE)] = ['naive_mean', train_mean_price_mae, test_mean_price_mae]
    result_MAE.loc[len(result_MAE)] = ['naive_median', train_med_price_mae, test_med_price_mae]

    result_RMSE.loc[len(result_RMSE)] = ['naive_mean', train_mean_price_rmse, test_mean_price_rmse]
    result_RMSE.loc[len(result_RMSE)] = ['naive_median', train_med_price_rmse, test_med_price_rmse]

    return result_MAE, result_RMSE

## Сравнение результатов

In [40]:
result_MAE, result_RMSE = models_processing(x_train_poly, x_test_poly, y_train, y_test)

In [41]:
result_MAE

Unnamed: 0,model,train,test
0,linear_regression,756.72651,759.829898
1,decision_tree,756.704419,753.994902
2,naive_mean,1140.445303,1134.133499
3,naive_median,1087.459008,1081.216618


In [42]:
result_RMSE

Unnamed: 0,model,train,test
0,linear_regression,1079.066347,1247.298979
1,decision_tree,1078.967775,1073.878436
2,naive_mean,1598.460491,1594.36637
3,naive_median,1645.459174,1639.336503


### По результатам метрик, лучшая модель - дерево решений

# Дополнительно

## Новый параметр

In [43]:
new_df = data[['bathrooms', 'bedrooms', 'interest_level', 'features', 'latitude', 'longitude', 'price']].copy()

In [44]:
new_df['features'] = new_df['features'].apply(len)

In [45]:
new_df['interest_level'] = new_df['interest_level'].apply(coding)

In [46]:
new_df.head()

Unnamed: 0,bathrooms,bedrooms,interest_level,features,latitude,longitude,price
4,1.0,1,1,7,40.7108,-73.9539,2400
6,1.0,2,0,6,40.7513,-73.9722,3800
9,1.0,2,1,6,40.7575,-73.9625,3495
10,1.5,3,1,0,40.7145,-73.9425,3000
15,1.0,0,0,4,40.7439,-73.9743,2795


In [47]:
new_x = new_df.drop(columns='price')
new_y = new_df['price']

In [48]:
x_train_new, x_test_new, y_train_new, y_test_new = train_test_split(new_x, new_y, test_size=0.2, random_state=21)

In [49]:
new_poly = PolynomialFeatures(degree=4)

In [50]:
x_train_new_poly = new_poly.fit_transform(x_train_new)
x_test_new_poly = new_poly.transform(x_test_new)

In [51]:
new_result_mae, new_result_rmse = models_processing(x_train_new_poly, x_test_new_poly, y_train_new, y_test_new)

In [52]:
new_result_mae

Unnamed: 0,model,train,test
0,linear_regression,1007.682511,876.189553
1,decision_tree,50.283573,569.062478
2,naive_mean,1609.882309,1316.741138
3,naive_median,1442.898154,1230.050046


In [53]:
new_result_rmse

Unnamed: 0,model,train,test
0,linear_regression,24549.655221,6164.842017
1,decision_tree,166.005174,10911.518506
2,naive_mean,24635.093764,2672.071973
3,naive_median,24645.55497,2719.160632


### Добавив новые признаки, а именно: уровень интереса, количество особенностей квартиры, долготу и широту можно заметить изменения в значениях средней абсолютной и квадратической ошибки