# 1. Введение

## Вспомним как выглядит цикл решения мл-задачи

![crisp-dm](./images/crisp-dm.png)

### Предсказание оттока клиентов

Чтобы потренироваться решать задачу **оттока**, сначала поймем зачем может понадобиться такая задача.

Представим, что у нас есть банк, и клиенты хранят у нас свои деньги, понятно, что мы можем использовать их средства для операций компании. И чем больше у нас запасы, тем больший потенциал у нас есть. Хорошо, получается, нам важен каждый клиент.

Предположим, что всего у нас 100 000 клиентов и каждый хранит на своем счете **1 миллион рублей**. Получается у нас есть **10 миллиардов**. \
**Ого! И это только средств, а сколько мы можем заработать на каждом миллионе!**


![churn2](./images/churn2.png)

А что, если вдруг 10% клиентов от нас уйдет?

**Мы потеряем миллиард рублей средств, да еще и нашу прибыль сократим. \
Нужно стараться удержать наших клиентов, каждый очень ценен!**

Хорошо, мы поняли нашу задачу - это бинарная классификация на два класса **уйдет** клиент из банка или **не уйдет**.
Будем предсказывать вероятность того, что клиент оттечет, то есть число в диапазоне от 0 до 1.


Бизнес выгода ясна, также представим, что данные мы тоже придумали откуда достать.

Теперь нам нужно понять **как же уменьшить наши потери** в миллион до какого-то небольшого числа?

![churn4](./images/churn4.png)

### Составим план действий:

#### 1) Подготовка данных
    * Выборка данных
    * Разведочный анализ данных
    * Очистка данных на основе анализа
    * Генерация вспомогательных данных
    
#### 2) Моделирование
    * Выбор алгоритма	
    * Выбор мета-метрики	
    * План тестирования алгоритма
    * Обучение моделей
    * Оценка качества модели

# 2. Подготовка данных


![churn5](./images/churn5.png)

   - [x] Выборка данных
   - [ ] Разведочный анализ данных
   - [ ] Очистка данных на основе анализа
   - [ ] Генерация вспомогательных данных
   - [ ] Построение бейзлайна

Выборка данных у нас уже есть - мы будем использовать данные с сайта kaggle для такой же задачи. \
**Ссылка на соревнование:** https://www.kaggle.com/adammaus/predicting-churn-for-bank-customers

**Разведочный анализ данных:**
В рамках разведочного анализа данных, его также называют **EDA(Exploratory Data Analysis)**, мы стремимся определить и визуализировать, какие факторы способствуют оттоку клиентов.

In [1]:
#Наши стандартные библиотеки
import numpy as np
import pandas as pd

# Для визуализации
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
pd.options.display.max_rows = None
pd.options.display.max_columns = None

In [2]:
import matplotlib.pyplot as plt

from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold, StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline


In [3]:
%pwd

'C:\\Users\\olegi\\Python-lab-and-homework\\edu-data\\workshop14\\Project'

In [4]:
train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')

In [5]:
train.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,8160,15637427,Lu,461,Spain,Female,25,6,0.0,2,1,1,15306.29,0
1,6333,15793046,Holden,619,France,Female,35,4,90413.12,1,1,1,20555.21,0
2,8896,15658972,Foster,699,France,Female,40,8,122038.34,1,1,0,102085.35,0
3,5352,15679048,Koger,558,Germany,Male,41,2,124227.14,1,1,1,111184.67,0
4,4315,15582276,Greco,638,France,Male,34,5,133501.36,1,0,1,155643.04,0


In [6]:
test.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,4801,15679810,Chapman,690,France,Male,39,6,0.0,2,1,0,160532.88
1,2102,15778934,Napolitani,678,Spain,Female,49,8,0.0,2,0,1,98090.69
2,4487,15660646,Fanucci,528,France,Male,35,3,156687.1,1,1,0,199320.77
3,1127,15593973,Wilkie,663,Spain,Female,33,8,122528.18,1,1,0,196260.3
4,383,15568240,Ting,492,Germany,Female,30,10,77168.87,2,0,1,146700.22


![churn8](./images/churn10.png)

In [7]:
from teacher_bot.churn_prediction import ChurnPrediction

Это Бот ProductStar он будет проверять твои задания

In [8]:
BotProductStar = ChurnPrediction()

Привет! Приятно познакомиться!


In [9]:
BotProductStar.test_task(df = train)

Думаю...
Ого! Датасет, сейчас мы будем его исследовать, интересно, что в нем.
Сам я не справляюсь - нужна твоя помощь


### Задание 1. Бот тебе его расскажет - запусти ячейку ниже.

In [11]:
BotProductStar.drop_task(answer=)

SyntaxError: invalid syntax (Temp/ipykernel_13644/4242978464.py, line 1)

![churn8](./images/churn11.png)

### Задание 2. Бот тебе его расскажет - запусти ячейку ниже.

In [10]:
 BotProductStar.null_task()

Нужно понять есть ли в датафрейме пропущенные значения и отправить ответ мне
Я понимаю только 'Да' или 'Нет'


In [11]:
train.isnull().values.any()

False

In [12]:
test.isnull().values.any()

False

In [13]:
BotProductStar.null_task(answer='Нет')

Думаю...
Ура! Второе задание позади!
Следующая кодовая фраза Science


In [None]:
# BotProductStar.null_task(answer=) - раскомментируй меня и отправь ответ в этой переменной либо 'да' либо 'нет'

   - [x] Выборка данных
   - [ ] Разведочный анализ данных
   - [x] Очистка данных на основе анализа
   - [ ] Генерация вспомогательных данных

In [10]:
train.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,8160,15637427,Lu,461,Spain,Female,25,6,0.0,2,1,1,15306.29,0
1,6333,15793046,Holden,619,France,Female,35,4,90413.12,1,1,1,20555.21,0
2,8896,15658972,Foster,699,France,Female,40,8,122038.34,1,1,0,102085.35,0
3,5352,15679048,Koger,558,Germany,Male,41,2,124227.14,1,1,1,111184.67,0
4,4315,15582276,Greco,638,France,Male,34,5,133501.36,1,0,1,155643.04,0


Данные выглядят, как снимок на определенный момент времени 
Возможно баланс на заданную дату, что **оставляет много вопросов:**
    * Какая это дата и какое значение она имеет?
    * Можно ли получить баланс за определенный период времени, а не за одну дату.
    * Есть клиенты, которые вышли, но все еще имеют остаток на счете! Что бы это значило? Могли они выйти из продукта, а не из банка?
    * Что значит быть активным участником и есть ли в этом разные степени? Может быть, лучше вместо этого предоставить счет транзакций, как по кредитам, так и по дебету счета?
Разбивка на продукты, купленные клиентом, может предоставить дополнительную информацию, которая увеличит список продуктов.


![churn8](./images/churn14.png)

Здесь мы приступаем к моделированию без контекста, хотя обычно наличие контекста и лучшее понимание процесса извлечения данных дает более качественные модели.

In [None]:
labels = 'Exited', 'Retained'
sizes = [train.Exited[train['Exited']==1].count(), train.Exited[train['Exited']==0].count()]
explode = (0, 0.1)
fig1, ax1 = plt.subplots(figsize=(10, 8))
ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
        shadow=True, startangle=90)
ax1.axis('equal')
plt.title("Proportion of customer churned and retained", size = 20)
plt.show()

Таким образом, около 20% клиентов ушли. Базовая модель может предполагать, что 20% клиентов уйдут.
Учитывая, что 20% - это небольшое число, нам необходимо убедиться, что выбранная модель действительно предсказывает с большой точностью эти 20%, поскольку для банка интересно идентифицировать и сохранить клиентов.

##### Анализ категориальных переменных

In [None]:
fig, axarr = plt.subplots(2, 2, figsize=(20, 12))
sns.countplot(x='Geography', hue = 'Exited',data = train, ax=axarr[0][0])
sns.countplot(x='Gender', hue = 'Exited',data = train, ax=axarr[0][1])
sns.countplot(x='HasCrCard', hue = 'Exited',data = train, ax=axarr[1][0])
sns.countplot(x='IsActiveMember', hue = 'Exited',data = train, ax=axarr[1][1])

**Отметим следующее:**

* Большинство данных от лиц из Франции. Возможно, у банка недостаточно ресурсов для обслуживания клиентов в тех областях, где у него меньше клиентов.
* Доля сменяющих клиентов женщин также выше, чем доля клиентов-мужчин.
* Интересно, что большинство клиентов, которые ушли, - это клиенты с кредитными картами. Учитывая, что у большинства клиентов есть кредитные карты, это может оказаться простым совпадением.
* Неудивительно, что у неактивных участников больше отток. 
* Общая доля неактивных клиентов довольно высока, можно предположить, что банку потребуется программа, направленная на превращение этой группы в активных клиентов.

##### Анализ количественных переменных

In [None]:
fig, axarr = plt.subplots(3, 2, figsize=(20, 12))
sns.boxplot(y='CreditScore',x = 'Exited', hue = 'Exited',data = train, ax=axarr[0][0])
sns.boxplot(y='Age',x = 'Exited', hue = 'Exited',data = train , ax=axarr[0][1])
sns.boxplot(y='Tenure',x = 'Exited', hue = 'Exited',data = train, ax=axarr[1][0])
sns.boxplot(y='Balance',x = 'Exited', hue = 'Exited',data = train, ax=axarr[1][1])
sns.boxplot(y='NumOfProducts',x = 'Exited', hue = 'Exited',data = train, ax=axarr[2][0])
sns.boxplot(y='EstimatedSalary',x = 'Exited', hue = 'Exited',data = train, ax=axarr[2][1])

**Отметим следующее:**
* Нет существенной разницы в распределении кредитного рейтинга между оставшимися и оттекшими клиентами.
* Старшие клиенты оттекают чаще, чем более молодые, это намекает на разницу в предпочтениях обслуживания в возрастных категориях. Банку может потребоваться пересмотреть свой целевой рынок или пересмотреть стратегию удержания клиентов между разными возрастными группами.
* Что касается срока владения, то клиенты, находящиеся на крайнем конце (мало времени проводившие с банком или много времени в банке), с большей вероятностью уйдут, чем те, которые имеют средний срок.
* Банк теряет клиентов со значительными остатками на банковских счетах, что может снизить их доступный капитал для кредитования.
* Ни продукт, ни зарплата не оказывают существенного влияния на вероятность оттока.

В целом к разведочному анализу данных можно также отнести **построение базового решения**. Важно делать на самом первом этапе, чтобы на пальцах прикидывать, а сколько можно сэкономить денег.

**Например:**
Скажем, чтобы привлечь клиента мы тратим 100 000р, а зарабатываем в год на каждом 200 000р.

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
#возьмем случайную подвыборку из train и оценим на ней сколько мы экономим
val_sample = train.sample(frac=0.2, random_state=42).reset_index(drop=True)

In [None]:
val_sample.Exited.value_counts()

Всего видим, что ушло 295 клиентов. 
Получается мы потеряли 295 000 000р!

Есть ли что-то, что мы могли с этим сделать?

Давайте посчитаем экономию, при предскзаании алгоритмом, который случайно возвращает 0 или 1, то есть с вероятностью 0.5 говорит, что клиент оттечет и с такой же вероятностью, что клиент не оттечет.

Отсюда поймём, а имееют ли смысл вообще акции по привлечению клиентов.

In [None]:
np.random.seed(42)
rand_prediction = np.random.randint(2, size=len(val_sample))

In [None]:
tn, fp, fn, tp = confusion_matrix(val_sample.Exited, rand_prediction).ravel()

In [None]:
print(f'Удержали уходящих: {tp}')
print(f'Удерживали, но они и не собирались уходить: {fp}')
print(f'Не стали удерживать и они ушли: {fn}')
print(f'Правильно не стали удерживать: {tn}')

Посчитаем сколько мы потратили всего на привлечение:
(145 + 575) * 100 000 =  72 000 000

А сколько потеряли на тех, кто ушел:
150 000 000

Количество денег ушедших из банка **ничего не делали: 295 000 000**\
Количество денег ушедших из банка **простейшей модели: 150 000 000**

**Удержано денег в банке: 145 000 000**\
**При расходах: 72 000 000**

Ого и это мы даже машинное обучение еще не начали использовать! И взяли только 20% от всей выборки.

На этом наш разведочный анализ можно закончить - мы узнали все, что нас интересует.

   - [x] Выборка данных
   - [x] Разведочный анализ данных
   - [ ] Очистка данных на основе анализа
   - [ ] Генерация вспомогательных данных
   - [ ] Предобработка данных

# Домашнее задание

##### С помощью этого метода можно делать посылки боту с предскзаниями, а он будет возвращать результат.

In [11]:
BotProductStar.production_quality()

Я умею оценивать качество на тесте. Метрика, которую я измеряю ROC-AUC.Тут можно отправлять сделанные предсказания. Чтобы я не запутался куда какие предсказания, давай будем присылать в виде датафрейма у которого первая колонка 'RowNumber', а вторая 'predict'. Пример посылки попробуем, когда отправим submission.


Это тестовый пример посылки, вам нужно будет точно также предсказывать вероятность для каждого наблюдения и делать посылки, отправляя их боту.

In [None]:
test = pd.read_csv('./data/test.csv')

In [None]:
submission = test[['RowNumber']].copy()
baseline = [0.5]*len(test)
submission['predict'] = baseline

In [None]:
submission.head()

In [None]:
BotProductStar.production_quality(answer=submission)

In [12]:
train.head(n=4)
#len(train)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,8160,15637427,Lu,461,Spain,Female,25,6,0.0,2,1,1,15306.29,0
1,6333,15793046,Holden,619,France,Female,35,4,90413.12,1,1,1,20555.21,0
2,8896,15658972,Foster,699,France,Female,40,8,122038.34,1,1,0,102085.35,0
3,5352,15679048,Koger,558,Germany,Male,41,2,124227.14,1,1,1,111184.67,0


In [13]:
test.head(n=4)
len(test)

800

In [14]:
train2=train.copy()
train2.head(n=5)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,8160,15637427,Lu,461,Spain,Female,25,6,0.0,2,1,1,15306.29,0
1,6333,15793046,Holden,619,France,Female,35,4,90413.12,1,1,1,20555.21,0
2,8896,15658972,Foster,699,France,Female,40,8,122038.34,1,1,0,102085.35,0
3,5352,15679048,Koger,558,Germany,Male,41,2,124227.14,1,1,1,111184.67,0
4,4315,15582276,Greco,638,France,Male,34,5,133501.36,1,0,1,155643.04,0


In [15]:
train2=train.drop(["Surname"],  axis=1)

In [16]:
train2.head(n=5)

Unnamed: 0,RowNumber,CustomerId,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,8160,15637427,461,Spain,Female,25,6,0.0,2,1,1,15306.29,0
1,6333,15793046,619,France,Female,35,4,90413.12,1,1,1,20555.21,0
2,8896,15658972,699,France,Female,40,8,122038.34,1,1,0,102085.35,0
3,5352,15679048,558,Germany,Male,41,2,124227.14,1,1,1,111184.67,0
4,4315,15582276,638,France,Male,34,5,133501.36,1,0,1,155643.04,0


In [15]:
%%time
for c in train2.dtypes[train2.dtypes == object].keys():
    print ("---- %s ---" % c)
    print (train2[c].value_counts())

---- Geography ---
France     3617
Germany    1796
Spain      1787
Name: Geography, dtype: int64
---- Gender ---
Male      3921
Female    3279
Name: Gender, dtype: int64
Wall time: 8 ms


In [17]:
cat_features = ['Geography', 'Gender']

In [18]:
from sklearn.preprocessing import OrdinalEncoder

In [19]:
enc = OrdinalEncoder()

In [20]:
train2[cat_features] = enc.fit_transform(train2[cat_features])
train2[cat_features] = enc.transform(train2[cat_features])

TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

In [21]:
train2[cat_features].head()

Unnamed: 0,Geography,Gender
0,2.0,0.0
1,0.0,0.0
2,0.0,0.0
3,1.0,1.0
4,0.0,1.0


In [31]:
train2.head(n=5)

Unnamed: 0,RowNumber,CustomerId,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,8160,15637427,461,2.0,0.0,25,6,0.0,2,1,1,15306.29,0
1,6333,15793046,619,0.0,0.0,35,4,90413.12,1,1,1,20555.21,0
2,8896,15658972,699,0.0,0.0,40,8,122038.34,1,1,0,102085.35,0
3,5352,15679048,558,1.0,1.0,41,2,124227.14,1,1,1,111184.67,0
4,4315,15582276,638,0.0,1.0,34,5,133501.36,1,0,1,155643.04,0


In [23]:
x_train, x_valid = train_test_split(
    train2.drop(["RowNumber", "Exited"], axis=1), train_size=0.7, shuffle=True, random_state=1,
)
y_train, y_valid = train_test_split(
    train2["Exited"], train_size=0.7, shuffle=True, random_state=1,
)



print("x_train.shape = {} rows, {} cols".format(*x_train.shape))
print("x_valid.shape = {} rows, {} cols".format(*x_valid.shape))


x_train.shape = 5040 rows, 11 cols
x_valid.shape = 2160 rows, 11 cols


In [24]:
pipeline = Pipeline(
    steps=[
        ("scaling", StandardScaler()),
        ("model", LogisticRegression(random_state=1))
    ]
)

pipeline.fit(x_train, y_train)

Pipeline(steps=[('scaling', StandardScaler()),
                ('model', LogisticRegression(random_state=1))])

In [25]:
train_score = roc_auc_score(y_train, pipeline.predict_proba(x_train)[:, 1])
valid_score = roc_auc_score(y_valid, pipeline.predict_proba(x_valid)[:, 1])


print(f"Train-score: {round(train_score, 3)}, Valid-score: {round(valid_score, 3)}")

Train-score: 0.764, Valid-score: 0.749


In [33]:
pipeline.predict_proba(x_train)[:, 1]

array([0.25961188, 0.16443412, 0.17328491, ..., 0.64528456, 0.11012186,
       0.13212779])

In [26]:
kfold = KFold(n_splits=10, shuffle=True, random_state=27)

# проводим кросс-валидацию
cv = cross_val_score(
    estimator=pipeline,
    X=train2.drop(["RowNumber", "Exited"], axis=1),
    y=train2["Exited"],
    scoring="roc_auc",
    cv=kfold
)

# Считаем среднее значение метрики на каждом фолде и выводим среднее значение
print(f"CV-results: {round(np.mean(cv), 4)} +/- {round(np.std(cv), 3)}")

CV-results: 0.7566 +/- 0.022


In [27]:
skfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=1)

# проводим кросс-валидацию
cv = cross_val_score(
    estimator=pipeline,
    X=train2.drop(["RowNumber", "Exited"], axis=1),
    y=train2["Exited"],
    scoring="roc_auc",
    cv=kfold
)

# Считаем среднее значение метрики на каждом фолде и выводим среднее значение
print(f"CV-results: {round(np.mean(cv), 4)} +/- {round(np.std(cv), 3)}")

CV-results: 0.7566 +/- 0.022


In [28]:
from typing import Tuple

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.metrics import roc_auc_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import validation_curve, learning_curve

In [29]:
model = DecisionTreeClassifier(random_state=1)
model.fit(x_train, y_train)

DecisionTreeClassifier(random_state=1)

In [30]:
train_score = roc_auc_score(y_train, model.predict_proba(x_train)[:, 1])
valid_score = roc_auc_score(y_valid, model.predict_proba(x_valid)[:, 1])

print(f"Train-score: {round(train_score, 3)}, Valid-score: {round(valid_score, 4)}")

Train-score: 1.0, Valid-score: 0.6697


In [28]:
model = DecisionTreeClassifier(random_state=1)
model.fit(x_train, y_train)

DecisionTreeClassifier(random_state=1)

In [29]:
importance = pd.DataFrame({
    "features": x_train.columns,
    "importance": model.feature_importances_
})

importance = importance.sort_values(by="importance", ascending=False)
importance = importance.reset_index(drop=True)
importance.head(n=12)

Unnamed: 0,features,importance
0,Age,0.249132
1,Balance,0.164853
2,EstimatedSalary,0.147985
3,CreditScore,0.128043
4,NumOfProducts,0.108316
5,Tenure,0.065036
6,IsActiveMember,0.059157
7,Geography,0.04071
8,HasCrCard,0.019293
9,Gender,0.017475


In [30]:
LEFT_BOUND, RIGHT_BOUND = np.percentile(x_train, q=1), np.percentile(x_train, q=99)
x_winsorized = np.clip(x_train, LEFT_BOUND, RIGHT_BOUND)
assert x_winsorized.shape[0] == x_train.shape[0]

In [31]:
x_winsorized.head(n=3)

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
4607,584,0.0,0.0,35,2,114321.28,2,0,0,15959.01
1437,516,2.0,1.0,50,5,0.0,1,0,1,146145.93
4632,700,1.0,0.0,39,5,144550.83,2,1,1,182491.7111


In [32]:
def linear_model_fit_transform(X: np.array, y: np.array) -> np.array:
    """
    Обучение и применение линейной модели к набору данных.

    Parameters
    ----------
    X: numpy.array, shape = [n_samples, n_features]
        Матрица признаков.

    y: numpy.array, shape = [n_samples, ]
        Вектор целевой переменной.

    Returns
    -------
    y_pred: numpy.array, shape = [n_samples, ]
        Вектор прогнозов.

    """
    model = LinearRegression()
    model.fit(X.reshape(X.shape[0], -1), y)
    y_pred = model.coef_*X + model.intercept_

    return y_pred

In [33]:
y_winsorized_pred = linear_model_fit_transform(x_winsorized, y)

fig = plt.figure(figsize=(15, 5))
plt.scatter(x_winsorized, y, alpha=0.25)
plt.title("Winsorization preprocessing", size=15)
#plt.plot(x, y_pred, color="red", linewidth=2, linestyle="--", label="model without outliers")
plt.plot(x_winsorized, y_winsorized_pred, linewidth=3, color="purple", label="model with winsorization")
plt.xlabel("feature", size=14)
plt.ylabel("target", size=14)
plt.legend(loc="best")

NameError: name 'y' is not defined

In [34]:
train_score = roc_auc_score(y_train, model.predict_proba(x_winsorized)[:, 1])
valid_score = roc_auc_score(y_valid, model.predict_proba(x_valid)[:, 1])

print(f"Train-score: {round(train_score, 3)}, Valid-score: {round(valid_score, 4)}")

Train-score: 0.989, Valid-score: 0.6721


In [36]:
def fit_evaluate_model(estimator, x_train, y_train, x_valid, y_valid):
    """
    Функция для обучения и оценки качества модели.

    Parameters
    ----------
    estimator: callable
        Объект для обучения и применения модели.

    x_train: pandas.DataFrame
        Матрица признаков для обучения модели.

    y_train: pandas.Series
        Вектор целевой переменной для обучения модели.

    x_valid: pandas.DataFrame
        Матрица признаков для валидации модели.

    y_valid: pandas.Series
        Вектор целевой переменной для валидации модели.

    Returns
    -------
    y_train_pred: np.array
        Вектор прогнозов для обучающей выборки

    y_valid_pred: np.array
        Вектор прогнозов для валидационной выборки

    """
    estimator.fit(x_train, y_train)
    y_train_pred = estimator.predict_proba(x_train)[:, 1]
    y_valid_pred = estimator.predict_proba(x_valid)[:, 1]

    train_score = roc_auc_score(y_train, y_train_pred)
    valid_score = roc_auc_score(y_valid, y_valid_pred)
    print(f"Model Score: train = {round(train_score, 4)}, valid = {round(valid_score, 4)}")

    return y_train_pred, y_valid_pred


def plot_validation_curves(train_scores: np.array,
                           valid_scores: np.array,
                           figsize: Tuple[int, int] = (8, 8)
                          ):
    """
    Визуализация процесса настройки гиперпараметра
    алгоритма машинного обучения. Визуализируется значение
    метрики качества на обучащей и тестовой части данных, на
    валидационной части данных и доверительные интервалы.

    Parameters
    ----------
    train_scores: np.array
        Значения метрики качества на обучающей выборке.

    valid_scores: np.array
        Значения метрики качества на валидационной выборке.

    """
    fig = plt.figure(figsize=figsize)

    #plt.subplot(121)
    plt.title("Validation Curves", size=15)
    plt.plot(
        range(train_scores.shape[0]),
        np.mean(train_scores, axis=1),
        label="train",
        linewidth=3,
        marker="s"
    )
    plt.fill_between(
        x=range(train_scores.shape[0]),
        y1=np.mean(train_scores, axis=1)-np.std(train_scores, axis=1),
        y2=np.mean(train_scores, axis=1)+np.std(train_scores, axis=1),
        alpha=0.25
    )
    #plt.subplot(121)
    plt.plot(
        range(train_scores.shape[0]),
        np.mean(valid_scores, axis=1),
        label="valid",
        linewidth=3,
        marker="s"
    )
    plt.fill_between(
        x=range(train_scores.shape[0]),
        y1=np.mean(valid_scores, axis=1)-np.std(valid_scores, axis=1),
        y2=np.mean(valid_scores, axis=1)+np.std(valid_scores, axis=1),
        alpha=0.25
    )
    plt.legend(loc="best", fontsize=14)
    plt.ylabel("roc_auc", size=15)

In [37]:
pipeline = Pipeline(
    steps=[
        ("scaling", StandardScaler()),
        ("model", LogisticRegression(random_state=27, C=1e-5))
    ]
)
y_train_pred, y_valid_pred = fit_evaluate_model(
    pipeline, x_train, y_train, x_valid, y_valid
)

Model Score: train = 0.7654, valid = 0.7482


In [35]:
import warnings
from typing import Tuple, List

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.pipeline import Pipeline
from sklearn.metrics import roc_auc_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier
from sklearn.model_selection import train_test_split, validation_curve, learning_curve

In [36]:
train2.head(n=3)

Unnamed: 0,RowNumber,CustomerId,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,8160,15637427,461,2.0,0.0,25,6,0.0,2,1,1,15306.29,0
1,6333,15793046,619,0.0,0.0,35,4,90413.12,1,1,1,20555.21,0
2,8896,15658972,699,0.0,0.0,40,8,122038.34,1,1,0,102085.35,0


In [40]:
x_train, x_valid = train_test_split(
    train2.drop(["RowNumber", "Exited"], axis=1), train_size=0.75, shuffle=True, random_state=1,
)
y_train, y_valid = train_test_split(
    train2["Exited"], train_size=0.75, shuffle=True, random_state=1,
)
print("x_train.shape = {} rows, {} cols".format(*x_train.shape))
print("x_valid.shape = {} rows, {} cols".format(*x_valid.shape))

x_train.shape = 5400 rows, 11 cols
x_valid.shape = 1800 rows, 11 cols


In [42]:
x_train = train2.drop(["RowNumber", "Exited"], axis=1)
y_train = train2["Exited"]

In [52]:
len(train2)

7200

In [53]:
len(train)

7200

In [43]:
x_train.head (n=4)

Unnamed: 0,CustomerId,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,15637427,461,2.0,0.0,25,6,0.0,2,1,1,15306.29
1,15793046,619,0.0,0.0,35,4,90413.12,1,1,1,20555.21
2,15658972,699,0.0,0.0,40,8,122038.34,1,1,0,102085.35
3,15679048,558,1.0,1.0,41,2,124227.14,1,1,1,111184.67


In [67]:
len(x_train)

7200

In [44]:
y_train.head (n=4)

0    0
1    0
2    0
3    0
Name: Exited, dtype: int64

In [38]:
def fit_evaluate_model(estimator, x_train, y_train, x_valid, y_valid):
    """
    Функция для обучения и оценки качества модели.

    Parameters
    ----------
    estimator: callable
        Объект для обучения и применения модели.

    x_train: pandas.DataFrame
        Матрица признаков для обучения модели.

    y_train: pandas.Series
        Вектор целевой переменной для обучения модели.

    x_valid: pandas.DataFrame
        Матрица признаков для валидации модели.

    y_valid: pandas.Series
        Вектор целевой переменной для валидации модели.

    Returns
    -------
    y_train_pred: np.array
        Вектор прогнозов для обучающей выборки

    y_valid_pred: np.array
        Вектор прогнозов для валидационной выборки

    """
    estimator.fit(x_train, y_train)
    y_train_pred = estimator.predict_proba(x_train)[:, 1]
    y_valid_pred = estimator.predict_proba(x_valid)[:, 1]

    train_score = roc_auc_score(y_train, y_train_pred)
    valid_score = roc_auc_score(y_valid, y_valid_pred)
    print(f"Model Score: train = {round(train_score, 4)}, valid = {round(valid_score, 4)}")

    return y_train_pred, y_valid_pred


def plot_validation_curves(train_scores: np.array,
                           valid_scores: np.array,
                           figsize: Tuple[int, int] = (8, 8)
                          ):
    """
    Визуализация процесса настройки гиперпараметра
    алгоритма машинного обучения. Визуализируется значение
    метрики качества на обучащей и тестовой части данных, на
    валидационной части данных и доверительные интервалы.

    Parameters
    ----------
    train_scores: np.array
        Значения метрики качества на обучающей выборке.

    valid_scores: np.array
        Значения метрики качества на валидационной выборке.

    """
    fig = plt.figure(figsize=figsize)

    #plt.subplot(121)
    plt.title("Validation Curves", size=15)
    plt.plot(
        range(train_scores.shape[0]),
        np.mean(train_scores, axis=1),
        label="train",
        linewidth=3,
        marker="s"
    )
    plt.fill_between(
        x=range(train_scores.shape[0]),
        y1=np.mean(train_scores, axis=1)-np.std(train_scores, axis=1),
        y2=np.mean(train_scores, axis=1)+np.std(train_scores, axis=1),
        alpha=0.25
    )
    #plt.subplot(121)
    plt.plot(
        range(train_scores.shape[0]),
        np.mean(valid_scores, axis=1),
        label="valid",
        linewidth=3,
        marker="s"
    )
    plt.fill_between(
        x=range(train_scores.shape[0]),
        y1=np.mean(valid_scores, axis=1)-np.std(valid_scores, axis=1),
        y2=np.mean(valid_scores, axis=1)+np.std(valid_scores, axis=1),
        alpha=0.25
    )
    plt.legend(loc="best", fontsize=14)
    plt.ylabel("roc_auc", size=15)

In [41]:
pipeline = Pipeline(
    steps=[
        ("scaling", StandardScaler()),
        ("model", LogisticRegression(random_state=27, C=1e-5))
    ]
)
y_train_pred, y_valid_pred = fit_evaluate_model(
    pipeline, x_train, y_train, x_valid, y_valid
)

Model Score: train = 0.7647, valid = 0.7463


In [45]:
def fit_evaluate_model(estimator, x_train, y_train):
    """
    Функция для обучения и оценки качества модели.

    Parameters
    ----------
    estimator: callable
        Объект для обучения и применения модели.

    x_train: pandas.DataFrame
        Матрица признаков для обучения модели.

    y_train: pandas.Series
        Вектор целевой переменной для обучения модели.

    x_valid: pandas.DataFrame
        Матрица признаков для валидации модели.

    y_valid: pandas.Series
        Вектор целевой переменной для валидации модели.

    Returns
    -------
    y_train_pred: np.array
        Вектор прогнозов для обучающей выборки

    y_valid_pred: np.array
        Вектор прогнозов для валидационной выборки

    """
    estimator.fit(x_train, y_train)
    y_train_pred = estimator.predict_proba(x_train)[:, 1]
    #y_valid_pred = estimator.predict_proba(x_valid)[:, 1]

    train_score = roc_auc_score(y_train, y_train_pred)
   # valid_score = roc_auc_score(y_valid, y_valid_pred)
    print(f"Model Score: train = {round(train_score, 4)}")

    return y_train_pred


def plot_validation_curves(train_scores: np.array,
                           
                           figsize: Tuple[int, int] = (8, 8)
                          ):
    """
    Визуализация процесса настройки гиперпараметра
    алгоритма машинного обучения. Визуализируется значение
    метрики качества на обучащей и тестовой части данных, на
    валидационной части данных и доверительные интервалы.

    Parameters
    ----------
    train_scores: np.array
        Значения метрики качества на обучающей выборке.

    valid_scores: np.array
        Значения метрики качества на валидационной выборке.

    """
    fig = plt.figure(figsize=figsize)

    #plt.subplot(121)
    plt.title("Validation Curves", size=15)
    plt.plot(
        range(train_scores.shape[0]),
        np.mean(train_scores, axis=1),
        label="train",
        linewidth=3,
        marker="s"
    )
    plt.fill_between(
        x=range(train_scores.shape[0]),
        y1=np.mean(train_scores, axis=1)-np.std(train_scores, axis=1),
        y2=np.mean(train_scores, axis=1)+np.std(train_scores, axis=1),
        alpha=0.25
    )
    #plt.subplot(121)
    plt.plot(
        range(train_scores.shape[0]),
        np.mean(valid_scores, axis=1),
        label="valid",
        linewidth=3,
        marker="s"
    )
    plt.fill_between(
        x=range(train_scores.shape[0]),
        y1=np.mean(valid_scores, axis=1)-np.std(valid_scores, axis=1),
        y2=np.mean(valid_scores, axis=1)+np.std(valid_scores, axis=1),
        alpha=0.25
    )
    plt.legend(loc="best", fontsize=14)
    plt.ylabel("roc_auc", size=15)

In [46]:
pipeline = Pipeline(
    steps=[
        ("scaling", StandardScaler()),
        ("model", LogisticRegression(random_state=27, C=1e-5))
    ]
)
y_train_pred = fit_evaluate_model(
    pipeline, x_train, y_train
)

Model Score: train = 0.7615


In [47]:
bagging = BaggingClassifier(
    base_estimator=pipeline, random_state=27, n_jobs=2
)
y_train_pred = fit_evaluate_model(
    bagging, x_train, y_train
)

Model Score: train = 0.7612


In [48]:
bagging = BaggingClassifier(
    base_estimator=DecisionTreeClassifier(random_state=27), random_state=27, n_jobs=2
)
y_train_pred = fit_evaluate_model(
    bagging, x_train, y_train
)

Model Score: train = 0.9995


In [49]:
%%time
bagging = BaggingClassifier(
    base_estimator=DecisionTreeClassifier(max_depth=5, random_state=27), random_state=27, n_jobs=2
)
y_train_pred = fit_evaluate_model(
    bagging, x_train, y_train
)

Model Score: train = 0.8613
Wall time: 78 ms


In [50]:
y_train_pred

array([0.01699768, 0.14369624, 0.20933935, ..., 0.45684304, 0.13883256,
       0.14924947])

In [51]:
len(y_train_pred)

7200

In [56]:
len(train2)

7200

In [57]:
train2.head(n=3)

Unnamed: 0,RowNumber,CustomerId,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,8160,15637427,461,2.0,0.0,25,6,0.0,2,1,1,15306.29,0
1,6333,15793046,619,0.0,0.0,35,4,90413.12,1,1,1,20555.21,0
2,8896,15658972,699,0.0,0.0,40,8,122038.34,1,1,0,102085.35,0


In [54]:
len(test)

800

In [58]:
test.head(n=3)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,4801,15679810,Chapman,690,France,Male,39,6,0.0,2,1,0,160532.88
1,2102,15778934,Napolitani,678,Spain,Female,49,8,0.0,2,0,1,98090.69
2,4487,15660646,Fanucci,528,France,Male,35,3,156687.1,1,1,0,199320.77


In [59]:
test2 = test.copy()

In [60]:
test2.head(n=5)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,4801,15679810,Chapman,690,France,Male,39,6,0.0,2,1,0,160532.88
1,2102,15778934,Napolitani,678,Spain,Female,49,8,0.0,2,0,1,98090.69
2,4487,15660646,Fanucci,528,France,Male,35,3,156687.1,1,1,0,199320.77
3,1127,15593973,Wilkie,663,Spain,Female,33,8,122528.18,1,1,0,196260.3
4,383,15568240,Ting,492,Germany,Female,30,10,77168.87,2,0,1,146700.22


In [61]:
test2[cat_features] = enc.fit_transform(test2[cat_features])
test2[cat_features] = enc.transform(test2[cat_features])

TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

In [62]:
test2.head(n=5)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,4801,15679810,Chapman,690,0.0,1.0,39,6,0.0,2,1,0,160532.88
1,2102,15778934,Napolitani,678,2.0,0.0,49,8,0.0,2,0,1,98090.69
2,4487,15660646,Fanucci,528,0.0,1.0,35,3,156687.1,1,1,0,199320.77
3,1127,15593973,Wilkie,663,2.0,0.0,33,8,122528.18,1,1,0,196260.3
4,383,15568240,Ting,492,1.0,0.0,30,10,77168.87,2,0,1,146700.22


In [63]:
test2  = test2.drop(["Surname"],  axis=1) 
test2.head(n=5)

Unnamed: 0,RowNumber,CustomerId,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,4801,15679810,690,0.0,1.0,39,6,0.0,2,1,0,160532.88
1,2102,15778934,678,2.0,0.0,49,8,0.0,2,0,1,98090.69
2,4487,15660646,528,0.0,1.0,35,3,156687.1,1,1,0,199320.77
3,1127,15593973,663,2.0,0.0,33,8,122528.18,1,1,0,196260.3
4,383,15568240,492,1.0,0.0,30,10,77168.87,2,0,1,146700.22


In [73]:
len(test2)

800

In [64]:
estimator.fit(train2, test2)
    y_train_pred = estimator.predict_proba(train2)[:, 1]
    y_valid_pred = estimator.predict_proba(test2)[:, 1]

IndentationError: unexpected indent (Temp/ipykernel_18264/3326954196.py, line 2)

In [81]:
x_train = train2.drop(["Exited"], axis=1)
y_train = train2["Exited"]

In [82]:
x_train.head(n=5)

Unnamed: 0,RowNumber,CustomerId,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,8160,15637427,461,2.0,0.0,25,6,0.0,2,1,1,15306.29
1,6333,15793046,619,0.0,0.0,35,4,90413.12,1,1,1,20555.21
2,8896,15658972,699,0.0,0.0,40,8,122038.34,1,1,0,102085.35
3,5352,15679048,558,1.0,1.0,41,2,124227.14,1,1,1,111184.67
4,4315,15582276,638,0.0,1.0,34,5,133501.36,1,0,1,155643.04


In [83]:
y_train.head(n=5)

0    0
1    0
2    0
3    0
4    0
Name: Exited, dtype: int64

In [84]:
len(y_train)

7200

In [98]:
def fit_evaluate_model(estimator, x_train, y_train, test2):
    """
    Функция для обучения и оценки качества модели.

    Parameters
    ----------
    estimator: callable
        Объект для обучения и применения модели.

    x_train: pandas.DataFrame
        Матрица признаков для обучения модели.

    y_train: pandas.Series
        Вектор целевой переменной для обучения модели.

    x_valid: pandas.DataFrame
        Матрица признаков для валидации модели.

    y_valid: pandas.Series
        Вектор целевой переменной для валидации модели.

    Returns
    -------
    y_train_pred: np.array
        Вектор прогнозов для обучающей выборки

    y_valid_pred: np.array
        Вектор прогнозов для валидационной выборки

    """
    estimator.fit(x_train, y_train)
    y_train_pred = estimator.predict_proba(x_train)[:, 1]
    y_valid_pred = estimator.predict_proba(test2)[:, 1]

  #  train_score = roc_auc_score(y_train, y_train_pred)
 #   valid_score = roc_auc_score(y_valid, y_valid_pred)
  #  print(f"Model Score: train = {round(train_score, 4)})

    return y_train_pred, y_valid_pred

In [102]:
tree = DecisionTreeClassifier(
    max_depth=5, random_state=27
)
y_train_pred, y_valid_pred = fit_evaluate_model(
    tree, x_train, y_train, test2
)

In [103]:
y_valid_pred

array([0.03135889, 0.04609929, 0.13361612, 0.13361612, 0.07149489,
       0.03135889, 0.03135889, 0.13361612, 0.13361612, 0.04609929,
       0.13361612, 0.13361612, 0.21674877, 0.13361612, 0.07149489,
       0.13361612, 0.43137255, 0.13361612, 0.1884058 , 0.07149489,
       0.03135889, 0.07149489, 0.21674877, 0.21674877, 0.07149489,
       0.03135889, 0.1884058 , 0.34006734, 0.13361612, 0.13361612,
       1.        , 0.03135889, 0.21674877, 0.13361612, 0.13361612,
       0.34006734, 0.13361612, 0.58792651, 0.07149489, 0.13361612,
       0.07149489, 0.58792651, 0.13361612, 0.04609929, 0.21674877,
       0.13361612, 0.15979381, 0.03135889, 0.19811321, 0.07149489,
       0.91566265, 0.91566265, 0.1884058 , 0.34006734, 0.13361612,
       0.03135889, 0.19811321, 0.34006734, 0.58792651, 0.13361612,
       0.04609929, 0.43137255, 0.58792651, 0.91566265, 0.13361612,
       0.80555556, 0.13361612, 0.04609929, 0.13361612, 0.21674877,
       0.98214286, 0.1884058 , 1.        , 0.19811321, 0.00777

In [101]:
y_train_pred

[]

In [104]:
len(y_valid_pred)

800

In [91]:
y_valid_pred = []

In [95]:
y_train_pred = []

In [97]:
len(y_train_pred)

0

In [105]:
submission = test[['RowNumber']].copy()
baseline = y_valid_pred
submission['predict'] = baseline

In [106]:
submission.head()

Unnamed: 0,RowNumber,predict
0,4801,0.031359
1,2102,0.046099
2,4487,0.133616
3,1127,0.133616
4,383,0.071495


In [107]:
BotProductStar.production_quality(answer=submission)

Запускаю тестирование...
Проверяю метрики...
Твой результат: 0.8268111443967651
Наконец-то мы  сэкономили денег! Чтобы себя порадовать - можно посчитать примерные значения в деньгах, как мы посчитали с бейзлайном :). Финальная кодовая фраза '- моя любимая наука' Если вспомнить все предыдущие получится: Data Science - моя любимая наукаЧто-то правда, то правда - обожаю анализировать данные, особенно, когда мне помогают


Следующая часть урока полностью ложится на ваши плечи:
* Нужно правильно сгенерировать вспомогательные признаки, но сильно можно не увлекаться.
* Правильно их обработать для подачи в модель.
* И построить модель, которая будет давать достаточное качество.

Для защиты проекта необходимо будет построить модель, качество которой дает ROC-AUC не ниже 0.8. Оцениваться модель будет с помощью бота, а точнее функции - `BotProductStar.production_quality(answer=submission)`



submission - это датафрем, в котором в первой колонке указан RowNumber из файла test, а в колонке predict предсказанная вероятность ухода клиента.

Здесь можно продолжить построение модели. Давайте вспомним, какие пункты осталось сделать.

### Подготовка данных
   - [x] Выборка данных
   - [x] Разведочный анализ данных
   - [ ] Очистка данных на основе анализа
   - [ ] Генерация вспомогательных данных
   - [ ] Предобработка данных

####  Моделирование
   - [ ]  Выбор алгоритмов	
   - [ ]  Выбор мета-метрики	
   - [ ]  План тестирования алгоритма
   - [ ]  Обучение моделей
   - [ ]  Оценка качества модели