# Импорт библиотек

In [None]:
import pandas as pd 
import seaborn as sns
from matplotlib import pyplot as plt

# Настройка CometML
<img src='https://camo.githubusercontent.com/b35adf34bc440ea2ac19bb0d3432f48e26d71ab8e4c256e936b709eec44f5b19/68747470733a2f2f7777772e636f6d65742e6d6c2f696d616765732f6c6f676f5f636f6d65745f6c696768742e706e67' width=500px>

In [None]:
#!pip install comet_ml

In [None]:
from comet_ml import Experiment

In [None]:
# Создайте эксперимент с помощью вашего API ключа
experiment = Experiment(
    api_key='ВАШ КЛЮЧ',
    project_name='medical-appointment',
    workspace='ВАШЕ НАЗВАНИЕ ВОРКСПЭЙСА',
)

# Загрузка данных

In [None]:
df = pd.read_csv('./KaggleV2-May-2016.csv')

In [None]:
df.head()

# Визуализация

### Распределение числовых признаков

In [None]:
df.hist(figsize=(16,14));
#логируем гистограмму
experiment.log_figure(figure=plt)

*Проанализируем число людей каждого возраста*

In [None]:
print("Уникальные значения в `Age` => {}".format(df.Age.unique()))

In [None]:
# Удалим аномальные значения
df = df[(df.Age >= 0) & (df.Age <= 110)]
df.Age.value_counts()

In [None]:
plt.figure(figsize=(24,6))
plt.xticks(rotation=90)
ax = sns.countplot(x=df.Age)
ax.set_title("Распределение пациентов по возрасту")
experiment.log_figure(figure=plt)
plt.show()

# Придет ли пациент на назначенный прием? 

In [None]:
df.info()

## Кодировка категориальных признаков

In [None]:
categorical_columns_names = ['Gender', 'Neighbourhood']

In [None]:
encoded_columns = pd.get_dummies(df, columns = categorical_columns_names)

In [None]:
encoded_columns.drop(['AppointmentID', 'PatientId', 'ScheduledDay', 'AppointmentDay', 'No-show'], axis=1, inplace = True)

In [None]:
encoded_columns.head()

In [None]:
y = df['No-show']

In [None]:
y

In [None]:
y = y.replace({'No': 0, 'Yes': 1})

In [None]:
y.value_counts(True)

## Шкалирование данных

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
scaler = MinMaxScaler()
X = scaler.fit_transform(encoded_columns)

In [None]:
print(X.shape)

# Модель (этот раздел будет подробно изучен далее в курсе)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

### Инициализация модели

In [None]:
logreg = LogisticRegression()

In [None]:
random_state = 42

### Обучение модели

In [None]:
logreg.fit(X, y)

#### Логирование параметров обучения

In [None]:
params={"random_state":random_state,
        "model_type":"logreg"
}

In [None]:
experiment.log_parameters(params)

### Предсказания модели

In [None]:
y_pred = logreg.predict(X)

### Анализ модели

In [None]:
accuracy = accuracy_score(y, y_pred)

print("Доля правильных ответов: {:6.3f}".format(accuracy))

# Логирование метрик

In [None]:
metrics = {"accuracy":accuracy}

In [None]:
experiment.log_metrics(metrics)

<img src='https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@r2yYhe2DpE4d3WKP.png' width=700px>

In [None]:
experiment.log_confusion_matrix(y.tolist(), y_pred.tolist())

In [None]:
experiment.display()

In [None]:
experiment.end()

# Домашнее задание

Визуализируйте корреляцию между числовыми признаками, использованными для обучения модели и залогируйте изображение в Comet.

В качестве ответа приложите обновленный ноутбук.

*Форма оценки ментором:*

1) Проведена визуализация корреляции между 7 числовыми признаками, использованными для обучения модели - 5 баллов

2) Произведено логирование графика в CometMl - 10 баллов

