## 1. Загрузка данных
### 1.1 Что делать, если файл с данными всего один

In [None]:
# если .csv
import pandas as pd
df = pd.read_csv('название_файла.csv')

# если json
df = pd.read_json('название_файла.json')

# если что-то на экселевском
df = pd.read_excel('название_файла.xlsx')

# если сказано считать данные из бд на sql
# и есть ссылка на бд
import sqlalchemy

engine = sqlalchemy.create_engine(
    "postgresql://username:password@host:port/database_name"
)
df = pd.read_sql("SELECT * FROM table_name", engine)

# если снова злосчастный geojson
import geopandas as gpd
gdf = gpd.read_file('название_геоджейсона.geojson')

# если есть файл .pkl
import pickle
file_object = pickle.load('название_файла.pkl')

# один pdf (?!)
from pypdf import PdfReader

reader = PdfReader("название_файла.pdf")
page = reader.pages[0] # номер страницы, отсчёт с 0
text = page.extract_text() # извлечь текст

### 1.2 Что делать, если файлов много и они в одном формате

In [None]:
# используем параллельное чтение
from multiprocessing import Pool
from time import time
import os

# функция для считывания в отдельном процессе 
# отдельного файла
def read_file(filename):
    # сюда вставить действие по считыванию одного файла в необходимом формате
    path_to_file = PATH_TO_DATA+filename
    # result = ...
    return result

# количество процессов - берется в количестве ядер вашего компьютера
NUM_PROCESS = os.cpu_count()

with Pool(processes=NUM_PROCESS) as p:
    data = p.map(read_file, files_list, chunksize=3)
data = list(data)
# дальше преобразовываете в DataFrame

In [None]:
import os
import json
import pandas as pd

PATH_TO_DATA = 'data_dir'


file_contents_list = [] # сюда записываем всё содержимое файлов
for filename in os.listdir(PATH_TO_DATA):
    print(filename)
    with open(f'{PATH_TO_DATA}/{filename}', 'r', encoding='utf-8') as f:
        dict_file_content = json.loads(f.read()) # считываем содержимое файла
        # обращаемся к конкретному полю rewiews, по которому можем получить весь массив
        for rewiew in dict_file_content['reviews']:
            # каждую запись в этом массиве добавляем в список в виде датафрейма
            file_contents_list.append(pd.DataFrame(rewiew, index=[0]))

# склеиваем датафреймы в один
data = pd.concat(file_contents_list, ignore_index=True)

data.head(5)

In [None]:
from multiprocessing import Pool
from time import time
import os

# функция для считывания в отдельном процессе 
# отдельного файла
def read_file(filename):
    # сюда вставить действие по считыванию одного файла в необходимом формате
    path_to_file = PATH_TO_DATA+filename
    file_contents_list = list()
    with open(f'{PATH_TO_DATA}/{filename}', 'r', encoding='utf-8') as f:
        dict_file_content = json.loads(f.read())
        for rewiew in dict_file_content['reviews']:
            file_contents_list.append(pd.DataFrame(rewiew, index=[0]))
    result = pd.concat(file_contents_list, ignore_index=True)
    return result

# количество процессов - берется в количестве ядер вашего компьютера
NUM_PROCESS = os.cpu_count()
files_list = os.listdir(PATH_TO_DATA)

with Pool(processes=NUM_PROCESS) as p:
    data = p.map(read_file, files_list, chunksize=3)
data = pd.concat(list(data), ignore_index=True)
data.head(5)

## 2. Очистка и обработка данных
### 2.1 Обработка пропусков, невалидных значений и выбросов

In [None]:
# пропуски
df.isnull().sum / len(df) * 100 # в процентном соотношении

# можно визуализировать
import seaborn as sns
colours = ['#000099', '#ffff00'] 
sns.heatmap(df[cols].isnull(), cmap=sns.color_palette(colours))

In [None]:
# иногда пропуски не отображаются, но в данных всё равно присутствуют невалидные значения
# ваша задача -- их найти, способ определяется данными
# если вы их нашли, заменить вы всегда можете
df.replace('что-то', 'на что-то') # для всего датафрейма
df['конкретный_столбец'].replace('что-то', 'на что-то') # для конкретного столбца

In [None]:
# атрибут считается невосстановимым и удаляется, если у него пропусков ~50-60%
irretrievable_cols = list()
threshhold = 60 # порог задаётся вами
for column in data_all.columns:
    if data_all[column].isnull().sum() / all_records * 100 > threshhold:
        irretrievable_cols.append(column)
print(f"Невосстановимые признаки, у которых пропусков более 60%: {irretrievable_cols}")
data_all.drop(columns=irretrievable_cols, inplace=True) # Настя, вот здесь удаление, если что

In [None]:
# очистку выбросов смотрите в лекции 4.
# выбросы обрабатываются только у непрерывных (континуальных) атрибутов,
# то есть у категориальных не нужно ничего удалять!!!

### 2.2 Кодирование категориальных переменных
Если все значения уникальные, они неделимы, то есть их нельзя разбить на некоторые составляющие -- кодируем одним из способов в 4-й лекции. Если они делятся, то есть они представлены в виде каких-нибудь строк, в которых есть несколько значимых элементов, или содержатся перечисления -- необходимо значения распарсить и только потом закодировать одним из способов в лекции 4.

In [3]:
# например, у вас есть столбец, в котором ячейки содержат наборы каких-то категорий
# нужно сначала найти все уникальные значения для этого столбца, а затем закодировать ohe
# смотрите лекцию 11

# если у вас столбец содержит строки, в которых содержатся несколько уникальных значений
# их нужно разбить и вытянуть эти значения по разным столбцам
import pandas as pd
df = pd.DataFrame({
    'room_count': ['3+1', '1+2', '0+0', '+ ', '4+ 5']
})

df

Unnamed: 0,room_count
0,3+1
1,1+2
2,0+0
3,+
4,4+ 5


В Турции количество комнат в объекте недвижимости обозначается двумя числами: первое - количество жилых комнат, второе - количество спален. Оба числа важны, можно выделить два новых атрибута.

In [5]:
# сначала разобьем строки по символу-разделителю
df['room_count'].str.split('+')

0     [3, 1]
1     [1, 2]
2     [0, 0]
3      [,  ]
4    [4,  5]
Name: room_count, dtype: object

In [20]:
# на выходе получились списки, можно обратиться к элементам по индексам
df['room_count'].apply(lambda x: x.split('+'))

0     [3, 1]
1     [1, 2]
2     [0, 0]
3      [,  ]
4    [4,  5]
Name: room_count, dtype: object

In [25]:
df['living_room'] = df['room_count'].apply(lambda x: int(x.split('+')[0]) \
                                           if x.split('+')[0] not in ['', ' '] else 0)
df['bedrooms'] = df['room_count'].apply(lambda x: int(x.split('+')[1]) \
                                        if x.split('+')[1] not in ['', ' '] else 0)

# теперь нужно удалить старый признак и разобраться с нулями в двух новых
df.head(5)

Unnamed: 0,room_count,living_room,bedrooms
0,3+1,3,1
1,1+2,1,2
2,0+0,0,0
3,+,0,0
4,4+ 5,4,5


## 3. Выявление важных признаков и их визуализация
### 3.1 Корреляция
**Корреляция** - величина, которая показывает, что два явления происходят совместно. Как вычислять корреляцию - смотреть в лекции 11_2. 

Положительная корреляция говорит о том, что два события происходят совместно и связь между ними обычно прямая пропорциональная, отрицательная корреляция - связь обратно пропорциональная (одна переменная увеличивается, другая уменьшается).

Если целевая переменная (то, что нужно предсказывать) коррелирует с другими признаками (высокая корреляция -- это выше 0.75 без учета знака минуса), то это хорошо, признаки влияют на целевую переменную, можно применить линейные модели (SGDClassifier, LogisticRegression). 

Если высокой корреляции нет, используем нелинейные модели (дерево, лес, бустинг на деревьях).

Если признаки имеют между собой высокую корреляцию, то это плохо, в данных есть лишние зависимости, от одного из двух в паре признаков необходимо избавиться.

In [None]:
# в общих чертах 
corr = df.corr()
sns.heatmap(corr, annot=True, fmt='.1g', vmin=-1, vmax=1);

### 3.2 Показатель взаимной информации
Существует также специальный показатель взаимной информации, который способен отражать нелинейные связи (в отличие от корреляции). Кратко, как его запрограммировать.

In [None]:
from sklearn.feature_selection import mutual_info_classif
# для регрессии используйте mutual_info_regression

def make_mi_scores(X, y, discrete_features):
    mi_scores = mutual_info_classif(X, y, discrete_features=discrete_features)
    mi_scores = pd.Series(mi_scores, name="MI Scores", index=X.columns)
    mi_scores = mi_scores.sort_values(ascending=False)
    return mi_scores

def plot_mi_scores(scores):
    scores = scores.sort_values(ascending=True)
    width = np.arange(len(scores))
    ticks = list(scores.index)
    plt.barh(width, scores, color='purple')
    plt.yticks(width, ticks)
    plt.title("Показатели взаимной информации")

X_int = X.select_dtypes(include=['int'])
discrete_features = X_int.dtypes == 'int'
mi_scores = make_mi_scores(X_int, y, discrete_features)

plt.figure(dpi=100, figsize=(8, 5))
# отобразим только 15 наиболее значимых признаков
plot_mi_scores(mi_scores[:15])

### 3.3 Визуалиазация различий конкретного признака между классами
Иногда корреляция и взаимная информация не бывают так наглядны, как гистограммы распределений признака по классам целевой переменной (если мы говорим о задаче классификации). Можно попробовать код из лекции 11_1, где приводятся гистограммы распределений значений индекса опасности для уровней опасности. Или код из лекции 13, где иллюстрируется отличие длины СМС со спамом от длины СМС без спама.

## 4. Конструирование новых признаков
Иногда требуется (даже если это явно не сказано) создать целевую переменную. Для этого нужно создать атрибут по приведённому в задании алгоритму, а затем:
- если задача классификации, то необходимо все значения нового признака собрать в некоторые категории, для этого лучше всего использовать алгоритм кластеризации (так вы сохраните зависимости внутри данных, если кластеризуете только новый получившийся атрибут, либо сможете выстроить значения внутри этого атрибута по некоторой шкале);
- если у вас задача регрессии, то ничего дальше делать не нужно - у вас уже готова целевая переменная.

Пример кластеризации можно найти в лекции 11_1, где разбивается индекс опасности на произвольное число классов опасности. 

Здесь приведён общий шаблон для построения графика локтя для алгоритма кластеризации KMeans. Выбираем то количество кластеров, которое находится примерно в изгибе получившегося "локтя".

In [None]:
# если количество классов в задаче классификации не указано, оно произвольно, то нужно подобрать 
# его самостоятельно по методу локтя
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

X_scaled = StandardScaler().fit_transform(df[['тот_признак_который_нужно_разбить_на_классы']])
inertia = [] 
max_clusters = 10  # это число может быть произвольным
for i in range(2, max_clusters + 1):
    kmeans = KMeans(n_clusters=i, random_state=2023)
    kmeans.fit(X_scaled)
    inertia.append(kmeans.inertia_)

plt.figure(figsize=(8, 4))
plt.plot(range(2, max_clusters + 1), inertia, marker='o', linestyle='--', color='purple')
plt.title('Метод локтя')
plt.xlabel('Количество кластеров(K)')
plt.ylabel('WCSS')
plt.grid()
plt.show();

Если в задаче ЯВНО СКАЗАНО, СКОЛЬКО КЛАССОВ должно быть, тогда сразу используем этот кусок кода, НЕ ИСПОЛЬЗУЕМ МЕТОД ЛОКТЯ, код выше НЕ ТРОГАЕМ.

In [None]:
# допустим, три класса опасности 
num_classes = 3
kmeans = KMeans(n_clusters=num_classes, random_state=0)
clusters = kmeans.fit_predict(X_scaled)
all_regions['целевая_переменная'] = clusters

## 5. Разбиение данных на тренировочный и проверочный наборы
Здесь всё достаточно просто, НО:
- строим гистограмму целевой переменной и даём комментарии, сбалансированы/не сбалансированы классы в целевой переменной, если это задача классификации;
- если задача регрессии, то делаем комментарии относительно формы распределения, если знаете что-то про это (писать комментарии в духе "ну, признак распределён красиво, нормально" запрещается, вы не знаете, что такое нормальное распределение).

А дальше train_test_split, не забываем про параметр stratify=y, который позволит разбить данные в одинаковом соотношении классов как в train, так и в test.

## 6. Обучение
Тоже до неприличия просто. 
### Делай раз: метрики и оценка модели
Согласно поговорке, готовь сани летом, а функции оценки модели - первым делом на этом этапе.

Ещё раз:
- если у вас задача классификации:
    - если это задача бинарной классификации (всего два класса):
        - если просят оценить вероятности чего-либо (принадлежности объекта кому-либо, вероятность ухода человека из компании и т.д.):
            - используем метрику ROC_AUC и чертим кривую ROC
        - если не просят оценивать вероятности, ничего об этом не сказано, в данных есть дисбаланс:
            - используем precision_score, recall_score и f1_score (точность, полнота и f-мера)
    - если это задача множественной классификации (больше двух классов):
        - используем precision_score, recall_score и f1_score (точность, полнота и f-мера)
- если задача регрессии:
    используем все метрики в приведённой ниже функции quality_regression_report

In [1]:
# функция для ROC_AUC и ROC-кривой
# функция принимает на вход вероятности, в practice/anomaly_2 посмотрите, как она используется
from sklearn.metrics import roc_auc_score, roc_curve

def plot_roc_curve(probas, y_true):
    fpr, tpr, thresholds = roc_curve(y_true, probas) 
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.0])
    plt.plot([0, 1], [0, 1], color="navy", lw=2, linestyle="--")
    plt.plot(fpr, tpr, color="darkorange");
    plt.title(f"ROC_AUC: {round(roc_auc_score(y_true, probas), 3)}")

In [None]:
# функция для оценки точности, полноты, f-меры
# функция также отрисовывает матрицу неточностей, что позволит увидеть, где модель ошиблась
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import confusion_matrix

# соберём все метрики в одну функцию
def quality_report(prediction, actual):
    print("Accuracy: {:.3f}\nPrecision: {:.3f}\nRecall: {:.3f}\nf1_score: {:.3f}".format(
        accuracy_score(prediction, actual),
        precision_score(prediction, actual, average='weighted'),
        recall_score(prediction, actual, average='weighted', zero_division=1),
        f1_score(prediction, actual, average='weighted')
    ))
    
    cnf_matrix = confusion_matrix(actual, prediction)
    plt.figure(figsize=(12, 10))
    
    # обычная матрица неточностей
    plt.subplot(2, 2, 1, 
                title='Матрица неточностей',
                ylabel='Истинные метки',
                xlabel='Прогнозы')
    sns.heatmap(cnf_matrix, annot=True)
    
    # нормализованная матрица неточностей
    cnf_matrix = cnf_matrix / cnf_matrix.sum(axis=1, keepdims=True)
    plt.subplot(2, 2, 2, 
                title='Матрица неточностей нормализованная',
                ylabel='Истинные метки',
                xlabel='Прогнозы')
    sns.heatmap(cnf_matrix, fmt='.1g', cmap=plt.cm.gray)

    plt.show();

In [None]:
# функция с метриками для задачи регрессии
from sklearn import metrics
def quality_regression_report(y_test,y_pred):
    print('MAE:', metrics.mean_absolute_error(np.exp(y_test), np.exp(y_pred)))
    print('RMSE:', np.sqrt(metrics.mean_squared_error(np.exp(y_test), np.exp(y_pred))))
    print('R2:',  metrics.r2_score(y_test, y_pred))
    print('MAPE:', mean_absolute_percentage_error(y_test, y_pred))
    pass

### Делай два: непосредственно обучение модели
1. Достаём модель:

    from sklearn.{подставьте_сюда_название_пакета} import {подставьте_сюда_название_класса_модели}
    model = {подставьте_сюда_название_класса_модели}(здесь=должны, быть=параметры)
    
2. Обучаем:
    model.fit(X_train, y_train)
    
3. Получаем прогнозы:
    - если просят вероятности:
        pred_probs = model.predict_proba(X_test)
    - если не просят вероятности:
        preds = model.predict(X_test)

4. Оцениваем модель:
    - если задача бинарной классификации и метрика ROC_AUC:
        - plot_roc_curve(pred_probs[:, 1], y_test)
    - если задача бинарной или небинарной классификации и ничего не сказано про вероятности, то:
        - quality_report(preds, y_test)
        
    - если задача регресси:
        - quality_regression_report(preds, y_test)
        
       
И ТАК ТРИ РАЗА. ЗАМЕРЯТЬ КАЧЕСТВО НУЖНО КАК НА ТРЕЙНЕ, ТАК И НА ТЕСТЕ, ЕСЛИ СИЛЬНО РАСХОДЯТСЯ ПОКАЗАТЕЛИ - ПОЗДРАВЛЯЮ, У ВАС ПЕРЕОБУЧЕНИЕ.

### Делай три: оптимизируем модель
Есть несколько способов оптимизировать модель. Один из них - это решетчатый поиск (GridSearchCV).

Что здесь нужно знать и учитывать:
- параметры модели можно нагуглить в документации sklearn, не выбирайте очень много, иначе есть риск, что ваши дети будут сдавать демоэкзамен к тому времени, когда GridSearchCV закончит поиск;
- обязательно указывайте в параметре scoring, какую метрику необходимо оптимизировать, иначе по умолчанию будет поиск параметров для лучшей accuracy, а у вас в данных дисбаланс - такое себе;
- не используйте решетчатый поиск на случайных лесах и градиентом бустинге (вообще на всех ансамблях).

In [None]:
from sklearn.model_selection import GridSearchCV

# это пример для логистической регрессии
# сетка параметров модели, которые необходимо подобрать
model_params = {
    'penalty' : ['l1', 'l2', 'elasticnet'],
    'C' : [0.1, 1, 1.3, 1.4, 1.5, 2, 5, 10],
    'class_weight' : [None, 'balanced']
}

grid_search = GridSearchCV(estimator=LogisticRegression(solver='liblinear', random_state=2023),
                          param_grid=model_params, scoring='roc_auc', cv=5, n_jobs=-1,
                          return_train_score=True)
grid_search.fit(X_train, y_train)
print(f"Лучшие параметры: {grid_search.best_params_}\nЛучший результат: {grid_search.best_score_}")

Иногда просят построить кривые валидации и обучения. ИХ МОЖНО ИСПОЛЬЗОВАТЬ ДЛЯ АНСАМБЛЕЙ ДЛЯ ПОИСКА ПАРАМЕТРОВ.

**Кривая валидации** -- график влияния одного гиперпараметра на оценку обучения и оценку валидации модели.

**Кривая обучения** -- график, который показывает оценку валидации и обучения модели для различного количества обучающих выборок. Это инструмент, позволяющий узнать, насколько мы выигрываем от добавления дополнительных обучающих данных и страдает ли модель больше от ошибки дисперсии или ошибки смещения. 

In [None]:
def plot_validation_curve(model, X, y, 
                          param_name, param_range):
    from sklearn.model_selection import validation_curve
    train_scores, valid_scores = validation_curve(model, X, y, 
                                                  param_name=param_name, 
                                                  param_range=param_range,
                                                  scoring='roc_auc', n_jobs=-1)
    
    train_mean = np.mean(train_scores, axis=1)
    train_std = np.std(train_scores, axis=1)
    valid_mean = np.mean(valid_scores, axis=1)
    valid_std = np.std(valid_scores, axis=1)
    
    plt.plot(param_range, train_mean, label="Training Score", color="blue")
    plt.plot(param_range, valid_mean, label="Validation Score", color="red")

    plt.fill_between(param_range, train_mean - train_std, train_mean + train_std, color="lightblue")
    plt.fill_between(param_range, valid_mean - valid_std, valid_mean + valid_std, color="pink")

    plt.xlabel(param_name)
    plt.ylabel("Качество классификации")
    plt.legend(loc="best")
    plt.title("Кривая валидации");
    
def plot_learning_curve(model, X, y, train_sizes):
    from sklearn.model_selection import learning_curve
    train_sizes, train_scores, valid_scores = learning_curve(model, X, y, 
                                                             train_sizes=train_sizes, 
                                                             scoring='roc_auc',
                                                             n_jobs=-1)

    train_mean = np.mean(train_scores, axis=1)
    train_std = np.std(train_scores, axis=1)
    valid_mean = np.mean(valid_scores, axis=1)
    valid_std = np.std(valid_scores, axis=1)

    plt.plot(train_sizes, train_mean, label="Training Score", color="blue")
    plt.plot(train_sizes, valid_mean, label="Validation Score", color="red")

    plt.fill_between(train_sizes, train_mean - train_std, train_mean + train_std, color="lightblue")
    plt.fill_between(train_sizes, valid_mean - valid_std, valid_mean + valid_std, color="pink")

    plt.xlabel("Объем выборки")
    plt.ylabel("Качество классификации")
    plt.legend(loc="best")
    plt.title("Кривая обучения");

In [None]:
# здесь меняете модель, параметр и значения параметра
plot_validation_curve(LogisticRegression(solver='liblinear', penalty='l2', random_state=2023),
                    X_train, y_train, 'C', model_params['C'])

# здесь меняете только модель
plot_learning_curve(LogisticRegression(solver='liblinear', C=2, 
                                       penalty='l2', random_state=2023),
                    X_train, y_train, 
                    [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1])

## 7. Преобразование/трансформация данных
Если в задании рядом находятся требование преобразовать данные и слова 'feature engineering', то это однозначно про снижение размерностей (мы его делали через PCA). Описание применения есть в лекции 11_2.

## 8. Общие советы
1. Делаем всё максимально возможное, потому что не знаем, за что нам дадут балл, а за что не дадут.
2. Сохраняем результаты работы в конце каждого модуля под теми именами, которые указаны в задании.
3. Пишем комментарии везде. Если хотим сдать хотя бы на "3". Не хотим - не пишем, на экзамен вообще не приходим.
4. В конце каждого отчёта по модулю необходимо сделать небольшое саммари - в паре слов подвести итог проделанной работы.