# Семинар 1
## Первичный анализ данных  и EDA (Exploratory Data Analysis)

### План занятия:
1. Что такое EDA и из чего он состоит 
2. Практика на реальном датасете:
    - Загрузка датасета
    - Первичный анализ, очистка
    - Визуализация фичей и поиск зависимостей
    - Выводы

## **EDA** - разведочный анализ данных

Место EDA в процессе анализа данных:  

![eda.png](https://waksoft.susu.ru/wp-content/uploads/2021/07/eda.jpg)

### Основные этапы анализа данных:
- Извлечение данных
- Подготовка данных — очистка данных
- Подготовка данных — преобразование данных
- Исследование и визуализация данных

И только потом - предсказательная модель.


# Перейдем к практике

# Постановка задачи
Постановка задачи и оценка имеющихся данных — первый шаг на пути к решению. Cделать это нужно ещё до того, как будет написана первая строчка кода.

Наши данные — открытые сведения о [энергопотреблении зданий в Нью-Йорке](https://www1.nyc.gov/html/gbee/html/plan/ll84_scores.shtml).

Наша цель — предсказать рейтинг энергопотребления (Energy Star Score) здания и понять, какие признаки оказывают на него сильнейшее влияние.

## Чистка данных
Вопреки тому, какое впечатление может сложиться после посещения различных курсов и чтения статей по машинному обучению, данные не всегда представляют собой идеально организованный набор наблюдений без каких-либо пропусков или аномалий (например, можно взглянуть на известные наборы данных mtcars и  iris). Обычно данные содержат в себе кучу мусора, который необходимо почистить, да и вообще сами данные порой лучше воспринимать критически, для того чтобы затем привести их в приемлемый формат. Чистка данных — это необходимый этап решения почти любой реальной задачи.

### Импортируем необходимые библиотеки и изменим настроки отображения библиотек

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from IPython.core.pylabtools import figsize

In [None]:
# Это не обязательно, но позволяет красиво отображать информацию в блокноте

%matplotlib inline

plt.rcParams['font.size'] = 24

pd.options.mode.chained_assignment = None
pd.set_option('display.max_columns', 60)

sns.set(font_scale = 2)

---

In [None]:
# Считаем данные и посмотрим на первые строки 
# Ссылка на данные https://raw.githubusercontent.com/ddvika/DS_2021/main/lecture_2/Energy_consumption_NY.csv

data = ...

...

In [None]:
print("Размеры датасета: ", ...)
print("Колонки датасета: ", ...)

In [None]:
# Воспользуемся методом info для того, чтобы получить представление о стобцах датафрейма
...

Это только фрагмент данных, весь набор содержит 60 признаков. 

Но уже заметна пара проблем: 
1. Мы уже знаем, что хотим предсказать ENERGY STAR Score, но хорошо бы понять, что из себя представляют остальные признаки. Это не всегда проблема, иногда удается решить задачу машинного обучения, не имея почти никакого представления о том, что признаки из себя представляют. Но для нас важна интерпретируемость, поэтому важно понимать, что несут в себе основные признаки.
2. Не все признаки для нас одинаково важны, но с нашим целевым признаком точно нужно разобраться. (А он представляет собой «Оценку в баллах от 1 до 100 основанную на предоставленных сведениях о потреблении электроэнергии. Рейтинг энергопотребления это относительная величина, используемая для сравнения эффективности использования энергии различными зданиями.»)
3. Пропущенные данные, вставленные в набор, выглядят как строка с записью “Not Available”. Это означает, что Python, даже если эта колонка содержит в себе преимущественно числовые признаки, будет интерпретировать её как тип данных object, потому что Pandas интерпретируют любой признак содержащий строковые значения как строку.


---

## **Отступление**
### Немного об интерпретируемости

**Интерпретируемость** — это свойство модели, которое показывает, что структуру данной модели может объяснить человек. При этом структура модели не противоречит данным, на которых данная модель построена, а также она сохраняет некоторые свойства предоставленных данных. При интерпретации модели могут быть объяснены принципы и закономерности, которые использует сама модель для предсказания меток класса на конкретных данных.

![](https://www.researchgate.net/profile/Alexandru-Bogdan-Georgescu/publication/344893857/figure/fig6/AS:951077046325248@1603765846204/SHAP-force-plot-of-predictions-from-Classifier-T-for-the-MIT-compounds-LuNiO3-and-NdNiO3.ppm)

Пример shap-plot, который объясняет предсказание модели: классификатор, который определяет одно из двух соединений -- LuNiO$_3$ или NdNiO$_3$.

#### **Конец отступления**

---

# Data Types and Missing Values

In [None]:
# Еще раз воспользуемся методом dataframe.info

...

In [None]:
# Посчитаем сколько в датасете пропусков, воспользовавшись методом isna

...

Очевидно, многие признаки, являющиеся изначально числовыми (например, площади), интерпретированы как object. Анализировать их крайне сложно, так что сначала конвертируем их в числа, а именно в тип float.

### Конвертируем данные в подходящий формат

Заменим значение “Not Available” в данных на «не число» ( np.nan — «not a number»), которое Python все же интерпретирует как число. Это позволит изменить тип соответствующих числовых признаков на float:

In [None]:
# Для замены значений в датафрейме воспользуемся методом replace({from_val1: to_val1, ...})

data = ...

In [None]:
# Найдем колонки, которые должны быть числовыми выведя несколько строчек датафрейма

...

In [None]:
# Найдем какие подстроки должны содержаться в названиях таких столбцов

part_name_numeric_cols = ['ft²', 'kBtu', 'Metric Tons CO2e', 'kWh', 'therms', 'gal', 'Score']

In [None]:
# Конвертируем выбранные числовые столбцы в тип float (например воспользовавшись генератором и функцией any)

for col in list(data.columns):
    if ...:
        ...

In [None]:
# Посчитаем сколько после всех манипуляций у нас стало пропущенных значений

...

In [None]:
# Посмотрим на статистики над колонками датасета при помощи метода describe
# Какие значения они принимают?

...

In [None]:
# Какой размер у матрицы, которую возвращает метод describe?

...

##### Вопрос:
Почему вывелась статистика не по всем столбцам (всего их 60)?

# Пропущенные данные и выбросы

В добавок к некорректному определению типов данных, другая частая проблема — это пропуски в данных. У наличия пропусков могут быть разные причины, но пропуски нужно либо заполнить, либо исключить из набора полностью. Для начала попробуем оценить масштаб проблемы 

In [None]:
# Воспользуемся следующей функцией, которая предоставляет отчет о пропусках в данных

def missing_values_table(df):
    """
    Функция возвращает резюме по пропущенным значениям
    """
    # Общее число пропусков
    mis_val = df.isnull().sum()
    
    # Процент пропусков
    mis_val_percent = 100 * df.isnull().sum() / len(df)
    
    # Создадит таблицу с результатом
    mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
    
    # Переименнуем колонки
    mis_val_table_ren_columns = mis_val_table.rename(
    columns = {0 : 'Missing Values', 1 : '% of Total Values'})
    
    # Отсортируем по проценту пропущенных значений
    mis_val_table_ren_columns = mis_val_table_ren_columns[
        mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
    '% of Total Values', ascending=False).round(1)
    
    # Выведем некоторую информацию
    print ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"      
        "There are " + str(mis_val_table_ren_columns.shape[0]) +
            " columns that have missing values.")
    
    return mis_val_table_ren_columns

In [None]:
# Воспользуемся описанной выше функцией на нашем датасете

missing_values_table(data)

При удалении данных следует быть осторожным, тем не менее, признак нам вряд ли вообще пригодится, если пропусков в нем слишком много. В данном случае удаляем признаки, в которых пропусков больше 50%.

In [None]:
# Получим отчет из функции missing_values_table
missing_df = ...

# Выберем мне колонки, дял которых '% of Total Values' больше 50
missing_columns = list(...)

print('We will remove %d columns.' % len(missing_columns))

In [None]:
# Удалим столбцы с большим числом пропусков

data = ...

In [None]:
# Проверим, что датасет (в частности его размер) изменился ожидаемым образом

...

In [None]:
# Посмотрим еще раз на пропуски при помощи функции missing_values_table

...

Оставшиеся пропуски необходимо заполнить, опираясь на одну из стратегий по заполнению пропусков, которые мы обсуждали на лекции.

### Заполнение пропусков

Основная функция, которая используется для заполнения пропусов -- это функиция .fillna()

In [None]:
# Она может принимать как одно значение (например -1)

data.fillna(...)

In [None]:
# Там и pd.Series, у которой индексы являются названиями столбцов, а значения, это те значения, на которые мы хотим заменить пропуски
# Заменим например максимальным значением в столбце, применив .max()

data.fillna(...)

Пропуски в числовых признаках мы заполним средним по колонке (.mean() -- выдаст средние только для числовых столбцов)

In [None]:
data = ...

В категориальных будем использовать просто -1 в качестве символа пропуска.

In [None]:
# Поскольку этот код выполняется после предыдущей ячейки, то нам достаточно сделать fillna(-1), потому что пропуски в числовых признаках уже заполнены

data = ...

# Используем Pandas Profiling

[`Pandas Profiling`](https://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/) - это библиотека для генерации интерактивных отчетов на основе пользовательских данных: можем увидеть распределение данных, типы, возможные проблемы. 

Библиотека очень проста в использовании: можем создать отчет и отправить его кому угодно!


Разобраться во внутренностях можно через [чтение исходных текстов](https://github.com/pandas-profiling/pandas-profiling/blob/develop/src/pandas_profiling/visualisation/plot.py).

**Использование**

Пользоваться библиотекой очень просто — надо всего лишь указать объект DataFrame для которого нужно выполнить исследование. Это осуществляется методом:

`df.profile_report()`, где df - исследуемый DataFrame.

Методу можно передать следующие параметры:  

* `title` - название отчёта, 
* `pool_size (int)` - количество потоков для выполнения (по умолчанию = 0 - используются все потоки),
* `progress_bar (bool)` - если True, то показывается прогресс бар,
* `explorative (bool)` - если True, то выполняется более глубокий анализ (для текстов и файлов),
* `minimal (bool)` - если True, то ресурсоёмкие вычисления не выполняются. Рекомендуется при работе с большими датасетами.

In [None]:
# Установите библиотеку и перезапустите среду (в google colab она уже установлена)

#!pip3 install pandas-profiling==3.1.0

In [None]:
from pandas_profiling import ProfileReport

In [None]:
profile_final = ProfileReport(data, title="Energy and water consumption", explorative=True, minimal=True)

In [None]:
profile_final.to_notebook_iframe()

Это не единственное, что может данная библиотека. Посмотрите примеры и почитайте документацию и может быть сможете использовать pandas_profiling - отчет при исследовании в групповых проектах!

# Предварительный анализ данных
Теперь когда утомительный,  но совершенно необходимый —  этап чистки данных закончен, можно углубляться в анализ. Предварительный анализ данных (Exploratory Data Analysis — EDA) — это процесс который можно продолжать до бесконечности, на этом этапе мы строим графики, ищем закономерности, аномалии или связи между признаками.

В общем цель этого этапа понять что эти данные могут дать нам. Обычно процесс начинается с обзора всего набора, затем переходит к его специфическим подмножествам. Любые находки могут быть по-своему интересны, также они могут дать нам ценные подсказки, например, по поводу относительной значимости различных признаков.

### Графики от одной переменной ([Univariate analysis](https://en.wikipedia.org/wiki/Univariate_(statistics)) )
Напомню, что цель — это предсказание значения целевого признака, рейтинга энергопотребления (переименуем его в score в нашем наборе), так что целесообразно для начала понять, какое эта величина имеет распределение. Посмотрим на него, построив гистограмму с matplotlib.

In [None]:
figsize(8, 8)

# Для удобства переименнуем столбец 'ENERGY STAR Score' в 'score' при помощи метода rename
data = ...

# Построим гистограмму распределения столбца score, воспользовавшись функцией plt.hist, указав число бинов (например) 100
...

plt.xlabel('Score')
plt.ylabel('Number of Buildings')
plt.title('Energy Star Score Distribution')
plt.style.use('fivethirtyeight')

### Вывод:
#### **Пока выглядит довольно подозрительно!**

Интересующий нас рейтинг представляет собой перцентиль, так что ожидаемо было бы увидеть равномерное распределение, где каждому значению соответствует примерно одинаковое количество зданий. Хотя в нашем случае на лицо диспропорция, больше всего зданий имеют максимальное значение рейтинга — 100, либо минимальное — 1 (высокий рейтинг это хороший показатель).

Обратимся к описанию признака и вспомним, что он основывается на “предоставляемых отчетах об энергопотреблении”. Это, возможно, кое-что объясняет. Просить владельцев зданий отчитаться об эффективности использования электроэнергии, это почти то же самое, что просить поставить студента оценку самому себе на экзамене. В результате мы получаем не самую объективную оценку эффективности использования электроэнергии в зданиях.

Если бы время не было ничем ограничено, стоило бы выяснить, почему большинство зданий имеют слишком высокие или слишком низкие значения рейтинга. Для этого нужно отфильтровать записи по этим зданиям и посмотреть, что у них общего. В нашу задачу не входит изобретение метода новой оценки эффективности энергопотребления, так что лучше сфокусироваться на предсказании рейтинга с тем, что есть.

In [None]:
figsize(8, 8)

# Построим гистограмму распределения поля Site EUI, воспользовавшись функцией plt.hist, указав число бинов (например) 200
...

# Что можно увидеть на ней?

plt.xlabel('Site EUI')
plt.ylabel('Count')
plt.title('Site EUI Distribution')

А здесь мы видим явный выброс!

In [None]:
# Посмотрим на статистики этой же колонки, воспользовавшись методом describe
...

In [None]:
# Посмотрим на топ 10 самых больших значений в этой колонке
...

Посмотрим внимательнее на эти выбросы:

In [None]:
# Выведем строки, значения столбца Site EUI является наибольшим
# Можно ли сделать какие-то выводы касательно этих зданий?

...

In [None]:
plt.figure(figsize=(8, 7))

# Воспользуемся boxplot-ом из библиотеки seaborn для того, чтобы убедиться, что эти объекты действительно похожы на выбросы
...

---

### Reminder: BoxPlot

<img src=https://i.ytimg.com/vi/BE8CVGJuftI/maxresdefault.jpg width="700">

Box plot --- график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей.

Такой вид диаграммы в удобной форме показывает медиану (или, если нужно, среднее), нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы. Несколько таких ящиков можно нарисовать бок о бок, чтобы визуально сравнивать одно распределение с другим; их можно располагать как горизонтально, так и вертикально. Расстояния между различными частями ящика позволяют определить степень разброса (дисперсии) и асимметрии данных и выявить выбросы.

---

## Убираем выбосы ([Outliers](https://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm))

Cnоит избавиться от выбросов. Они могут быть связаны с опечатками, ошибками в единицах измерения или являться корректными, но чересчур экстремальными значениями. Удалять выбросы можно разными способами, но один из самых популярных работает по следующей схеме:

- Ниже `первой квартили - 3 $\cdot$ (межквартильное расстояние)`
- Выше `третьей квартили + 3 $\cdot$ (межквартильное расстояние)`

In [None]:
# Рассчитаем первый и третий квантили поля Site EUI или возьмем значения из вывода метода describe
first_quartile = ...
third_quartile = ...

# Рассчитаем IQR как разницу между третьим и первым квантилями
iqr = ...

In [None]:
# Создадим условие на столбец Site EUI для отбора НЕ выбросов, воспользовавшись выражением выше
condition = ...
condition

In [None]:
# Применим созданное условие к нашим данным, отфильтровав тем самым строки, не являющиеся выбросами
data = ...

In [None]:
# Посмотрим какого размера у нас стал датасет
...

In [None]:
# Посмотрим на сами данные
...

In [None]:
figsize(8, 8)

# Построим еще раз гистограмму распределения поля Site EUI, воспользовавшись функцией plt.hist, указав число бинов (например) 20
...

plt.xlabel('Site EUI')
plt.ylabel('Count')
plt.title('Site EUI Distribution')

In [None]:
plt.figure(figsize=(8, 7))

# Еще раз Ввоспользуемся boxplot-ом из библиотеки seaborn для того, чтобы убедиться, что выбросы пропали
...

### Существует множество способов борьбы с выбросами

Мы использовали этот:


- **Dropping the outlier rows with standard deviation**
```
factor = 3
upper_lim = data['column'].mean() + data['column'].std() * factor
lower_lim = data['column'].mean() - data['column'].std() * factor
data = data[(data['column'] < upper_lim) & (data['column'] > lower_lim)]
```

А могли бы и этот:

- **Dropping the outlier rows with Percentiles**
```
upper_lim = data['column'].quantile(.95)
lower_lim = data['column'].quantile(.05)
data = data[(data['column'] < upper_lim) & (data['column'] > lower_lim)]
```

**Примеры других способов:**
- Винсоризация — это серия трансформаций, направленных на ограничения влияния выбросов. 90%-ая винсоризация означает, что мы берём значения меньше 5% перцентиля и выше 95% перцентиля и приравниваем их к значениям на 5-м и 95-м перцентилях соответствиино.
- Триминг - Триминг отличается от винсоризация тем, что мы не ограничиваем крайние значения каким-либо числом, а просто удаляем их.

Больше методов представлено в [(scipy.stats.mstats)](https://docs.scipy.org/doc/scipy-0.14.0/reference/stats.mstats.html)


Возвращаемся назад к анализу:)

# В поисках отношений
Значительную часть работы на этапе EDA занимает поиск взаимосвязей между различными признаками. Очевидно что признаки и значения признаков, оказывающие основное влияние на целевой, интересуют нас сильнее, чем прочие, по ним лучше всего и предсказывать значение целевого. Одним из способов оценить влияние значений категориальных признаков (число значений такого признака подразумевается конечным) на целевой — **density plot**, например, используя модуль **seaborn**.

**Density plot** можно представить себе как сглаженную гистограмму, потому что она показывает распределение одного значения категориально признака. Раскрасим распределения разными цветами и посмотрим на распределения. Код ниже строит density plot рейтинга энергопотребления. Разными цветами показаны рейтинги различных типов зданий (рассмотрены типы с как минимум сотней записей в нашем наборе):



In [None]:
# Создадим список types с названиями категорий зданий с более, чем 100 измерениями
types = data.dropna(subset=['score'])
types = ...

In [None]:
figsize(10, 6)

# Постройте на одном графике распределения оценок для каждого типа зданий из списка types
for b_type in types:
    # Выберете данные одного из типов зданий из списка types
    subset = ...
    
    # Воспользуйтесь функцией kdeplot библиотеки seaborn для отрисовки распределения
    sns.kdeplot(..., label = ..., shade = False, alpha = 0.8)
    
plt.xlabel('Energy Star Score', size = 18)
plt.ylabel('Density', size = 18)
plt.title('Density Plot of Energy Star Scores by Building Type', size = 22)
plt.legend(fontsize=14)

Видно, что тип здания оказывает существенное влияние на рейтинг энергопотребления. Здания, используемые как офисы, чаще имеют хороший рейтинг, а отели наоборот. Получается, такой признак, как тип здания, для нас важен. Так как это признак категориальный, нам ещё предстоит выполнить с ним так называемый «one-hot encode».

#### Повторим то же самое посмотрим для различных районов:

In [None]:
# Создадим список boroughs с названиями районов с более, чем 100 измерениями
boroughs = data.dropna(subset=['score'])
boroughs = ...

In [None]:
figsize(12, 10)

# Постройте на одном графике распределения оценок для каждого района из списка boroughs
for borough in boroughs:
    # Выберете данные одного из районов из списка boroughs
    subset = ...
    
    # Воспользуйтесь функцией kdeplot библиотеки seaborn для отрисовки распределения
    sns.kdeplot(..., label = ...)

plt.xlabel('Energy Star Score', size = 18)
plt.ylabel('Density', size = 18)
plt.title('Density Plot of Energy Star Scores by Borough', size = 22)
plt.legend(fontsize=14)

Похоже, что район оказывает уже не такое большое влияние. Тем не менее, пожалуй, стоит включить этот признак в модель, так как определенная разница между районами все же есть.

## Корреляции между фичами и целевой переменной

Чтобы численно оценить степень влияния признаков можно использовать [коэффициент корреляции Пирсона](http://www.statisticshowto.com/probability-and-statistics/correlation-coefficient-formula/). 

Это мера степени и положительности линейных связей между двумя переменными.  Значение в +1 означает идеальную пропорциональность между значениями признаков и, соответственно, в -1 аналогично, но с отрицательным коэффициентом.

Несмотря на то что это не дает нам никакого понятия о непропорциональных взаимосвязях, это уже хорошее начало. В Pandas рассчитать величину корреляции довольно легко:

```
# Find all correlations with the score and sort
correlations_data = data.corr()['score'].sort_values()
```

In [None]:
# Воспользуемся методом corr(), выберем столбец с целевой меткой 'score' и отсортируем значения корреляции
correlations_data = ...

# Выведем 15 признаков с наименьшей прямой корреляцией 
print(...)

print('------------')

# Выведем 15 признаков с наибольшей прямой корреляцией 
print(...)

Можно видеть что есть несколько признаков имеющих высокие отрицательные значения коэффициента Пирсона, с самой большой корреляцией для разных категорий EUI (они между собой слегка отличаются по способу расчета). EUI — Energy Use Intensity — это количество использованной энергии, разделенное на площадь помещений в квадратных футах. Значит, чем этот признак ниже, тем лучше. Соответственно: с ростом EUI, рейтинг энергопотребления становится ниже.

In [None]:
sns.set(font_scale=1.4)
plt.figure(figsize=(15,15))

# Воспользуемся функцией heatmap библиотеки seaborn для отрисовки матрицы корреляции (укажем параметр cbar=True)
...

## Графики от двух переменных (bivariate analysis)
Чтобы посмотреть на связь между двумя непрерывными переменными, можно использовать scatterplots (точечные графики). Дополнительную информацию, такую как значения категориальных признаков, можно показывать различными цветами. Например, график снизу показывает разброс рейтинга энергопотребления в зависимости от величины Site EUI, а разными цветами показаны типы зданий:

In [None]:
# Сделаем копию нашего датасета для того, чтобы не изменить 
features = ...

In [None]:
figsize(8, 6)

# Выберем те строки поля с типами зданий, которым соответсвтуют известные значения рейтинга
features['Largest Property Use Type'] = ...

# Выберем только не строки, которые соответствуют типам зданий, содержащим более 100 записей (.isin(types))
features = ...

# Воспользуемся функцией lmplot библиотеки seaborn для построения графика scatterplot
# По осям которого будут столбцы score и Site EUI, а точки делятся на группы по типам зданий
sns.lmplot(..., ..., 
          hue = ..., data = ...,
          scatter_kws = {'alpha': 0.8, 's': 60}, fit_reg = False,
          size = 10, aspect = 1.2)

plt.xlabel('Site EUI', size = 18)
plt.ylabel('Energy Star Score', size = 18)
plt.title('Energy Star Score vs Site EUI', size = 22);

Этот график наглядно демонстрирует, что такое коэффициент корреляции со значением -0.7. Site EUI уменьшается, и рейтинг энергопотребления уверенно возрастает, независимо от типа здания.

## Pairs plot
Ну и наконец, построим Pairs Plot. Это мощный исследовательский инструмент, он позволяет взглянуть на взаимосвязи сразу между несколькими признаками одновременно, а так же на их распределение. В примере при построении использовался модуль seaborn и функция PairGrid. Построен Pairs Plot со scatterplots выше главной диагонали, гистограммами на главной диагонали и 2D kernel density plots, с указанием корреляции, ниже главной диагонали.

In [None]:
# Выберем колонки, на которые мы будем смотреть в попарном разрезе
plot_data = features[['score', 'Site EUI (kBtu/ft²)', 
                      'Weather Normalized Source EUI (kBtu/ft²)']]

# Заменим бесконечности на np.nan при помощи функции replace
plot_data = ...

# Для удобства переименнуем колонки
plot_data = plot_data.rename(columns = {'Site EUI (kBtu/ft²)': 'Site EUI', 
                                        'Weather Normalized Source EUI (kBtu/ft²)': 'Weather Norm EUI',
                                        'log_Total GHG Emissions (Metric Tons CO2e)': 'log GHG Emissions'})

# Удалим пропущенные значения
plot_data = ...

# Воспользуемся следующей функцией для подсчета корреляции между двумя векторами
def corr_func(x, y, **kwargs):
    r = np.corrcoef(x, y)[0][1]
    ax = plt.gca()
    ax.annotate("r = {:.2f}".format(r),
                xy=(.2, .8), xycoords=ax.transAxes,
                size = 20)

# Создадим объект PairGrid и настроем в нем отображение графиков
grid = sns.PairGrid(data = plot_data, size = 3)

# Если интересно за что отвечает каждый метод, то можно их потыкать и посмотреть как меняется результат:)
grid.map_upper(plt.scatter, color = 'red', alpha = 0.6)
grid.map_diag(plt.hist, color = 'red', edgecolor = 'black')
grid.map_lower(corr_func);
grid.map_lower(sns.kdeplot, cmap = plt.cm.Reds)

plt.suptitle('Pairs Plot of Energy Data', size = 36, y = 1.02);

Чтобы посмотреть на интересующие нас отношения между величинами, ищем пересечения строк и колонок. Например, чтобы взглянуть на корреляцию между Weather Norm EUI со score, смотрим на строку Weather Norm EUI  и колонку score. Видно, что коэффициент Пирсона равен -0.67. Помимо того, что график красиво выглядит, он ещё может помочь понять, какие признаки стоит включить в нашу модель.


# Выбор и создание новых признаков
Выбор и создание новых признаков зачастую оказывается одним из самых «благодарных» занятий по соотношению усилия/вклад в результат. Для начала, пожалуй, поясню что это такое:

* __[Создание новых признаков, Feature Engineering](https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/)__: процесс при котором берутся данные как они есть и затем на основе имеющихся данных конструируются новые признаки. Это может означать изменение непосредственно самих значений, например логарифмирование, взятие корня, или one—hot encoding категориальных признаков для того чтобы модель могла их эти признаки обработать. Иногда это создание совершенно новых признаков, которые раньше явным образом в данных не содержались, но, в общем, это всегда добавление в набор новых признаков, полученных из первоначальных данных.

* __[Выбор признаков, Feature Selection](https://machinelearningmastery.com/an-introduction-to-feature-selection/)__: процесс выбора наиболее релевантных признаков. При этом из набора удаляются признаки для того чтобы модель уделила больше внимания и ресурсов первостепенным признакам, а также это помогает получить более легкоинтерпретируемые результаты. В общем, это чистка набора при которой остаются только наиболее важные для нашей задачи данные.

В машинном обучении модель обучается целиком на данных которые мы подаем на вход модели, так что важно быть уверенным в том что все ключевые данные для эффективного решения задачи у нас есть. Если данных способных нам обеспечить решение задачи у нас нет, то какой бы модель не была хорошей, научить мы её ничему не сможем.

На данном этапе я выполнил следующую последовательность действий:

* One-hot кодирование категориальные признаков (район и тип здания);
* Логарифмирование числовых данных.

[One-hot кодирование](https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f) необходимо выполнить для того, чтобы модель могла учесть категориальные признаки. Модель не сможет понять, что имеется ввиду, когда указано, что здание используется как “офис”. Нужно создать новый соответствующий признак и присвоить ему значение 1, если данная запись содержит сведения об офисе и 0 в противном случае.

При применении различных математических функций к значениям в наборе модель способна распознать не только линейные связи между признаками. [Взятие корня, логарифмирование, возведение в степень и т.д.](https://datascience.stackexchange.com/questions/21650/feature-transformation-on-input-data) — распространенная в науке о данных практика, и она может основываться на наших представлениях о поведении и связях между признаками, а так же просто на эмпирических сведениях о том, при каких условиях модель работает лучше. Тут я, как уже упоминалось, решил взять натуральный логарифм от всех числовых признаков.

Приведенный ниже код этим и занимается: логарифмирует числовые признаки, а так выделяет два упомянутых категориальных признака и применяет к ним one-hot кодирование. Затем объединяет полученные при этом наборы. Звучит довольно утомительно, но Pandas позволяет это проделать относительно легко.

In [None]:
# Сделаем копию наших данных data
features = ...

# Выделим числовые признаки из датасета при помощи функции select_dtypes
numeric_subset = ...

# Добавим столбцы, получающися из колонок из numeric_subset путем взятия натурального логарифма
# Назовем их 'log_<ИМЯ СТОЛБЦА>'
for col in numeric_subset.columns:
    if col == 'score':
        # Пропустим целевой столбец
        continue
    else:
        ...
        
# Выберем категориальные признаки ('Borough' и 'Largest Property Use Type')
categorical_subset = ...

# Воспользуемся функцией get_dummies библиотеки pandas для того, чтобы примернить OHE к категориальным колонкам
categorical_subset = ...

# Соединим числовые признаки и категориальные
features = pd.concat([numeric_subset, categorical_subset], axis = 1)

# Посмотрим какого размера у нас получился датасет
features.shape

В итоге в нашем наборе теперь всё ещё 11,000 записей (зданий) и 110 колонок (признаков). Не все эти признаки одинаково важны для нашей задачи, так что перейдем к следующему шагу.

# Выбор признаков
Многие из 110 признаков для нашей модели избыточны, т.к. некоторые из них сильно коррелируют. 


## Удаляем коллинеарные признаки

[Коллинеарные признаки](http://psychologicalstatistics.blogspot.com/2013/11/multicollinearity-and-collinearity-in.html) имеют высокое значение корреляции.
Например, зависимость Site EUI от Weather Normalized Site EUI, которая имеют коэффициент корреляции 0.997.

In [None]:
plot_data = data[['Weather Normalized Site EUI (kBtu/ft²)', 'Site EUI (kBtu/ft²)']].dropna()

plt.plot(plot_data['Site EUI (kBtu/ft²)'], plot_data['Weather Normalized Site EUI (kBtu/ft²)'], 'bo')
plt.xlabel('Site EUI')
plt.ylabel('Weather Norm EUI')
plt.title('Weather Norm EUI vs Site EUI, R = %0.4f' % np.corrcoef(data[['Weather Normalized Site EUI (kBtu/ft²)', 'Site EUI (kBtu/ft²)']].dropna(), rowvar=False)[0][1])

Признаки, которые сильно коррелированны, называют [коллинеарными](https://en.wikipedia.org/wiki/Multicollinearity), и достаточно оставить один из таких признаков, чтобы помочь алгоритму лучше обобщать и получать более интерпретируемые результаты на выходе (на всякий случай уточню, что речь идет о признаках коррелированных между собой, а не с целевым признаком, последние очень даже помогают нашему алгоритму.)

Есть много способов поиска коллинеарных признаков, например, один из широко используемых — расчет коэффициента увеличения дисперсии. Сам я решил использовать так называемый thebcorrelation коэффициент. Один из двух признаков будет автоматически удален если коэффициент корреляции для этой пары выше 0.6.

Выбор именно такого порога может показаться необоснованным, но он был установлен опытным путем, при решении этой конкретной задачи. Машинное обучение наука в значительной степени экспериментальная и зачастую сводится к произвольному поиску лучших параметров безо всякого обоснования.  В итоге оставим всего  64 признака и один целевой.

In [None]:
# Отрисуем матрицу корреляции для наших новых признаков при помощи heatmap

sns.set(font_scale=1.4)
plt.figure(figsize=(15,15))

...

In [None]:
# Воспользуемся следующей функцией для того, что избавить от сильно скоррелированных признаков

def remove_collinear_features(x, threshold):
    '''
    Objective:
        Удалит коллинеарные признаки в dataframe с коэффициентом корреляции, превышающим пороговое значение.
        Удаление коллинеарных функций может помочь модели обобщить и улучшить интерпретируемость модели,
        а также позвоялет избавить от бесполезных с точки зрения информации признаков
        
    Inputs: 
        x: исходная матрица признаков
        threshold: любые объекты с корреляциями выше этого значения удаляются
    
    Output: 
        dataframe который содержит только слабо коллинеарные признаки
    '''
    
    # Не хотим удалять корреляцию между Energy Star Score
    y = x['score']
    x = x.drop(columns = ['score'])
    
    # Вычисляем матрицу корреляции
    corr_matrix = x.corr()
    iters = range(len(corr_matrix.columns) - 1)
    drop_cols = []

    # Проходим по всей матрице и сравниваем корреляции
    for i in iters:
        for j in range(i):
            item = corr_matrix.iloc[j:(j+1), (i+1):(i+2)]
            col = item.columns
            row = item.index
            val = abs(item.values)
            
            # Если корреляция превышает порог, то добавляем кандидата на удаление
            if val >= threshold:
                drop_cols.append(col.values[0])

    # Удаляем один из двух скоррелированных признака
    drops = set(drop_cols)
    x = x.drop(columns = drops)
    x = x.drop(columns = ['Weather Normalized Site EUI (kBtu/ft²)', 
                          'Water Use (All Water Sources) (kgal)',
                          'log_Water Use (All Water Sources) (kgal)',
                          'Largest Property Use Type - Gross Floor Area (ft²)'])
    
    x['score'] = y
               
    return x

In [None]:
# Воспользуемся написанноый выше функцией, чтобы удалить сильно скоррелированные признаки
features = remove_collinear_features(features, 0.8);

In [None]:
# Удалим колокни, которые содержат в себе только пропуски (dropna(axis=1, how='all'))
features = ...
features.shape

In [None]:
# После всех проведенных нами махинаций отрисуем еще раз матрицу корреляции
sns.set(font_scale=1.4)
plt.figure(figsize=(15,15))

...

#### Дополнительный Feature Selection

Существует множество типов [feature selection](http://scikit-learn.org/stable/modules/feature_selection.html). Самый популярный: [principal components analysis (PCA)](http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf) который преобразует функции в уменьшенное количество измерений, которые сохраняют наибольшую вариативность, или [independent components analysis (ICA)](http://cs229.stanford.edu/notes/cs229-notes11.pdf) который стремится найти независимые источники в наборе фичей. Хотя эти методы эффективны для уменьшения количества признаков, они создают новые признаки, которые не имеют физического смысла и, следовательно, делают интерпретацию модели практически невозможной.

Эти методы очень полезны для работы с многомерными данными, и я советую к прочтению[ источник](https://machinelearningmastery.com/feature-selection-machine-learning-python/) 