## Введение в анализ данных и машинное обучение на Python

### Тема 5: Графический анализ данных и визуализация (16 ноября 2019)

---

#### Часть 1: Подготовка данных

__Задание 1:__ Импортируйте необходимые библиотеки:
- `numpy` как `np`
- `pandas` как `pd`
- `matplotlib.pyplot` как `plt`

В некоторых библиотеках имеются уже готовые наборы данных, которые можно использовать для анализа. Одна из таких библиотек - `sklearn`, с которой мы будем часто работать в дальнейшем.

Мы будем работать с набором данных `load_boston`, в котором требуется предсказать цену на жильё.

[Описание данных](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html)

In [84]:
from sklearn.datasets import load_boston # Импортировать набор данных
boston_data = load_boston() # Загрузить данные 

Данные загружены в специфическом формате:

__Задание 2:__  используя команду `type()` определите формат данных.

Посмотрим на описание данных:

__Задание 3:__ К элементам `boston_data` можно обращаться, как к элементам словаря. Используя команду `print()`, выведите описание данных (ключ `"DESCR"`).

__Задание 4:__ Определите число число наблюдений и число признаков в наборе данных (ключ – `"data"`).

__Задание 5:__ Выведите размер вектора предсказываемой переменной (ключ – `"target"`).

Приведём данные в удобный вид:

In [89]:
X = boston_data['data']
Y = boston_data['target']

In [90]:
data = pd.DataFrame(X) # Создание DataFrame на основе признаков

In [91]:
data.shape

(506, 13)

In [92]:
data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


__Задание 6:__ Используя команду `data.columns`, присвойте датафрему понятные имена столбцов (ключ – `"feature_names"`).

In [None]:
data.head()

__Задание 7:__ Добавьте в датафрейм предсказываемую переменную. Назовите новый столбец `"target"`.

In [None]:
data.head()

---

#### Часть 2: Визуализация данных. Графический анализ

Команда `data.isna()` выдаёт логический вектор где значения `True` соответствуют наличию NA.

__Задание 8:__ Определите, есть ли в выборке пропущенные значения (NA).

Если бы пропущенные значения были, то их можно бы было, например, удалить с помощью:

In [98]:
data = data.dropna()

In [99]:
data.shape # Ничего не изменилось, потому что NA нет

(506, 14)

__Задание 9:__ Постройте диаграммы рассеяния для ответа на следующие вопросы: 

Зависит ли цена на жильё (`target`) от уровня преступности (`CRIM`)?

Зависит ли цена на жильё (`target`) от расстояния до ближайшего рабочего центра (`DIS`)?

Зависит ли цена на жильё (`target`) от среднего числа комнат в квартире (`RM`)? 

__Задание 10:__ для каждого графика определите тип зависимости, если она есть:
1. Линейная / нелинейная.
2. Прямая / обратная.

__Задание 11:__ Определите, по последнему графику, есть ли в выборке аутлайеры (выбросы).

Установим следующие границы: 
- Цена на жильё: < 45
- Среднее число комнат: от 4 до 8

__Задание 12:__ Очистите выборку от аутлайеров.

In [None]:
plt.scatter(data['RM'], data['target'])
plt.title('Зависимость цены на жильё от среднего числа комнат в квартире')
plt.xlabel('Среднее число комнат в квартире')
plt.ylabel('Цена на жильё')

Как не угадывать? 

Корреляционная матрица: `data.corr()`.

In [None]:
data.corr()

__Задание 13:__ Определите, какие переменные наиболее коррелированы с зависимой переменной.

Видим, что у переменной `LSTAT` достаточно большая корреляция с зависимой переменной. Проверим это.

__Задание 14:__ Постройте диаграмму рассеяния зависимой переменной против переменной `LSTAT`.

Изучим объясняющую переменную:

__Задание 15:__ Постройте гистограмму объясняющей переменной.

#### Часть 3: Категориальные переменные.

In [114]:
d = {'weather': ['cold', 'warm', 'sunny', 'windy', 'stormy', 'snowy', 'warm', 'sunny', 'sunny', 'stormy']}
simple_data = pd.DataFrame(d)

In [116]:
simple_data

Unnamed: 0,weather
0,cold
1,warm
2,sunny
3,windy
4,stormy
5,snowy
6,warm
7,sunny
8,sunny
9,stormy


In [117]:
pd.get_dummies(simple_data) # Дамми-переменные

Unnamed: 0,weather_cold,weather_snowy,weather_stormy,weather_sunny,weather_warm,weather_windy
0,1,0,0,0,0,0
1,0,0,0,0,1,0
2,0,0,0,1,0,0
3,0,0,0,0,0,1
4,0,0,1,0,0,0
5,0,1,0,0,0,0
6,0,0,0,0,1,0
7,0,0,0,1,0,0
8,0,0,0,1,0,0
9,0,0,1,0,0,0


In [121]:
pd.Categorical(simple_data['weather'])

[cold, warm, sunny, windy, stormy, snowy, warm, sunny, sunny, stormy]
Categories (6, object): [cold, snowy, stormy, sunny, warm, windy]

In [122]:
pd.Categorical(simple_data['weather']).codes

array([0, 4, 3, 5, 2, 1, 4, 3, 3, 2], dtype=int8)

In [123]:
simple_data['categorical'] = pd.Categorical(simple_data['weather']).codes

In [124]:
simple_data

Unnamed: 0,weather,categorical
0,cold,0
1,warm,4
2,sunny,3
3,windy,5
4,stormy,2
5,snowy,1
6,warm,4
7,sunny,3
8,sunny,3
9,stormy,2
