# Data Visualization & Exploratory Data Analysis

---

<p><img alt="Pandas logo"  width="600" src="https://matplotlib.org/stable/_images/sphx_glr_logos2_003.png" hspace="10px" vspace="0px" align="center"></p>
<p><img alt="Pandas logo"  width="350" src="https://user-images.githubusercontent.com/315810/92254613-279c8000-ee9f-11ea-9b73-5622a7d95f3f.png" hspace="10px" vspace="0px" align="center"></p>


**Useful links:**
- [Matplotlib examples](https://matplotlib.org/stable/gallery/index)
- [Seaborn](https://seaborn.pydata.org/index.html)

In [None]:
# !pip install matplotlib seaborn
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.simplefilter('ignore')

In [None]:
sns.set_theme(context='notebook', style='darkgrid')

# Simple plot

In [None]:
X = np.linspace(-10, 10, 100)
Y = X ** 2
plt.plot(X, Y)

# Data loading

### Titanic - Machine Learning from Disaster

https://www.kaggle.com/c/titanic/data

Каждая строчка наборов данных содержит следующие поля:

- Pclass — класс пассажира (1 — высший, 2 — средний, 3 — низший);

- Name — имя;

- Sex — пол;

- Age — возраст;

- SibSp — количество братьев, сестер, сводных братьев, сводных сестер, супругов на борту титаника;

- Parch — количество родителей, детей (в том числе приемных) на борту титаника;

- Ticket — номер билета;

- Fare — плата за проезд;

- Cabin — каюта;

- Embarked — порт посадки (C — Шербур; Q — Квинстаун; S — Саутгемптон;

- Survived - пассажир выжил или нет.

В поле Age приводится количество полных лет. Для детей меньше 1 года — дробное. Если возраст не известен точно, то указано примерное значение в формате xx.5.

In [None]:
Data = pd.read_csv("https://raw.githubusercontent.com/iad34/seminars/master/materials/data_sem1.csv",
                   sep=";")

**Задание 1.** Выведите на экран размеры таблицы

In [None]:
#your code here
Data.shape

# Preprocessing & one-factor analysis

1) Найдем признаки, у которых есть пропущенные значения и обработаем эти пропущенные значения

2) Переведём категориальные признаки в числовые

**Задание 2.** Выведите основные числовые характеристики числовых столбцов.

In [None]:
#your code here
Data.describe()

In [None]:
Data.isna().sum()

In [None]:
# !pip install missingno
import missingno as msno

In [None]:
msno.matrix(Data, figsize=(12, 6))
pass

Функция не позволяет увидеть наличие пропусков в нечисловых столбцах.

**Обработаем признак 'Sex'**

**Задание 3.** Проверьте, есть ли пропуски в столбце.

In [None]:
#your code here
Data['Sex'].value_counts(dropna=False)

**Задание 4.** Удалите пассажиров неизвестного пола, так как их всего 5.

In [None]:
#your code here
Data = Data[Data['Sex'] != 'unknown']
Data.shape

**Задание ***. Подумайте, можно ли как-то узнать пол пассажиров, которые отнесены к категории unknown?

Признак 'Sex' является категориальным, то есть содержит нечисловые значения. Для работы большинства алгоритмов необходимо переводить категории в числа. Как это можно сделать? 

**Задание 5.** Придумайте кодировку и сделайте её.

In [None]:
#your code here
Data['SexEncoded'] = Data['Sex'].map({'male': 1, 'female': 0})

#или

#Data['Sex'] = Data['Sex'].apply(lambda x: 1 if x == 'male' else 0)

In [None]:
# Data[['Sex', 'SexEncoded']]

Посмотрим, как влияет пол на выживаемость.

In [None]:
plt.figure(figsize=(10, 5))
sns.barplot(x='Sex', y='Survived', data=Data)
plt.title('Sex - Survived')
plt.show()

Посмотрим, как влияет пол человека и класс билета (Pclass) на выживаемость

In [None]:
sns.barplot(x='Sex', y='Survived', hue='Pclass', data=Data)#, palette='autumn')
plt.title('Sex - Survived')
plt.show()

Ещё один полезный вид визуализации - ящик с усами. Посмотрим на ящик с усами, отражающий распределение пассажиров по полу и возрасту.

In [None]:
Data.groupby(['Sex']).agg({'Age': ['mean', 'median', 'std']})

In [None]:
g = sns.factorplot(x="Sex", y="Age", data=Data, kind="box") # box plot (box-and-whiskers-plot)
# plt.yticks(False)
# g.set_yticklabels([])
plt.show()

In [None]:
?sns.boxplot

Можно детализировать картинку, добавив разделение по Pclass.

In [None]:
sns.factorplot(x="Sex", y="Age", hue ="Pclass", data=Data, kind="box")
plt.show()

**Обработаем признак 'Embarked'**

In [None]:
print(Data['Embarked'].value_counts(dropna=False))
Data.shape

**Задание 6.** Удалите из таблицы пассажиров, для которых неизвестен порт посадки (Embarked).

In [None]:
Data.dropna(subset=['Embarked'], inplace=True)
Data.shape

**Задание 7.** Закодируйте столбец Embarked с помощью OneHot-кодирования (pd.get_dummies). 

In [None]:
Data = pd.get_dummies(Data, columns=['Embarked'], drop_first=True)
Data.head()

**Обработаем признак 'Age'**

Проверьте, если ли в Age пропущенные значения.

In [None]:
Data.Age.isna().sum()

Заполним пропуски медианным значением Age.

In [None]:
median_age = Data['Age'].median()

Data['Age'].fillna(median_age, inplace=True)

Нарисуем распределение возраста пассажиров.

In [None]:
sns.distplot(Data['Age'], kde=True, bins=25)
plt.show()

Посмотрим на распределение Pclass по возрастам.

In [None]:
import seaborn as sns

facet = sns.FacetGrid(data = Data, hue = "Pclass", legend_out=True, size = 5)
facet = facet.map(sns.kdeplot, "Age")
facet.add_legend();

**Обработаем признак 'Fare'**

1) Проверьте, если ли в Fare пропущенные значения

2) Если пропущенные значения есть, заполните их медианным значением Fare

In [None]:
#your code here
Data['Fare'].isna().sum()

In [None]:
Data['Fare'].describe()

In [None]:
sns.histplot(Data['Fare'], kde=True)
plt.show()

In [None]:
sns.histplot(Data['Fare']+1, kde=True,  log_scale=True, bins=15)
plt.show()

**Обработаем признак 'Pclass'**

Есть ли в Pclass пропущенные значения?

In [None]:
Data['Pclass'].value_counts(dropna=False)

**Задание 8.** Нарисуйте гистограмму выживаемости в зависимости от Pclass.

In [None]:
#your code here
sns.barplot(x='Pclass', y='Survived', data=Data)

**Обработаем признак 'SibSp' (число братьев или сестер, мужей, жен)**

Есть ли в SibSp пропущенные значения?

In [None]:
Data['SibSp'].value_counts()

**Обработаем признак 'Parch' (число родителей/детей)**

Есть ли в Parch пропущенные значения?

In [None]:
Data['Parch'].value_counts()

**Задание 9.** Столбец PassengerId является категориальным и не несёт важной информации, удалите его.

In [None]:
#your code here
Data.drop('PassengerId',axis=1,inplace=True)

In [None]:
Data.head()

# Multivariate analysis & feature engineering

Нарисуем матрицу корреляций числовых признаков между собой и с целевой переменной. 

**Задание 10.** Создайте таблицу NumericData, которая содержит только числовые столбцы из таблицы Data.

In [None]:
#your code here

NumericData = Data._get_numeric_data()
NumericData.head()

In [None]:
# NumericData.corr()

In [None]:
colormap = plt.cm.RdBu
plt.figure(figsize=(12,10))

plt.title('Pearson Correlation of Features', y=1.05, size=18)
sns.heatmap(NumericData.corr(),
            linewidths=0.1, vmax=1.0, 
            square=True, cmap=colormap, linecolor='white', annot=True)
plt.show()

Посмотрим на попарные зависимости некоторых признаков.

In [None]:
g = sns.pairplot(
    Data[["Survived", "Pclass", "Sex", "Age", "Parch", "Fare"]],
    hue="Survived",
    palette="seismic",
    size=4,
    kind='scatter',
    diag_kind="kde",
    diag_kws=dict(shade=True),
    plot_kws=dict(s=50),
)
# g.set(xticklabels=[])
pass

Зачастую признак может быть зашумлен или может содержать лишнюю (слишком детализированную, ведущую к переобучению) информацию. Возможным решением этой проблемы служит бинаризация признака.

Бинаризуем признаки Age и Fare

* pd.cut - разбиение целочисленных данных на несколько интервалов по квантилям
* pd.qcut - разбиение числовых (не обязательно целочисленных) данных на несколько интервалов по квантилям

In [None]:
Data['AgeBin'] = pd.cut(Data['Age'].astype(int), 5)

Data['AgeBin'].head()

In [None]:
Data.AgeBin.value_counts()

Теперь переведём полученные интервалы в числа, используя LabelEncoder.

In [None]:
from sklearn.preprocessing import LabelEncoder
label = LabelEncoder()

Data['AgeBin_Code'] = label.fit_transform(Data['AgeBin'])

Data[['Age','AgeBin','AgeBin_Code']].head()

In [None]:
label.classes_

**Задание 11.** Бинаризуйте Fare, используя разбиение на 4 интервала.

In [None]:
Data['FareBin'] = pd.cut(Data['Fare'].astype(int), 4)
Data['FareBin'].value_counts()

Мы не используем всю информацию о данных, в частности, не используем текстовые данные. Также из матрицы корреляций мы видим, что признаки Parch и SibSp слабо коррелируют с выживаемостью (Survived). Сконструируем новые признаки, чтобы решить эти вопросы.

**Задание 12.**

1) Создайте признак 'NameLen' и запишите в него длину имени (Name).

2) Создайте признак 'FamilySize', равный Parch + SibSp + 1. Зачем добавлять 1?

3) Создайте признак 'IsAlone', который показывает, путешествовал человек один или с семьей.

In [None]:
#Your code here

**Задание 13.** Посмотрите, как коррелируют новые признаки (не забудьте про бинаризованные признаки) со столбцом 'Survived'.

In [None]:
#your code here

Можно извлечь и другую полезную информацию из данных путём конструирования новых признаков. 

**Задание 14*.** Придумайте ещё новые осмысленные признаки. Проверьте, как они коррелируют с выживаемостью.

In [None]:
#your code here

**Задание 15.** Верно ли, что если признак имеет маленькую по модулю корреляцию с выживаемостью, то это означает, что он не влияет на выживаемость и бесполезен для нашей задачи?

# Bonus

**Задание 16*.** Мы провели довольно подробный однофакторный анализ данных и увидели, какие признаки сильно влияют на выживаемость, а какие нет. 

a) Попробуйте написать свою модель для предсказания выживаемости, используя обнаруженные закономерности. 

b) Оцените качество модели - вычислите долю правильных ответов алгоритма по всем данным.

In [None]:
# Data.head()

In [None]:
def prediction(x):
    if x['SexEncoded'] == 0:
        return 1
    return 0

In [None]:
from sklearn.metrics import accuracy_score

pred = Data.apply(lambda x: prediction(x), axis=1)

accuracy_score(Data['Survived'], pred)

**Задание 17.***

1) Разбейте данные на тренировочную и тестовую часть с помощью train_test_split.

2) Обучите KNN на тренировочной части, сделайте предсказание на тесте и вычислите долю правильных ответов.

3) С помощью написанной вами раннее модели сделайте предсказание на тесте и оцените его качества.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

y = Data['Survived']
X = Data._get_numeric_data().drop('Survived', axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

In [None]:
X_test.shape

In [None]:
X_train.head()

In [None]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train  = sc.fit_transform(X_train)
X_test  = sc.transform(X_test)

In [None]:
# X_train

In [None]:
model = KNeighborsClassifier(n_neighbors=3, 
                             weights='distance', 
                             metric='l2')
model.fit(X_train, y_train)

pred_knn = model.predict(X_test)

In [None]:
accuracy_score(y_test, pred_knn)

In [None]:
pred_test = X_test.apply(lambda x: prediction(x), axis=1)
accuracy_score(y_test, pred_test)