# Разведочный анализ данных
**Разведочный анализ данных (англ. exploratory data analysis, EDA, или исследовательский анализ данных)** — первоначальный анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей, зачастую с использованием инструментов визуализации, с целью изучения структурs данных, выбора наиболее важных переменных, формулирования и проверки гипотез, предположений, которые могут привести к новому сбору данных или к экспериментам. Это первый шаг в анализе данных, осуществляемый до применения каких-либо формальных статистических методов. Он является одной из наиболее важных частей работы Data Scientist'а, т.к., кроме непосредственно преобразования «сырых» данных в готовые для создания модели, часто во время этого процесса можно увидеть скрытые зависимости, благодаря использованию которых и получаются наиболее точные модели. Другими словами, EDA — это процесс обозрения "с высоты птичьего полёта" важных характеристик данных, чтобы лучше понять набор данных.

Из книги Шитиков В. К., Мастицкий С. Э.:
Главная цель разведочного анализа данных  – изучение статистических свойств имеющихся в наличии выборок (распределение переменных, наличие выбросов, необходимость трансформации и др.) и выявление характера взаимосвязей между откликом и предикторами (Mount, Zumel, 2014).

<img src='https://upload.wikimedia.org/wikipedia/commons/b/ba/Data_visualization_process_v1.png' width="500" />



# Задание на лабораторную работу
Провести разведочный анализ данных матчей компьютерной игры [PUBG](https://ru.wikipedia.org/wiki/PlayerUnknown%E2%80%99s_Battlegrounds).

Данные в формате CSV берутся по ссылке из Google Drive: https://drive.google.com/drive/folders/1z20z3cm3Wjv9soNJ1STw6AilIyGdWbFr
Их нужно загрузить в файлы данного блокнота через меню слева Files.

# Шаги выполнения задания
## Импортировать библиотеки
В работе вам понадобятся: numpy, pandas, matplotlib, seaborn 

In [0]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns



## Считать данные из из CSV файла
Средствами pandas. 

In [0]:
train = pd.read_csv('train.csv')

## Получить информацию о столбцах датасета и их типах данных
Функциями info и head и tail. 

## Датасет должен содержать следующие данные
### Независимые переменные (Х)
* groupId - Integer ID to identify a group within a match. If the same group of 
* players plays in different matches, they will have a different groupId each time.
* matchId - Integer ID to identify match. There are no matches that are in both the training and testing set.
* assists - Number of enemy players this player damaged that were killed by teammates.
* boosts - Number of boost items used.
* damageDealt - Total damage dealt. Note: Self inflicted damage is subtracted.
* DBNOs - Number of enemy players knocked.
* headshotKills - Number of enemy players killed with headshots.
* heals - Number of healing items used.
* killPlace - Ranking in match of number of enemy players killed.
* killPoints - Kills-based external ranking of player. (Think of this as an Elo ranking where only kills matter.)
* kills - Number of enemy players killed.
* killStreaks - Max number of enemy players killed in a short amount of time.
* longestKill - Longest distance between player and player killed at time of death. This may be misleading, as downing a - player and driving away may lead to a large longestKill stat.
* maxPlace - Worst placement we have data for in the match. This may not match with numGroups, as sometimes the data skips over placements.
* numGroups - Number of groups we have data for in the match.
* revives - Number of times this player revived teammates.
* rideDistance - Total distance traveled in vehicles measured in meters.
* roadKills - Number of kills while in a vehicle.
* swimDistance - Total distance traveled by swimming measured in meters.
* teamKills - Number of times this player killed a teammate.
* vehicleDestroys - Number of vehicles destroyed.
* walkDistance - Total distance traveled on foot measured in meters.
* weaponsAcquired - Number of weapons picked up.
* winPoints - Win-based external ranking of player. (Think of this as an Elo ranking where only winning matters.)

### Целевая переменная (Y)
* winPlacePerc - The target of prediction. This is a percentile winning placement, where 1 corresponds to 1st place, and 0 corresponds to last place in the match. It is calculated off of maxPlace, not numGroups, so it is possible to have missing chunks in a match.

In [0]:
df.head()

In [0]:
df.info()

In [0]:
df.tail()

## Выяснить, сколько в общем убийств в матчах игры
1. Сколько убийств в среднем?
1. Какая медиана по убийствам?
1. Сколько убийств у 99% игроков (pandas.DataFrame.quantile)?
1. Какое самое большое количество убийств у одного игрока?



In [0]:
print("Сколько убийств в среднем?: {:.2f}".format(train['kills'].mean()))
print("Сколько убийств у 99% игроков?: {} ".format(train['kills'].quantile(0.99)))
print("Самое большое количество убийств у одного игрока?: {} ".format(train['kills'].max()))

## Вывести график по убийствам
Построить столбчатую диаграмму количества убийств. Можно использовать функцию seaborn - countplot, необходимо настроить размер рисунка с графиком. 

**Доп. задание:** отобразить только столбцы от 0 до 7 убийств, а в последнем столбце показывать 8 и более убийств (функция pandas.DataFrame.loc)

In [0]:
data = train.copy()
data.loc[data['kills'] > data['kills'].quantile(0.99)]='8+'
plt.figure(figsize=(13,10))
sns.countplot(data['kills'].astype('str').sort_values())
plt.title("Количество убийств",fontsize=20)
plt.show()

## Какая статистика по нанесённому урону?
Из графика выше видно, что большинство людей не могут сделать ни одного убийства. По крайней мере, наносят ли они другим дамаг (урон)?
Необходимо сделать выборку данных, когда убийств 0. Не забудьте выставить размер графика. С помощью функции plt.title можно задать собственное название графику. 

Из графика будет видно, что большинство из них даже не смогли нанести кому-либо урон.



In [0]:
data = train.copy()
data = data[data['kills']==0]
plt.figure(figsize=(13,10))
plt.title("Cтатистика по нанесённому урону",fontsize=20)
sns.distplot(data['damageDealt'])
plt.show()

## Проверка исключений
Нужно проверить исключения. Впишите нужный код в ... в строках ниже. Разберитесь с работой функции print. Введите значения в количестве и в процентах.


In [0]:
dataWithoutKills = train.copy()
print("{} игроков ({:.4f}%) победило без единого убийства".format(len(data[data['winPlacePerc']==1]),100*len(data[data['winPlacePerc']==1])/len(train)))
data1 = train[train['damageDealt'] == 0].copy()
dataWithoutDamage = train[train['damageDealt'] == 0].copy()
print("{} игроков ({:.4f}%) победило не нанеся никому урон".format(len(data1[data1['winPlacePerc']==1]), 100*len(data1[data1['winPlacePerc']==1])/len(train)))

## Выведем график соотношения процента выигрыша к убийствам (winPlacePerc vs kills)
Используем график jointplot, нужно задать размеры графика и цвет.

In [0]:
sns.jointplot(x="winPlacePerc", y="kills", data=train, height=8, ratio=5, color="b")
plt.show()

## Очевидно, что убийства имеют отношение к победе
Сгруппируем игроков на основе убийств (0 убийств, 1-2 убийств, 3-5 убийств, 6-10 убийств и 10+ убийств). Используем функцию pandas.cut и диаграмму ящика с усами seaborn boxplot. В качестве Х взять killsCategories, y = winPlacePerc

In [0]:
data2 = train.copy()
data2['killsCategories'] = pd.cut(data2['kills'], [-1, 0, 2, 5, 10, 60], labels=['0_kills','1-2_kills', '3-5_kills', '6-10_kills', '10+_kills'])
plt.figure(figsize=(15,8))
sns.boxplot(x="killsCategories", y="winPlacePerc", data=data2)
plt.show()

## Проанализируем бег во время игры
Впишите нужный код в ... в строках ниже. Понадобится функция pandas.DataFrame.quantile.
Сразу проверим аномалии.


In [0]:
print("В среднем игрок пробегал {:.1f} м., 99% игроков пробегали {} м. или меньше, в то время как {} м.".format(train['walkDistance'].mean(), train['walkDistance'].quantile(0.99), train['walkDistance'].max()))
print("{} игроков ({:.4f}%) прошло 0 метров. Это означает, что они умирали прежде, чем делали хоть один шаг, или они были АФК, что более вероятно.".format(len(data[data['walkDistance'] == 0]), 100*len(data1[data1['walkDistance']==0])/len(train)))

## Построим график распределения пройденных дистанций 99% игроков
Используем график distplot и данные 99% квантиля (pandas.DataFrame.quantile)

In [0]:
data3 = train.copy()
data.loc[data3['walkDistance'] < data3['walkDistance'].quantile(0.99)]
plt.figure(figsize=(13,10))
plt.title("Распределение пройденной дистанции",fontsize=20)
sns.distplot(data3['walkDistance'])
plt.show()

## Так же выведем график соотношения процента выигрыша к пройденному расстоянию (winPlacePerc vs walkDistance)
Используем график jointplot, нужно задать размеры графика и цвет. Из графика будет видно, что ходьба имеет высокую корреляцию с winPlacePerc.

In [0]:
sns.jointplot(x="winPlacePerc", y="walkDistance", data=train, height=8, ratio=5, color="b")
plt.show()

## Проанализируем езду на транспорте
Впишите нужный код в ... в строках ниже. Понадобится функция pandas.DataFrame.quantile.
Сразу проверим аномалии.


In [0]:
print("В среднем игрок проезжзал на транспорте {:.1f} м, 99% игроков проехали {} м или меньше, в то время проехал - {} м."
.format(train['rideDistance'].mean(), train['rideDistance'].quantile(0.99), train['rideDistance'].max()))

print("{} игроков ({:.4f}%) проехало 0 метров. Это означает, что у них ещё нет водительских прав."
.format(len(data[data['rideDistance'] == 0]), 100*len(data1[data1['rideDistance']==0])/len(train)))

## Построим график распределения пройденных расстояний на транспорте 99% игроков
Используем график distplot и данные 99% квантиля (pandas.DataFrame.quantile)

In [0]:
data4 = train.copy()
data.loc[data4['rideDistance'] < data4['rideDistance'].quantile(0.99)]
plt.figure(figsize=(13,10))
plt.title("Распределение пройденной расстояний",fontsize=20)
sns.distplot(data4['rideDistance'])
plt.show()

## Так же выведем график соотношения процента выигрыша к пройденному на транспорте расстоянию (winPlacePerc vs rideDistance)
Используем график jointplot, нужно задать размеры графика и цвет. Из графика будет видно, что существует небольшая корреляция между rideDistance и winPlacePerc.

In [0]:
sns.jointplot(x="winPlacePerc", y="rideDistance", data=train, height=8, ratio=5, color="b")
plt.show()

## Уничтожение транспорта
Уничтожение транспорта, скорее всего, показывает, что у игрока есть какие-то навыки. Давайте проверим это. Используем график pointplot, где x='vehicleDestroys', y='winPlacePerc'. С помощью функций matplotlib: xlabel и ylabel нужно задать названия координатным осям. С помощью title задать заголовок, а функцией grid отобразить сетку.

In [0]:
plt.subplots(figsize =(15,10))
sns.pointplot(x='vehicleDestroys',y='winPlacePerc',data=data,color='b',alpha=0.8)
plt.xlabel('Кол-во уничтоженных автомобилей',fontsize = 15)
plt.ylabel('Процент побед',fontsize = 15)
plt.title('Транспорт уничтожен / коэффициент победы',fontsize = 15)
plt.grid()
plt.show()

## Изучим ситуации лечения аптечками и приём энергетиков
Впишите нужный код в ... в строках ниже.

In [0]:
print("В среднем игрок использует {:.1f} лечащих предметов, 99% всех игроков использует {} или менее, в то время как 'медик' использует {}".format(train['heals'].mean(), train['heals'].quantile(0.99), train['heals'].max()))
print("В среднем игрок использует {:.1f} энергетиков, 99% всех игроков использует {} или менее, в то время как 'студент в сессию' использует {}".format(train['revives'].mean(), train['revives'].quantile(0.99), train['revives'].max()))

## Проверим соотношение количества приёма аптечек и энергетиков к проценту побед
Построим два графика вместе на одной диаграмме. Используем функцию seaborn.pointplot. Каждому графику нужно задать разные цвета.

In [0]:
data = train.copy()
data5 = data[data['heals'] < data['heals'].quantile(0.99)]
data6 = data[data['revives'] < data['revives'].quantile(0.99)]
plt.subplots(figsize =(15,13))
sns.pointplot(x='heals',y='winPlacePerc',data=data,color='red',alpha=0.8)
sns.pointplot(x='revives',y='winPlacePerc',data=data,color='green',alpha=0.8)
plt.xlabel('Количество исцеляющих/оживляющих предметов',fontsize = 15,color='black')
plt.ylabel('Процент побед',fontsize = 15,color='black')
plt.title('Аптечки vs энергетики',fontsize = 15,color='black')
plt.grid()
plt.show()

## Выведем график соотношения процента выигрыша к использованным аптечкам  (winPlacePerc vs heals)
Используем график jointplot, нужно задать размеры графика и цвет.

In [0]:
sns.jointplot(x="winPlacePerc", y="heals", data=train, height=8, ratio=5, color="black")
plt.show()

## Выведем график соотношения процента выигрыша к использованным энергетикам  (winPlacePerc vs boosts)
Используем график jointplot, нужно задать размеры графика и цвет.

In [0]:
sns.jointplot(x="winPlacePerc", y="boosts", data=train, height=8, ratio=5, color="g")
plt.show()

Таким образом, лечение и употребление энергетиков, безусловно, связано с winPlacePerc. Энергетики - больше. На каждом графике наблюдается аномальное поведение, когда значения равны 0.

## Игра в одиночку, в паре, в отряде

В игре 3 режима игры. Можно играть в одиночку, с другом (duo), или с 3 другими друзьями (squad). 100 игроков присоединяются к одному и тому же серверу, поэтому в случае игр в паре максимальное количество команд составляет 50, а в случае отрядов - максимум 25. Впишите нужный код в ... в строках ниже.

In [0]:
solos = train[train['numGroups']>50]
duos = train[(train['numGroups']>25) & (train['numGroups']<=50)]
squads = train[train['numGroups']<=25]
print("В датасете имеется {} ({:.2f}%) игр в одиночку, {} ({:.2f}%) игр в паре и {} ({:.2f}%) игр в отрядах."
.format(len(solos), 100*len(solos)/len(train), len(duos), 100*len(duos)/len(train), len(squads), 100*len(squads)/len(train),))

## Построим график зависимости размера команды от процента побед
Построим три графика вместе на одной диаграмме. Используем функцию seaborn.pointplot. Каждому графику нужно задать разные цвета. С помощью функции myplotlib.text можно разместить на графике текст названия линии. https://matplotlib.org/3.1.1/tutorials/text/text_intro.html

График покажет, что игры в одиночку и в паре ведут себя одинаково, но при игре в отряде убийства не имеют большого значения для победы.


In [0]:
plt.subplots(figsize =(16,10))
sns.pointplot(x='kills',y='winPlacePerc',data=solos,color='black',alpha=0.8)
sns.pointplot(x='kills',y='winPlacePerc',data=duos,color='g',alpha=0.8)
sns.pointplot(x='kills',y='winPlacePerc',data=squads,color='b',alpha=0.8)
plt.text(23,0.6,'Соло',color='black',fontsize = 15)
plt.text(23,0.55,'Дуэт',color='g',fontsize = 15)
plt.text(23,0.5,'Отряд',color='b',fontsize = 15)
plt.xlabel('Количество убийств',fontsize = 15,color='black')
plt.ylabel('Процент побед',fontsize = 15,color='black')
plt.title('Соло/Дуэт/Отряд Убийств',fontsize = 20,color='black')
plt.grid()
plt.show()

## Изучим атрибут DBNOs 
Атрибут DBNOs означает, что вражеские игроки сбиты с ног (knock out, нокнуты). Нокаут может произойти только при игре в паре или в отрядах, потому что у товарищей по команде есть шанс «оживить» сбитого с ног игрока за определенное время. Таким образом, сбитый игрок может быть восстановлен или умереть, если товарищи не успели. Если он возродится, в следующий раз, когда он будет сбит, у его товарищей по команде будет меньше времени, чтобы оживить его. 

Атрибут revive (оживление) бывает в дуэтах или отрядах.

Атрибут assist также может произойти только в играх в паре или в отрядах. Обычно это означает, что игрок участвовал в убийстве противника.

Построим 6 графиков для атрибутов DBNOs, assists, revives для игры в паре и в отряде. Используем функции pointplot и text, например:

```
sns.pointplot(x='DBNOs',y='winPlacePerc',data=duos,color='#CC0000',alpha=0.8)
...
plt.text(14,0.5,'Duos - Assists',color='#FF6666',fontsize = 17,style = 'italic')
...
```




In [0]:
solos = train[train['numGroups']>50]
duos = train[(train['numGroups']>25) & (train['numGroups']<=50)]
squads = train[train['numGroups']<=25]
plt.subplots(figsize =(15,10))

sns.pointplot(x='DBNOs',y='winPlacePerc',data=duos,color='b',alpha=0.8)
sns.pointplot(x='DBNOs',y='winPlacePerc',data=squads,color='black',alpha=0.8)
sns.pointplot(x='assists',y='winPlacePerc',data=duos,color='g',alpha=0.8)
sns.pointplot(x='assists',y='winPlacePerc',data=squads,color='yellow',alpha=0.8)
sns.pointplot(x='revives',y='winPlacePerc',data=duos,color='pink',alpha=0.8)
sns.pointplot(x='revives',y='winPlacePerc',data=squads,color='r',alpha=0.8)
plt.text(5,0.5,'Duos - Assists',color='b',fontsize = 13,style = 'italic')
plt.text(5,0.45,'Duos - DBNOs',color='black',fontsize = 13,style = 'italic')
plt.text(5,0.4,'Duos - Revives',color='g',fontsize = 13,style = 'italic')
plt.text(5,0.35,'Squads - Assists',color='yellow',fontsize = 13,style = 'italic')
plt.text(5,0.3,'Squads - DBNOs',color='pink',fontsize = 13,style = 'italic')
plt.text(5,0.25,'Squads - Revives',color='r',fontsize = 13,style = 'italic')
plt.xlabel('DBNOs,Assits,Revives',fontsize = 15,color='blue')
plt.ylabel('Процент побед',fontsize = 15,color='blue')
plt.title('DBNOs',fontsize = 20,color='blue')
plt.grid()
plt.show()

## Корреляция Пирсона между переменными
Построим тепловую карту корреляции, как на лабораторной работе, используя график heatmap и функцию pandas: corr(). Не забываем задать адекватные размеры графику. На нём видно, что c точки зрения целевой переменной (winPlacePerc), существует несколько переменных с высокой и средней корреляцией. Самая высокая положительная корреляция - это walkDistance, а наибольшая отрицательная - killPlace.

In [0]:
plt.subplots(figsize=(15, 10))
sns.heatmap(train.corr(), annot=True, linewidths=.5, fmt= '.1f')
plt.show()

## Давайте возьмём топ-5 переменных наиболее положительно коррелирующих с целевой переменной
... и отобразим вышеупомянутые переменные и переменную killPlace как пары на графиках типа seaborn.pairplot.



In [0]:
cols = ['winPlacePerc', 'walkDistance', 'boosts', 'weaponsAcquired', 'damageDealt', 'killPlace']
plt.subplots(figsize=(11, 11))
value=5
cols = train.corr().nlargest(value, 'winPlacePerc')['winPlacePerc'].index
value1 = np.corrcoef(train[cols].values.T)
value2 = sns.heatmap(value1, cbar=True, annot=True, square=True, fmt='.1f', annot_kws={'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
plt.show()

## Рассмотрим один пример Feature Engineering
[Feature Engineering
](https://en.wikipedia.org/wiki/Feature_engineering)

Создадим новый признак "killsPerWalkDistance". Изучите и запустите код ниже. Какой вывод можно из этого сделать? 0 метров пройдено пешком и множество убийств? Также есть случаи, когда winPlacePerc = 1. Это определённо читеры.


In [0]:
train['killsPerWalkDistance'] = train['kills']/(train['walkDistance']+1) # +1 - чтобы избежать возможного деления на 0
train['killsPerWalkDistance'].fillna(0, inplace=True)
train[['kills', 'walkDistance', 'rideDistance', 'killsPerWalkDistance', 'winPlacePerc']].sort_values(by='killsPerWalkDistance').tail(10)

Данный материал взят с этого блокнота Kaggle: https://www.kaggle.com/deffro/eda-is-fun/notebook. Изучите его, сравните с тем, что у вас получилось. Изучите материал раздела Feature Engineering, там больше примеров. Можно подсматривать в него в случае затруднений но, пожалуйста, не списывайте всё подчистую.
Другие блокноты с Kaggle по EDA:

*   https://www.kaggle.com/sudalairajkumar/simple-exploration-notebook-zillow-prize
*   https://www.kaggle.com/headsortails/be-my-guest-recruit-restaurant-eda
*   https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python
*   https://www.kaggle.com/kanncaa1/data-sciencetutorial-for-beginners
*   https://www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction
*   https://www.kaggle.com/artgor/eda-feature-engineering-and-everything


# Ссылки на литературу
1. [Шитиков В. К., Мастицкий С. Э., раздел: Основные шаги построения и верификации моделей](https://ranalytics.github.io/data-mining/021-Model-Quality-Criteria.html#sec_2_1)
1.   [What is Exploratory Data Analysis?](https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15)
1.   [Explore your Data: Exploratory Data Analysis](https://medium.com/data-science-everywhere/explore-your-data-exploratory-data-analysis-8b54dfdfb898)
1.   [Introduction to Exploratory Data Analysis (EDA)](https://medium.com/code-heroku/introduction-to-exploratory-data-analysis-eda-c0257f888676)
