# Исследовательский анализ данных (EDA)

Исследовательский (разведочный) анализ данных (англ. exploratory data analysis, EDA) — анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей, зачастую с использованием инструментов визуализации.


## Навигация:
* [Библиотека Matplotlib](#1)
* [Линейный график](#2)
* [Столбчатые диаграммы](#3)
* [Исследовательский анализ данных (EDA)](#4)


# <a class="anchor" id="1"></a> Библиотека Matplotlib

 Matplotlib - это библиотека двумерной графики для языка программирования python с помощью которой можно создавать высококачественные рисунки различных форматов.<br>
 Matplotlib  cостоит из множества модулей. Модули наполнены различными классами и функциями, которые иерархически связаны между собой.

Рисунок (Figure) является объектом самого верхнего уровня, на котором располагаются одна или несколько областей рисования (Axes).<p>
Область рисования (Axes) является объектом среднего уровня. Это часть изображения с пространством данных. Каждая область рисования Axes содержит две (или три в случае трёхмерных данных) координатных оси (Axis объектов), которые упорядочивают отображение данных.<p>
Координатная ось (Axis) являются объектом среднего уровня, которые определяют область изменения данных, на них наносятся деления ticks и подписи к делениям ticklabels.<p>
Всё, что отображается на рисунке является элементом рисунка (Artist), в том числе объекты Figure, Axes и Axis. Элементы рисунка Artists включают в себя такие простые объекты как текст (Text), плоская линия (Line2D), фигура (Patch) и другие.<p>


![](https://raw.githubusercontent.com/vkv82/Lesson/main/structure.jpg) 


Для работы с графиками импортируем модуль <code>pyplot</code> из библиотеки Matplotlib. Модуль уже содержит все готовые решения для комфортной работы.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Литература:

Официальный сайт Matplotlib https://matplotlib.org/ <br>
Книга “Библиотека Matplotlib” https://devpractice.ru/files/books/python/Matplotlib.book.pdf  
Метод plot в pandas: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html  

In [None]:
import matplotlib
print (matplotlib.__version__)

In [None]:
#pip install -U matplotlib

In [None]:
#pip install  matplotlib

## <a class="anchor" id="2"></a> Линейный график

Как правило, визуализируют уже агрегированные данные.
Допустим, у нас имеется готовый датафрейм, в котором представлено число заказов и возвратов по дням недели.


In [None]:
df = pd.DataFrame({'day': ['M', 'TU', 'W', 'TH', 'F'],
                   'order': [20, 15, 24, 30, 8],
                   'return': [0, 3, 7, 4, 0]}
                 )
df


Вызовем метод <code>plot()</code>.
Метод  <code>plot()</code> имеет огромное количество параметров, подробнее с которыми можно ознакомиться в документации.
<br>
Остановимся на ключевых параметрах.


In [None]:
df.plot()

Мы вызвали метод plot в датафрейму и не указали никаких аргументов. Что произошло?

Метод plot() построил графики по значениям столбцов из датафрейма, которые определил как числовые  (столбцы order и return). <br>
Ось абсцисс (x) - <b>индексы</b>, <br>
Ось ординат (y) - значения столбцов  order и return.

Очевидно, что индексы, в данном случае нам не интересны.
Передадим методу plot параметы оси x

In [None]:
df.plot(x='day')

Допустим, нас не интересуют возвраты, тогда укажем параметры и по оси y.

In [None]:
df.plot(x='day', y='order')

Если, числовых столбцов много а отобразить нужно не один, но и не все, то можно передать список.

In [None]:
# допишите код
df.plot(x='day', y=['order', 'return'])

Зададим стиль отображения графика, параметром style

In [None]:
df.plot(x='day', y=['order', 'return'], style='o-') # Другие варианты style: x,o,bo

Добавим сетку, она упрощает визуализацию. Передадим параметру <code>grid</code> аргумент <code>True</code>, по умолчанию <code>False</code>.

In [None]:
df.plot(x='day', y=['order', 'return'], style='o-', grid=True)

Уже симпатично, но мелковато, укажем размер области построения <code>figsize = (x_max, y_max)</code>

In [None]:
df.plot(x='day', y=['order', 'return'], style ='o-', grid=True, figsize=(10, 6))

Можно указать числовые границы по осям, например  <code>ylim = (y_min,y_max) ,  xlim = (x_min,x_max)</code>

In [None]:
df.plot(x='day', y=['order', 'return'], style ='o-', grid=True, figsize=(10, 6), ylim=(0, 40))

Добавим название графика:<br>
<code>title='value'</code> и подписи осей <code>xlabel='value',  ylabel='value'</code>

In [None]:
# допишите код
df.plot(x=
        y=
        style=,
        grid=
        figsize=
        ylim=
        title=
        ylabel=
        xlabel=
       )

plt.savefig('my_first_grafik.jpg')

Подведем итог:


График отображает динамику количества заказов и возвратов в рабочие дни в зависимости от дня недели с помощью точек, соединенных линиями.

- x - ось X (горизонтальная) - это колонка 'day' из DataFrame df.
- y - список осей Y (вертикальных) - это колонки 'order' и 'return' из DataFrame df.
- style - стиль линии графика ('o-' означает "точки соединенные линиями").
- grid - параметр, отвечающий за отображение сетки на графике (True - отображать, False - не отображать).
- figsize - размер графика в дюймах (ширина, высота) в соответствии с выбранным масштабом.
- ylim - ограничивает максимальное и минимальное значение по оси Y.
- title - заголовок графика.
- ylabel - подпись по оси Y.
- xlabel - подпись по оси X.



<blockquote>Метод <code>plt.savefig()</code> позволяет сохранить рисунок.


## <a class="anchor" id="3"></a> Столбчатые диаграммы

Для построения графиков с использованием категориальных переменных,  используют столбчатые диаграммы.<br>
При пострении линейного графика мы не указывали параметр kind='тип_графика'. По умолчанию значение = line <br>
Для построения столбчатых диаграмм указывают параметр:<br>
<code>kind='bar'</code> для вертикальной ориентации<br>
<code>kind='barh'</code> для горизонтальной ориентации<br>


Построим столбчатую диаграмму распредления числа заказов по дням.

In [None]:
df.plot(kind='bar',
        x='day',
        y='order')

Изменим параметр kind = barh для горизонтального отображения

In [None]:
df.plot(kind='barh',
        x='day',
        y='order')

Добавим возвраты

In [None]:
df.plot(kind='barh',
        x='day',
        y=['order','return'])

Для построения диаграммы с накоплениями используйте параметр <code>stacked=True</code>

Можно отобразить данные на двух графиках, для этого необходимо параметру <code>subplots</code> передать аргумент <code>True</code>

In [None]:
df.plot(kind='barh',
        x='day',
        y=['order', 'return'],
        subplots=True,
        figsize=(8, 8),
        title=['Заказы', 'Возвраты'],
        legend=False) # Убираем легенду

plt.show() # Убираем информацию об объетах

В примере дней всего 5,  если значений много, то такое отображение не слишком удобно.<br>
Можно применить сортировку.

In [None]:
df.sort_values(by='order', ascending=True).plot(kind='barh', x='day', y='order')
plt.show()


Теперь наглядно видно, в какой день заказов было больше всего.

В  версиях Matplotlib ниже 3.4.3 отсутствовала возможность вывода значения баров на график с помощью готового решения.
По этой проблеме огромное число вопросов/ответов на https://stackoverflow.com/ и других ресурсах. Некоторые решения, действительно, виртуозны.
У нас нет необходимости пополнять коллекцию виртуозных решений, будем использовать готовое решение, а сэкономленные время и нервы потратим с пользой.

Для отображения значений используем <code>bar_label(ax.containers[0])</code>, предварительно поместив график в переменную ax.

In [None]:
ax = df.plot(kind='bar', x='day', y='order')
ax.bar_label(ax.containers[0])
plt.show()

Вызываем метод bar_label объекта Axes для добавления числовой метки к каждому бару на диаграмме. В ax.containers[0]  получаем первый контейнер объекта BarContainer, который содержит все бары на диаграмме, и передаем его в bar_label, чтобы добавить метки.

Добавим возвраты на диаграмму.

In [None]:
ax = df.plot(kind='bar',
             x='day',
             y=['order', 'return'])

Для отображения значений баров c N-столбцами используем цикл

In [None]:
ax = df.plot(kind='bar',
             x='day',
             y=['order','return'])

for container in ax.containers:
    plt.bar_label(container)

Линейные графики и столбчатые диаграммы теперь в нашем арсенале, вернемся к датасету.

## <a class="anchor" id="4"></a> Исследовательский анализ данных (EDA)

Расшифровка полей:
<li>'reg_code' - код региона 
<li>'рregion_name' - название региона
<li>'road_code' - код дороги
<li>'road_name' -  название дороги
<li>'road_type' - тип дороги
<li>'address' -  Адрес
<li>'crash_type_name' - тип ДТП
<li>'crash_date' - дата ДТП
<li>'crash_time' - время ДТП
<li>'crash_reason' - причина ДТП
<li>'fatalities_amount' - число погибших
<li>'victims_amount' - число пострадавших
<li>'vehicles_amount' - число транспортных средств
<li>'participants_amount' - число участников
<li>'datetime' - дата и время ДТП
<li>'crash_date_day' - день недели
<li>''wait_time' - время ожидания в минутах

<b>Задача</b><br>
Для составления аналитического отчета о безопасности дорог в РФ и принятию управленческих решений о планировании модернизации дорожной сети необходимо исследовать и подготовить данные по вопросам:
1. Найти регионы с наибольшей аварийностью.
2. Определить распределение числа ДТП по типам дорог, по видам ДТП.
3. Исследовать зависимость числа ДТП от дня недели.
4. Определить регионы с наибольшей аварийностью, числом погибших, пострадавших, участников ДТП.
5. Исследовать время ожидания сотрудников ДПС.
6. Исследовать число участников ДТП.
7. Исследовать ДТП в ночное время суток.
8. Определить наиболее опасные дороги.




<b>1. Регионы с наибольшей аварийностью

Загружаем файл <code>dtp_good.xlsx</code>

In [None]:
data = pd.read_excel('dtp_good.xlsx')

In [None]:
# общая информация


In [None]:
# первые три строки

На этапе предобработки данные были подготовлены для исследования, были добавлены новые столбцы с датой и временем и днем недели.
<i>Сколько всего случаев ДТП?

In [None]:
# размер датасета


Посмотрим как они распределены по регионам

In [None]:
dtp_count = data['region_name'].value_counts().sort_values(ascending=True)
dtp_count

Визуализируем данные

Здесь лучше всего подойдет горизонтальная или столбчатая диаграмма.

In [None]:
# допишите код
dtp_count.tail(10).plot(kind=
                        figsize=
                        title='
                        legend=
                       )
plt.show()

График информативен, добавим в <code>dtp_count</code> относительные значения.

In [None]:
dtp_count = data['region_name'].value_counts().sort_values(ascending=True).reset_index()
dtp_count.columns = ['region_name', 'dtp_count']

# допишите код
dtp_count['perc'] = 

In [None]:
dtp_count

In [None]:
# Дополнительно
# Можно вспомнить и про value_counts(normalize=True), тогда код будет выглядеть чуть иначе. 

#dtp_count = (data['region_name'].value_counts(normalize=True)
#             .sort_values(ascending=True)
#             .reset_index())
          
#dtp_count.columns = ['region_name', 'perc']
#dtp_count['perc'] = dtp_count['perc'] * 100

Реализуем график, добив относительные значения в процентах.

In [None]:
# допишите код
ax = dtp_count.tail(10).plot(kind =
                             figsize=
                             title =
                             legend =
                             x=
                             y=)

ax.bar_label(ax.containers[0], fmt='%.2f%%',padding=3) #padding-отступ,  fmt # '{:,.2f}'
plt.show()

В лидерах вовсе не Москва и не Санкт-Петербург, как мы могли предположить. Неожиданный результат всегда настораживает, возможно в данных есть ошибка или аномалии, которые не были обнаружены на этапе предобработки, а может быть с данным все в порядке и продолжив исследование мы найдем причину.

<h4> Задание_1

<b>2. Определить распределение числа ДТП по типам дорог, по видам ДТП.

2.1  Постройте столбчатую диаграмму числа ДТП по типам дорог.<br>
2.2  Постройте столбчатую диаграмму числа ДТП по видам ДТП, оставьте топ-5.





<b>3. Исследовать зависимость числа ДТП от дня недели.

Постройте линейный график числа ДТП по дням недели (от понедельника к воскресенью). 
Добавьте подписи осей, сетку, установите стиль отображения.

In [None]:
#3
days = ['Понедельник', 'Вторник', 'Среда', 'Четверг', 'Пятница', 'Суббота', 'Воскресенье']


<b>4. Определить регионы с наибольшей аварийностью, числом погибших, пострадавших, участников ДТП.

Определите топ-5 регионов с наибольшим среднем значением числа погибших, числа пострадаших, числа транспортных средств, числа участников. Выведите на экран сводные таблицы и столбчатые диаграммы в цикле. Дополните код выводом названий графиков на русском языке.


In [None]:
#4 без заголовков


In [None]:
#4 с заголовками
