## Библиотеки и настройки

In [None]:
# импорт библиотек

import pandas as pd # панды
pd.options.mode.chained_assignment = None  # отключаю предупреждения default='warn'
import numpy as np


import re # регулярки

import os # для работы с папками и файлами


import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='white')

import squarify 

import statistics
from scipy.stats import t
from scipy.stats import norm
from scipy import stats

from scipy.stats import pearsonr

from scipy.stats import shapiro
from scipy.stats import chi2_contingency

# для КА
from sklearn import preprocessing
from sklearn.cluster import KMeans

from scipy.spatial.distance import pdist
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster


import io
import requests
from IPython.display import Image

%matplotlib inline

In [None]:
# путь к файлам

file_path = 'C:/00_Projects/RIA/2022/02_elk_accidents/'

In [None]:
# вытаскиваю названия файлов в список file_list

file_list = []

for root, dirs, files in os.walk(file_path):
    
    for filename in files:
        file_list += [filename]

In [None]:
print(file_list)

In [None]:
# выгрузка файла в датафрейм

work = pd.read_excel(file_path + 'animal_accidents.xlsx', sheet_name='1_4_death_causes')

In [None]:
# количество строк и столбцов

work.shape

In [None]:
# типы данных

work.dtypes

In [None]:
# проверка на пустые значения

work.isnull().sum()

In [None]:
# меняю типы столбцов

work = work.astype({'region_code': 'int32', 'total': 'int32', 'year': 'object'})

In [None]:
work.sample()

#### Общее количество погибших животных

In [None]:
all_total_deaths = (work.groupby('animal', as_index=False)
                .agg({'total': 'sum', 'accident': 'sum', 'disease': 'sum',
                      'accident': 'sum', 'poaching': 'sum', 'other': 'sum'})
                .sort_values('accident', ascending=False)
               )

In [None]:
(all_total_deaths
 .head()
 #.to_excel(file_path + 'temp.xlsx', index=False)
)

In [None]:
total_deaths = (work.groupby('animal', as_index=False)
                .agg({'total': 'sum', 'accident': 'sum'})
                .sort_values('accident', ascending=False)
               )

In [None]:
total_deaths['accident_part'] = round((total_deaths.accident / total_deaths.total) * 100, 1)

In [None]:
(total_deaths[1:]
 .head()
#.to_excel(file_path + 'temp.xlsx', index=False)
)

In [None]:
# среднее

total_deaths_mean = (work.groupby('animal', as_index=False)
                .agg({'total': 'mean', 'accident': 'mean'})
                .sort_values('accident', ascending=False)
               )

In [None]:
total_deaths_mean['accident_part'] = round((total_deaths_mean.accident / total_deaths_mean.total) * 100, 1)

In [None]:
(total_deaths[1:]
 .head()
#.to_excel(file_path + 'temp.xlsx', index=False)
)

In [None]:
# медиана

total_deaths_median = (work.groupby('animal', as_index=False)
                .agg({'total': 'median', 'accident': 'median'})
                .sort_values('accident', ascending=False)
               )

In [None]:
(total_deaths_median[1:]
 .head()
#.to_excel(file_path + 'temp.xlsx', index=False)
)

#### Регионы, в которых гибнет больше всего лосей, кабанов и косуль

In [None]:
# выгрузка файла в датафрейм

work_most = pd.read_excel(file_path + 'animal_accidents.xlsx', sheet_name='most_dying')

In [None]:
work_most.shape

In [None]:
work_most.sample(3)

In [None]:
# доля смертей в ДТП и процент популяции

work_most['accident_part'] = work_most.accident / work_most.total

work_most['number_part'] = work_most.accident / work_most.mammal_number

In [None]:
region_animal_death = (work_most.groupby(['animal', 'region'], as_index=False)
                       .agg({'total': 'sum', 'accident': 'sum', 'mammal_number': 'sum'})
                       .sort_values('accident', ascending=False)
                      ).round(1)

In [None]:
region_animal_death['number_part'] = region_animal_death['accident'] / region_animal_death['mammal_number']

In [None]:
(region_animal_death
 .head(10)
 #to_excel(file_path + 'temp.xlsx', index=False)
)

### Топ видов, которые гибнут в ДТП по регионам

In [None]:
# оставляю только более-менее массово гибнущих животных

region_death_top = region_animal_death[region_animal_death.accident >= 50]

In [None]:
# нахожу животных, которые лидируют по смертям в ДТП

max_deaths = (region_death_top
              .groupby('region', as_index=False)
              .agg({'accident': 'max'})
             )

max_deaths['top_value'] = 1

region_death_top = region_death_top.merge(max_deaths, how='left', on=['region', 'accident'])

In [None]:
# нахожу второе место

temp_second = region_death_top[region_death_top.top_value != 1].iloc[:, :6] # убираю 1 место и столбец top_value

max_deaths = (temp_second
              .groupby('region', as_index=False)
              .agg({'accident': 'max'})
             )

max_deaths['second_value'] = 2

region_death_top_2 = temp_second.merge(max_deaths, how='left', on=['region', 'accident'])

region_death_top_2 = region_death_top_2[region_death_top_2.second_value == 2].iloc[:, :6]

region_death_top_2.columns=['second_animal', 'region', 'second_total', 'second_accident', 'second_number', 'second_np']

In [None]:
# присоединяю к первому месту второе 

region_death_top = region_death_top[region_death_top.top_value == 1].iloc[:, :6]
region_death_top.columns=['first_animal', 'region', 'first_total', 'first_accident', 'first_number', 'first_np']
region_death_top = region_death_top.merge(region_death_top_2, how='left', on='region')

In [None]:
region_death_top = region_death_top[['region', 'first_animal', 'first_total',
                                     'first_accident', 'first_np',                                     
                                     'second_animal', 'second_total',
                                     'second_accident', 'second_np']]

In [None]:
(region_death_top
 .head(10)
 #.to_excel(file_path + 'temp.xlsx', index=False)
)

### Регионы, в которых лосей гибнет больше всего

In [None]:
elks = work_most[work_most['animal'] == 'Лось']

In [None]:
elks.head(3)

In [None]:
# ДТП по регионам за все 6 лет

elk_region_accidents = (elks.groupby(['region'], as_index=False)
 .agg({'total': 'sum', 'accident': 'sum', 'accident_part': 'mean', 'number_part': 'mean', 'mammal_number': 'sum'})
 .sort_values('accident_part', ascending=False)        )

In [None]:
# доля смертей в ДТП и процент популяции

elk_region_accidents['accident_part_2'] = elk_region_accidents.accident / elk_region_accidents.total

elk_region_accidents['number_part_2'] = elk_region_accidents.accident / elk_region_accidents.mammal_number

In [None]:
(elk_region_accidents
 .head()
 #.to_excel(file_path + 'temp.xlsx', index=False)
)

In [None]:
elk_region_accidents[elk_region_accidents.accident >= 50].accident.median()

### Самые опасные регионы для лосей

In [None]:
elks.sort_values(['region', 'year']).head(3)

In [None]:
# ДТП по регионам по годам абсолютные

# elks_death_years = 
(elks.groupby(['region', 'year'], as_index=False)
 .agg({'total': 'sum', 'accident': 'sum'})
 #.sort_values('region', #ascending=False)
        )#.to_excel(file_path + 'temp.xlsx', index=False)

In [None]:
# ДТП по регионам по годам относительные

# elks_death_years = 
(elks.groupby(['region', 'year'], as_index=False)
 .agg({'number_part': 'sum'})
 #.sort_values('region', #ascending=False)
        ).to_excel(file_path + 'temp.xlsx', index=False)



#### Смерть кабанов

In [None]:
hogs = work_most[work_most['animal'] == 'Кабан']

In [None]:
# кабаньи ДТП по регионам по годам абсолютные

# hogs_death_years = 
(hogs.groupby(['region', 'year'], as_index=False)
 .agg({'total': 'sum', 'accident': 'sum'})
 #.sort_values('region', #ascending=False)
        )#.to_excel(file_path + 'temp.xlsx', index=False)

In [None]:
# кабаньи ДТП по регионам по годам относительные

# hogs_death_years = 
(hogs.groupby(['region', 'year'], as_index=False)
 .agg({'number_part': 'sum'})
 #.sort_values('region', #ascending=False)
        )#.to_excel(file_path + 'temp.xlsx', index=False)

#### Смерть и популяция

In [None]:
elks.sample()

In [None]:
(elks
 .groupby('year', as_index=False)
 .agg({'accident': 'sum', 'mammal_number': 'sum'})
).to_excel(file_path + 'temp.xlsx', index=False)

#### Кореляция между плотностью дорог и гибелью

In [None]:
work_most.sample(2)

#### Все данные

In [None]:
# плостность дорог

x = work_most[work_most.accident > 50].accident
y = work_most[work_most.accident > 50].highway_density

corr, p_value = pearsonr(x, y)
plt.scatter(x, y, marker='.')
print('Коэффициент корреляции Пирсона:', corr)

In [None]:
# плотность населения

x = work_most[work_most.accident > 50].accident
y = work_most[work_most.accident > 50].population_density

corr, p_value = pearsonr(x, y)
plt.scatter(x, y, marker='.')
print('Коэффициент корреляции Пирсона:', corr)

In [None]:
# количество авто

x = work_most[work_most.accident > 50].accident
y = work_most[work_most.accident > 50].auto_number

corr, p_value = pearsonr(x, y)
plt.scatter(x, y, marker='.')
print('Коэффициент корреляции Пирсона:', corr)

#### Лоси

In [None]:
# плотность населения

x = elks[elks.accident > 50].accident
y = elks[elks.accident > 50].population_density

corr, p_value = pearsonr(x, y)
plt.scatter(x, y, marker='.')
print('Коэффициент корреляции Пирсона:', corr)

In [None]:
# плотность дорог

x = elks[elks.accident > 50].accident
y = elks[elks.accident > 50].highway_density

corr, p_value = pearsonr(x, y)
plt.scatter(x, y, marker='.')
print('Коэффициент корреляции Пирсона:', corr)

In [None]:
# количество автомобилей

x = elks[elks.accident > 50].accident
y = elks[elks.accident > 50].auto_number

corr, p_value = pearsonr(x, y)
plt.scatter(x, y, marker='.')
print('Коэффициент корреляции Пирсона:', corr)

In [None]:
coef, p = stats.spearmanr(x, y)
print('Spearmans correlation coefficient: %.3f' % coef)

coef, p = stats.kendalltau(x, y)
print('Kendall correlation coefficient: %.3f' % coef)

## dtp-stat

In [None]:
work_dtp = pd.read_excel('C:/00_Projects/RIA/2022/02_elk_accidents/dtp_stat.xlsx', sheet_name='data')

In [None]:
work_dtp[work_dtp.role == 'Водитель'].shape

In [None]:
work_dtp[(work_dtp.role == 'Водитель') &
         (work_dtp.violations == 'none')].shape

In [None]:
round(426 / 1952, 2)

In [None]:
round(203 / 1952, 2)

In [None]:
680 / 1952

In [None]:
list_violations = work_dtp[work_dtp.role == 'Водитель'].violations.to_list()

In [None]:
list_violations = list(set(list_violations))

In [None]:
new_list_violations = []

for item in list_violations[1:]:
    new_list_violations += item.split(';')

In [None]:
new_list_violations = list(set(new_list_violations))

In [None]:
len(new_list_violations)

In [None]:
new_list_violations