## Библиотеки и настройки

In [83]:
# импорт библиотек

import pandas as pd # панды
pd.options.mode.chained_assignment = None  # отключаю предупреждения default='warn'


import re # регулярки

import os # для работы с папками и файлами


import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='white')

import squarify 

import statistics
from scipy.stats import t
from scipy.stats import norm
from scipy import stats

from scipy.stats import pearsonr
from scipy.stats import shapiro
from scipy.stats import chi2_contingency

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report


import io
import requests
from IPython.display import Image

%matplotlib inline

In [2]:
# путь к файлам

file_path = 'C:/00_Projects/RIA/2022/02_elk_accidents/'

In [3]:
# вытаскиваю названия файлов в список file_list

file_list = []

for root, dirs, files in os.walk(file_path):
    
    for filename in files:
        file_list += [filename]

In [4]:
print(file_list)

['animal_accidents.xlsx', 'bears.xlsx', 'bear_deaths.xlsx', 'fo_viz.xlsx', 'regions.xlsx', 'RF_regions.xlsx', 'temp.xlsx', '~$animal_accidents.xlsx', 'road_length.xls', 'animal_accidents_original.xlsx', 'mammals_dynamics_flat.xlsx', 'mammals_dynamics_original.xlsx', 'mammals_flat.xlsx', 'mammals_original.xlsx', 'moscow_animals.xlsx', '2011 формы 1.1 и  1.4.xls', '2012 формы 1.1 и 1.4.xls', '2013 формы 1.1 и 1.4.xls', '2014 формы 1.1 и 1.4.xls', '2015 формы 1.1 и 1.4.xls', '2016 формы 1.1 и 1.4.xls', '2017 формы 1.1 и 1.4.xls', '2018 формы 1.1 и 1.4.xlsx', '2019 формы 1.1 и 1.4.xlsx', '2020 формы 1.1 и 1.4.xlsx', 'Форма 1.7 Итог.xlsx', 'elks_old.csv', 'new_bears.csv', 'new_elks.csv']


In [5]:
# выгрузка файла в датафрейм

work = pd.read_excel(file_path + 'animal_accidents.xlsx', sheet_name='regions')

In [6]:
work.sample()

Unnamed: 0,region_code,federal_disrict,region,year,animal,total,disease,accident,poaching,other
1223,34,Южный ФО,Волгоградская область,2015,Сибирский горный козел,0,0,0,0,0


In [7]:
# количество строк и столбцов

work.shape

(8670, 10)

In [8]:
# типы данных

work.dtypes

region_code         int64
federal_disrict    object
region             object
year                int64
animal             object
total               int64
disease             int64
accident            int64
poaching            int64
other               int64
dtype: object

In [9]:
# проверка на пустые значения

work.isnull().sum()

region_code        0
federal_disrict    0
region             0
year               0
animal             0
total              0
disease            0
accident           0
poaching           0
other              0
dtype: int64

In [10]:
# меняю типы столбцов

work = work.astype({'region_code': 'int32', 'total': 'int32', 'year': 'object'})

In [11]:
# удаляю медведей

#work = work[work.animal != 'Медведи']

In [12]:
work.sample()

Unnamed: 0,region_code,federal_disrict,region,year,animal,total,disease,accident,poaching,other
5371,17,Сибирский ФО,Республика Тыва,2018,Сайгак,0,0,0,0,0


#### Общее количество погибших животных

In [19]:
total_deaths = (work.groupby('animal', as_index=False)
                .agg({'total': 'sum', 'accident': 'sum'})
                .sort_values('accident', ascending=False)
               )

In [20]:
total_deaths['accident_part'] = round((total_deaths.accident / total_deaths.total) * 100, 1)

In [23]:
total_deaths[1:].head()

#.to_excel(file_path + 'temp.xlsx', index=False)

Unnamed: 0,animal,total,accident,accident_part
8,Лось,17470,8943,51.2
6,Косули,11595,1870,16.1
4,Кабан,6669,1309,19.6
0,Благородный олень,1066,69,6.5
11,Пятнистый олень,159,66,41.5


In [24]:
# среднее

total_deaths_mean = (work.groupby('animal', as_index=False)
                .agg({'total': 'mean', 'accident': 'mean'})
                .sort_values('accident', ascending=False)
               )

In [25]:
total_deaths_mean['accident_part'] = round((total_deaths_mean.accident / total_deaths_mean.total) * 100, 1)

In [30]:
total_deaths[1:].head()

#.to_excel(file_path + 'temp.xlsx', index=False)

Unnamed: 0,animal,total,accident,accident_part
8,Лось,17470,8943,51.2
6,Косули,11595,1870,16.1
4,Кабан,6669,1309,19.6
0,Благородный олень,1066,69,6.5
11,Пятнистый олень,159,66,41.5


In [27]:
# медиана

total_deaths_median = (work.groupby('animal', as_index=False)
                .agg({'total': 'median', 'accident': 'median'})
                .sort_values('accident', ascending=False)
               )

In [31]:
total_deaths_median[1:].head()

#.to_excel(file_path + 'temp.xlsx', index=False)

Unnamed: 0,animal,total,accident
8,Лось,10,2
9,Муфлон,0,0
15,Снежный баран,0,0
14,Сибирский горный козел,0,0
13,Серна,0,0


#### Количество смертей по регионам

In [84]:
# выгрузка файла в датафрейм

work_most = pd.read_excel(file_path + 'animal_accidents.xlsx', sheet_name='most_dying')

In [85]:
work_most.head()

Unnamed: 0,region_code,federal_disrict,region,year,animal,total,disease,accident,poaching,other,number,number_di,road_length
0,28,Дальневосточный ФО,Амурская область,2015,Благородный олень,2,0,0,2,0,18829.0,18829,16335.2
1,28,Дальневосточный ФО,Амурская область,2016,Благородный олень,0,0,0,0,0,23683.0,23523,16362.8
2,28,Дальневосточный ФО,Амурская область,2017,Благородный олень,0,0,0,0,0,20931.0,21126,16241.9
3,28,Дальневосточный ФО,Амурская область,2018,Благородный олень,5,0,0,4,1,19201.0,19201,16463.4
4,28,Дальневосточный ФО,Амурская область,2019,Благородный олень,6,0,0,6,0,21678.0,21678,16296.2


In [48]:
# ДТП по регионам

total_deaths_region = (work_most.groupby(['animal', 'region'], as_index=False)
                       .agg({'total': 'sum', 'accident': 'sum'})
                       .sort_values('accident', ascending=False)
                      )

In [49]:
total_deaths_region['accident_part'] = round((total_deaths_region.accident / total_deaths_region.total) * 100, 1)

In [50]:
(total_deaths_region
 .head(15)
#.to_excel(file_path + 'temp.xlsx', index=False)
)

Unnamed: 0,animal,region,total,accident,accident_part
284,Лось,Московская область,1179,997,84.6
281,Лось,Ленинградская область,977,813,83.2
327,Лось,Удмуртская Республика,1752,756,43.2
320,Лось,Смоленская область,1025,665,64.9
336,Лось,Ярославская область,1169,663,56.7
263,Лось,Вологодская область,880,611,69.4
294,Лось,Пермский край,1083,485,44.8
319,Лось,Свердловская область,888,385,43.4
323,Лось,Тверская область,665,352,52.9
234,Косули,Свердловская область,955,340,35.6


In [51]:
# ДТП по регионам, среднее

total_deaths_region_mean = (work_most.groupby(['animal', 'region'], as_index=False)
                       .agg({'total': 'mean', 'accident': 'mean', 'number': 'mean'})
                       .sort_values('accident', ascending=False)
                      )

In [57]:
total_deaths_region_mean['accident_part'] = round((total_deaths_region_mean.accident / total_deaths_region_mean.total) * 100, 1)

total_deaths_region_mean['number_part'] = round((total_deaths_region_mean.accident / total_deaths_region_mean.number) * 100, 1)

In [81]:
(total_deaths_region_mean.round(1)
 .head(15)
 #.to_excel(file_path + 'temp.xlsx', index=False)
)

Unnamed: 0,animal,region,total,accident,number,accident_part,number_part
284,Лось,Московская область,196.5,166.2,10306.3,84.6,1.6
281,Лось,Ленинградская область,162.8,135.5,18375.5,83.2,0.7
327,Лось,Удмуртская Республика,292.0,126.0,18380.8,43.2,0.7
320,Лось,Смоленская область,170.8,110.8,19429.5,64.9,0.6
336,Лось,Ярославская область,194.8,110.5,21646.0,56.7,0.5
263,Лось,Вологодская область,146.7,101.8,44180.2,69.4,0.2
294,Лось,Пермский край,180.5,80.8,37331.5,44.8,0.2
319,Лось,Свердловская область,148.0,64.2,43146.2,43.4,0.1
323,Лось,Тверская область,110.8,58.7,28698.7,52.9,0.2
234,Косули,Свердловская область,159.2,56.7,38323.0,35.6,0.1


In [None]:
region_deaths = (work.groupby(['animal', 'region'], as_index=False)
                .agg({'total': 'sum', 'accident': 'sum'})
                .sort_values('total', ascending=False)
               )

In [None]:
region_deaths.shape

In [None]:
# удаляю сумму по копытным

region_deaths = region_deaths[region_deaths['animal'] != 'Все копытные']

In [None]:
region_deaths.shape

In [None]:
region_deaths['accident_part'] = round((region_deaths.accident / region_deaths.total) * 100, 1)

In [None]:
region_deaths = region_deaths.sort_values('accident_part', ascending=False)

In [None]:
region_deaths