In [None]:
import pandas as pd
import numpy as np
import os
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

In [None]:
df = pd.read_csv('data_clean/emergency_situations.csv')

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.info()

In [None]:
df.isna().sum()

In [None]:
df['timeIsoStr'] = pd.to_datetime(df['timeIsoStr'])

In [None]:
df['timeIsoStr'].agg(['min', 'max'])

In [None]:
# блокировка
df['isBlocking'].unique()

In [None]:
df['isBlocking'].value_counts()

In [None]:
df[df['isBlocking'] == True][['iscity', 'region', 'name', 'timeIsoStr', 'membership', 'lat', 'lon', 'state']]

In [None]:
df['membership'][342009]

In [None]:
df['membership'][387556]

In [None]:
# опасность
df['isDanger'].unique()

In [None]:
df['isDanger'].value_counts()

In [None]:
df[df['isDanger'] == True][['iscity', 'region', 'name', 'timeIsoStr', 'membership', 'lat', 'lon', 'state']]

In [None]:
df['responseStatus'].value_counts()

In [None]:
df.query('responseStatus == 0')[['iscity', 'region', 'name', 'timeIsoStr', 'membership', 'lat', 'lon', 'state']] \
  .sort_values(by=['timeIsoStr', 'lat'])

In [None]:
plt.figure(figsize=(8,8))
sns.countplot(y = 'region' , hue='iscity' ,order=df['region'].value_counts().iloc[:10].index, data = df) \
.set_title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.xlabel('количество полифакторных ЧС', fontsize=10)
plt.ylabel('')
plt.legend(loc='center right')
plt.show()

In [None]:
df[df['region'].isin(['Саратов', 'Воронеж'])]['region'].value_counts()

In [None]:
df[df['region'].isin(['Саратов', 'Воронеж'])][['region', 'name', 'timeIsoStr', 'membership', 'lat', 'lon', 'state']]

In [None]:
plt.figure(figsize=(8,8))
sns.countplot(y = 'name', order=df['name'].value_counts().iloc[:10].index, data = df) \
.set_title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.xlabel('количество полифакторных ЧС', fontsize=10)
plt.ylabel('')
plt.show()

In [None]:
plt.figure(figsize=(8,8))
sns.countplot(y = 'type', order=df['type'].value_counts().iloc[:10].index, data = df) \
.set_title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.xlabel('количество полифакторных ЧС', fontsize=10)
plt.ylabel('')
plt.show()

In [None]:
df['year'] = df['timeIsoStr'].dt.year
df['month'] = df['timeIsoStr'].dt.month
df['date'] = df['timeIsoStr'].dt.date
df['time'] = df['timeIsoStr'].dt.time
df['hour'] = df['timeIsoStr'].dt.hour

In [None]:
df['year'].value_counts().to_frame().reset_index() \
.rename(columns={'index':'год', 'year':'количество'})

In [None]:
plt.figure(figsize=(5,5))
sns.countplot(x = 'year', data = df) \
.set_title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.ylabel('количество полифакторных ЧС', fontsize=10)
plt.xlabel('')
plt.show()

In [None]:
plt.figure(figsize=(20,5))
df.groupby('date')['date'].count().plot()
plt.title('Динамика полифакторных ЧС', fontsize=20)
plt.xlabel('')
plt.show()

In [None]:
df.groupby('date')['date'].count().sort_values()[:10]

In [None]:
df.groupby('date')['date'].count().sort_values(ascending=False)[:10]

In [None]:
month_data = df.groupby(['year', 'month'])['month'].count().unstack(fill_value=0).T

In [None]:
month_data

In [None]:
plt.figure(figsize=(20,8))
sns.lineplot(data=month_data).set_title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.ylabel('количество полифакторных ЧС', fontsize=10)
plt.xlabel('месяц')
plt.show()

In [None]:
text = ' '.join(list(df['name'].apply(lambda x: x.lower()).values))

In [None]:
type(text)

In [None]:
def plot_cloud(wordcloud):
    # Устанавливаем размер картинки
    plt.figure(figsize=(20, 10))
    # Показать изображение
    plt.imshow(wordcloud) 
    # Без подписей на осях
    plt.axis("off")

In [None]:
#pip install wordcloud

In [None]:
#pip install stop-words

In [None]:
from PIL import Image

In [None]:
#mask = np.array(Image.open('data/mask.jfif'))

In [None]:
from wordcloud import WordCloud
from stop_words import get_stop_words

STOPWORDS_RU = get_stop_words('russian')

wordcloud = WordCloud(width = 2200, 
                      height = 1200, 
                      random_state=1, 
                      background_color='white', 
                      normalize_plurals = True, 
                      collocations=False, repeat = True, min_font_size = 6, 
                      stopwords = STOPWORDS_RU).generate(text)

plot_cloud(wordcloud)

In [None]:
plt.figure(figsize=(5,5))
sns.countplot(y = 'state', data = df) \
.set_title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.xlabel('количество полифакторных ЧС', fontsize=10)
plt.ylabel('')
plt.show()

In [None]:
df['state'].value_counts()

In [None]:
df.query("(state == 'Новая') | (state == 'Назначена в ДДС') | (state == 'Обрабатывается в ДДС')").shape[0]

In [None]:
df.query("(state == 'Новая') | (state == 'Назначена в ДДС') | (state == 'Обрабатывается в ДДС')")['region'] \
  .value_counts().head()

In [None]:
plt.figure(figsize=(5,5))
sns.countplot(y = 'level', data = df) \
.set_title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.xlabel('количество полифакторных ЧС', fontsize=10)
plt.ylabel('')
plt.show()

In [None]:
df['level'].value_counts()

In [None]:
df.query("level == 'ЧС в субъекте'")[['region', 'name', 'timeIsoStr', 'membership', 'lat', 'lon', 'state']]

In [None]:
plt.figure(figsize=(10,8))
sns.countplot(x = 'member_count', data = df) \
.set_title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.ylabel('количество полифакторных ЧС', fontsize=10)
plt.xlabel('')
plt.show()

In [None]:
df['member_ship_name'].nunique()

In [None]:
member_ship_list = list(df['member_ship_name'].dropna().values)

In [None]:
member_ship = []
for members in member_ship_list:
    if len(eval(members)) > 1:
        for member in eval(members):
            if member not in member_ship: 
                member_ship.append(member)
    else:
        if eval(members)[0] not in member_ship: 
                member_ship.append(eval(members)[0])

In [None]:
member_ship

In [None]:
def member_ship_Ambulance(text):
    try:
        return eval(text).count('Скорая')    
    except:
        return 0

In [None]:
def member_ship_Police(text):
    try:
        return eval(text).count('Полиция')    
    except:
        return 0

In [None]:
def member_ship_EDDS(text):
    try:
        return eval(text).count('ЕДДС')    
    except:
        return 0

In [None]:
def member_ship_Gas(text):
    try:
        return eval(text).count('Газ')    
    except:
        return 0

In [None]:
def member_ship_HCS(text):
    try:
        return eval(text).count('ЖКХ')    
    except:
        return 0

In [None]:
def member_ship_Antiterror(text):
    try:
        return eval(text).count('Антитеррор')    
    except:
        return 0

In [None]:
def member_ship_Firefighters(text):
    try:
        return eval(text).count('Пожарные')    
    except:
        return 0

In [None]:
df['ambulance'] = df['member_ship_name'].apply(lambda x: member_ship_Ambulance(x))

In [None]:
df['police'] = df['member_ship_name'].apply(lambda x: member_ship_Police(x))

In [None]:
df['EDDS'] = df['member_ship_name'].apply(lambda x: member_ship_EDDS(x))

In [None]:
df['gas'] = df['member_ship_name'].apply(lambda x: member_ship_Gas(x))

In [None]:
df['HCS'] = df['member_ship_name'].apply(lambda x: member_ship_HCS(x))

In [None]:
df['antiterror'] = df['member_ship_name'].apply(lambda x: member_ship_Antiterror(x))

In [None]:
df['firefighters'] = df['member_ship_name'].apply(lambda x: member_ship_Firefighters(x))

In [None]:
plt.figure(figsize=(10,5))
df[['ambulance', 'police', 'EDDS', 'gas', 'HCS', 'antiterror', 'firefighters']].sum().plot(kind='bar', rot=0)
plt.title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.ylabel('количество полифакторных ЧС', fontsize=10)
plt.xlabel('')
plt.show()

In [None]:
text = []
for members in member_ship_list:
    if len(eval(members)) > 1:
        for member in eval(members):
            text.append(member)
    else:
        text.append(eval(members)[0])

In [None]:
text = str(text)

In [None]:
text = text[1:-1]

In [None]:
wordcloud = WordCloud(width = 2200, 
                      height = 1200, 
                      random_state=1, 
                      background_color='white', 
                      normalize_plurals = True, 
                      collocations=False, repeat = True, min_font_size = 6, 
                      stopwords = STOPWORDS_RU).generate(text)

plot_cloud(wordcloud)

In [None]:
df['isNear'].value_counts()

In [None]:
df[df['isNear'] == True][['region', 'name', 'timeIsoStr', 'membership', 'lat', 'lon', 'state']]

In [None]:
df[df['isNear'] == False][['region', 'name', 'timeIsoStr', 'membership', 'lat', 'lon', 'state']][:20]

In [None]:
df[['name', 'type']].drop_duplicates(subset='name').sort_values(by='name')[:50]

In [None]:
df[['name', 'type']].drop_duplicates(subset='name').sort_values(by='name')[50:100]

In [None]:
df.drop(columns='type', inplace=True)

In [None]:
df['name'].nunique()

In [None]:
name = df['name'].unique()

In [None]:
transport = ['Светофор', 'Наезд на препятствие', 'Наезд на животное', 'Застрявшие транспортные средства',
             'Управление транспортным средством в состоянии алкогольного/наркотического опьянения',
            'Брошенное транспортное средство', 'Повреждение транспортного средства', 'ДТП с пострадавшими',
             'Наезд на пешехода', 'Авария на воздушном судне', 'Крушение воздушного судна',
            'ДТП', 'Пожар на транспортном средстве', 'Транспортные пробки', 'Пожар на общественном транспортном средстве', 
            'Поломка междугородних/межмуниципальных транспортных средств', 'Гололёд',
            'Взрыв на транспортном средстве', 'Запах газа на общественном транспортном средстве', 
            'Авария на грузовых/пассажирских поездах и поездах метрополитена', 'Угроза обрушения в метроэлектротрансе',
             'Падение пассажира', 'Наезд на стоящее транспортное средство', 'Авария на грузовых/пассажирских судах',
             'Пожар на транспортном средстве, перевозящем опасные грузы', 'Снежные заносы/Гололед'
            'Наезд на внезапно появившееся препятствие',  'Снежные заносы/Гололед',
            'Повреждение припаркованного транспортного средства', 'Наезд на велосипедиста', 'Covid – Транспорт',
            'Подозрительное транспортное средство', 'Наезд на внезапно появившееся препятствие',
            'Крушение грузовых/пассажирских поездов и поездов метрополитена']
hcs = ['Водоснабжение', 'Запах газа в жилом здании', 'Вскрытие дверей', 'Бездомные животные', 'Водоотведение',
      'Упавшие деревья', 'Обрушение', 'Обрыв кабеля', 'Застрявшие граждане в лифте', 'Провал грунта',
       'Пожар в жилом здании', 'Застревание/падение животных', 'Взрыв инженерных коммуникаций',
      'Благоустройство', 'Обрушение зданий', 'Снежные заносы', 'Подтопление зданий', 'Угроза обрушения',
      'Взрыв бытового газа', 'Застревание/падение граждан', 'Теплоснабжение', 'Открытые люки',
       'Застревание/падение граждан/животных в труднодоступные места', 'Угроза обрушения зданий',
      'Запах газа на социально значимом объекте']
industry = ['Газоснабжение', 'Электроснабжение', 'Неизвестный запах', 'Запах газа',
            'Запах газа в местах массового пребывания граждан',
           'Пожар в производственных/технических/торговых/складских помещениях',
            'Запах газа на производственных/технических/торговых/складских помещениях',
           'Пожар на потенциально опасном объекте', 'Пожар на инженерных коммуникациях',
            'Запах газа на потенциально опасном объекте', 'Авария на газопроводе',
           'Авария с выбросом/сбросом аварийно химически опасных веществ']
healthcare = ['Психически неуравновешенные люди', 'Оказание медицинской помощи', 'Причинение вреда здоровью',
              'Попытка суицида', 'Covid – Трудовые отношения', 'Covid – Поддержка бизнеса',
             'Инфекционные болезни животных/птиц', '2019-nCov: консультация', '2019-nCoV без симптомов',
              '2019-nCoV с симптомами', 'Covid – Образование', 'Covid – Регистрация', 'Covid – Иные вопросы',
             '2019-nCov консультация', 'Covid – Здоровье, лекарства', 'Covid – Самоизоляция', 'Covid – Симптомы',
              'Covid – Соц.обеспечение', 'Covid – Товары и услуги', 'Психологическая помощь', 'Covid – СИЗ, Дезобработка']
crime = ['Оскорбительные вызовы', 'Семейный конфликт', 'Детские шалости', 'Правонарушение',
       'Труп', 'Кража', 'Управление транспортным средством в неадекватном состоянии', 
        'Грабеж', 'Обнаружение неразорвавшихся боеприпасов и взрывоопасных предметов', 'Пожар ландшафтный', 'Драка',
        'Пожар загорание/задымление', 'Заблудившиеся граждане', 'Подозрительный предмет', 'Злонамеренные вызовы',
         'Потерявшиеся граждане', 'Угон транспортного средства',
         'Незаконный оборот наркотических средств и психотропных веществ',
       'Спасение на воде', 'Ножевое ранение', 'Разведение костров', 'Исчезновение граждан',
         'Стрельба из огнестрельного оружия', 'Взрыв',
        'Мошенничество', 'Стрельба', 'Незаконное лишение свободы граждан', 'Бомж', 'Массовые беспорядки',
        'Незаконный оборот алкогольной продукции', 'Стрельба из пневматического оружия', 'Похищение граждан', 
        'Помощь на воде', 'Вандализм', 'Убийство', 'Разбой', 'Захват объектов', 'Огнестрельное ранение', 'Ранение',
        'Пожар на социально значимом объекте', 'Захват заложников', 'Незаконный оборот огнестрельного оружия',
        'Незаконный оборот денежных средств', 'Обнаружение опасных, отравляющих, ядовитых и иных вредных веществ',
        'Обнаружение огнестрельного оружия', 'Обнаружение', 'Побег осужденных/арестованных граждан', 'Незаконный оборот',
        'Обнаружение бесхозных контейнеров,цистерн,резервуаров с неизвестным содержанием', 'Грабёж',
         'Розыск подозреваемых/обвиняемых граждан', 'Пожар ландшафтный/Природный', 'Поиск пропавших людей',
        'Стрельба из метательного оружия', 'Правонарушение/Общественный порядок',
         'Поражение растений болезнями и вредителями', 'Захват заложников/объектов',
        'Подозрительный гражданин', 'Сигнализация', 'Соседний субъект', 'Изнасилование', 'Угроза террористического акта',
        'Пожар в местах массового пребывания граждан']
more = ['Неправильное понимание экстренной ситуации', 'Получение справок', 'Помощь населению', 'не задано',
        'Оказание помощи населению', '1:Соседний субъект', 'Тренировка', 'Тест Соседний субъект', 'Другое',]
error = ['Случайный набор номера', 'Прерывание вызова звонящим сразу после подключения', 'Вызов с молчанием',
         'Автоматические ложные вызовы', 'Ложные вызовы вследствие сбоя в сети связи',
         'Неправильный набор номера (ошибочный)', 'Tест_Карточки', 'Тест_Карточки']

In [None]:
def type_name(name):
    if name in transport:
        return 'ЧС на транспорте'
    elif name in hcs:
        return 'ЧС в сфере ЖКХ'
    elif name in industry:
        return 'ЧС в сфере ТЭК и Промышленность'
    elif name in healthcare:
        return 'ЧС в сфере здравоохранения'
    elif name in crime:
        return 'ЧС, связанные с противоправными действиями'
    elif name in more:
        return 'Другое'
    elif name in error:
        return 'сбой связи'
    else:
        return 'не задано'

In [None]:
df['type'] = df['name'].apply(lambda x: type_name(x))

In [None]:
df[df['type'] == 'не задано']['name']

In [None]:
df['type'].value_counts()

In [None]:
plt.figure(figsize=(10,8))
sns.countplot(y = 'type', order=df['type'].value_counts().index, data = df) \
.set_title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.xlabel('количество полифакторных ЧС', fontsize=10)
plt.ylabel('')
plt.show()

In [None]:
df.shape

In [None]:
df.query('type == "сбой связи"').shape

In [None]:
100 - round(1233706 / 2506703, 4) * 100

In [None]:
round(1233706 / 2506703, 4) * 100

In [None]:
type_df = df.groupby(['type', 'year', 'month'])['region'].count().unstack(fill_value=0).T
type_df.head()

In [None]:
type_df['ЧС в сфере здравоохранения']

In [None]:
plt.figure(figsize=(20,8))
sns.lineplot(data=type_df['ЧС в сфере здравоохранения']).set_title('Распределение ЧС в сфере здравоохранения в Волгоградской области', fontsize=15)
plt.ylabel('количество полифакторных ЧС', fontsize=10)
plt.xlabel('месяц')
plt.show()

In [None]:
plt.figure(figsize=(20,8))
sns.lineplot(data=type_df['ЧС, связанные с противоправными действиями']) \
.set_title('Распределение ЧС, связанные с противоправными действиями в Волгоградской области', fontsize=15)
plt.ylabel('количество полифакторных ЧС', fontsize=10)
plt.xlabel('месяц')
plt.show()

In [None]:
plt.figure(figsize=(20,8))
sns.lineplot(data=type_df['ЧС на транспорте']) \
.set_title('Распределение ЧС на транспорте в Волгоградской области', fontsize=15)
plt.ylabel('количество полифакторных ЧС', fontsize=10)
plt.xlabel('месяц')
plt.show()

In [None]:
plt.figure(figsize=(20,8))
sns.lineplot(data=type_df['ЧС в сфере ЖКХ']) \
.set_title('Распределение ЧС в сфере ЖКХ в Волгоградской области', fontsize=15)
plt.ylabel('количество полифакторных ЧС', fontsize=10)
plt.xlabel('месяц')
plt.show()

In [None]:
plt.figure(figsize=(20,8))
sns.lineplot(data=type_df['ЧС в сфере ТЭК и Промышленность']) \
.set_title('Распределение ЧС в сфере ТЭК и Промышленность в Волгоградской области', fontsize=15)
plt.ylabel('количество полифакторных ЧС', fontsize=10)
plt.xlabel('месяц')
plt.show()

In [None]:
plt.figure(figsize=(20,8))
sns.lineplot(data=type_df['Другое']) \
.set_title('Распределение Другое в Волгоградской области', fontsize=15)
plt.ylabel('количество полифакторных ЧС', fontsize=10)
plt.xlabel('месяц')
plt.show()

In [None]:
plt.figure(figsize=(20,8))
sns.lineplot(data=type_df['сбой связи']) \
.set_title('Распределение сбой связи в Волгоградской области', fontsize=15)
plt.ylabel('количество полифакторных ЧС', fontsize=10)
plt.xlabel('месяц')
plt.show()

In [None]:
region_type = df.groupby(['region'])['type'].value_counts().unstack(fill_value=0) \
.sort_values(by='ЧС в сфере здравоохранения', ascending=False)
region_type.head()

In [None]:
region_type.plot(kind='bar', figsize=(30,10))
plt.show()

In [None]:
plt.figure(figsize=(8,8))
sns.countplot(y = 'region' , hue='iscity' ,order=df.query('type != "сбой связи"')['region'] \
              .value_counts().iloc[:10].index, \
              data = df.query('type != "сбой связи"')) \
            .set_title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.xlabel('количество полифакторных ЧС', fontsize=10)
plt.ylabel('')
plt.legend(loc='center right')
plt.show()

In [None]:
plt.figure(figsize=(8,8))
sns.countplot(y = 'name', order=df.query('type != "сбой связи"')['name'].value_counts().iloc[:10].index, \
    data = df.query('type != "сбой связи"')) \
    .set_title('Распределение полифакторных ЧС в Волгоградской области', fontsize=15)
plt.xlabel('количество полифакторных ЧС', fontsize=10)
plt.ylabel('')
plt.show()

In [None]:
df.columns

In [None]:
df.head()

In [None]:
df.to_csv('data_clean/emergency_situations_clean.csv', index=False)