# 2. 심정지 환자만 추출 및 결측치 제거
- 데이터 출처 : 서울소방재난본부 ('2018~'2020)

## 2-1. 데이터를 불러와서 심정지 환자만 추출

In [1]:
import numpy as np
import pandas as pd

In [2]:
df1 = pd.read_excel('./data/구급활동일지_ 2018.xlsx')
df2 = pd.read_excel('./data/구급활동일지_ 2019.xlsx')
df3 = pd.read_excel('./data/구급활동일지_ 2020.xlsx')

In [15]:
df_all = pd.concat([df1, df2, df3])

In [16]:
df_all.columns

Index(['출동소방서', '출동안전센터_지역대', '신고년월일', '신고시간', '접수경로', '관할구분', '출동년월일', '출동시간',
       '현장도착시간', '현장과의거리', '환자연령', '환자성별', '긴급구조구', '긴급구조동', '구급처종명', '환자증상1',
       '환자증상2', '환자증상3', '환자증상4', '환자증상5', '의식상태'],
      dtype='object')

In [17]:
df_all.shape

(1576154, 21)

In [32]:
df_ca = df_all.loc[(df_all['환자증상1'] == '심정지') | (df_all['환자증상2'] == '심정지') |
                   (df_all['환자증상3'] == '심정지') | (df_all['환자증상4'] == '심정지') |
                   (df_all['환자증상5'] == '심정지')]

In [33]:
df_ca.shape

(32898, 21)

In [34]:
df_ca.isnull().sum()

출동소방서             0
출동안전센터_지역대        0
신고년월일             0
신고시간              0
접수경로              0
관할구분          22280
출동년월일             0
출동시간              0
현장도착시간          206
현장과의거리            0
환자연령           1706
환자성별           1464
긴급구조구             0
긴급구조동             0
구급처종명          1687
환자증상1             0
환자증상2          2599
환자증상3         31480
환자증상4         32462
환자증상5         32767
의식상태            546
dtype: int64

## 2-2. 현장 도착 시간, 환자 연령, 환자 성별, 구급처종명이 결측치인 행 제거

In [35]:
ndf = df_ca.reset_index()

In [36]:
tmp_df = ndf[['현장도착시간', '환자연령', '환자성별', '구급처종명']].dropna(axis=0)
idx = tmp_df.index
idx

Int64Index([    0,     1,     2,     3,     4,     5,     6,     7,     9,
               10,
            ...
            32887, 32888, 32889, 32890, 32891, 32892, 32893, 32895, 32896,
            32897],
           dtype='int64', length=29655)

In [37]:
ndf_ca = ndf.loc[idx, :]

In [38]:
ndf_ca.isnull().sum()

index             0
출동소방서             0
출동안전센터_지역대        0
신고년월일             0
신고시간              0
접수경로              0
관할구분          20846
출동년월일             0
출동시간              0
현장도착시간            0
현장과의거리            0
환자연령              0
환자성별              0
긴급구조구             0
긴급구조동             0
구급처종명             0
환자증상1             0
환자증상2          2077
환자증상3         28287
환자증상4         29234
환자증상5         29526
의식상태            203
dtype: int64

In [39]:
ndf_ca.shape

(29655, 22)

In [41]:
len_data = df_all.shape[0]
len_ca = df_ca.shape[0]
len_ca_dropna = ndf_ca.shape[0]
print(f'원래 데이터 개수 : {len_data}')
print(f'심정지 환자 데이터 개수 : {len_ca}')
print(f'결측치 제거 후 데이터 개수 : {len_ca_dropna}')
print(f'제거된 결측치 데이터 개수 : {len_ca-len_ca_dropna}')
print(f'제거된 결측치 데이터 비율 : {(len_ca-len_ca_dropna)/len_ca*100:.3f}%')

원래 데이터 개수 : 1576154
심정지 환자 데이터 개수 : 32898
결측치 제거 후 데이터 개수 : 29655
제거된 결측치 데이터 개수 : 3243
제거된 결측치 데이터 비율 : 9.858%


csv 파일로 저장

In [42]:
ndf_ca.to_csv('./data/구급활동일지.csv', encoding='cp949', index=False)