# Data Cleaning의 목표
- 결측치를 처리한다.

In [1]:
# 라이브러리
import pandas as pd
import numpy as np

# 1. Accidents

In [2]:
# 데이터 dtype() 지정하기
dtype_dict = {
    "AccidentId": "int64",
    "Department": "string",
    "Commune": "string",
    "Light": "string",
    "InAgglomeration": "string",
    "IntersectionType": "string",
    "Weather": "string",
    "CollisionType": "string",
    "PostalAddress": "string",
    "GPSCode": "string",
    "Latitude": "float64",
    "Longitude": "float64",
}

In [3]:
# 데이터 불러오기
accidents_test = pd.read_csv('./data/preprocessed/Accidents_test_preprocessed.csv', dtype=dtype_dict)
accidents_train = pd.read_csv('./data/preprocessed/Accidents_train_preprocessed.csv', dtype=dtype_dict)

In [4]:
accidents_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52004 entries, 0 to 52003
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   AccidentId        52004 non-null  int64  
 1   Gravity           47822 non-null  object 
 2   Date              52004 non-null  object 
 3   Hour              52004 non-null  object 
 4   Light             52004 non-null  string 
 5   Department        52004 non-null  string 
 6   Commune           52004 non-null  string 
 7   InAgglomeration   52004 non-null  string 
 8   IntersectionType  52004 non-null  string 
 9   Weather           51999 non-null  string 
 10  CollisionType     52002 non-null  string 
 11  PostalAddress     51507 non-null  string 
 12  GPSCode           51959 non-null  string 
 13  Latitude          50383 non-null  float64
 14  Longitude         50383 non-null  float64
dtypes: float64(2), int64(1), object(3), string(9)
memory usage: 6.0+ MB


## Test 결측치 처리

In [5]:
# 결측치 확인하기
accidents_test.isna().sum()

AccidentId            0
Date                  0
Hour                  0
Light                 0
Department            0
Commune               0
InAgglomeration       0
IntersectionType      0
Weather               0
CollisionType         0
PostalAddress        58
GPSCode               5
Latitude            202
Longitude           202
dtype: int64

### PostalAddress
- 사고가 일어난 주소
- 주소는 있어야 하는 값이지만 누락이 된 정보로 확인된다.
- 결측치는 Unknown으로 변환한다.

In [6]:
# 결측치 Unknown으로 변경
accidents_test['PostalAddress'] = accidents_test['PostalAddress'].fillna('Unknown')

In [7]:
# PostalAddress 결측치 확인
accidents_test['PostalAddress'].isna().sum()

np.int64(0)

### GPSCode
- 사고 위치에 대한 GPSCode 값
- 코드 형태이나 공식적인 정의나 기준이 명확하지 않고 패턴만으로 의미를 추론하기 어려움
- 결측치 또한 단순 누락인지, 코드 체계상 미존재 값인지 구분이 불가능하다.
- 의미 불명 상태를 나타내는 Missing 으로 변환환한다.

In [8]:
# 고유값 확인
accidents_test['GPSCode'].unique()

<StringArray>
['M', <NA>, 'A', 'G', 'R', 'Y']
Length: 6, dtype: string

In [9]:
# 결측치 Missing 변경
accidents_test['GPSCode'] = accidents_test['GPSCode'].fillna('Missing')

In [10]:
# GPSCode 결측치 확인
accidents_test['GPSCode'].isna().sum()

np.int64(0)

### Latitude, Longitude
- 사고 발생 위치를 나타내는 위도(Latitude)와 경도(Longitude) 값
- 위경도의 결측치는 측정 실패 또는 정보 누락이 된 값으로 보기 적절하다.
- float 타입으로 실제 좌표 범위를 벗어나는 '-999'로 하나의 범주로 결측을 처리한다.

In [11]:
# 결측치 -999 변경
accidents_test['Latitude'] = accidents_test['Latitude'].fillna(-999)
accidents_test['Longitude'] = accidents_test['Longitude'].fillna(-999)

In [12]:
# 결측치 확인
print(f'위도 결측치 갯수 : {accidents_test["Longitude"].isna().sum()}')
print(f'경도 결측치 갯수 : {accidents_test["Longitude"].isna().sum()}')

위도 결측치 갯수 : 0
경도 결측치 갯수 : 0


In [13]:
# 수정 후 결측치 최종 확인
accidents_test.isna().sum()

AccidentId          0
Date                0
Hour                0
Light               0
Department          0
Commune             0
InAgglomeration     0
IntersectionType    0
Weather             0
CollisionType       0
PostalAddress       0
GPSCode             0
Latitude            0
Longitude           0
dtype: int64

## Train 결측치 처리

In [14]:
# 결측치 확인하기
accidents_train.isna().sum()

AccidentId             0
Gravity             4182
Date                   0
Hour                   0
Light                  0
Department             0
Commune                0
InAgglomeration        0
IntersectionType       0
Weather                5
CollisionType          2
PostalAddress        497
GPSCode               45
Latitude            1621
Longitude           1621
dtype: int64

### Gravity
- 사고 발생 심각도를 나타내는 값으로 타깃 (target) 변수이다.
- 타깃 변수의 결측치는 학습 및 평가를 할 수 없기 때문에 삭제(drop)처리한다.

In [15]:
# 결측치 제거하기
accidents_train = accidents_train.dropna(subset=['Gravity']).reset_index(drop=True)

In [16]:
# 제거 후 전체 결측 재확인
accidents_train.isna().sum()

AccidentId             0
Gravity                0
Date                   0
Hour                   0
Light                  0
Department             0
Commune                0
InAgglomeration        0
IntersectionType       0
Weather                5
CollisionType          1
PostalAddress        455
GPSCode               42
Latitude            1507
Longitude           1507
dtype: int64

### Weather
- 사고 당시의 기상 상태를 나타내는 변수
- train에서 5건의 결측이 존재하지만 전체 데이터 대비 소수로 test에서는 결측이 존재하지 않는다.
- 별도의 결측 라벨을 생성시 불필요한 범주 증가 및 노이즈 유입 가능성으로 삭제처리한다.

In [17]:
# 결측치 제거하기
accidents_train = accidents_train.dropna(subset=['Weather']).reset_index(drop=True)

In [18]:
# 제거 후 전체 결측 재확인
accidents_train.isna().sum()

AccidentId             0
Gravity                0
Date                   0
Hour                   0
Light                  0
Department             0
Commune                0
InAgglomeration        0
IntersectionType       0
Weather                0
CollisionType          1
PostalAddress        454
GPSCode               42
Latitude            1505
Longitude           1505
dtype: int64

### CollisionType
- 사고 발생 시 충돌 유형을 나타내는 변수
- train에서 1건의 결측이 존재하며 통계적으로 의미를 가질 수 없다.
- 번주로도 일반화가 불가하므로 삭제 처리한다.

In [19]:
# 결측치 제거하기
accidents_train = accidents_train.dropna(subset=['CollisionType']).reset_index(drop=True)

In [20]:
# 제거 후 전체 결측 재확인
accidents_train.isna().sum()

AccidentId             0
Gravity                0
Date                   0
Hour                   0
Light                  0
Department             0
Commune                0
InAgglomeration        0
IntersectionType       0
Weather                0
CollisionType          0
PostalAddress        454
GPSCode               42
Latitude            1505
Longitude           1505
dtype: int64

### PostalAddress, GPSCode, Latitude, Longitude
- Test에서 처리한 결측치를 동일하게 처리한다.

In [21]:
# PostalAddress
accidents_train['PostalAddress'] = accidents_train['PostalAddress'].fillna('Unknown')

# GPSCode
accidents_train['GPSCode'] = accidents_train['GPSCode'].fillna('Missing')

# Latitude, Longitude
accidents_train['Latitude'] = accidents_train['Latitude'].fillna(-999)
accidents_train['Longitude'] = accidents_train['Longitude'].fillna(-999)

In [22]:
# 제거 후 전체 결측 재확인
accidents_train.isna().sum()

AccidentId          0
Gravity             0
Date                0
Hour                0
Light               0
Department          0
Commune             0
InAgglomeration     0
IntersectionType    0
Weather             0
CollisionType       0
PostalAddress       0
GPSCode             0
Latitude            0
Longitude           0
dtype: int64

# 2. Places 

In [23]:
dtype_dict = {
    "AccidentId": "int64",
    "RoadType": "string",
    "RoadLetter": "string",
    "Circulation": "string",
    "SpecialLane": "string",
    "Slope": "string",
    "Layout": "string",
    "SurfaceCondition": "string",
    "Infrastructure": "string",
    "Localization": "string",
    "SchoolNear": "string",
    "RoadNumber": "string", 
    "RoadSecNumber": "string",
    "RoadMarkerId": "string",
    
    "RoadMarkerDistance": "float64",
    "StripWidth": "float64",
    "LaneWidth": "float64",
    
    "LaneNumber": "Int64"
}

In [24]:
# 데이터 불러오기
places_test = pd.read_csv('./data/preprocessed/places_test_preprocessed.csv', dtype=dtype_dict)
places_train = pd.read_csv('./data/preprocessed/Places_train_preprocessed.csv', dtype=dtype_dict)

## 결측치 처리
- 대부분의 결측이 Test, Train 모두 존재한다.
- Test와 Train을 함께 처리하겠습니다.

In [25]:
# 결측치 확인하기 - Test
places_test.isna().sum()

AccidentId               0
RoadType                 0
RoadNumber            2230
RoadSecNumber         5761
RoadLetter            5514
Circulation             39
LaneNumber              51
SpecialLane             58
Slope                   41
RoadMarkerId          1575
RoadMarkerDistance    1610
Layout                  38
StripWidth            4469
LaneWidth             4423
SurfaceCondition        44
Infrastructure          49
Localization            47
SchoolNear              47
dtype: int64

In [26]:
# 결측치 확인하기 - Train
places_train.isna().sum()

AccidentId                0
RoadType                  0
RoadNumber            19665
RoadSecNumber         51855
RoadLetter            49441
Circulation             365
LaneNumber              456
SpecialLane             465
Slope                   398
RoadMarkerId          14200
RoadMarkerDistance    14438
Layout                 4555
StripWidth            40021
LaneWidth             39651
SurfaceCondition       4743
Infrastructure         4598
Localization            447
SchoolNear              412
dtype: int64

### RoadNumber, RoadSecNumber, RoadMarkerId, RoadMarkerDistance
- 사고 발생 장소와 관련된 도로 번호, 도로 구간 번호, 이정표 식별자 및 이정표 기준 거리 정보
- 행정적·관리 목적의 식별용 코드로 숫자 크기 자체로 의미 해석이 어렵다.
- 도로 번호의 누락으로 판단하여 float type으로 정상 범위를 벗어난 값으로 -999 으로 변환한다.

In [27]:
# 변환 할 컬럼 선택
cols = ['RoadNumber', 'RoadSecNumber', 'RoadMarkerId', 'RoadMarkerDistance']

In [28]:
# Test - RoadNumber 값 확인하기
places_test[cols].head(3)

Unnamed: 0,RoadNumber,RoadSecNumber,RoadMarkerId,RoadMarkerDistance
0,,,,
1,41.0,,16.0,500.0
2,10.0,,13.0,400.0


In [29]:
# Train - RoadNumber 값 확인하기
places_train[cols].head(3)

Unnamed: 0,RoadNumber,RoadSecNumber,RoadMarkerId,RoadMarkerDistance
0,41,,,
1,41,,,
2,39,,,


In [30]:
# 결측치 -999 적용
places_test[cols] = places_test[cols].fillna(-999)
places_train[cols] = places_train[cols].fillna(-999)

In [31]:
# 변경된 결측치 확인
print(f'--test-- \n{places_test[cols].isna().sum()}')
print(f'\n--train-- \n{places_train[cols].isna().sum()}')

--test-- 
RoadNumber            0
RoadSecNumber         0
RoadMarkerId          0
RoadMarkerDistance    0
dtype: int64

--train-- 
RoadNumber            0
RoadSecNumber         0
RoadMarkerId          0
RoadMarkerDistance    0
dtype: int64


### RoadLetter
- 도로 번호의 보조 식별을 위한 문자 코드
- 도로 분기 또는 지선 구분을 위한 행정적 코드로 문자 자체의 순서나 크기에 의미는 없다.
- 결측치는 보조 코드가 존재하지 않는 경우로 해석해 'Missing'으로 변환한다.
- 실제로 값을 알 수 없는 경우는 기존 'Unknown'을 유지한다.

In [32]:
# RoadLetter 고유값 확인
print(places_test['RoadLetter'].unique())
print(places_train['RoadLetter'].unique())

<StringArray>
[<NA>,  'D',  'E',  'V',  'A',  'L',  'B',  'C',  'X',  'F',  'J',  'N',  'H',
  'G',  'R',  '3',  '5',  'n',  'a',  'M',  'P',  'b']
Length: 22, dtype: string
<StringArray>
[      'C',       'D',      <NA>,       'A',       'R',       'E', 'Unknown',
       'B',       'f',       'N',       'T',       'X',       'G',       'F',
       'V',       'H',       'K',       '4',       '1',       '2',       'M',
       'a',       'Z',       '5',       '9',       'c',       'L',       'S',
       '6',       '3',       'J',       '0',       'P',       'I',       'e',
       'b',       'z',       'Y',       'W',       'w',       'y',       '7',
       '8']
Length: 43, dtype: string


In [33]:
# 결측치 Missing 변경하기
places_test['RoadLetter'] = places_test['RoadLetter'].fillna('Missing')
places_train['RoadLetter'] = places_train['RoadLetter'].fillna('Missing')

In [34]:
# 변경된 결측치 확인
print(f'test 결측치 : {places_test["RoadLetter"].isna().sum()}')
print(f'train 결측치 : {places_train["RoadLetter"].isna().sum()}')

test 결측치 : 0
train 결측치 : 0


### Circulation
- 사고 장소의 도로의 통행 구조를 나타내는 변수
- 일방통행, 양방향, 분리도로 등 도로의 구조적 특성을 구분하는 정보에 해당한다.
- 일부 값은 통행 구조를 알 수 없는 경우로 'Unknown'으로 표기되어 있다.
- 결측치는 통행 유형 정보가 누락된 경우로 판단된다.
- train과 test 모두에서 표본 수가 적어 별도의 범주로 분리하기보다는
  의미를 알 수 없는 경우를 통합한 'Unknown'으로 변환한다.

In [35]:
# 고유값 확인
print(f'--test-- \n{places_test["Circulation"].unique()}')
print(f'\n--train-- \n{places_train["Circulation"].unique()}')

--test-- 
<StringArray>
['OneWay', 'TwoWay', <NA>, 'Unknown', 'DividedHighway', 'VariableWayNumber']
Length: 6, dtype: string

--train-- 
<StringArray>
['TwoWay', 'Unknown', 'DividedHighway', <NA>, 'VariableWayNumber', 'OneWay']
Length: 6, dtype: string


In [36]:
# 결측치 'Unknown'으로 변환
places_test['Circulation'] = places_test['Circulation'].fillna('Unknown')
places_train['Circulation'] = places_train['Circulation'].fillna('Unknown')

In [37]:
# 변경된 결측치 확인
print(f'test 결측치 : {places_test["Circulation"].isna().sum()}')
print(f'train 결측치 : {places_train["Circulation"].isna().sum()}')

test 결측치 : 0
train 결측치 : 0


### LaneNumber
- 사고가 발생한 도로의 차선 수를 나타내는 변수이다.
- 값에 0이 포함되어 있어 차선이 없거나 비해당인 경우는 0으로 명시되었을 가능성이 높다 판단된다.
- 결측치는 단순한 '차선 없음'과 구분되는 정보 누락으로 해석한다.
- 정수형 값을 유지한 채 정상 범위를 벗어나는 -999로 변환한다.

In [38]:
# 고유값 확인
print(places_test['LaneNumber'].unique())
print(places_train['LaneNumber'].unique())

<IntegerArray>
[1, 2, <NA>, 3, 4, 0, 5, 6, 7, 9, 8, 10, 12, 11, 13]
Length: 15, dtype: Int64
<IntegerArray>
[2, 4, <NA>, 1, 3, 0, 5, 6, 7, 10, 8, 13, 9, 12, 11]
Length: 15, dtype: Int64


In [39]:
# 결측치 -999로 변환
places_test['LaneNumber'] = places_test['LaneNumber'].fillna(-999)
places_train['LaneNumber'] = places_train['LaneNumber'].fillna(-999)

In [40]:
# 변경된 결측치 확인
print(f'test 결측치 : {places_test["LaneNumber"].isna().sum()}')
print(f'train 결측치 : {places_train["LaneNumber"].isna().sum()}')

test 결측치 : 0
train 결측치 : 0


### SpecialLane
- 사고가 발생한 도로의 특수차선을 나타내는 변수이다.
- 값이 '0'인 경우는 특수 차선이 존재하지 않는 일반 도로로 해석한다.
- 기존의 Unknown 값과 결측치는 모두 특수 차선 존재여부를 알 수 없는 경우이다.
- Unknown은 표본 수가 매우 적어 하나의 Unknown의 번후로 통합 처리한다.

In [41]:
# 고유값 확인
print(places_test['SpecialLane'].unique())
print(places_train['SpecialLane'].unique())

<StringArray>
['0', <NA>, 'SeparatedBike', 'Reserved', 'Bike']
Length: 5, dtype: string
<StringArray>
['0', 'Bike', 'SeparatedBike', 'Reserved', <NA>, 'Unknown']
Length: 6, dtype: string


In [42]:
# Unknown 갯수 확인하기
places_train['SpecialLane'].value_counts()

SpecialLane
0                47727
Reserved          1576
SeparatedBike     1444
Bike               790
Unknown              2
Name: count, dtype: Int64

In [43]:
# 결측치 변경하기
places_test['SpecialLane'] = places_test['SpecialLane'].fillna('Unknown')
places_train['SpecialLane'] = places_train['SpecialLane'].fillna('Unknown')

In [44]:
# 변경된 결측치 확인
print(f'test 결측치 : {places_test["SpecialLane"].isna().sum()}')
print(f'train 결측치 : {places_train["SpecialLane"].isna().sum()}')

test 결측치 : 0
train 결측치 : 0


### Slope
- 사고 발생 장소의 경사도를 나타내는 변수
- 경사도가 NaN인 경우는 경사 정보가 기록되지 않았거나 확인되지 않은 사례로 해석할 수 있다.
- Unknown과 결측치는 표본 수가 매우 적은 범주에 해당한다.
- 두 값은 모두 경사 정보를 알 수 없다는 동일한 의미를 담고 있어 결측치는 'Unknown'으로 변환한다.

In [45]:
# 고유값 확인
print(f'test 고유 값 : \n{places_test["Slope"].unique()}\n')
print(f'train 고유 값 : \n{places_train["Slope"].unique()}')

test 고유 값 : 
<StringArray>
['Flat', 'TopHill', 'Uphill', <NA>, 'BottomHill', 'Unknown']
Length: 6, dtype: string

train 고유 값 : 
<StringArray>
['Flat', 'Uphill', <NA>, 'TopHill', 'BottomHill', 'Unknown']
Length: 6, dtype: string


In [46]:
# 표본 수 확인
print(f'test 표본 수 : \n{places_test["Slope"].value_counts()}\n')
print(f'train 표본 수 : \n{places_train["Slope"].value_counts()}')

test 표본 수 : 
Slope
Flat          4634
Uphill         882
TopHill         88
BottomHill      83
Unknown         51
Name: count, dtype: Int64

train 표본 수 : 
Slope
Flat          41300
Uphill         8228
TopHill         904
BottomHill      826
Unknown         348
Name: count, dtype: Int64


In [47]:
# 결측 갯수 확인
print(f'test 결측치 갯수 : {places_test["Slope"].isna().sum()}\n')
print(f'train 결측치 갯수 : {places_train["Slope"].isna().sum()}')

test 결측치 갯수 : 41

train 결측치 갯수 : 398


In [48]:
# 결측치 'Unknown'으로 변경
places_test["Slope"] = places_test["Slope"].fillna('Unknown')
places_train["Slope"] = places_train["Slope"].fillna('Unknown')

In [49]:
# 변경된 결측 갯수 확인
print(f'test 결측치 갯수 : {places_test["Slope"].isna().sum()}\n')
print(f'train 결측치 갯수 : {places_train["Slope"].isna().sum()}')

test 결측치 갯수 : 0

train 결측치 갯수 : 0


### Layout
- 사고 발생 장소의 도로 형태를 나타내는 변수
- Layout이 NaN인 경우는 도로 형태 정보가 기록되지 않았거나 확인되지 않은 사례로 해석할 수 있다.
- Unknown과 NaN이 각각 표본 수가 충분히 존재하는 범주에 해당한다.
- Unknown은 정보가 존재하나 알 수 없는 상태를 의미하며, NaN은 기록되지 않았거나 누락된 사례로 구분된다.
- 결측치는 Missing으로 변환하며 Unknown과 분리하여 유지한다.

In [50]:
# 고유 값 확인
print(f'test 고유 값 : \n{places_test["Layout"].unique()}\n')
print(f'train 고유 값 : \n{places_train["Layout"].unique()}')

test 고유 값 : 
<StringArray>
['Straight', 'LeftCurve', <NA>, 'RightCurve', 'S-Shape', 'Unknown']
Length: 6, dtype: string

train 고유 값 : 
<StringArray>
['RightCurve', 'LeftCurve', <NA>, 'Straight', 'S-Shape', 'Unknown']
Length: 6, dtype: string


In [51]:
# 표본 수 확인
print(f'test 표본 수 : \n{places_test["Layout"].value_counts()}\n')
print(f'train 표본 수 : \n{places_train["Layout"].value_counts()}')

test 표본 수 : 
Layout
Straight      4597
LeftCurve      511
RightCurve     475
Unknown         94
S-Shape         64
Name: count, dtype: Int64

train 표본 수 : 
Layout
Straight      37134
LeftCurve      4285
RightCurve     4007
Unknown        1424
S-Shape         599
Name: count, dtype: Int64


In [52]:
# 결측 갯수 확인
print(f'test 결측치 갯수 : {places_test["Layout"].isna().sum()}\n')
print(f'train 결측치 갯수 : {places_train["Layout"].isna().sum()}')

test 결측치 갯수 : 38

train 결측치 갯수 : 4555


In [53]:
# 결측치 'Missing'으로 변경
places_test["Layout"] = places_test["Layout"].fillna('Missing')
places_train["Layout"] = places_train["Layout"].fillna('Missing')

In [54]:
# 변경된 결측 갯수 확인
print(f'test 결측치 갯수 : {places_test["Layout"].isna().sum()}\n')
print(f'train 결측치 갯수 : {places_train["Layout"].isna().sum()}')

test 결측치 갯수 : 0

train 결측치 갯수 : 0


### StripWidth, LaneWidth
- 사고 발생 장소의 도로의 차선의 넓이나 차선 폭을 나타내는 변수
- 연속형 변수로 float 타입이다.
- 값이 0인 경우 표본 수가 충분히 존재하며 단순 오류보다는 특정 상태를 의미하는 값으로 판단했다.
- 결측치는 기록 미상이나 알 수 없는 형태의 값으로 실제 값 범위와 구분되는 -999로 변환한다.

In [55]:
# 결측 갯수 확인
print(f'StripWidth test 결측치 갯수 : {places_test["StripWidth"].isna().sum()}\n')
print(f'StripWidth train 결측치 갯수 : {places_train["StripWidth"].isna().sum()}\n')

print(f'LaneWidth test 결측치 갯수 : {places_test["LaneWidth"].isna().sum()}\n')
print(f'LaneWidth train 결측치 갯수 : {places_train["LaneWidth"].isna().sum()}')

StripWidth test 결측치 갯수 : 4469

StripWidth train 결측치 갯수 : 40021

LaneWidth test 결측치 갯수 : 4423

LaneWidth train 결측치 갯수 : 39651


In [56]:
# 결측치 -999로 변경
places_test["StripWidth"] = places_test["StripWidth"].fillna(-999)
places_train["StripWidth"] = places_train["StripWidth"].fillna(-999)

places_test["LaneWidth"] = places_test["LaneWidth"].fillna(-999)
places_train["LaneWidth"] = places_train["LaneWidth"].fillna(-999)

In [57]:
# 변경된 결측 갯수 확인
print(f'StripWidth test 결측치 갯수 : {places_test["StripWidth"].isna().sum()}\n')
print(f'StripWidth train 결측치 갯수 : {places_train["StripWidth"].isna().sum()}\n')

print(f'LaneWidth test 결측치 갯수 : {places_test["LaneWidth"].isna().sum()}\n')
print(f'LaneWidth train 결측치 갯수 : {places_train["LaneWidth"].isna().sum()}')

StripWidth test 결측치 갯수 : 0

StripWidth train 결측치 갯수 : 0

LaneWidth test 결측치 갯수 : 0

LaneWidth train 결측치 갯수 : 0


### SurfaceCondition, Infrastructure
- 사고 발생 장소의 도로의 표면 상태와 주변 시설물을 나타내는 변수
- Unknown과 NaN이 각각 표본 수가 충분히 존재하는 상태로 확인된다.
- Unknown은 정보가 존재하나 알 수 없는 상태를 의미하며, NaN은 기록되지 않았거나 누락된 사례로 구분된다.
- 결측치는 Missing으로 입력하여 Unknown과 의미적으로 구분했다.

In [58]:
# 표본 수 확인
print(f'SurfaceCondition test 표본 수 : \n{places_test["SurfaceCondition"].value_counts()}\n')
print(f'SurfaceCondition train 표본 수 : \n{places_train["SurfaceCondition"].value_counts()}\n')
print(f'Infrastructure test 표본 수 : \n{places_test["Infrastructure"].value_counts()}\n')
print(f'Infrastructure train 표본 수 : \n{places_train["Infrastructure"].value_counts()}')

SurfaceCondition test 표본 수 : 
SurfaceCondition
Normal     4583
Wet        1019
Unknown      39
Other        35
Ice          23
Oil          12
Snow         11
Flooded       6
Puddles       5
Mud           2
Name: count, dtype: Int64

SurfaceCondition train 표본 수 : 
SurfaceCondition
Normal     37099
Wet         8315
Unknown     1021
Other        258
Ice          196
Snow         128
Oil          103
Puddles       79
Flooded       40
Mud           22
Name: count, dtype: Int64

Infrastructure test 표본 수 : 
Infrastructure
Unknown           5023
Intersection       363
Interchange        115
Bridge              96
PedestrianZone      60
Tunnel              47
Railroad            24
Toll                 2
Name: count, dtype: Int64

Infrastructure train 표본 수 : 
Infrastructure
Unknown           41818
Intersection       2817
Interchange         883
Bridge              726
Tunnel              511
PedestrianZone      437
Railroad            192
Toll                 22
Name: count, dtype: Int64


In [59]:
# 결측치 갯수 확인
print(f'StripWidth test 결측치 갯수 : {places_test["SurfaceCondition"].isna().sum()}\n')
print(f'StripWidth train 결측치 갯수 : {places_train["SurfaceCondition"].isna().sum()}\n')
print(f'LaneWidth test 결측치 갯수 : {places_test["Infrastructure"].isna().sum()}\n')
print(f'LaneWidth train 결측치 갯수 : {places_train["Infrastructure"].isna().sum()}')

StripWidth test 결측치 갯수 : 44

StripWidth train 결측치 갯수 : 4743

LaneWidth test 결측치 갯수 : 49

LaneWidth train 결측치 갯수 : 4598


In [60]:
# 결측치 Missing로 변경
places_test["SurfaceCondition"] = places_test["SurfaceCondition"].fillna("Missing")
places_train["SurfaceCondition"] = places_train["SurfaceCondition"].fillna("Missing")

places_test["Infrastructure"] = places_test["Infrastructure"].fillna("Missing")
places_train["Infrastructure"] = places_train["Infrastructure"].fillna("Missing")

In [61]:
# 변경된 결측치 확인
print(f'StripWidth test 결측치 갯수 : {places_test["SurfaceCondition"].isna().sum()}\n')
print(f'StripWidth train 결측치 갯수 : {places_train["SurfaceCondition"].isna().sum()}\n')
print(f'LaneWidth test 결측치 갯수 : {places_test["Infrastructure"].isna().sum()}\n')
print(f'LaneWidth train 결측치 갯수 : {places_train["Infrastructure"].isna().sum()}')

StripWidth test 결측치 갯수 : 0

StripWidth train 결측치 갯수 : 0

LaneWidth test 결측치 갯수 : 0

LaneWidth train 결측치 갯수 : 0


### Localization
- 사고가 발생한 위치 유형을 나타내는 변수이다.
- 사고는 물리적으로 특정 위치에서 발생하므로 위치 정보가 존재하지 않는 상태는 의미적으로 해석하기 어렵다.
- NaN은 위치 정보가 기록되지 않았거나 분류되지 않은 사례로 판단하였으며 이는 Unknown과 동일한 정보로 해석하였다.
- 이에 따라 결측치는 Unknown으로 변환하여 통합 처리하였다.

In [62]:
# 표본 수 확인
print(f'test 표본 수 : \n{places_test["Localization"].value_counts()}\n')
print(f'train 표본 수 : \n{places_train["Localization"].value_counts()}')

test 표본 수 : 
Localization
Lane                 3194
Shoulder             2290
EmergencyShoulder      82
Unknown                79
Sidewalk               60
BikeLane               27
Name: count, dtype: Int64

train 표본 수 : 
Localization
Lane                 28801
Shoulder             20390
EmergencyShoulder      781
Unknown                669
Sidewalk               626
BikeLane               290
Name: count, dtype: Int64


In [63]:
# 결측치 확인
print(f'test 결측치 갯수 : {places_test["Localization"].isna().sum()}\n')
print(f'train 결측치 갯수 : {places_train["Localization"].isna().sum()}')

test 결측치 갯수 : 47

train 결측치 갯수 : 447


In [64]:
# 결측 Unknown 변환하기
places_train["Localization"] = places_train["Localization"].fillna("Unknown")
places_test["Localization"]  = places_test["Localization"].fillna("Unknown")

In [65]:
# 변경된 결측치 확인
print(f'test 결측치 갯수 : {places_test["Localization"].isna().sum()}\n')
print(f'train 결측치 갯수 : {places_train["Localization"].isna().sum()}')

test 결측치 갯수 : 0

train 결측치 갯수 : 0


### SchoolNear
- 사고의 위치가 학교 인근에 해당하는지 나타내는 변수이다.
- 0은 학교 인근이 아님, 3은 학교 인근에 해당한다.
- 값 99는 학교 인근 여부를 판단할 수 없는 상태로 Unknown으로 판단하였다.
- 본 변수는 사고 위치가 반드시 존재하는 정보라는 점을 고려하여 결측치는 위치를 알 수 없는 상태 99로 변환한다. 

In [66]:
# 표본 수 확인
print(f'test 표본 수 : \n{places_test["SchoolNear"].value_counts()}\n')
print(f'train 표본 수 : \n{places_train["SchoolNear"].value_counts()}')

test 표본 수 : 
SchoolNear
0.0     4651
99.0     979
3.0      102
Name: count, dtype: Int64

train 표본 수 : 
SchoolNear
0.0     41448
99.0     9204
3.0       940
Name: count, dtype: Int64


In [67]:
# 결측치 확인
print(f'test 결측치 갯수 : {places_test["SchoolNear"].isna().sum()}\n')
print(f'train 결측치 갯수 : {places_train["SchoolNear"].isna().sum()}')

test 결측치 갯수 : 47

train 결측치 갯수 : 412


In [68]:
# 결측 99 변환하기
places_train["SchoolNear"] = places_train["SchoolNear"].fillna(99)
places_test["SchoolNear"]  = places_test["SchoolNear"].fillna(99)

In [69]:
# 변경된 결측치 확인
print(f'test 결측치 갯수 : {places_test["SchoolNear"].isna().sum()}\n')
print(f'train 결측치 갯수 : {places_train["SchoolNear"].isna().sum()}')

test 결측치 갯수 : 0

train 결측치 갯수 : 0


# 3. Users

In [70]:
# 데이터 dtype() 지정하기
dtype_dict = {
    "AccidentId": "Int64",
    "VehicleId": "string",
    "Category": "string",
    "Gender": "string",
    "TripReason": "string",
    "SafetyDevice": "string",
    "SafetyDeviceUsed": "string",
    "PedestrianLocation": "string",
    "PedestrianAction": "string",
    "PedestrianCompany": "string",
    "BirthYear": "Int64",
    "Seat": "Int64"
}

In [71]:
# 데이터 불러오기
users_test = pd.read_csv('./data/preprocessed/Users_test_preprocessed.csv', dtype=dtype_dict)
users_train = pd.read_csv('./data/preprocessed/Users_train_preprocessed.csv', dtype=dtype_dict)

## 결측치 처리

In [72]:
# 결측치 확인하기
users_test.isna().sum()

AccidentId                0
VehicleId                 0
Seat                   1348
Category                  0
Gender                  172
TripReason             3002
SafetyDevice            598
SafetyDeviceUsed       1708
PedestrianLocation    12290
PedestrianAction      12266
PedestrianCompany      5751
BirthYear               174
dtype: int64

In [73]:
users_train.isna().sum()

AccidentId                30
VehicleId                 30
Seat                   11420
Category                  30
Gender                  1693
TripReason             27294
SafetyDevice            5375
SafetyDeviceUsed       14182
PedestrianLocation    109505
PedestrianAction      109272
PedestrianCompany      50739
BirthYear               4095
dtype: int64

### AccidentId
- 사고 정보를 식별하기 위한 메인 키로 결측치가 존재할 수 없는 변수이다.
- train 데이터에서 일부 결측이 확인되었으며 사고 단위 식별이 불가능한 행이므로 해당 행은 삭제 처리하였다.

In [74]:
users_train["AccidentId"]

0         201800000001
1         201800000001
2         201800000002
3         201800000002
4         201800000003
              ...     
118407    201800057781
118408    201800057782
118409    201800057782
118410    201800057783
118411    201800057783
Name: AccidentId, Length: 118412, dtype: Int64

In [75]:
# 결측치 제거하기
users_train = users_train.dropna(subset=['AccidentId']).reset_index(drop=True)

In [76]:
# 결측 제거 후 train 전체 결측치 조회
users_train.isna().sum()

AccidentId                 0
VehicleId                  0
Seat                   11390
Category                   0
Gender                  1663
TripReason             27264
SafetyDevice            5345
SafetyDeviceUsed       14152
PedestrianLocation    109475
PedestrianAction      109242
PedestrianCompany      50709
BirthYear               4065
dtype: int64

In [77]:
users_train["AccidentId"]

0         201800000001
1         201800000001
2         201800000002
3         201800000002
4         201800000003
              ...     
118377    201800057781
118378    201800057782
118379    201800057782
118380    201800057783
118381    201800057783
Name: AccidentId, Length: 118382, dtype: Int64

### Seat
- 사고 당시 좌석 위치를 나타내는 변수
- Pedestrian 관련된 컬럼에 값이 존재하는 경우 보행자로 추정되며 좌석위치가 NaN으로 되어있다.
- 보행자로 추정되는 인물의 경우 좌석이 없는 상태를 명시하기 위해 Seat 값을 99로 변환 변환한다.
- 이외 결측은 좌석 정보가 입력되지 않았거나 누락된 사례로 판단해 범주의미와 구분된 -999로 변환하여 의미를 유지한다.

In [78]:
# 결측치 확인
print(f'test 결측치 갯수 : {users_test["Seat"].isna().sum()}\n')
print(f'train 결측치 갯수 : {users_train["Seat"].isna().sum()}')

test 결측치 갯수 : 1348

train 결측치 갯수 : 11390


In [79]:
# Test : 보행자 값이 존재하는 경우만 마스크 생성
# "PedestrianCompany" 컬럼은 Unknown이 너무 많아 제외함.
pedestrian_test = users_test[["PedestrianLocation", "PedestrianAction"]].notna().any(axis=1)

# Seat 값과 함께 조회하기
users_test.loc[pedestrian_test,["Seat","PedestrianLocation","PedestrianAction","PedestrianCompany"]].head()

Unnamed: 0,Seat,PedestrianLocation,PedestrianAction,PedestrianCompany
11,,OnLane<=OnSidewalk0mCrossing,Crossing,Alone
13,,OnServiceRoad,MovingAgainstVehicle,Alone
25,,OnShoulder,MovingWithVehicle,Alone
30,,OnCrossingWithLigths,Crossing,Alone
48,,OnCrossingWithLigths,Crossing,Alone


In [80]:
# Train : 보행자 값이 존재하는 경우만 마스크 생성
pedestrian_train = users_train[["PedestrianLocation", "PedestrianAction"]].notna().any(axis=1)

# Seat 값과 함께 조회하기
users_train.loc[pedestrian_train,["Seat","PedestrianLocation","PedestrianAction","PedestrianCompany"]].head()

Unnamed: 0,Seat,PedestrianLocation,PedestrianAction,PedestrianCompany
3,,OnLane<=OnSidewalk0mCrossing,Crossing,Alone
14,,OnCrossingWithLigths,Crossing,Alone
28,,OnLane>OnSidewalk0mCrossing,Crossing,Alone
31,,OnCrossingWithLigths,Crossing,Alone
43,,OnCrossingWithLigths,Crossing,Alone


In [81]:
# Test
# "PedestrianLocation", "PedestrianAction"에 값이 존재하고 Seat가 'NaN'인 경우 99로 변환하기

# 마스크 생성
mask_pedestrian = (users_test["Seat"].isna() & pedestrian_test)

# 99로 변환하기
users_test.loc[mask_pedestrian, "Seat"] = 99

In [82]:
# Train
# "PedestrianLocation", "PedestrianAction"에 값이 존해하고 Seat가 'NaN'인 경우 99로 변환하기

# 마스크 생성
mask_pedestrian_train = (users_train["Seat"].isna() & pedestrian_train)

# 99로 변환하기
users_train.loc[mask_pedestrian_train, "Seat"] = 99

In [83]:
# 변경된 결측치 확인
print(f'test 결측치 갯수 : {users_test["Seat"].isna().sum()}\n')
print(f'train 결측치 갯수 : {users_train["Seat"].isna().sum()}')

test 결측치 갯수 : 220

train 결측치 갯수 : 2060


In [84]:
# 남은 결측치 -999로 변환하기
users_test["Seat"] = users_test["Seat"].fillna(-999)
users_train["Seat"]  = users_train["Seat"].fillna(-999)

In [85]:
# 변경된 결측치 확인
print(f'test 결측치 갯수 : {users_test["Seat"].isna().sum()}\n')
print(f'train 결측치 갯수 : {users_train["Seat"].isna().sum()}')

test 결측치 갯수 : 0

train 결측치 갯수 : 0


### Gender
- 사고 당시 탑승자의 성별을 나타내는 변수
- 성별은 개념적으로 반드시 존재하는 속성으로 결측치는 성별 정보가 입력되지 않았거나 확인할 수 없는 상태로 해석했다.
- 입력이 누락되거나 정보를 알 수 없는 상태로 해석하여 Unknown으로 변환한다.

In [86]:
# 결측치 갯수 확인
print(f'test 결측치 갯수 : {users_test["Gender"].isna().sum()}\n')
print(f'train 결측치 갯수 : {users_train["Gender"].isna().sum()}')

test 결측치 갯수 : 172

train 결측치 갯수 : 1663


In [87]:
# 결측치 Unknown 변환하기
users_test["Gender"] = users_test["Gender"].fillna("Unknown")
users_train["Gender"]  = users_train["Gender"].fillna("Unknown")

In [88]:
# 변환된 결측치 갯수 확인
print(f'test 결측치 갯수 : {users_test["Gender"].isna().sum()}\n')
print(f'train 결측치 갯수 : {users_train["Gender"].isna().sum()}')

test 결측치 갯수 : 0

train 결측치 갯수 : 0


### TripReason
- 사고 당시 탑승자의 이동목적을 나타내는 변수
- 이동 목적은 대부분의 사례에서 존재하나 일부 결측치는 해당 정보를 확인할 수 없는 상태로 해석하였다.
- 본 변수에는 Unknown 범주가 존재하지 않아 입력 누락 또는 확인 불가로 발생한 결측치를 Unknown으로 변환한다.

In [89]:
# 표본 수 확인
print(f'test 표본 수 : \n{users_test["TripReason"].value_counts()}\n')
print(f'train 표본 수 : \n{users_train["TripReason"].value_counts()}')

test 표본 수 : 
TripReason
Leisure         5433
Home-Work       1818
Professional    1298
Other           1130
Shopping         361
Home-School      330
Name: count, dtype: Int64

train 표본 수 : 
TripReason
Leisure         47179
Home-Work       16195
Professional    11423
Other           10175
Shopping         3394
Home-School      2752
Name: count, dtype: Int64


In [90]:
# 결측치 갯수 확인
print(f'test 결측치 갯수 : {users_test["TripReason"].isna().sum()}\n')
print(f'train 결측치 갯수 : {users_train["TripReason"].isna().sum()}')

test 결측치 갯수 : 3002

train 결측치 갯수 : 27264


In [91]:
# 결측치 Unknown 변환하기
users_test["TripReason"] = users_test["TripReason"].fillna("Unknown")
users_train["TripReason"]  = users_train["TripReason"].fillna("Unknown")

In [92]:
# 변환된 결측치 갯수 확인
print(f'test 결측치 갯수 : {users_test["TripReason"].isna().sum()}\n')
print(f'train 결측치 갯수 : {users_train["TripReason"].isna().sum()}')

test 결측치 갯수 : 0

train 결측치 갯수 : 0


### SafetyDevice, SafetyDeviceUsed
- 사고 당시 탑승자가 안전 장비가 있었는지의 여부와 착용 여부에 대한 변수이다.
- 안전 장비가 결측인 경우 장비의 존재 여부를 확인할 수 없었거나 기록되지 않은 사례로 해석했다.
- 착용 여부는 Yes, No, Unknown의 범주를 가지며 값으로서의 Unknown은 명시적으로 유지한다.
- 본 변수에서의 결측치는 정보 누락 또는 미기입에 해당한다고 판단하여 Missing에 가까운 의미로 해석했다.
- SafetyDevice, SafetyDeviceUsed의 결측은 모두 Missing으로 변환한다.

In [93]:
# 결측치 갯수 확인
print(f'SafetyDevice test 결측치 갯수 : {users_test["SafetyDevice"].isna().sum()}')
print(f'SafetyDevice train 결측치 갯수 : {users_train["SafetyDevice"].isna().sum()}\n')

print(f'SafetyDeviceUsed test 결측치 갯수 : {users_test["SafetyDeviceUsed"].isna().sum()}')
print(f'SafetyDeviceUsed train 결측치 갯수 : {users_train["SafetyDeviceUsed"].isna().sum()}')

SafetyDevice test 결측치 갯수 : 598
SafetyDevice train 결측치 갯수 : 5345

SafetyDeviceUsed test 결측치 갯수 : 1708
SafetyDeviceUsed train 결측치 갯수 : 14152


In [94]:
# 결측치 Missing 변환하기
users_test["SafetyDevice"] = users_test["SafetyDevice"].fillna("Missing")
users_train["SafetyDevice"]  = users_train["SafetyDevice"].fillna("Missing")

users_test["SafetyDeviceUsed"] = users_test["SafetyDeviceUsed"].fillna("Missing")
users_train["SafetyDeviceUsed"]  = users_train["SafetyDeviceUsed"].fillna("Missing")

In [95]:
# 변환된 결측치 갯수 확인
print(f'SafetyDevice test 결측치 갯수 : {users_test["SafetyDevice"].isna().sum()}')
print(f'SafetyDevice train 결측치 갯수 : {users_train["SafetyDevice"].isna().sum()}\n')

print(f'SafetyDeviceUsed test 결측치 갯수 : {users_test["SafetyDeviceUsed"].isna().sum()}')
print(f'SafetyDeviceUsed train 결측치 갯수 : {users_train["SafetyDeviceUsed"].isna().sum()}')

SafetyDevice test 결측치 갯수 : 0
SafetyDevice train 결측치 갯수 : 0

SafetyDeviceUsed test 결측치 갯수 : 0
SafetyDeviceUsed train 결측치 갯수 : 0


### PedestrianLocation, PedestrianAction, PedestrianCompany
- 사고 당시 보행자에 대한 정보인 보행자 위치, 보행자 행동, 동행자 여부를 나타내는 변수
- 해당 변수들은 사고에 보행자가 포함된 경우에만 의미를 가지며 보행자가 존재하지 않는 사고의 경우 값이 기록되지 않는다.
- 결측치는 정보 누락이나 확인 불가 상태가 아니라 사고에 보행자가 존재하지 않는 상태로 해석하는 것이 적절하다고 판단하였다.
- 이에 따라 새 변수의 결측치는 Unknown,Missing이 아닌 보행자 부재를 나타내는 'PedestrianNaN'으로 변환한다.

In [96]:
# 결측치 확인
print(f'PedestrianLocation test 결측치 갯수 : {users_test["PedestrianLocation"].isna().sum()}')
print(f'PedestrianLocation train 결측치 갯수 : {users_train["PedestrianLocation"].isna().sum()}\n')

print(f'PedestrianAction test 결측치 갯수 : {users_test["PedestrianAction"].isna().sum()}')
print(f'PedestrianAction train 결측치 갯수 : {users_train["PedestrianAction"].isna().sum()}\n')

print(f'PedestrianCompany test 결측치 갯수 : {users_test["PedestrianCompany"].isna().sum()}')
print(f'PedestrianCompany train 결측치 갯수 : {users_train["PedestrianCompany"].isna().sum()}')

PedestrianLocation test 결측치 갯수 : 12290
PedestrianLocation train 결측치 갯수 : 109475

PedestrianAction test 결측치 갯수 : 12266
PedestrianAction train 결측치 갯수 : 109242

PedestrianCompany test 결측치 갯수 : 5751
PedestrianCompany train 결측치 갯수 : 50709


In [97]:
# 변환할 컬럼 변수저장
cols = ["PedestrianLocation","PedestrianAction","PedestrianCompany"]

# 결측치 PedestrianNaN 변환
users_test[cols] = users_test[cols].fillna("PedestrianNaN")
users_train[cols] = users_train[cols].fillna("PedestrianNaN")

In [98]:
# 변환된 결측치 확인
print(f'PedestrianLocation test 결측치 갯수 : {users_test["PedestrianLocation"].isna().sum()}')
print(f'PedestrianLocation train 결측치 갯수 : {users_train["PedestrianLocation"].isna().sum()}\n')

print(f'PedestrianAction test 결측치 갯수 : {users_test["PedestrianAction"].isna().sum()}')
print(f'PedestrianAction train 결측치 갯수 : {users_train["PedestrianAction"].isna().sum()}\n')

print(f'PedestrianCompany test 결측치 갯수 : {users_test["PedestrianCompany"].isna().sum()}')
print(f'PedestrianCompany train 결측치 갯수 : {users_train["PedestrianCompany"].isna().sum()}')

PedestrianLocation test 결측치 갯수 : 0
PedestrianLocation train 결측치 갯수 : 0

PedestrianAction test 결측치 갯수 : 0
PedestrianAction train 결측치 갯수 : 0

PedestrianCompany test 결측치 갯수 : 0
PedestrianCompany train 결측치 갯수 : 0


### BirthYear
- 사고 당시 탑승자의 출생연도를 나타내는 변수
- 출생연도는 개인의 속성으로 개념적으로는 반드시 존재하나 일부 사례에서는 정보가 기록되지 않았거나 확인할 수 없는 상태로 나타난다.
- float 타입으로 확인되며 결측치는 연도 범주에 포함되지 않는 값인 -999로 변환해 출생연도를 알 수 없는 상태를 명시적으로 표현한다.

In [99]:
# 결측치 확인
print(f'test 결측치 갯수 : {users_test["BirthYear"].isna().sum()}\n')
print(f'train 결측치 갯수 : {users_train["BirthYear"].isna().sum()}')

test 결측치 갯수 : 174

train 결측치 갯수 : 4065


In [100]:
# 결측치 -999 변환
users_test["BirthYear"] = users_test["BirthYear"].fillna(-999)
users_train["BirthYear"] = users_train["BirthYear"].fillna(-999)

In [101]:
# 변환된 결측치 확인
print(f'test 결측치 갯수 : {users_test["BirthYear"].isna().sum()}\n')
print(f'train 결측치 갯수 : {users_train["BirthYear"].isna().sum()}')

test 결측치 갯수 : 0

train 결측치 갯수 : 0


# 4. Vehicles

In [102]:
# 데이터 dtype() 지정하기
dtype_dict = {
    "AccidentId": "string",
    "Direction": "string",
    "FixedObstacle": "string",
    "MobileObstacle": "string",
    "ImpactPoint": "string",
    "Maneuver": "string",
    "PassengerNumber": "Int64"
}

In [103]:
# 데이터 불러오기
vehicles_test = pd.read_csv('./data/preprocessed/Vehicles_test_preprocessed.csv', dtype=dtype_dict)
vehicles_train = pd.read_csv('./data/preprocessed/Vehicles_train_preprocessed.csv', dtype=dtype_dict)

## 결측치 처리

In [104]:
# Test 결측치 확인하기
vehicles_test.isna().sum()

AccidentId            0
Direction            13
PassengerNumber       0
FixedObstacle      8569
MobileObstacle     1653
ImpactPoint         536
Maneuver            762
dtype: int64

In [105]:
# Train 결측치 확인하기
vehicles_train.isna().sum()

AccidentId             0
Direction            104
PassengerNumber        0
FixedObstacle      73772
MobileObstacle     15499
ImpactPoint         4653
Maneuver            6909
dtype: int64

### Direction
- 사고난 차량의 진행 방향을 나타내는 변수
- Increasing, Decreasing, Unknown 범주가 존재한다.
- 결측치의 표본 수가 매우 적고 의미적으로 Unknown과 동일한 상태로 해석이 가능하다고 판단했다.
- 별도의 범주를 생성시 희소적인 범주가 발생하기 때문에 Unknown으로 통합한다.

In [106]:
# 표본 수 확인
print(f'test 표본 수 : \n{vehicles_test["Direction"].value_counts()}\n')
print(f'train 표본 수 : \n{vehicles_train["Direction"].value_counts()}')

test 표본 수 : 
Direction
Increasing    4736
Decreasing    3325
Unknown       1819
Name: count, dtype: Int64

train 표본 수 : 
Direction
Increasing    41412
Decreasing    28824
Unknown       16138
Name: count, dtype: Int64


In [107]:
# 결측치 확인
print(f'test 결측치 갯수 : {vehicles_test["Direction"].isna().sum()}\n')
print(f'train 결측치 갯수 : {vehicles_train["Direction"].isna().sum()}')

test 결측치 갯수 : 13

train 결측치 갯수 : 104


In [108]:
# 결측치 Unknown 변환
vehicles_test["Direction"] = vehicles_test["Direction"].fillna("Unknown")
vehicles_train["Direction"] = vehicles_train["Direction"].fillna("Unknown")

In [109]:
# 변환된 결측치 확인
print(f'test 결측치 갯수 : {vehicles_test["Direction"].isna().sum()}\n')
print(f'train 결측치 갯수 : {vehicles_train["Direction"].isna().sum()}')

test 결측치 갯수 : 0

train 결측치 갯수 : 0


### FixedObstacle, MobileObstacle, ImpactPoint, Maneuver
- 사고난 차량의 고정 장애물, 이동 장애물, 충돌 위치, 운전 동작을 나타내는 변수들이다.
- 고정 및 이동 장애물의 경우  사고 과정에서 해당 대상이 존재하지 않았던 경우가 결측치로 표현되었을 가능성이 있다.
- 충돌 위치는 사고 발생 시 반드시 존재하는 정보이나 결측치는 기록 누락에 따른 사례로 해석하였다.
- 운전 동작은 사고 직전의 차량 행동을 의미하며 결측치는 해당 정보가 기록되지 않은 경우로 판단하였다.
- 존재하지 않거나 누락된 경우로 Missing으로 변환하는것이 적절하다고 판단했다.
-  FixedObstacle, MobileObstacle, ImpactPoint, Maneuver의 결측치는 모두 'Missing'으로 처리하였다.

In [110]:
# 변환할 컬럼 저장
cols_vehicles = ['FixedObstacle', 'MobileObstacle', 'ImpactPoint', 'Maneuver']

In [111]:
# 결측치 확인
print(f'test 결측치 갯수 :\n{vehicles_test[cols_vehicles].isna().sum()}\n')
print(f'train 결측치 갯수 :\n{vehicles_train[cols_vehicles].isna().sum()}')

test 결측치 갯수 :
FixedObstacle     8569
MobileObstacle    1653
ImpactPoint        536
Maneuver           762
dtype: int64

train 결측치 갯수 :
FixedObstacle     73772
MobileObstacle    15499
ImpactPoint        4653
Maneuver           6909
dtype: int64


In [112]:
# 결측치 Unknown 변환
vehicles_test[cols_vehicles] = vehicles_test[cols_vehicles].fillna("Missing")
vehicles_train[cols_vehicles] = vehicles_train[cols_vehicles].fillna("Missing")

In [113]:
# 변환된 결측치 확인
print(f'test 결측치 갯수 :\n{vehicles_test[cols_vehicles].isna().sum()}\n')
print(f'train 결측치 갯수 :\n{vehicles_train[cols_vehicles].isna().sum()}')

test 결측치 갯수 :
FixedObstacle     0
MobileObstacle    0
ImpactPoint       0
Maneuver          0
dtype: int64

train 결측치 갯수 :
FixedObstacle     0
MobileObstacle    0
ImpactPoint       0
Maneuver          0
dtype: int64


# 결측치 제거 한 최종 데이터 셋 저장하기

In [114]:
# Accidents

accidents_test.to_csv("./data/Cleaning/Accidents_test_Cleaning.csv",
                       index=False,
                       encoding="utf-8-sig")

accidents_train.to_csv("./data/Cleaning/Accidents_train_Cleaning.csv",
                       index=False,
                       encoding="utf-8-sig")

In [115]:
# Places

places_test.to_csv("./data/Cleaning/places_test_Cleaning.csv",
                       index=False,
                       encoding="utf-8-sig")

places_train.to_csv("./data/Cleaning/places_train_Cleaning.csv",
                       index=False,
                       encoding="utf-8-sig")

In [116]:
# Users

users_test.to_csv("./data/Cleaning/users_test_Cleaning.csv",
                       index=False,
                       encoding="utf-8-sig")

users_train.to_csv("./data/Cleaning/users_train_Cleaning.csv",
                       index=False,
                       encoding="utf-8-sig")

In [117]:
# Vehicles

vehicles_test.to_csv("./data/Cleaning/vehicles_test_Cleaning.csv",
                       index=False,
                       encoding="utf-8-sig")

vehicles_train.to_csv("./data/Cleaning/vehicles_train_Cleaning.csv",
                       index=False,
                       encoding="utf-8-sig")