# 전국일방통행도로 표준데이터
- 데이터 전처리
    - 시도명, 지정사유, 지정연도, 도로폭, 도로차로수, 보차분리여부
- 결측치 처리 (column 개별 기준)
- 오류치 처리(unit의 차이)
- 이상치 처리(iqr 사용)
- 전처리 내용 정리

In [10]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

pd_rawdata = pd.read_csv('전국일방통행도로표준데이터.csv',encoding = 'cp949')


In [13]:
print(pd_rawdata.columns)
column_selection = ['시도명', '지정사유', '지정연도', '도로폭', '도로차로수', '보차분리여부']
pd_data = pd_rawdata[column_selection]
print(pd_data[:10])

Index(['시도명', '시군구명', '도로명', '지정사유', '지정연도', '도로폭', '도로연장', '도로차로수', '보차분리여부',
       '시작점위도', '시작점경도', '종료점위도', '종료점경도', '도로안내표지일련번호', '관리기관명', '관리기관전화번호',
       '데이터기준일자', '제공기관코드', '제공기관명'],
      dtype='object')
   시도명 지정사유  지정연도  도로폭  도로차로수 보차분리여부
0  경기도  NaN   NaN  5.0    1.0      Y
1  경기도  NaN   NaN  5.0    1.0      Y
2  경기도  NaN   NaN  9.0    1.0      Y
3  경기도  NaN   NaN  4.0    1.0      Y
4  경기도  NaN   NaN  4.0    1.0      Y
5  경기도  NaN   NaN  6.0    1.0      N
6  경기도  NaN   NaN  6.0    1.0      N
7  경기도  NaN   NaN  7.5    1.0      Y
8  경기도  NaN   NaN  8.0    1.0      Y
9  경기도  NaN   NaN  6.0    1.0      Y


In [20]:
print(pd_data.shape)
pd_data.describe(include='all')




(2159, 6)


Unnamed: 0,시도명,지정사유,지정연도,도로폭,도로차로수,보차분리여부
count,2159,592,550.0,2159.0,2158.0,2159
unique,13,31,,,,3
top,서울특별시,차량소통 촉진 및 보행자 안전,,,,N
freq,755,165,,,,1657
mean,,,2006.456364,5.917508,1.101483,
std,,,8.16033,2.297448,1.319722,
min,,,1990.0,2.0,1.0,
25%,,,1999.0,4.0,1.0,
50%,,,2002.0,6.0,1.0,
75%,,,2016.0,7.0,1.0,


In [22]:
for e in pd_data.columns:
    print(e, pd_data[e].hasnans)
    if pd_data[e].hasnans:
        print(pd_data[e].isna().value_counts())
        
# pd_data.columns 를 사용하여 DataFrame의 열 이름을 가져와서 순회하고, 
# 각 열에 대해 결측치 여부를 확인, 결측치가 있다면
# pd_data[e],isna().value_counts()로 결측치의 개수를 출력

시도명 False
지정사유 True
True     1567
False     592
Name: 지정사유, dtype: int64
지정연도 True
True     1609
False     550
Name: 지정연도, dtype: int64
도로폭 False
도로차로수 True
False    2158
True        1
Name: 도로차로수, dtype: int64
보차분리여부 False


In [27]:
pd_data.replace({'지정사유':np.NaN},0, inplace = True)
print(pd_data['지정사유'].isna().value_counts())

False    2159
Name: 지정사유, dtype: int64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pd_data.replace({'지정사유':np.NaN},0, inplace = True)


# 결측치 처리 방법

1. 결측치 삭제
- dropna()

2. 대체값 사용
- fillna()
3. 보간법 사용
- interpolate()
4. 예측 모델 사용
- 머신러닝 모델
5. 결측치 마스킹
- 결측치가 있는 행/열을 마스킹하여 데이터 분석 및 시각화 사용에 좋음

# 이상치 처리 방법
## 이상치란, 일반적인 데이터의 분포에서 벗어나 크게 값이 튀는 데이터를 의미. 이상치는 데이터 분석 및 예측 모델링에 있어서 심각한 문제를 야기할 수 있으므로 이를 제거하거나 대체하는 것이 중요

1. 이상치 제거
- 실제로 발생할 수 있는 값의 범위를 벗어나는 경우, 이상치로 판단하여 제거하는 방법입니다.
- 예를 들어, 주식가격이 일시적으로 매우 높게 올랐다가 떨어지는 경우, 이를 제거할 수 있습니다.

2. 이상치 대체
- 대체하는 값은 해당 데이터 분포를 고려하여 결정되어야 합니다.
- 예를 들어, 결측치 대체와 마찬가지로 평균값, 중앙값, 최빈값 등의 대푯값을 사용할 수 있습니다.

3. 이상치 변환
- 이상치를 다른 값으로 변환하는 방법입니다.
- 예를 들어, 로그 변환 등의 방법을 사용하여 이상치를 다른 값으로 변환할 수 있습니다.
4. 이상치 분류
- 이상치를 따로 분류하여 분석하는 방법입니다.
- 예를 들어, 군집화를 사용하여 이상치를 따로 분류하고, 이상치를 분석하는 방법이 있습니다. 