In [34]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


url = 'https://www.data.go.kr/download/15028199/standard.do?dataType=csv'
raw_df = pd.read_csv(url, encoding= 'cp949')
column_selection = ['시도명', '지정사유', '지정연도', '도로폭', '도로차로수', '보차분리여부']
select_df = raw_df[column_selection] 

In [35]:
print(select_df.shape)
print(select_df.dtypes)
for e in select_df:
    print(e, '\t', select_df[e].hasnans)

(2159, 6)
시도명        object
지정사유       object
지정연도      float64
도로폭       float64
도로차로수     float64
보차분리여부     object
dtype: object
시도명 	 False
지정사유 	 True
지정연도 	 True
도로폭 	 False
도로차로수 	 True
보차분리여부 	 False


## 시도명

In [36]:
# 결측치 : 없음
# 오류치 :  10 --> 강원도
# print(raw_df[raw_df['시도명']=='10'])
filter1 = raw_df['시도명']=='10'
select_df.loc[filter1, '시도명'] = '강원도'

# 이상치: 없음
print(select_df['시도명'].unique())
print(select_df['시도명'].hasnans)

['경기도' '경상북도' '제주특별자치도' '인천광역시' '강원도' '경상남도' '서울특별시' '충청남도' '전라남도' '전라북도'
 '광주광역시' '충청북도']
False


## 지정사유

In [37]:
print(select_df['지정사유'].unique())
print(select_df['지정사유'].hasnans)

# 결측치
na_filter = select_df['지정사유'].isna()
# print(na_filter.value_counts())
select_df.loc[na_filter, '지정사유'] = '불분명' # select_df['지정사유'].fillna('불분명')

# 오류치: 같은 내용 다른이름 정리

def e1(x):
    if '원활' in x:
        return '원활'
    elif '불편' in x:
        return '불편'
    elif '안전' in x:
        return '안전'
    elif '혼잡' in x:
        return '혼잡'
    else:
        return x
        
        
select_df.loc[:, '지정사유'] = select_df.loc[:, '지정사유'].apply(e1)

# 이상치 : 없음

print(select_df['지정사유'].unique())
print(select_df['지정사유'].hasnans)

[nan '통행원활' '교통불편 해소' '원활한 차량통행을 위하여 지정' '보행안전' '통행안전' '원활한교통통행'
 '차량소통 촉진 및 보행자 안전' '보행자안전확보' '주민건의' '교행불가' '교통소통' '원활한 교통흐름 및 보행 안전'
 '주차혼잡구간' '본도로 진입불가' '시장혼잡구간' '주택밀집지역' '고가도로' '교통사고 다발' '원통전통시장주차장 출입구'
 '교통안전' '교통흐름을 원활히 하기 위함' '부채도로' '주민편의' '순환차로' '교통혼잡 및 소통 원활 필요' '도로협소'
 '혼잡지역' '혼자지역' '혼잡구역' '혼잡비역' '차량교행']
True
['불분명' '원활' '불편' '안전' '주민건의' '교행불가' '교통소통' '혼잡' '본도로 진입불가' '주택밀집지역' '고가도로'
 '교통사고 다발' '원통전통시장주차장 출입구' '부채도로' '주민편의' '순환차로' '도로협소' '혼자지역' '차량교행']
False


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  select_df.loc[:, '지정사유'] = select_df.loc[:, '지정사유'].apply(e1)


## 지정연도

In [38]:
print(select_df['지정연도'].unique())
print(select_df['지정연도'].hasnans)

#결측치
na_filter = select_df['지정연도'].isna()
print(na_filter.value_counts())
select_df.loc[na_filter, '지정연도'] = 0.0

print(select_df['지정연도'].unique())
print(select_df['지정연도'].hasnans)

[  nan 2017. 2018. 2014. 2005. 2019. 2022. 2016. 2012. 1999. 2021. 2015.
 2013. 2004. 2002. 2008. 2009. 2010. 2011. 1998. 2001. 2003. 2006. 2000.
 1995. 2020. 2007. 1990. 1997. 1996.]
True
True     1609
False     550
Name: 지정연도, dtype: int64
[   0. 2017. 2018. 2014. 2005. 2019. 2022. 2016. 2012. 1999. 2021. 2015.
 2013. 2004. 2002. 2008. 2009. 2010. 2011. 1998. 2001. 2003. 2006. 2000.
 1995. 2020. 2007. 1990. 1997. 1996.]
False


## 도로폭

In [39]:
print(select_df['도로폭'].unique())
print(select_df['도로폭'].hasnans)

#결측치 없음

#오류치 없음

#이상치 있음 : upper 보다 큰 값을 np.NaN으로 교체, 후에 dropna()이용 샘플 삭제

# print(select_df['도로폭'].describe())
q1, q3 = select_df['도로폭'].quantile([0.25, 0.75])
iqr = q3 - q1
upper = q3 + 1.5*iqr
lower = q1 - 1.5*iqr
print(lower, upper)
filter1 = select_df['도로폭'] > upper
print(filter1.value_counts())
select_df.loc[filter1, '도로폭'] = np.nan

print(select_df['도로폭'].unique())
print(select_df['도로폭'].hasnans)

[ 5.   9.   4.   6.   7.5  8.   7.  12.  15.  16.   3.5  5.5  3.  10.
 14.   4.5  6.5 15.5  2.5  7.1  9.8  9.7  6.3  3.7  8.5  8.2 14.6  2.
  4.9  4.6  2.8  4.8  5.6  8.1  6.4  4.1  6.6  5.7  4.7  4.3  3.8  9.1
  7.4  5.3  5.8  4.2 17.  13.5 24.  11.   9.5 22.  19.   3.2  4.4  5.1
  5.9  3.9 32.   5.4  3.4 18.   7.3  3.3 13.   7.6  8.4  5.2  7.8  6.2
  6.7  8.8  7.7  8.3  6.1  6.9  6.8]
False
-0.5 11.5
False    2104
True       55
Name: 도로폭, dtype: int64
[ 5.   9.   4.   6.   7.5  8.   7.   nan  3.5  5.5  3.  10.   4.5  6.5
  2.5  7.1  9.8  9.7  6.3  3.7  8.5  8.2  2.   4.9  4.6  2.8  4.8  5.6
  8.1  6.4  4.1  6.6  5.7  4.7  4.3  3.8  9.1  7.4  5.3  5.8  4.2 11.
  9.5  3.2  4.4  5.1  5.9  3.9  5.4  3.4  7.3  3.3  7.6  8.4  5.2  7.8
  6.2  6.7  8.8  7.7  8.3  6.1  6.9  6.8]
True


## 도로차로수

In [40]:
print(select_df['도로차로수'].unique())
print(select_df['도로차로수'].hasnans)

# 결측치 :
na_filter = select_df['도로차로수'].isna()
print(na_filter.value_counts())

# 오류치 : 60 --> np.nan 후에 dropna이용제거
filter1 = select_df['도로차로수'] == 60
print(filter1.value_counts())

select_df.loc[filter1, '도로차로수'] = np.nan

print(select_df['도로차로수'].unique())
print(select_df['도로차로수'].hasnans)


[ 1.  2.  4.  3.  5. nan 60.]
True
False    2158
True        1
Name: 도로차로수, dtype: int64
False    2158
True        1
Name: 도로차로수, dtype: int64
[ 1.  2.  4.  3.  5. nan]
True


## 보차분리여부

In [41]:
print(select_df['보차분리여부'].unique())
print(select_df['보차분리여부'].hasnans)

# 결측치 : ' ' 1개 결측치 --> np.nan 로대체 후에 dropna 사용제거
na_filter = select_df['보차분리여부'] == ' '
print(na_filter.value_counts())
select_df.loc[na_filter, '보차분리여부'] = np.nan

# 오류치: 없음
# 이상치: 없음

print(select_df['보차분리여부'].unique())
print(select_df['보차분리여부'].hasnans)

['Y' 'N' ' ']
False
False    2158
True        1
Name: 보차분리여부, dtype: int64
['Y' 'N' nan]
True


In [43]:
select_df.to_csv('전국일방통행도로데이터.csv', encoding='cp949')