In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import pickle

pd_raw = pd.read_csv('전국노인장애인보호구역표준데이터.csv', encoding='cp949')

col_selection = ['시도명', '제한속도', 'CCTV설치여부', 'CCTV설치대수', '보호구역도로폭']
pd_data = pd_raw[col_selection]

In [2]:
print(pd_data.shape)
print(pd_data.dtypes)
for e in pd_data:
    print(e, '\t', pd_data[e].hasnans)

(2518, 5)
시도명          object
제한속도          int64
CCTV설치여부     object
CCTV설치대수    float64
보호구역도로폭      object
dtype: object
시도명 	 False
제한속도 	 False
CCTV설치여부 	 False
CCTV설치대수 	 True
보호구역도로폭 	 True


In [3]:
# 시도명
print(pd_data['시도명'].unique())
print(pd_data['시도명'].hasnans)

# 결축치, 오류치, 이상치 : 없음

['서울특별시' '경상북도' '충청남도' '강원도' '경기도' '전라북도' '대전광역시' '경상남도' '인천광역시' '울산광역시'
 '부산광역시' '대구광역시' '충청북도' '전라남도' '광주광역시' '세종특별자치시' '제주특별자치도']
False


In [4]:
# 제한속도
print(pd_data['제한속도'].unique())
print(pd_data['제한속도'].hasnans)

# 결축치, 오류치, 이상치 : 없음

[30 50 60 40 38 39 41 42 43 44 45 46 47 48 49 51 52 53 54 55 31 32 33 34
 35 36 37 20]
False


In [5]:
# CCTV설치여부
print(pd_data['CCTV설치여부'].unique())
print(pd_data['CCTV설치여부'].hasnans)

# 결축치, 오류치, 이상치 : 없음

['Y' 'N']
False


In [6]:
# CCTV설치대수
print(pd_data['CCTV설치대수'].unique())
print(pd_data['CCTV설치대수'].hasnans)

# 결측치 : CCTV설치여부가 Y인 값에는 1을 CCTV설치여부가 N인 값에는 0을 넣어주기.
filter_y = pd_data['CCTV설치여부'] == 'Y'
filter_n = pd_data['CCTV설치여부'] == 'N'

pd_data.loc[filter_y, 'CCTV설치대수'] = pd_data.loc[filter_y, 'CCTV설치대수'].replace(np.NaN, 1)
pd_data.loc[filter_n, 'CCTV설치대수'] = pd_data.loc[filter_n, 'CCTV설치대수'].replace(np.NaN, 0)

print(pd_data['CCTV설치대수'].unique())
print(pd_data['CCTV설치대수'].hasnans)


[ 1. nan  0.  2.  4.  3.  5.  8.  9.]
True
[1. 0. 2. 4. 3. 5. 8. 9.]
False


In [7]:
# 보호구역도로폭
# print(pd_data['보호구역도로폭'].unique())
# print(pd_data['보호구역도로폭'].hasnans)

# 오류치 : 숫자a~숫자b 형태의 문자열 --> '숫자a'와 '숫자b'의 평균치 (np.float64) 값으로 대체
def myfn1(x):
    if type(x) == type(' '):
        if '~' in x:
            m = np.array(x.split('~')).astype(np.float64).mean()
            return str(m)
        
y = pd_data['보호구역도로폭'].apply(myfn1)

# print(pd_data['보호구역도로폭'].isna().value_counts())
y = y.astype(np.float64)

# 결축치 : 전체 도로폭 평균치로 대체

y = y.replace(np.NaN, y.mean())
# print(y.isna().value_counts())
pd_data['보호구역도로폭'] = y

print(pd_data['보호구역도로폭'].unique())
print(pd_data['보호구역도로폭'].hasnans)



[10.00570866 27.         17.5         9.         19.5         4.75
 21.5         7.         12.5        11.          8.5         9.5
 17.         12.1        16.         10.          6.          5.5
 14.         18.          8.         20.          6.5        15.5
  9.25        7.5        34.         16.5        13.5        12.
 10.5        22.5         9.75        6.25        7.75       16.75
 25.          4.          3.5        10.55      ]
False


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pd_data['보호구역도로폭'] = y


In [8]:
# 이상치: upper 보다 큰 값을 np.NaN으로 교체, 후에 dropna() 이용 셈플 삭제
print(pd_data['보호구역도로폭'].describe())
q1, q3 = pd_data['보호구역도로폭'].quantile([0.25, 0.75])
iqr = q3 - q1
upper = q3 + 1.5*iqr
lower = q1 - 1.5*iqr
print(lower, upper)
filter1 = pd_data['보호구역도로폭'] > upper
print(filter1.value_counts())
pd_data.loc[filter1, '보호구역도로폭'] = np.NaN

print(pd_data['보호구역도로폭'].unique())
print(pd_data['보호구역도로폭'].hasnans)

print(pd_data['보호구역도로폭'].describe())

count    2518.000000
mean       10.005709
std         1.335756
min         3.500000
25%        10.005709
50%        10.005709
75%        10.005709
max        34.000000
Name: 보호구역도로폭, dtype: float64
10.005708661417323 10.005708661417323
False    2453
True       65
Name: 보호구역도로폭, dtype: int64
[10.00570866         nan  9.          4.75        7.          8.5
  9.5        10.          6.          5.5         8.          6.5
  9.25        7.5         9.75        6.25        7.75        4.
  3.5       ]
True
count    2453.000000
mean        9.855860
std         0.633964
min         3.500000
25%        10.005709
50%        10.005709
75%        10.005709
max        10.005709
Name: 보호구역도로폭, dtype: float64


In [9]:
pd_data_f = pd_data.dropna()
print(pd_data.shape)
print(pd_data_f.shape)
print(pd_data_f)
pd_oldway = pd_data_f
print(pd_oldway.shape)
pd_oldway.to_pickle('pd_oldway')

(2518, 5)
(2453, 5)
        시도명  제한속도 CCTV설치여부  CCTV설치대수    보호구역도로폭
0     서울특별시    30        Y       1.0  10.005709
1      경상북도    30        N       0.0  10.005709
2      경상북도    30        N       0.0  10.005709
3      경상북도    30        N       0.0  10.005709
4      경상북도    30        N       0.0  10.005709
...     ...   ...      ...       ...        ...
2513  대구광역시    30        N       0.0  10.005709
2514  대구광역시    30        N       0.0  10.005709
2515  대구광역시    30        N       0.0  10.005709
2516  대구광역시    30        N       0.0  10.005709
2517  대구광역시    30        N       0.0  10.005709

[2453 rows x 5 columns]
(2453, 5)
