### 7. sklearn을 활용한 전처리(preprocessing)

우리 정규화(nomalize)에 대해 배웠죠? 고등학교 수학에서든, 사회통계론 수업에서든 정규화를 왜 하는지는 아실 것 같습니다. 이 데이터에서 정규화를 하는 이유는 '살인'은 그 수가 적은 반면, '절도'나 '폭력'의 경우 천단위의 사건수를 보이죠. 그래서 그냥 이 자체를 시각화하면 살인은 작게, 절도나 폭력은 크게 나올 수밖에 없어요. 그래서 이를 **정규화**하여 각각 자체가 비교가능한 대상이 되게 만들어 줄겁니다. 

이 때 사용해볼 것이 **sklearn의 preprocessing 모듈에 있는 MinMaxScaler**에요. 최대값, 최소값을 이용해서 정규화시키는 방법이에요. (표준편차와 평균을 이용해 정규화시키는 방법은 아니랍니다.) 이렇게 정규화시키면 모든 값이 0~1 사이로 변환이 되어요. 정규분포가 아닐 때 요 MinMaxScaler를 많이 사용한답니다. 더 구체적인게 궁금하면 아래 링크에서 학습!

- [sklearn의 MinMaxScaler의 특징과 주요 파라미터](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html)

sklearn은 머신러닝에서 사용되는 아주 기본적인 라이브러리에요. 이 sklearn 자체도 한 챕터를 할애해 배워야 할 만큼 내용이 방대하니, 아래 코드가 이해가 가지 않는다고하더라도 넘어가시면 됩니다. 

In [None]:
from sklearn import preprocessing 

col = ['강간,추행','강도','살인','절도','폭력']

x = crime_anal[col].values                      
min_max_scaler = preprocessing.MinMaxScaler()   # 객체 생성

x_scaled = min_max_scaler.fit_transform(x.astype(float))
crime_anal_norm = pd.DataFrame(x_scaled, columns=col, 
                               index = crime_anal.index)

col2 = ['강간,추행 검거율','강도검거율','살인검거율','절도검거율','폭력검거율']
crime_anal_norm[col2] = crime_anal[col2]
crime_anal_norm.head()

Unnamed: 0_level_0,"강간,추행",강도,살인,절도,폭력,"강간,추행 검거율",강도검거율,살인검거율,절도검거율,폭력검거율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
강남구,1.0,0.928571,0.5,1.0,1.0,88.559322,78.571429,83.333333,50.525246,84.607017
강동구,0.265537,1.0,0.25,0.396131,0.292991,88.829787,93.333333,100.0,47.621951,87.38414
강북구,0.224576,0.285714,0.75,0.0,0.242054,83.018868,80.0,88.888889,62.820513,89.433132
강서구,0.374294,0.357143,0.833333,0.418701,0.497963,83.773585,83.333333,90.0,63.351095,85.357873
관악구,0.569209,0.142857,1.0,0.667434,0.56683,87.096774,100.0,100.0,51.009421,90.091813


오, 각 값들이 0~1 사이로 나왔죠. 정규화가 잘 되었네요. 

그러면 이제 인구수도 결합하기 위해서 이전 프로젝트에서 사용했던 인구 데이터 결과를 읽어볼게요. 거기서 구별 인구수와 CCTV 개수를 crime_anal_norm에다 붙일 거에요.

In [None]:
result_CCTV = pd.read_csv('C:\\Users\\user\\Downloads\\cctv_result.csv', 
                          encoding='UTF-8', index_col='구별')

crime_anal_norm[['인구수','CCTV']] = result_CCTV[['인구수','총계']]
crime_anal_norm.head()

Unnamed: 0_level_0,"강간,추행",강도,살인,절도,폭력,"강간,추행 검거율",강도검거율,살인검거율,절도검거율,폭력검거율,인구수,CCTV
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
강남구,1.0,0.928571,0.5,1.0,1.0,88.559322,78.571429,83.333333,50.525246,84.607017,537800,6502
강동구,0.265537,1.0,0.25,0.396131,0.292991,88.829787,93.333333,100.0,47.621951,87.38414,466472,2547
강북구,0.224576,0.285714,0.75,0.0,0.242054,83.018868,80.0,88.888889,62.820513,89.433132,302563,2462
강서구,0.374294,0.357143,0.833333,0.418701,0.497963,83.773585,83.333333,90.0,63.351095,85.357873,579768,2560
관악구,0.569209,0.142857,1.0,0.667434,0.56683,87.096774,100.0,100.0,51.009421,90.091813,499449,4942


그 다음에는 범죄 발생 건수도 다 합쳐보고, 검거율도 모두 합쳐볼게요! 

In [None]:
col = ['강간,추행','강도','살인','절도','폭력']
crime_anal_norm['범죄'] = np.sum(crime_anal_norm[col], axis=1)
crime_anal_norm.head()

Unnamed: 0_level_0,"강간,추행",강도,살인,절도,폭력,"강간,추행 검거율",강도검거율,살인검거율,절도검거율,폭력검거율,인구수,CCTV,범죄
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
강남구,1.0,0.928571,0.5,1.0,1.0,88.559322,78.571429,83.333333,50.525246,84.607017,537800,6502,4.428571
강동구,0.265537,1.0,0.25,0.396131,0.292991,88.829787,93.333333,100.0,47.621951,87.38414,466472,2547,2.204659
강북구,0.224576,0.285714,0.75,0.0,0.242054,83.018868,80.0,88.888889,62.820513,89.433132,302563,2462,1.502344
강서구,0.374294,0.357143,0.833333,0.418701,0.497963,83.773585,83.333333,90.0,63.351095,85.357873,579768,2560,2.481434
관악구,0.569209,0.142857,1.0,0.667434,0.56683,87.096774,100.0,100.0,51.009421,90.091813,499449,4942,2.94633


In [None]:
col = ['강간,추행 검거율','강도검거율','살인검거율','절도검거율','폭력검거율']
crime_anal_norm['검거'] = np.sum(crime_anal_norm[col], axis=1)
crime_anal_norm.head()

Unnamed: 0_level_0,"강간,추행",강도,살인,절도,폭력,"강간,추행 검거율",강도검거율,살인검거율,절도검거율,폭력검거율,인구수,CCTV,범죄,검거
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
강남구,1.0,0.928571,0.5,1.0,1.0,88.559322,78.571429,83.333333,50.525246,84.607017,537800,6502,4.428571,385.596346
강동구,0.265537,1.0,0.25,0.396131,0.292991,88.829787,93.333333,100.0,47.621951,87.38414,466472,2547,2.204659,417.169212
강북구,0.224576,0.285714,0.75,0.0,0.242054,83.018868,80.0,88.888889,62.820513,89.433132,302563,2462,1.502344,404.161401
강서구,0.374294,0.357143,0.833333,0.418701,0.497963,83.773585,83.333333,90.0,63.351095,85.357873,579768,2560,2.481434,405.815887
관악구,0.569209,0.142857,1.0,0.667434,0.56683,87.096774,100.0,100.0,51.009421,90.091813,499449,4942,2.94633,428.198009


이렇게 모두 통합해보았습니다. 여기까지가 시각화 하기 전까지 데이터를 가공하는 부분이에요. 데이터 처리가 생각보다 힘들죠? 정규화도 해야하고, 필요없는 데이터들도 없애야하고, 내가 분석하려는 목적에 맞게 데이터들을 정렬해야하고 등 이 단계가 복잡하면서도 중요한 단계에요. 목적에 맞는 데이터를 잘 구해야 그에 맞는 시각화도 할 수 있겠죠?
