# 안녕하세요^^ 
# AI 모델링 시간에 오신 여러분을 환영합니다.

## 오늘은 날씨, 미세먼지, 공휴일 데이터를 활용하여 서울시 <u>생활인구</u>를 예측해 보겠습니다.

<img src = "https://images.unsplash.com/photo-1652617394258-2dd4747f1d62?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=2070&q=80" width=100% align="center"/>

<div align="right">Photo by <a href="https://unsplash.com/@beyond_the_dream?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Yena Kwon</a> on <a href="https://unsplash.com/photos/iRKi6ciP3NQ?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a></div>
  

---

# Chapter2. 데이터 전처리
### **1) 실습 순서**
- 환경 준비
- 결측치 처리하기
- 이상치 처리하기
- 범주형 변수 가변수화하기(원-핫 인코딩)
- 데이터 정규화하기 (MinMaxScaler)

### **2) 실습 내용**

- 대상 데이터를 읽어와 탐색하며 이해합니다.
- 결측치를 확인하고 처리합니다.
- 시각화 등을 통해 이상치를 확인하고 처리합니다.
- 범주형 변수를 구분하고 Pandas 라이브러리의 get_dummies() 함수를 활용하여 가변수화를 진행합니다.

---

## 0. 환경 준비
> **① 필요 라이브러리 불러오기** <br>
> **② 데이터 불러오기**

### **① 필요한 라이브러리 불러오기**
- **pandas** : 데이터를 처리하고 분석하는데 효과적인 패키지
- **matplotlib** : 데이터를 차트나 플롯으로 그려주는 시각화 라이브러리 패키지
- **seaborn** : matplolib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지
- **sklearn** : 파이썬에서 머신러닝 분석을 할 때 유용하게 사용할 수 있는 라이브러리

In [None]:
# 여기에 입력하세요.
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')

plt.rc('font', family='Malgun Gothic')
sns.set(font="Malgun Gothic",#"NanumGothicCoding", 
        rc={"axes.unicode_minus":False}, # 마이너스 부호 깨짐 현상 해결
        style='darkgrid')


### **② 데이터 불러오기** 

In [None]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
df = pd.read_csv("./data/MERGE_LOCAL_PEOPLE_2017_2019.csv")
df.head()

---

## 1. 결측치 처리하기
> **① 결측치 확인하기** <br>
> **② 결측치 제거하기** <br>
> **③ 결측치 채우기**

### **① 결측치 확인하기**
- 결측치 행 확인하기
- 결측치 개수 확인하기








In [None]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
df.isnull()

In [None]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
df.isnull().sum()

In [None]:
df[df['총생활인구수'].isnull()==True]

### <font color="red"> !! [주의] 결측치 처리 시 주의사항 !! </font>
- 데이터 결측치 처리 시 반드시 원본 데이터를 복사해서 사용하여 원본 데이터의 손실을 예방합니다.
- <u>파이썬에서 Copy 메소드를 사용하지 않으면 주소값을 복사해서 사용기 때문에 원본 값을 변경 시키게 됩니다.</u>  
따라서 원본 항목을 보전하면서 데이터를 보정하려면 copy() 메소드를 사용하여 백업해두는 것이 필요합니다.

In [None]:
# df Data 복사
df_copy = df.copy()
df_copy.head()

In [None]:
df_nocopy=df
df_nocopy.head()

In [None]:
df_nocopy['Month']=0
df_nocopy.head()

In [None]:
df.head()

In [None]:
df_copy.head()

In [None]:
df = df_copy.copy()

###  ② 결측치 제거하기

> - 임계치를 설정해서 제거하기
> - 특정 열에 있는 결측치만 참고하여 결측치 제거하기

- __임계치를 설정해서 제거하기__<br>
결측치의 개수에 따라 결측데이터를 판단하고자 한다면, thresh 파라미터를 사용하면 됩니다.<br>
예를들어, tresh값이 3이라면 결측값이 아닌 값이 3개 미만일 경우에만 dropna메서드를 수행합니다.

In [None]:
df = df_copy.copy()
df=df.dropna(thresh=10)
df.isnull().sum()

In [None]:
df.head()

- __특정 열에 있는 결측치만 참고하여 결측치를 제거__<br>
subset 파라미터를 사용하면 됩니다.<br>

In [None]:
df=df.dropna(subset=['총생활인구수'])
df.isnull().sum()

- __결측치가 많을 경우 해당 열 제거하기__<br>
열을 제거할 때 drop() 메서드를 사용합니다. <br>
axis 파라미터를 1로 조정하면 해당 열을 삭제할 수 있습니다.<br>

In [None]:
df=df.drop(columns=['강수량(mm)'], axis=1)
df.info()

###  ③ 결측치 채우기

> - 단일(특정) 값으로 채우기
> - 주변 값으로 채우기

- __특정 값으로 채우기__<br>
사용자가 지정하는 특정 값으로 채워서 결측치를 처리할 수 있습니다.

    #### <font color='blue'>__[참고]__</font>
    기상청은 하루 24시간을 3시간 단위로 쪼개, 0시부터 오전 3시까지인 '한밤'을 시작으로 (새벽·아침·늦은 오전·이른 오후·늦은 오후·저녁·늦은 밤)이라고 지칭

In [None]:
df[df['기온(°C)'].isnull() == True]

In [None]:
# 늦은 오후 시간 (15~18) 중간값으로 채우기
temp_median = df[(df['일자'] == '2018-11-29')&(df['시각']>=15)&(df['시각']<19)]['기온(°C)'].median()

In [None]:
df['기온(°C)'].fillna(temp_median, inplace=True)

In [None]:
df[(df['일자'] == '2018-11-29')&(df['시각']>=15)&(df['시각']<19)]

In [None]:
df['기온(°C)'].isnull().sum()

- __주변값을 활용하여 결측치 채우기__<br>
fillna()의 method 파라미터를 사용하면, 사용자가 지정하는 일괄적인 값이 아닌 주변값으로 채울 수 있습니다.<br>
> pad, ffill : Nan 값을 앞의 값으로 채운다 <br>
> bfill,backfill : Nan 값을 뒤의 값으로 채운다

In [None]:
df[df['습도(%)'].isnull() == True]['일자'].value_counts()

In [None]:
plt.figure(figsize=(20,4))
plt.bar(range(0,24),df[(df['일자'] == '2018-05-28')]['습도(%)'])

In [None]:
# 뒤에 있는 data를 사용해서 결측치를 처리
df['습도(%)'].fillna(method='backfill', inplace=True)
df[(df['일자'] == '2018-05-28')&(df['시각']>=2)&(df['시각']<10)]

In [None]:
df['습도(%)'].isnull().sum()

---

### <font color="red"> [실습1]</font> 

__<font color=red>[Q]</font> 데이터프레임 df의 남은 결측치를 확인해 보세요.__
- [Hint] 결측치는 isnull() 메서드와 sum() 메서드를 활용하면 개수를 확인할 수 있습니다.

In [None]:
# 여기에 입력하세요.





__<font color=red>[Q]</font> 데이터프레임 df의 남은 결측치가 10,000개 이상인 경우 해당 컬럼을 삭제해 주세요.__
- [Hint] 컬럼은 Drop 메서드에 axis 옵션을 조정하면 삭제할 수 있습니다.

In [None]:
# 여기에 입력하세요.





__<font color=red>[Q]</font> 결측치가 100개 이하의 컬럼들은 주변 값(이전 값)으로 채워 주세요.__
- [Hint] fillna()에서 method 속성을 조정하세요.

In [None]:
# 여기에 입력하세요.





__<font color=red>[Q]</font> 그래도 결측치가 남은 컬럼이 있다면, 해당 컬럼의 값들을 분석하고 주변 값, 특정 값 등 적합한 데이터의 값으로 채워 주거나, 삭제해 주세요.__

In [None]:
# 여기에 입력하세요.





#### - 다음 실습을 위해 결측치 처리가 완료된 데이터 'df' 를 copy() 메서드 사용하여 백업해 둡니다.

In [None]:
df_copy2 = df.copy()

---

## 2. 이상치 처리하기
> **① 이상치 확인하기** <br>
> **② 이상치 제거하기** <br>

### ① 이상치 확인하기

> - describe() 메서드를 사용해서 확인하기
> - 차트를 그려서 확인하기

In [None]:
df.describe()

In [None]:
df['기온(°C)'].describe()

- __차트를 그려서 이상치 확인하기__<br>

    이상치는 boxplot을 그려서 확인이 가능합니다.
    <img src="https://wikidocs.net/images/page/166860/boxplot01.png
" width="600" >
    출처. https://wikidocs.net/166860
  
    #### <font color='blue'>__[참고]__</font>
    Q1와 Q3가 거리의 1.5배가 넘어가는 값을 Outlier 라고 합니다.    
    이 값들은 이상치로써 일반적으로 제거 또는 변경하여 데이터를 분석,학습 합니다.    
    단, 이상치 분석시에는 제거하지 않습니다.    

In [None]:
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.figure(figsize=(16,6))
sns.boxplot(df['풍속(m/s)'])
plt.show()

### ① 이상치 확인하기

> - 범위 내 최소값, 최대값 구하기 (IQE * 1.5) 
> - outlier 제거하기

In [None]:
#Q1, Q3 구하기
q1 = df['풍속(m/s)'].quantile(0.25)
q3 = df['풍속(m/s)'].quantile(0.75)

# 1.5 * IQR(Q3 - Q1)
iqr = 1.5 * (q3 - q1) 

# 이상치 제거하기
df_data=df[(df['풍속(m/s)'] < (q3 + iqr)) & (df['풍속(m/s)'] > (q1 - iqr))]

## 2. 범주형 변수 가변수화하기
기계 학습의 주요 문제 중 하나는 많은 알고리즘이 범주 형 데이터를 입력값으로 수용하지 않는다는 점인데, 이를 Encoding을 통해 해결 할 수 있습니다. 

> **① 문자형(Y, N)을 숫자형으로 변하기**<br>
> **② One-Hot Encdoing 하기** <br>

#### __① 문자형(Y, N)을 숫자형으로 변하기__
<img src="https://miro.medium.com/max/640/1*QQe-4476Oy3_dI1vhb3dDg.png" width="400" ><br>
문자형 카테고리를 숫자형 카테고리 값으로 변환합니다.

In [None]:
df['휴일'].replace('Y', 1, inplace=True)
df['휴일'].replace('N', 0, inplace=True)

### <font color="red"> !! [주의] !! </font>
여러 개의 카테고리 값을 가질 경우 일괄적으로 숫자 값으로 변환이 되면서 몇몇 ML 알고리즘에는 이를 적용할 경우 예측 성능이 떨어지는 경우가 발생할 수 있습니다. 

<font color="red">__숫자로 되어 있어 잘못하면 해당 값이 가중치로 인식하여 값에 왜곡이 생기게 됩니다.__</font><br>
이러한 특성 때문에 레이블 인코딩은 선형 회귀에는 적용하지 않습니다.

#### __② One-Hot Encdoing 하기__
- pandas 라이브러리 'get_dummies' 메서드 활용<br>
<img src="https://miro.medium.com/max/720/1*80tflY8LxDFRmkD16u25RQ.png" width="600" ><br>
원-핫 인코딩은 간단히 말해 한 개의 요소는 True, 나머지 요소는 False로 만들어 주는 기법입니다.<br>  
행 형태로 돼 있는 피처의 고유 값을 열 형태로 차원을 변환한 뒤, <br>
고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시합니다.<br> 
Pandas의 get_dummies()를 사용하면 간단하게 원-핫 인코딩을 진행할 수 있습니다.

In [None]:
df

In [None]:
#pandas에서는 get_dummies함수를 사용하면 쉽게 One-Hot Encording이 가능
df = pd.get_dummies(df, columns=['Month', 'Day', '요일'])

In [None]:
df.head()

In [None]:
df.info()

####  - 마지막으로 Object 형인 <u>'일자'</u> 컬럼과 학습에 방해가 되는 <u>'Year'</u> 컬럼을 제거하여 필요한 데이터만 남기고 전처리를 완료합니다.

In [None]:
df.drop(columns=['일자', 'Year'], inplace=True)

#### - 다음 실습을 위해 가공이 완료된 데이터 'df' 를 저장합니다.
- pandas의 to_csv 메소드를 사용하면 파일 저장할 수 있습니다. 
- [참고] 컬럼명에 한글이 있을 경우 저장 시 encoding 옵션을 'utf-8-sig'로 지정하여야 한글 깨짐을 방지할 수 있습니다.

In [None]:
df.to_csv("./data/PREPROCESSING_LOCAL_PEOPLE_2017_2019.csv", encoding='utf-8-sig', index=False)

---