<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/title.png' width=500/></center>

<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/practice.png' width=300/></center>

# 데이터 전처리 기술 (2)

- 데이터 전처리에 필요한 기술을 다시 한 번 정리해 봅니다.

### 1. 환경 설정

- 필요한 라이브러리를 불러옵니다.

In [None]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%config InlineBackend.figure_format = 'retina'

- Jupyter Notebook 시각화에 한글이 표시되게 설정합니다.

In [None]:
# 라이브러리 불러오기
import matplotlib.font_manager as fm

# 폰트설정
plt.rc('font', family='Malgun Gothic')
plt.rcParams['axes.unicode_minus'] = False

### 2. 파일 읽어오기

- 처리할 데이터를 파일에서 읽어옵니다.

In [None]:
# Member.csv 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/Member.csv'
member = pd.read_csv(path)

# Personal.csv 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/Personal.csv'
personal = pd.read_csv(path)

# City.csv 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/City.csv'
city = pd.read_csv(path)

- 결과를 확인합니다.

In [None]:
# member 확인
member.head()

In [None]:
# personal 확인
personal.head()

In [None]:
# city 확인
city.head()

### 3. 병합(=조인)

- 한 번에 두 데이터프레임만 병합할 수 있으므로 우선 member, personal을 CustomerCD를 기준으로 병합합니다.

In [None]:
# member, personal 병합
customer = pd.merge(member, personal, on='CustomerCD', how='inner')

# 확인
customer.head()

- 이제 병합해서 만들어진 customer와 city를 CityCD 열을 기준으로 병합합니다.

In [None]:
# member, personal 병합
customer = pd.merge(customer, city, on='CityCD', how='inner')

# 확인
customer.head()

### 4. 열 정보 확인

- 열 이름, 값 개수, 데이터 형식 등을 확인홥니다.

In [None]:
# 열 정보 확인
customer.info()

### 5. 결측치 처리

- 우선 결측치가 있는지 확인합니다.

In [None]:
# 결측치 확인
customer.isna().sum()

- 결측치가 있는 행은 중요하지 않다고 가정하고 제거합니다.

In [None]:
# 결측치 제거
customer.dropna(inplace=True)

# 확인
customer.isna().sum()

### 6. 열 추가

- BirthDate 열에서 년, 월, 일을 추출해 BirthYear, BirthMonth, BirthDay 열을 만듭니다.

In [None]:
# 열 추가
customer['BirthYear'] = pd.to_datetime(customer['BirthDate']).dt.year
customer['BirthMonth'] = pd.to_datetime(customer['BirthDate']).dt.month
customer['BirthDay'] = pd.to_datetime(customer['BirthDate']).dt.day

# 확인
customer.head()

### 7. 불필요한 열 제거

- 불필요하다고 판단되는 MemberCD, CityCD, BirthDate 열을 제거합니다.

In [None]:
# 불필요한 열 제거
col_x = ['MemberCD', 'CityCD', 'BirthDate']
customer.drop(col_x, axis=1, inplace=True)

# 확인
customer.head()

### 8. 열 이름 변경

- ClassCD, CityName열 이름을 각각 Class, City로 변경합니다.

In [None]:
# 열 이름 변경
customer.rename(columns={'ClassCD': 'Class', 'CityName': 'City'}, inplace=True)

# 확인
customer.head()

### 9. 데이터 집계 

- 특정 열을 기준으로 집계하여 확인하고 시각화합니다.
- 먼저 Class 별 Score 열 평균을 집계해 막대 그래프로 시각화 합니다.

In [None]:
# 집계
tmp = customer.groupby(by='Class', as_index=False)[['Score']].mean()

# 정렬
tmp.sort_values(by='Score', ascending=False, inplace=True)

# 확인
tmp

In [None]:
# 시각화
plt.bar(tmp['Class'], tmp['Score'])
plt.show()

- Gender 별 Score 평균을 집계하여 시각화합니다.

In [None]:
# 집계
tmp = customer.groupby(by='Gender', as_index=False)[['Score']].mean()

# 확인
tmp

In [None]:
# 시각화
plt.bar(tmp['Gender'], tmp['Score'])
plt.show()

### 10. 데이터 정렬

- 데이터를 정렬하여 확인하고 시각화합니다.
- 먼저 Score 열을 기준으로 내림차순 정렬해 상위 10개 행만 추출합니다.

In [None]:
# score top 10
score_top10 = customer.sort_values(by='Score', ascending=False).head(10)

# 확인
score_top10

- 예쁜 데이터를 만들기 위해 인덱스를 초기화합니다.

In [None]:
# 인덱스 초기화
score_top10.reset_index(drop=True, inplace=True)

# 확인
score_top10

- 고객(CustomerCD)별 점수(Score)를 막대그래프로 시각화합니다.
- 단, 값이 상당히 크다고 가정하고 1,000으로 나눈 값을 시각화합니다.

In [None]:
# 시각화
plt.figure(figsize=(8, 5))
plt.bar(score_top10['CustomerCD'], score_top10['Score'] / 1000)
plt.title('Score TOP 10', size=15, pad=20)
plt.xticks(rotation=70)
plt.xlabel('CustomerID')
plt.ylabel('Score(thousand)')
plt.show()

### 11. 등급 추가

- 다음 기준으로 새로운 등급을 갖는 Level 열을 추가합니다.
    - Score <= 7,000 : E
    - 7,000 < Score <= 20,000 : D
    - 20,000 < Score <= 40,000 : C
    - 40,000 < Score <= 80,000 : B
    - 80,000 < Score : A

In [None]:
# Level 추가
my_bin = [-np.inf, 7000, 20000, 40000, 80000, np.inf]
my_label = ['E', 'D', 'C', 'B', 'A']
customer['Level'] = pd.cut(customer['Score'], bins=my_bin, labels=my_label)

# 확인
customer.head()

- Level 별로 몇 명씩 포함하고 있는지 확인합니다.

In [None]:
# 범주값 확인
customer['Level'].value_counts()