# **Chapter 02. 파이썬을 활용한 데이터 전처리**

---
**< 목차 >**
> 2-8. 피벗 테이블(pivot table) 기능과 그룹 통계(groupby)<br>
2-9. 데이터 합치기 (Join 과 Merge)<br>
2-10. 자료형 변환, 산술 연산

In [1]:
# 드라이브 마운트
from google.colab import drive
drive.mount('/content/drive')

# 라이브러리 임포트
import numpy as np
import pandas as pd

Mounted at /content/drive


## 2-8. 피벗 테이블(pivot table) 기능과 그룹 통계(groupby)

In [7]:
# 실습 파일 로딩 (아이돌 프로필)
df = pd.read_csv('https://bit.ly/3gRXTfD')

# 상위 200개 정보 중 키나 몸무게가 0이 아닌 값만 사용
df = df.iloc[:,1:11].head(200)
df = df.loc[(df['Height']!=0)&(df['Weight']!=0)].dropna(subset=['Group'], axis=0).reset_index(drop=True)

In [8]:
df

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45
5,Sooyoung,Choi Sooyoung,최수영,수영,1990-02-10,SNSD,South Korea,,170,48
6,Yoona,Im Yoona,임윤아,윤아,1990-05-30,SNSD,South Korea,,166,47
7,Seohyun,Seo Joohyun,서주현,서현,1991-06-28,SNSD,South Korea,,168,48
8,Yuna,Seo Yuna,서유나,유나,1992-12-30,AoA,South Korea,,163,45
9,Hyejeong,Shin Hyejeong,신혜정,혜정,1993-08-10,AoA,South Korea,,170,48


### 2-8-1. 피벗 테이블 (pivot table)

> 피벗 테이블(pivot table)
- 피벗 테이블은 방대한 표(ex. DB, 스프레드 시트 등)의 데이터를 요약하는 통계 표이다.
    - 쉽게 풀면, 다양한 정보가 있는 방대한 데이터에서 자신이 원하는 기준에 의해 데이터를 요약하는 통계 표이다.
    - 엑셀에서 사용되는 피벗 테이블과 동일한 개념이다.
- 요약에는 합계나 평균과 같은 통계가 포함될 수 있고, 원하는 방식으로 묶거나 정렬할 수 있다.
- 기본 사용법
    - `pd.pivot_table(df, index='행 인덱스', columns='열 인덱스', values='조회하고 싶은 값', aggfunc='집계 방식')`
        - 집계 방식의 기본 default값은 'mean(평균)'이다.

In [9]:
df.head()

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45


In [12]:
# 'Group'을 인덱스로 설정, 컬럼은 'Country'를 기준으로 나누고, 채우는 값은 'Height'의 'mean(평균)'으로
pd.pivot_table(df, index='Group', columns='Country', values='Height', aggfunc='mean')

Country,China,South Korea,Thailand
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9Muses,,170.0,
AoA,,166.5,
BLACKPINK,,162.5,170.0
CLC,,167.0,
Girl's Day,,166.75,
Gugudan,,165.0,
LABOUM,,165.25,
Lovelyz,,164.0,
Mamamoo,,163.0,
Oh My Girl,,161.714286,


In [13]:
# 집계방식(합계)
pd.pivot_table(df, index='Group', columns='Country', values='Height', aggfunc='sum')

Country,China,South Korea,Thailand
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9Muses,,850.0,
AoA,,666.0,
BLACKPINK,,325.0,170.0
CLC,,167.0,
Girl's Day,,667.0,
Gugudan,,495.0,
LABOUM,,661.0,
Lovelyz,,1148.0,
Mamamoo,,652.0,
Oh My Girl,,1132.0,


In [14]:
# 집계방식(개수)
pd.pivot_table(df, index='Group', columns='Country', values='Height', aggfunc='count')

Country,China,South Korea,Thailand
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9Muses,,5.0,
AoA,,4.0,
BLACKPINK,,2.0,1.0
CLC,,1.0,
Girl's Day,,4.0,
Gugudan,,3.0,
LABOUM,,4.0,
Lovelyz,,7.0,
Mamamoo,,4.0,
Oh My Girl,,7.0,


### 2-8-2. 그룹 통계 (groupby)

> 그룹으로 묶기
- 그룹 통계(groupby)는 피벗 테이블과 유사한 개념으로, **같은 값을 그룹으로 묶어서 분석할 때 사용**한다.
- 그룹으로 묶는 기준(ex.성별,나이,혈액형 등)에 따라 합계, 평균, 분산, 최대/최소 값 등 그룹 퉁계를 구할 수 있다.
- 기본 사용법
    - `df.groupby('그룹 구분').count()` : 갯수
    - `df.groupby('그룹 구분').sum()` - 합계
    - `df.groupby('그룹 구분').mean()` - 평균
    - `df.groupby('그룹 구분').var()` - 분산
    - `df.groupby('그룹 구분').std()` - 표준편차
    - `df.groupby('그룹 구분').min()/.max()` - 최대/최소값

In [15]:
df.head()

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45


> 단일 그룹 지정

In [16]:
df.groupby('Group').mean()

Unnamed: 0_level_0,Height,Weight
Group,Unnamed: 1_level_1,Unnamed: 2_level_1
9Muses,170.0,47.8
AoA,166.5,46.75
BLACKPINK,165.0,47.0
CLC,167.0,48.0
Girl's Day,166.75,47.25
Gugudan,165.0,48.666667
LABOUM,165.25,47.25
Lovelyz,164.0,45.571429
Mamamoo,163.0,43.75
Oh My Girl,161.714286,48.428571


In [17]:
df.groupby('Group').sum()

Unnamed: 0_level_0,Height,Weight
Group,Unnamed: 1_level_1,Unnamed: 2_level_1
9Muses,850,239
AoA,666,187
BLACKPINK,495,141
CLC,167,48
Girl's Day,667,189
Gugudan,495,146
LABOUM,661,189
Lovelyz,1148,319
Mamamoo,652,175
Oh My Girl,1132,339


In [18]:
# 컬럼 명을 지정해주면 해당 컬럼의 값만 볼 수 있다.
df.groupby('Group')['Height'].mean()

Group
9Muses        170.000000
AoA           166.500000
BLACKPINK     165.000000
CLC           167.000000
Girl's Day    166.750000
Gugudan       165.000000
LABOUM        165.250000
Lovelyz       164.000000
Mamamoo       163.000000
Oh My Girl    161.714286
SNSD          163.750000
T-ara         165.750000
f(x)          168.000000
Name: Height, dtype: float64

> 여러 개 그룹 지정

In [19]:
df.groupby(['Group','Country']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Group,Country,Unnamed: 2_level_1,Unnamed: 3_level_1
9Muses,South Korea,170.0,47.8
AoA,South Korea,166.5,46.75
BLACKPINK,South Korea,162.5,47.5
BLACKPINK,Thailand,170.0,46.0
CLC,South Korea,167.0,48.0
Girl's Day,South Korea,166.75,47.25
Gugudan,South Korea,165.0,48.666667
LABOUM,South Korea,165.25,47.25
Lovelyz,South Korea,164.0,45.571429
Mamamoo,South Korea,163.0,43.75


이때 인덱스에 있는 값들을 컬럼으로 바꾸고 싶을 경우 `reset_index()`를 사용한다.

In [21]:
df.groupby(['Group','Country']).mean().reset_index()

Unnamed: 0,Group,Country,Height,Weight
0,9Muses,South Korea,170.0,47.8
1,AoA,South Korea,166.5,46.75
2,BLACKPINK,South Korea,162.5,47.5
3,BLACKPINK,Thailand,170.0,46.0
4,CLC,South Korea,167.0,48.0
5,Girl's Day,South Korea,166.75,47.25
6,Gugudan,South Korea,165.0,48.666667
7,LABOUM,South Korea,165.25,47.25
8,Lovelyz,South Korea,164.0,45.571429
9,Mamamoo,South Korea,163.0,43.75


> 그룹 데이터 확인 : `get_group()`

통계정보를 입력하지 않고 'groupby' 만 할 경우, 판다스 상태로 묶여있다는 정보만 확인할 수 있지 그룹의 값을 알 수 없다.

In [22]:
df.groupby('Group')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f00b42c7d10>

이때 `.groups` 을 붙이면 해당 데이터의 그룹들을 확인 할 수 있다.

In [23]:
df.groupby('Group').groups

{'9Muses': [16, 17, 18, 19, 20], 'AoA': [8, 9, 10, 11], 'BLACKPINK': [52, 53, 54], 'CLC': [51], 'Girl's Day': [12, 13, 14, 15], 'Gugudan': [22, 23, 24], 'LABOUM': [39, 40, 41, 42], 'Lovelyz': [32, 33, 34, 35, 36, 37, 38], 'Mamamoo': [47, 48, 49, 50], 'Oh My Girl': [25, 26, 27, 28, 29, 30, 31], 'SNSD': [0, 1, 2, 3, 4, 5, 6, 7], 'T-ara': [43, 44, 45, 46], 'f(x)': [21]}

실행결과로 나오는 리스트 안의 숫자는 데이터프레임 속 index 번호를 뜻한다.<br>

이렇게 확인한 그룹 중 원하는 그룹의 데이터를 보고 싶을 경우 `get_group()` 명령어를 사용하자.

In [24]:
df.groupby('Group').get_group('BLACKPINK')

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight
52,Jisoo,Kim Jisoo,김지수,지수,1995-01-03,BLACKPINK,South Korea,,162,45
53,Jennie,Kim Jennie,김제니,제니,1996-01-16,BLACKPINK,South Korea,,163,50
54,Lisa,Pranpriya Manoban,쁘란쁘리야 마노반,리사,1997-03-27,BLACKPINK,Thailand,,170,46


> \+ 그룹 집계 방식 구분하기 : `agg()`

In [25]:
df.groupby('Group').mean()

Unnamed: 0_level_0,Height,Weight
Group,Unnamed: 1_level_1,Unnamed: 2_level_1
9Muses,170.0,47.8
AoA,166.5,46.75
BLACKPINK,165.0,47.0
CLC,167.0,48.0
Girl's Day,166.75,47.25
Gugudan,165.0,48.666667
LABOUM,165.25,47.25
Lovelyz,164.0,45.571429
Mamamoo,163.0,43.75
Oh My Girl,161.714286,48.428571


특정 열에 대해서 다른 집계를 하고 싶을 때 `agg()` 명령어를 사용하자.

In [26]:
df.groupby('Group').agg({'Height':'mean', 'Weight':'sum'})

Unnamed: 0_level_0,Height,Weight
Group,Unnamed: 1_level_1,Unnamed: 2_level_1
9Muses,170.0,239
AoA,166.5,187
BLACKPINK,165.0,141
CLC,167.0,48
Girl's Day,166.75,189
Gugudan,165.0,146
LABOUM,165.25,189
Lovelyz,164.0,319
Mamamoo,163.0,175
Oh My Girl,161.714286,339


## 2-9. 데이터 합치기 (Join 과 Merge)

In [27]:
# 실습 파일 로딩 (아이돌 프로필)
df = pd.read_csv('https://bit.ly/3gRXTfD')

# 상위 5개 정보 사용
df1 = df.iloc[:,1:11].head(5)
df2 = df.loc[3:10, ['Korean Name', 'Instagram']]

In [28]:
df1

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45


In [29]:
df2

Unnamed: 0,Korean Name,Instagram
3,김효연,watasiwahyo
4,권유리,yulyulk
5,최수영,hotsootuff
6,임윤아,yoona__lim
7,서주현,seojuhyun_s
8,제시카 정,jessica.syj
9,이채린,chaelincl
10,박봄,haroobommi


### 2-9-1. Join