# **Chapter 02. 파이썬을 활용한 데이터 전처리**

---
**< 목차 >**
> 2-8. 피벗 테이블(pivot table) 기능과 그룹 통계(groupby)<br>
2-9. 데이터 합치기 (Join 과 Merge)<br>
2-10. 자료형 변환, 산술 연산

In [1]:
# 드라이브 마운트
from google.colab import drive
drive.mount('/content/drive')

# 라이브러리 임포트
import numpy as np
import pandas as pd

Mounted at /content/drive


## 2-8. 피벗 테이블(pivot table) 기능과 그룹 통계(groupby)

In [None]:
# 실습 파일 로딩 (아이돌 프로필)
df = pd.read_csv('https://bit.ly/3gRXTfD')

# 상위 200개 정보 중 키나 몸무게가 0이 아닌 값만 사용
df = df.iloc[:,1:11].head(200)
df = df.loc[(df['Height']!=0)&(df['Weight']!=0)].dropna(subset=['Group'], axis=0).reset_index(drop=True)

In [None]:
df

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45
5,Sooyoung,Choi Sooyoung,최수영,수영,1990-02-10,SNSD,South Korea,,170,48
6,Yoona,Im Yoona,임윤아,윤아,1990-05-30,SNSD,South Korea,,166,47
7,Seohyun,Seo Joohyun,서주현,서현,1991-06-28,SNSD,South Korea,,168,48
8,Yuna,Seo Yuna,서유나,유나,1992-12-30,AoA,South Korea,,163,45
9,Hyejeong,Shin Hyejeong,신혜정,혜정,1993-08-10,AoA,South Korea,,170,48


### **2-8-1. 피벗 테이블 (pivot table)**

> 피벗 테이블(pivot table)
- 피벗 테이블은 방대한 표(ex. DB, 스프레드 시트 등)의 데이터를 요약하는 통계 표이다.
    - 쉽게 풀면, 다양한 정보가 있는 방대한 데이터에서 자신이 원하는 기준에 의해 데이터를 요약하는 통계 표이다.
    - 엑셀에서 사용되는 피벗 테이블과 동일한 개념이다.
- 요약에는 합계나 평균과 같은 통계가 포함될 수 있고, 원하는 방식으로 묶거나 정렬할 수 있다.
- 기본 사용법
    - `pd.pivot_table(df, index='행 인덱스', columns='열 인덱스', values='조회하고 싶은 값', aggfunc='집계 방식')`
        - 집계 방식의 기본 default값은 'mean(평균)'이다.

In [None]:
df.head()

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45


In [None]:
# 'Group'을 인덱스로 설정, 컬럼은 'Country'를 기준으로 나누고, 채우는 값은 'Height'의 'mean(평균)'으로
pd.pivot_table(df, index='Group', columns='Country', values='Height', aggfunc='mean')

Country,China,South Korea,Thailand
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9Muses,,170.0,
AoA,,166.5,
BLACKPINK,,162.5,170.0
CLC,,167.0,
Girl's Day,,166.75,
Gugudan,,165.0,
LABOUM,,165.25,
Lovelyz,,164.0,
Mamamoo,,163.0,
Oh My Girl,,161.714286,


In [None]:
# 집계방식(합계)
pd.pivot_table(df, index='Group', columns='Country', values='Height', aggfunc='sum')

Country,China,South Korea,Thailand
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9Muses,,850.0,
AoA,,666.0,
BLACKPINK,,325.0,170.0
CLC,,167.0,
Girl's Day,,667.0,
Gugudan,,495.0,
LABOUM,,661.0,
Lovelyz,,1148.0,
Mamamoo,,652.0,
Oh My Girl,,1132.0,


In [None]:
# 집계방식(개수)
pd.pivot_table(df, index='Group', columns='Country', values='Height', aggfunc='count')

Country,China,South Korea,Thailand
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9Muses,,5.0,
AoA,,4.0,
BLACKPINK,,2.0,1.0
CLC,,1.0,
Girl's Day,,4.0,
Gugudan,,3.0,
LABOUM,,4.0,
Lovelyz,,7.0,
Mamamoo,,4.0,
Oh My Girl,,7.0,


### **2-8-2. 그룹 통계 (groupby)**

> 그룹으로 묶기
- 그룹 통계(groupby)는 피벗 테이블과 유사한 개념으로, **같은 값을 그룹으로 묶어서 분석할 때 사용**한다.
- 그룹으로 묶는 기준(ex.성별,나이,혈액형 등)에 따라 합계, 평균, 분산, 최대/최소 값 등 그룹 퉁계를 구할 수 있다.
- 기본 사용법
    - `df.groupby('그룹 구분').count()` : 갯수
    - `df.groupby('그룹 구분').sum()` - 합계
    - `df.groupby('그룹 구분').mean()` - 평균
    - `df.groupby('그룹 구분').var()` - 분산
    - `df.groupby('그룹 구분').std()` - 표준편차
    - `df.groupby('그룹 구분').min()/.max()` - 최대/최소값

In [None]:
df.head()

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45


> 단일 그룹 지정

In [None]:
df.groupby('Group').mean()

Unnamed: 0_level_0,Height,Weight
Group,Unnamed: 1_level_1,Unnamed: 2_level_1
9Muses,170.0,47.8
AoA,166.5,46.75
BLACKPINK,165.0,47.0
CLC,167.0,48.0
Girl's Day,166.75,47.25
Gugudan,165.0,48.666667
LABOUM,165.25,47.25
Lovelyz,164.0,45.571429
Mamamoo,163.0,43.75
Oh My Girl,161.714286,48.428571


In [None]:
df.groupby('Group').sum()

Unnamed: 0_level_0,Height,Weight
Group,Unnamed: 1_level_1,Unnamed: 2_level_1
9Muses,850,239
AoA,666,187
BLACKPINK,495,141
CLC,167,48
Girl's Day,667,189
Gugudan,495,146
LABOUM,661,189
Lovelyz,1148,319
Mamamoo,652,175
Oh My Girl,1132,339


In [None]:
# 컬럼 명을 지정해주면 해당 컬럼의 값만 볼 수 있다.
df.groupby('Group')['Height'].mean()

Group
9Muses        170.000000
AoA           166.500000
BLACKPINK     165.000000
CLC           167.000000
Girl's Day    166.750000
Gugudan       165.000000
LABOUM        165.250000
Lovelyz       164.000000
Mamamoo       163.000000
Oh My Girl    161.714286
SNSD          163.750000
T-ara         165.750000
f(x)          168.000000
Name: Height, dtype: float64

> 여러 개 그룹 지정

In [None]:
df.groupby(['Group','Country']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Group,Country,Unnamed: 2_level_1,Unnamed: 3_level_1
9Muses,South Korea,170.0,47.8
AoA,South Korea,166.5,46.75
BLACKPINK,South Korea,162.5,47.5
BLACKPINK,Thailand,170.0,46.0
CLC,South Korea,167.0,48.0
Girl's Day,South Korea,166.75,47.25
Gugudan,South Korea,165.0,48.666667
LABOUM,South Korea,165.25,47.25
Lovelyz,South Korea,164.0,45.571429
Mamamoo,South Korea,163.0,43.75


이때 인덱스에 있는 값들을 컬럼으로 바꾸고 싶을 경우 `reset_index()`를 사용한다.

In [None]:
df.groupby(['Group','Country']).mean().reset_index()

Unnamed: 0,Group,Country,Height,Weight
0,9Muses,South Korea,170.0,47.8
1,AoA,South Korea,166.5,46.75
2,BLACKPINK,South Korea,162.5,47.5
3,BLACKPINK,Thailand,170.0,46.0
4,CLC,South Korea,167.0,48.0
5,Girl's Day,South Korea,166.75,47.25
6,Gugudan,South Korea,165.0,48.666667
7,LABOUM,South Korea,165.25,47.25
8,Lovelyz,South Korea,164.0,45.571429
9,Mamamoo,South Korea,163.0,43.75


> 그룹 데이터 확인 : `get_group()`

통계정보를 입력하지 않고 'groupby' 만 할 경우, 판다스 상태로 묶여있다는 정보만 확인할 수 있지 그룹의 값을 알 수 없다.

In [None]:
df.groupby('Group')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f00b42c7d10>

이때 `.groups` 을 붙이면 해당 데이터의 그룹들을 확인 할 수 있다.

In [None]:
df.groupby('Group').groups

{'9Muses': [16, 17, 18, 19, 20], 'AoA': [8, 9, 10, 11], 'BLACKPINK': [52, 53, 54], 'CLC': [51], 'Girl's Day': [12, 13, 14, 15], 'Gugudan': [22, 23, 24], 'LABOUM': [39, 40, 41, 42], 'Lovelyz': [32, 33, 34, 35, 36, 37, 38], 'Mamamoo': [47, 48, 49, 50], 'Oh My Girl': [25, 26, 27, 28, 29, 30, 31], 'SNSD': [0, 1, 2, 3, 4, 5, 6, 7], 'T-ara': [43, 44, 45, 46], 'f(x)': [21]}

실행결과로 나오는 리스트 안의 숫자는 데이터프레임 속 index 번호를 뜻한다.<br>

이렇게 확인한 그룹 중 원하는 그룹의 데이터를 보고 싶을 경우 `get_group()` 명령어를 사용하자.

In [None]:
df.groupby('Group').get_group('BLACKPINK')

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight
52,Jisoo,Kim Jisoo,김지수,지수,1995-01-03,BLACKPINK,South Korea,,162,45
53,Jennie,Kim Jennie,김제니,제니,1996-01-16,BLACKPINK,South Korea,,163,50
54,Lisa,Pranpriya Manoban,쁘란쁘리야 마노반,리사,1997-03-27,BLACKPINK,Thailand,,170,46


> \+ 그룹 집계 방식 구분하기 : `agg()`

In [None]:
df.groupby('Group').mean()

Unnamed: 0_level_0,Height,Weight
Group,Unnamed: 1_level_1,Unnamed: 2_level_1
9Muses,170.0,47.8
AoA,166.5,46.75
BLACKPINK,165.0,47.0
CLC,167.0,48.0
Girl's Day,166.75,47.25
Gugudan,165.0,48.666667
LABOUM,165.25,47.25
Lovelyz,164.0,45.571429
Mamamoo,163.0,43.75
Oh My Girl,161.714286,48.428571


특정 열에 대해서 다른 집계를 하고 싶을 때 `agg()` 명령어를 사용하자.

In [None]:
df.groupby('Group').agg({'Height':'mean', 'Weight':'sum'})

Unnamed: 0_level_0,Height,Weight
Group,Unnamed: 1_level_1,Unnamed: 2_level_1
9Muses,170.0,239
AoA,166.5,187
BLACKPINK,165.0,141
CLC,167.0,48
Girl's Day,166.75,189
Gugudan,165.0,146
LABOUM,165.25,189
Lovelyz,164.0,319
Mamamoo,163.0,175
Oh My Girl,161.714286,339


## 2-9. 데이터 합치기 (Join 과 Merge)

In [None]:
# 실습 파일 로딩 (아이돌 프로필)
df = pd.read_csv('https://bit.ly/3gRXTfD')

# 상위 5개 정보 사용
df1 = df.iloc[:,1:11].head(5)
df2 = df.loc[3:10, ['Korean Name', 'Instagram']]

In [None]:
df1

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45


In [None]:
df2

Unnamed: 0,Korean Name,Instagram
3,김효연,watasiwahyo
4,권유리,yulyulk
5,최수영,hotsootuff
6,임윤아,yoona__lim
7,서주현,seojuhyun_s
8,제시카 정,jessica.syj
9,이채린,chaelincl
10,박봄,haroobommi


### **2-9-1. Join**

> 두 개의 데이터프레임(DataFrame)을 겹치는 인덱스(Index) 기준으로 합치는 것
- '`Innder Join`', '`Left Join`', '`Right Join`', '`Outer Join`' 4가지 방식이 있다.
- 기본 사용법
    - `df1.join(df2, on='키 인덱스', how='조인 방법', sort='정렬 여부')`

In [None]:
df1

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45


In [None]:
df2

Unnamed: 0,Korean Name,Instagram
3,김효연,watasiwahyo
4,권유리,yulyulk
5,최수영,hotsootuff
6,임윤아,yoona__lim
7,서주현,seojuhyun_s
8,제시카 정,jessica.syj
9,이채린,chaelincl
10,박봄,haroobommi


> `join` 을 사용하기 위해서는, 키로 지정할 열을 "인덱스화" 시켜주어야 한다.
- `set_index('키로 지정할 열')` 사용법
    - 1번 데이터에서 컬럼에 겹치는 데이터의 값이 2번 데이터에서는 index에 있어야 한다.
    
    df1.join(df2, on='Korean Name', how='left')    # 에러 발생!

> **1. [join] Left Join**

In [None]:
df1.join(df2.set_index('Korean Name'), on='Korean Name', how='left')

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Instagram
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44,
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43,
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50,
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48,watasiwahyo
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45,yulyulk


> **2. [join] Right Join**

In [None]:
df1.join(df2.set_index('Korean Name'), on='Korean Name', how='right')

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Instagram
3.0,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158.0,48.0,watasiwahyo
4.0,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167.0,45.0,yulyulk
,,,최수영,,,,,,,,hotsootuff
,,,임윤아,,,,,,,,yoona__lim
,,,서주현,,,,,,,,seojuhyun_s
,,,제시카 정,,,,,,,,jessica.syj
,,,이채린,,,,,,,,chaelincl
,,,박봄,,,,,,,,haroobommi


> **3. [join] Innder Join**

In [None]:
df1.join(df2.set_index('Korean Name'), on='Korean Name', how='inner')

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Instagram
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48,watasiwahyo
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45,yulyulk


> **4. [join] Outer Join**

In [None]:
df1.join(df2.set_index('Korean Name'), on='Korean Name', how='outer')

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Instagram
0.0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160.0,44.0,
1.0,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158.0,43.0,
2.0,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163.0,50.0,
3.0,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158.0,48.0,watasiwahyo
4.0,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167.0,45.0,yulyulk
,,,최수영,,,,,,,,hotsootuff
,,,임윤아,,,,,,,,yoona__lim
,,,서주현,,,,,,,,seojuhyun_s
,,,제시카 정,,,,,,,,jessica.syj
,,,이채린,,,,,,,,chaelincl


### **3-9-2. Merge(추천)**

> 두 개의 데이터프레임(DataFrame)을 겹치는 "값(Value)" 기준으로 합치는 것
- Merge를 사용하면, Join에서 겹치는 인덱스를 따로 지정해 주어야 하는 작업이 없어진다(두 개 이상의 겹치는 컬럼만 있으면 된다).
- Join과 같이 '`Inner Merge`', '`Left Merge`', '`Right Merge`', '`Outer Merge`' 4가지 방식이 있다.
- 기본 사용법
    - `pd.merge(df1, df2, on='키 칼럼', how='조인 방법', sort='정렬 여부')`

> **1. [merge] Left Merge**

In [None]:
pd.merge(df1, df2, on='Korean Name', how='left')

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Instagram
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160,44,
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158,43,
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163,50,
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48,watasiwahyo
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45,yulyulk


> **2. [merge] Right Merge**

In [None]:
pd.merge(df1, df2, on='Korean Name', how='right')

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Instagram
0,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158.0,48.0,watasiwahyo
1,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167.0,45.0,yulyulk
2,,,최수영,,,,,,,,hotsootuff
3,,,임윤아,,,,,,,,yoona__lim
4,,,서주현,,,,,,,,seojuhyun_s
5,,,제시카 정,,,,,,,,jessica.syj
6,,,이채린,,,,,,,,chaelincl
7,,,박봄,,,,,,,,haroobommi


> **3. [merge] Inner Merge**

In [None]:
pd.merge(df1, df2, on='Korean Name', how='inner')

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Instagram
0,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48,watasiwahyo
1,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45,yulyulk


> **4. [merge] Outer Merge**

In [None]:
pd.merge(df1, df2, on='Korean Name', how='outer')

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Instagram
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160.0,44.0,
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158.0,43.0,
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163.0,50.0,
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158.0,48.0,watasiwahyo
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167.0,45.0,yulyulk
5,,,최수영,,,,,,,,hotsootuff
6,,,임윤아,,,,,,,,yoona__lim
7,,,서주현,,,,,,,,seojuhyun_s
8,,,제시카 정,,,,,,,,jessica.syj
9,,,이채린,,,,,,,,chaelincl


### **3-9-3. Concat**

> 두 개의 데이터프레임(DataFrame)을 단순히 붙이는 방법
- 위의 Join, Merge와는 다른 개념으로, `concat`은 행이나 열 방향으로 데이터프레임을 붙일 수 있다.
- 행 방향으로 붙이기 : `axis=0` / 열 방향으로 붙이기 : `axis=1`
- 기본 사용법
    - `pd.concat([df1, df2], axis='붙이는 방향')`

> **행(row) 방향 데이터 붙이기**

In [None]:
pd.concat([df1, df2], axis=0)

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Instagram
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160.0,44.0,
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158.0,43.0,
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163.0,50.0,
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158.0,48.0,
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167.0,45.0,
3,,,김효연,,,,,,,,watasiwahyo
4,,,권유리,,,,,,,,yulyulk
5,,,최수영,,,,,,,,hotsootuff
6,,,임윤아,,,,,,,,yoona__lim
7,,,서주현,,,,,,,,seojuhyun_s


> **열(column) 방향 데이터 붙이기**

In [None]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Korean Name.1,Instagram
0,Taeyeon,Kim Taeyeon,김태연,태연,1989-03-09,SNSD,South Korea,,160.0,44.0,,
1,Sunny,Lee Sunkyu,이순규,써니,1989-05-15,SNSD,South Korea,,158.0,43.0,,
2,Tiffany,Hwang Miyoung,황미영,티파니,1989-08-01,SNSD,South Korea,USA,163.0,50.0,,
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158.0,48.0,김효연,watasiwahyo
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167.0,45.0,권유리,yulyulk
5,,,,,,,,,,,최수영,hotsootuff
6,,,,,,,,,,,임윤아,yoona__lim
7,,,,,,,,,,,서주현,seojuhyun_s
8,,,,,,,,,,,제시카 정,jessica.syj
9,,,,,,,,,,,이채린,chaelincl


> **겹치는 값만 붙이기(join 활용)**

In [None]:
pd.concat([df1, df2], axis=1, join='inner')

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Second Country,Height,Weight,Korean Name.1,Instagram
3,Hyoyeon,Kim Hyoyeon,김효연,효연,1989-09-22,SNSD,South Korea,,158,48,김효연,watasiwahyo
4,Yuri,Kwon Yuri,권유리,유리,1989-12-05,SNSD,South Korea,,167,45,권유리,yulyulk


## 2-10. 자료형 변환, 산술 연산

In [2]:
# 실습 파일 로딩 (아이돌 프로필)
df = pd.read_csv('https://bit.ly/3gRXTfD')

In [3]:
# 상위 7개 정보 사용
df = df.iloc[:, 1:11].head(7)

In [4]:
df = df[['Korean Name', 'Date of Birth', 'Height', 'Weight']]
df

Unnamed: 0,Korean Name,Date of Birth,Height,Weight
0,김태연,1989-03-09,160,44
1,이순규,1989-05-15,158,43
2,황미영,1989-08-01,163,50
3,김효연,1989-09-22,158,48
4,권유리,1989-12-05,167,45
5,최수영,1990-02-10,170,48
6,임윤아,1990-05-30,166,47


### **2-10-1. 자료형 변환**

> Pandas에서는 `astype('변환하려는 자료형')`으로 데이터 자료형을 변환할 수 있다.
- Numpy에서는 dtype으로 지정해줬지만, Pandas에서는 astype을 통해 컬럼의 자료형을 한 번에 변환할 수 있다.
- 자주 쓰이는 Pandas 자료형은 정수(`int`), 실수(`float`), 문자열(`str`), 일자시간타입(`datetime`)이 있다.
    - 일자 시간 타입은 Pandas에 있는 특이한 형태의 자료형이며, astype이 아닌 `to_datetime()`이라는 형식을 따로 사용한다.

In [6]:
df

Unnamed: 0,Korean Name,Date of Birth,Height,Weight
0,김태연,1989-03-09,160,44
1,이순규,1989-05-15,158,43
2,황미영,1989-08-01,163,50
3,김효연,1989-09-22,158,48
4,권유리,1989-12-05,167,45
5,최수영,1990-02-10,170,48
6,임윤아,1990-05-30,166,47


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Korean Name    7 non-null      object
 1   Date of Birth  7 non-null      object
 2   Height         7 non-null      int64 
 3   Weight         7 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 352.0+ bytes


> **1. int -> str 타입 변환 (`astype('str')`)**

In [8]:
df['Height'] = df['Height'].astype('str')

In [10]:
type(df['Height'][0])

str

> **2. str -> int 타입 변환 (`astype('int')`)**

In [11]:
df['Height'] = df['Height'].astype('int')

In [12]:
type(df['Height'][0])

numpy.int64

> **3-1. str -> datetime 타입 변환 (`pd.to_datetime(df['컬럼명']`)**

datetime 이란?
- Pandas에서 날짜와 시간 데이터를 처리하기 위해 지원하는 자료형이다.
- 자료를 datetime으로 변환하면 날짜 슬라이싱, 시간 연산(일, 시, 분, 초 단위 등)이 가능하다.
    - 문자열인 상태로는 어려운 시간이 연산이 가능해진다.
- Python 자체적으로 제공하는 `datetime` 라이브러리를 사용하는 방법도 있지만, Pandas 라이브러리를 사용할 땐 Pandas 자료형을 사용하는 것이 효율적이다.

In [13]:
df

Unnamed: 0,Korean Name,Date of Birth,Height,Weight
0,김태연,1989-03-09,160,44
1,이순규,1989-05-15,158,43
2,황미영,1989-08-01,163,50
3,김효연,1989-09-22,158,48
4,권유리,1989-12-05,167,45
5,최수영,1990-02-10,170,48
6,임윤아,1990-05-30,166,47


In [14]:
df['Date of Birth'][0]

'1989-03-09'

In [16]:
df['Date of Birth'] = pd.to_datetime(df['Date of Birth'])

In [17]:
df['Date of Birth'][0]

Timestamp('1989-03-09 00:00:00')

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Korean Name    7 non-null      object        
 1   Date of Birth  7 non-null      datetime64[ns]
 2   Height         7 non-null      int64         
 3   Weight         7 non-null      int64         
dtypes: datetime64[ns](1), int64(2), object(1)
memory usage: 352.0+ bytes


> **3-2. datetime 타입으로 날짜 슬라이싱**
- datetime으로 변환된 데이터는 손쉽게 월, 일, 요일 등 날짜/시간 정보를 추출할 수 있다.
- datetime의 약어인 `dt`로 사용할 수도 있으며, `.dt`는 슬라이싱을 할 준비가 된 자료형으로 만들어 준다.

In [19]:
df['Date of Birth']

0   1989-03-09
1   1989-05-15
2   1989-08-01
3   1989-09-22
4   1989-12-05
5   1990-02-10
6   1990-05-30
Name: Date of Birth, dtype: datetime64[ns]

In [20]:
df['Date of Birth'].dt

<pandas.core.indexes.accessors.DatetimeProperties object at 0x7fe73e3914c0>

In [21]:
# 연도 추출
df['Date of Birth'].dt.year

0    1989
1    1989
2    1989
3    1989
4    1989
5    1990
6    1990
Name: Date of Birth, dtype: int64

In [22]:
# 월 추출
df['Date of Birth'].dt.month

0     3
1     5
2     8
3     9
4    12
5     2
6     5
Name: Date of Birth, dtype: int64

In [23]:
# 일 추출
df['Date of Birth'].dt.day

0     9
1    15
2     1
3    22
4     5
5    10
6    30
Name: Date of Birth, dtype: int64

In [24]:
# 요일 추출 (월요일: 0, 화요일: 1, 수요일: 2, 목요일: 3, 금요일: 4, 토요일: 5, 일요일: 6)
df['Date of Birth'].dt.dayofweek

0    3
1    0
2    1
3    4
4    1
5    5
6    2
Name: Date of Birth, dtype: int64

In [27]:
# 데이터 프레임에 추가
df['Year of Birth'] = df['Date of Birth'].dt.year
df['Month of Birth'] = df['Date of Birth'].dt.month
df['Day of Birth'] = df['Date of Birth'].dt.day

In [28]:
df

Unnamed: 0,Korean Name,Date of Birth,Height,Weight,Year of Birth,Month of Birth,Day of Birth
0,김태연,1989-03-09,160,44,1989,3,9
1,이순규,1989-05-15,158,43,1989,5,15
2,황미영,1989-08-01,163,50,1989,8,1
3,김효연,1989-09-22,158,48,1989,9,22
4,권유리,1989-12-05,167,45,1989,12,5
5,최수영,1990-02-10,170,48,1990,2,10
6,임윤아,1990-05-30,166,47,1990,5,30


### **2-10-2. 산술 연산**

> - Pandas에서는 같은 타입 자료형을 가지는 데이터끼리 산술 연산이 가능하다.
- 다른 타입 자료형 연산을 시도할 경우, 에러가 발생하니 자료형을 꼭 확인하자!

> **1. 사칙 연산**

In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Korean Name     7 non-null      object        
 1   Date of Birth   7 non-null      datetime64[ns]
 2   Height          7 non-null      int64         
 3   Weight          7 non-null      int64         
 4   Year of Birth   7 non-null      int64         
 5   Month of Birth  7 non-null      int64         
 6   Day of Birth    7 non-null      int64         
dtypes: datetime64[ns](1), int64(5), object(1)
memory usage: 520.0+ bytes


In [30]:
# 덧셈
df['Height'] + df['Weight']

0    204
1    201
2    213
3    206
4    212
5    218
6    213
dtype: int64

In [31]:
# 뺄셈
df['Height'] - df['Weight']

0    116
1    115
2    113
3    110
4    122
5    122
6    119
dtype: int64

In [32]:
# 곱셈
df['Height'] * df['Weight']

0    7040
1    6794
2    8150
3    7584
4    7515
5    8160
6    7802
dtype: int64

In [34]:
# 나눗셈셈
df['Height'] / df['Weight']

0    3.636364
1    3.674419
2    3.260000
3    3.291667
4    3.711111
5    3.541667
6    3.531915
dtype: float64

단순히 숫자를 계산하면면 Numpy의 브로드캐스팅처럼 일괄적으로 계산이 된다.

In [37]:
df['Height'] + 10

0    170
1    168
2    173
3    168
4    177
5    180
6    176
Name: Height, dtype: int64

In [36]:
df['Height'] * 10

0    1600
1    1580
2    1630
3    1580
4    1670
5    1700
6    1660
Name: Height, dtype: int64

> **2. 데이터타임(datetime) 연산**
- Pandas에서 날짜/시간 연산을 하기 위해서는, 더하고 빼는 값의 자료형이 시간 간격(`pd.Timedelta`)이어야만 한다.
    - 단순히 더하고 빼는 것이 아니라 시간 간격 문법으로 더하고 빼기 때문
- 기본 사용법
    - `pd.to_timedelta(df['컬럼명'], unit='시간 간격 단위')`
- 변환할 수 있는 시간 간격 단위는 일(`day`), 시(`hour`), 분(`min`), 초(`sec`) 등이 있다.

In [38]:
df

Unnamed: 0,Korean Name,Date of Birth,Height,Weight,Year of Birth,Month of Birth,Day of Birth
0,김태연,1989-03-09,160,44,1989,3,9
1,이순규,1989-05-15,158,43,1989,5,15
2,황미영,1989-08-01,163,50,1989,8,1
3,김효연,1989-09-22,158,48,1989,9,22
4,권유리,1989-12-05,167,45,1989,12,5
5,최수영,1990-02-10,170,48,1990,2,10
6,임윤아,1990-05-30,166,47,1990,5,30


In [39]:
# 단순 덧셈은 계산이 안 되는 걸 볼 수 있다.
df['Date of Birth'] + df['Day of Birth']

TypeError: ignored

In [40]:
# pd.Timedelta 자료형으로 변환 (시간 연산을 가능하게 할 timedelta 자료로 변환)
df['Day of Birth'] = pd.to_timedelta(df['Day of Birth'], unit='day')

In [42]:
# 그냥 숫자였던 Day of Birth가 9 days와 같은 형태로 변했다.
df

Unnamed: 0,Korean Name,Date of Birth,Height,Weight,Year of Birth,Month of Birth,Day of Birth
0,김태연,1989-03-09,160,44,1989,3,9 days
1,이순규,1989-05-15,158,43,1989,5,15 days
2,황미영,1989-08-01,163,50,1989,8,1 days
3,김효연,1989-09-22,158,48,1989,9,22 days
4,권유리,1989-12-05,167,45,1989,12,5 days
5,최수영,1990-02-10,170,48,1990,2,10 days
6,임윤아,1990-05-30,166,47,1990,5,30 days


In [44]:
# 자료형도 timedelta로 바뀐 것을 확인할 수 있다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype          
---  ------          --------------  -----          
 0   Korean Name     7 non-null      object         
 1   Date of Birth   7 non-null      datetime64[ns] 
 2   Height          7 non-null      int64          
 3   Weight          7 non-null      int64          
 4   Year of Birth   7 non-null      int64          
 5   Month of Birth  7 non-null      int64          
 6   Day of Birth    7 non-null      timedelta64[ns]
dtypes: datetime64[ns](1), int64(4), object(1), timedelta64[ns](1)
memory usage: 520.0+ bytes


In [46]:
df['Date of Birth'] + df['Day of Birth']

0   1989-03-18
1   1989-05-30
2   1989-08-02
3   1989-10-14
4   1989-12-10
5   1990-02-20
6   1990-06-29
dtype: datetime64[ns]

> **3. 통계 연산**
- 합계(`sum()`), 평균(`mean()`), 최소/최대값(`min()`, `max()`)과 같은 통계 연산도 지원한다.
- 행 계산은 `axis=0`, 열 계산은 `axis=1`

In [47]:
df = pd.DataFrame({'국어': [100, 60, 50, 75], '수학': [80, 70, 65, 90], '영어': [90, 55, 85, 70]})
df

Unnamed: 0,국어,수학,영어
0,100,80,90
1,60,70,55
2,50,65,85
3,75,90,70


In [51]:
# 행 합계
df.sum(axis=0)

국어    285
수학    305
영어    300
dtype: int64

In [52]:
# 행 평균
df.mean(axis=0)

국어    71.25
수학    76.25
영어    75.00
dtype: float64

In [53]:
# 열 합계
df.sum(axis=1)

0    270
1    185
2    200
3    235
dtype: int64

In [54]:
# 열 평균
df.mean(axis=1)

0    90.000000
1    61.666667
2    66.666667
3    78.333333
dtype: float64