- 여러 테이블에 데이터를 분할, 테이블을 서로 연결하여 테이블 사이의 관계를 쉽게 식별하도록 함.
- 관계형 데이터 베이스 관리 시스템(RDBMS)이 데이터 테이블을 분할하고 테이블 사이의 관계를 정의하는 방식을 따름
  - 데이터 베이스는 테이블로 구성
  - 테이블: 하나의 도메인 모델에 대한 레코드를 가짐, 행과 열로 구성됨
  - 행: 하나의 레코드에 대한 정보를 저장
  - 열: 각 레코드에 대한 속성을 저장
  - 테이블은 열 키로 연결됨
- 각 레코드에 고유한 숫자 식별자(**기본 키**)를 할당
- **외래 키**: 두 테이블의 관계를 설정하는 다른 테이블의 레코드에 대한 참
  - 키가 현재 테이블의 범위 밖에 있음
  - 데이터의 중복을 방지
  
- 판다스 라이브러리로 테이블 결합 가능
  - 수직/수평 방향 모두에서 DataFrame을 추가,연결,조인,병합,결합 가능
  - DataFrame 사이에 고유하고 공통인 레코드를 식별 가능

# 데이터셋 소개

In [1]:
import pandas as pd
groups1 = pd.read_csv("meetup/groups1.csv")
groups1.head()

Unnamed: 0,group_id,name,category_id,city_id
0,6388,Alternative Health NYC,14,10001
1,6510,Alternative Energy Meetup,4,10001
2,8458,NYC Animal Rights,26,10001
3,8940,The New York City Anime Group,29,10001
4,10104,NYC Pit Bull Group,26,10001


In [2]:
groups2 = pd.read_csv("meetup/groups2.csv")
groups2.head()

Unnamed: 0,group_id,name,category_id,city_id
0,18879327,BachataMania,5,10001
1,18880221,Photoshoot Chicago - Photography and Modeling ...,27,60601
2,18880426,Chicago Adult Push / Kick Scooter Group Riding...,31,60601
3,18880495,Chicago International Soccer Club,32,60601
4,18880695,Impact.tech San Francisco Meetup,2,94101


In [3]:
categories = pd.read_csv("meetup/categories.csv")
categories.head()

Unnamed: 0,category_id,category_name
0,1,Arts & Culture
1,3,Cars & Motorcycles
2,4,Community & Environment
3,5,Dancing
4,6,Education & Learning


In [4]:
pd.read_csv("meetup/cities.csv").head()

Unnamed: 0,id,city,state,zip
0,7093,West New York,NJ,7093
1,10001,New York,NY,10001
2,13417,New York Mills,NY,13417
3,46312,East Chicago,IN,46312
4,56567,New York Mills,MN,56567


In [5]:
#우편번호 zip열을 정수가 아닌 문자열로 다루기
#dtype 매개변수를 사용 - 키가 열 이름, 값이 열에 할당할 데이터 유형을 나타내는 딕셔너리를 인수로 받음
cities = pd.read_csv(
    "meetup/cities.csv", dtype = {"zip":"string"}
)
cities.head()

Unnamed: 0,id,city,state,zip
0,7093,West New York,NJ,7093
1,10001,New York,NY,10001
2,13417,New York Mills,NY,13417
3,46312,East Chicago,IN,46312
4,56567,New York Mills,MN,56567


# 데이터셋 결합
- 두 데이터셋을 결합하는 간단한 방법: 하나의 DataFrame의 끝에 다른 DataFrame을 추가하여 **concatenation**
- 판다스는 라이브러리 최상위 레벨에서 concat 함수를 제공

In [6]:
#concat함수의 objs 매개변수: 인수로 받은 리스트에 나타나는 순서대로 객체 연결
pd.concat(objs = [groups1, groups2])

Unnamed: 0,group_id,name,category_id,city_id
0,6388,Alternative Health NYC,14,10001
1,6510,Alternative Energy Meetup,4,10001
2,8458,NYC Animal Rights,26,10001
3,8940,The New York City Anime Group,29,10001
4,10104,NYC Pit Bull Group,26,10001
...,...,...,...,...
8326,26377464,Shinect,34,94101
8327,26377698,The art of getting what you want [conference s...,14,94101
8328,26378067,Streeterville Running Group,9,60601
8329,26378128,Just Dance NYC,23,10001


In [7]:
len(groups1) + len(groups2)

16330

In [8]:
#판다스는 연결된 두 DataFrame의 원본 인덱스 레이블을 그대로 유지->중복 인덱스 레이블 생김
#concat함수의 ignore_index 매개변수에 인수를 True로 전달->원본 인덱스 레이블 버림
pd.concat(objs = [groups1, groups2], ignore_index = True)

Unnamed: 0,group_id,name,category_id,city_id
0,6388,Alternative Health NYC,14,10001
1,6510,Alternative Energy Meetup,4,10001
2,8458,NYC Animal Rights,26,10001
3,8940,The New York City Anime Group,29,10001
4,10104,NYC Pit Bull Group,26,10001
...,...,...,...,...
16325,26377464,Shinect,34,94101
16326,26377698,The art of getting what you want [conference s...,14,94101
16327,26378067,Streeterville Running Group,9,60601
16328,26378128,Just Dance NYC,23,10001


In [9]:
#인덱스 중복을 피하면서 원본 DataFrame을 보존하려면
#concat함수의 keys매개변수에 문자열 리스트 전달
#동일한 인덱스 위치에 있는 objs 리스트의 DataFrame과 연결
#MultiIndex DataFrame을 반환, 첫번째 레벨(키), 두번째 레벨(기존 인덱스 레이블)
pd.concat(objs = [groups1, groups2], keys = ["G1", "G2"])

Unnamed: 0,Unnamed: 1,group_id,name,category_id,city_id
G1,0,6388,Alternative Health NYC,14,10001
G1,1,6510,Alternative Energy Meetup,4,10001
G1,2,8458,NYC Animal Rights,26,10001
G1,3,8940,The New York City Anime Group,29,10001
G1,4,10104,NYC Pit Bull Group,26,10001
...,...,...,...,...,...
G2,8326,26377464,Shinect,34,94101
G2,8327,26377698,The art of getting what you want [conference s...,14,94101
G2,8328,26378067,Streeterville Running Group,9,60601
G2,8329,26378128,Just Dance NYC,23,10001


In [10]:
groups = pd.concat(objs = [groups1, groups2], ignore_index = True)

# 결합된 DataFrame의 결측값
- 두 DataFrame을 결합 시 데이터셋이 서로 공유하지 않는 행/열 레이블의 교차점에 NaN을 배치

In [11]:
sports_champions_A = pd.DataFrame(
    data = [
        ["New England Patriots", "Houston Astros"],
        ["Philadelphia Eagles", "Boston Red Sox"]
    ],
    columns = ["Football", "Baseball"],
    index = [2017, 2018]
)
sports_champions_A

Unnamed: 0,Football,Baseball
2017,New England Patriots,Houston Astros
2018,Philadelphia Eagles,Boston Red Sox


In [12]:
sports_champions_B = pd.DataFrame(
    data = [
        ["New England Patriots", "St. Louis Blues"],
        ["Kansas City Chiefs", "Tampa Bay Lightning"]
    ],
    columns = ["Football", "Hockey"],
    index = [2019, 2020]
)
sports_champions_B

Unnamed: 0,Football,Hockey
2019,New England Patriots,St. Louis Blues
2020,Kansas City Chiefs,Tampa Bay Lightning


In [13]:
pd.concat(objs = [sports_champions_A, sports_champions_B])

Unnamed: 0,Football,Baseball,Hockey
2017,New England Patriots,Houston Astros,
2018,Philadelphia Eagles,Boston Red Sox,
2019,New England Patriots,,St. Louis Blues
2020,Kansas City Chiefs,,Tampa Bay Lightning


In [14]:
#판다스는 기본적으로 가로축에 행을 덧붙임. 세로축에 행을 덧붙이고 싶을 때
sports_champions_C = pd.DataFrame(
    data = [
        ["Pittsburgh Penguins", "Golden State Warriors"],
        ["Washington Capitals", "Golden State Warriors"]
    ],
    columns = ["Hockey", "Basketball"],
    index = [2017, 2018]
)
sports_champions_C

Unnamed: 0,Hockey,Basketball
2017,Pittsburgh Penguins,Golden State Warriors
2018,Washington Capitals,Golden State Warriors


In [15]:
pd.concat(objs = [sports_champions_A, sports_champions_C])

Unnamed: 0,Football,Baseball,Hockey,Basketball
2017,New England Patriots,Houston Astros,,
2018,Philadelphia Eagles,Boston Red Sox,,
2017,,,Pittsburgh Penguins,Golden State Warriors
2018,,,Washington Capitals,Golden State Warriors


In [16]:
#열 축에 걸쳐 결합하려면 axis 매개변수에 1또는 columns를 인수로 전달
pd.concat(
    objs = [sports_champions_A, sports_champions_C],
    axis = 1 #axis = "columns"
)

Unnamed: 0,Football,Baseball,Hockey,Basketball
2017,New England Patriots,Houston Astros,Pittsburgh Penguins,Golden State Warriors
2018,Philadelphia Eagles,Boston Red Sox,Washington Capitals,Golden State Warriors


# 왼쪽 조인
- 조인: 논리적 기준을 적용하여 두 데이터셋 사이에 병합할 행 또는 열을 결정
  - 왼쪽 조인: 한 데이터셋의 키를 사용하여 다른 데이터셋의 값을 가져옴(엑셀의 VLOOKUP연산)
    - 분석할 때 하나의 데이터셋에 초점을 맞춰야하는 경우에 적합
    - **데이터셋과 관련된 추가 정보를 제공**하는 목적의 두번째 데이터셋

In [17]:
groups.head(3)

Unnamed: 0,group_id,name,category_id,city_id
0,6388,Alternative Health NYC,14,10001
1,6510,Alternative Energy Meetup,4,10001
2,8458,NYC Animal Rights,26,10001


In [18]:
categories.head(3)

Unnamed: 0,category_id,category_name
0,1,Arts & Culture
1,3,Cars & Motorcycles
2,4,Community & Environment


In [19]:
#merge 메서드: 하나의 DataFrame을 다른 DataFrame에 병합
#첫번째 매개변수 right: 병합되는 오른쪽 DataFrame
#how 매개변수: 조인 유형을 나타내는 문자열
#on 매개변수: 두 DataFrame 사이의 값을 연결할 열을 지정
groups.merge(categories, how = "left", on = "category_id").head()

Unnamed: 0,group_id,name,category_id,city_id,category_name
0,6388,Alternative Health NYC,14,10001,Health & Wellbeing
1,6510,Alternative Energy Meetup,4,10001,Community & Environment
2,8458,NYC Animal Rights,26,10001,
3,8940,The New York City Anime Group,29,10001,Sci-Fi & Fantasy
4,10104,NYC Pit Bull Group,26,10001,


# 내부 조인 
- 내부 조인: 두 DataFrame에 모두 존재하는 값을 대상으로 DataFrame을 병합
  - 첫번째 DataFrame에만 존재하고 두번째 DataFrame에만 존재하는 값을 제외
  - 일치하는 각 값을 대상으로 두 DataFrame의 나머지 값을 조합하여 새로운 행을 생성(병합된 DataFrame이 원본 DataFrame보다 훨씬 클 수 있음)

In [20]:
groups.head(3)

Unnamed: 0,group_id,name,category_id,city_id
0,6388,Alternative Health NYC,14,10001
1,6510,Alternative Energy Meetup,4,10001
2,8458,NYC Animal Rights,26,10001


In [21]:
categories.head(3)

Unnamed: 0,category_id,category_name
0,1,Arts & Culture
1,3,Cars & Motorcycles
2,4,Community & Environment


In [22]:
#내부조인은 어느 DataFrame에서 merge를 호출해도 상관 없음
groups.merge(categories, how = "inner", on = "category_id")

Unnamed: 0,group_id,name,category_id,city_id,category_name
0,6388,Alternative Health NYC,14,10001,Health & Wellbeing
1,54126,Energy Healers NYC,14,10001,Health & Wellbeing
2,67776,Flourishing Life Meetup,14,10001,Health & Wellbeing
3,111855,Hypnosis & NLP NYC - Update Your Brain,14,10001,Health & Wellbeing
4,129277,The Live Food Chicago Community,14,60601,Health & Wellbeing
...,...,...,...,...,...
8032,25536270,New York Cuckold Relationships Meetup,17,10001,Lifestyle
8033,25795045,Pagans Paradise NYC - A Haven for Heathens,17,10001,Lifestyle
8034,25856573,Fuck Yeah Femme Productions,17,94101,Lifestyle
8035,26158102,Chicago Crossdresser Meetup,17,60601,Lifestyle


In [23]:
groups[groups["category_id"] == 14]

Unnamed: 0,group_id,name,category_id,city_id
0,6388,Alternative Health NYC,14,10001
52,54126,Energy Healers NYC,14,10001
78,67776,Flourishing Life Meetup,14,10001
121,111855,Hypnosis & NLP NYC - Update Your Brain,14,10001
136,129277,The Live Food Chicago Community,14,60601
...,...,...,...,...
16174,26291539,The Transformation Project: Collaborative Life...,14,94101
16201,26299876,"Cognitive Empathy, How To Translate Enemy Imag...",14,10001
16248,26322976,Contemplative Practices Group,14,94101
16314,26366221,The art of getting what you want: hacking fear,14,94101


In [24]:
categories[categories["category_id"] == 14]

Unnamed: 0,category_id,category_name
8,14,Health & Wellbeing


# 외부 조인
- 외부 조인: 두 데이터셋의 모든 레코드를 병합
  - 하나의 데이터셋 또는 두 데이터셋에 모두 존재하는 모든 값을 포함

In [25]:
groups.head(3)

Unnamed: 0,group_id,name,category_id,city_id
0,6388,Alternative Health NYC,14,10001
1,6510,Alternative Energy Meetup,4,10001
2,8458,NYC Animal Rights,26,10001


In [26]:
cities.head(3)

Unnamed: 0,id,city,state,zip
0,7093,West New York,NJ,7093
1,10001,New York,NY,10001
2,13417,New York Mills,NY,13417


In [27]:
#공통 열이 없는 경우 merge 메서드의 left_on, right_on 매개변수 사용
groups.merge(
    cities, how = "outer", left_on = "city_id", right_on = "id"
)

Unnamed: 0,group_id,name,category_id,city_id,id,city,state,zip
0,6388.0,Alternative Health NYC,14.0,10001.0,10001,New York,NY,10001
1,6510.0,Alternative Energy Meetup,4.0,10001.0,10001,New York,NY,10001
2,8458.0,NYC Animal Rights,26.0,10001.0,10001,New York,NY,10001
3,8940.0,The New York City Anime Group,29.0,10001.0,10001,New York,NY,10001
4,10104.0,NYC Pit Bull Group,26.0,10001.0,10001,New York,NY,10001
...,...,...,...,...,...,...,...,...
16329,24303427.0,Midwest FPGA/AI/Machine Learning Meetup,34.0,60064.0,60064,North Chicago,IL,60064
16330,,,,,13417,New York Mills,NY,13417
16331,,,,,46312,East Chicago,IN,46312
16332,,,,,56567,New York Mills,MN,56567


- 왼쪽 DF의 left_on으로 설정된 열과 오른쪽 DF의 right_on으로 설정된 열 사이에서 일치하는 값을
  - 찾으면: 두 DataFrame의 열을 하나의 행으로 병합
  - 못찾으면: 결측값 NaN을 배치

In [28]:
#merge 메서드의 indicator 매개변수: 값이 어떤 DataFrame에 속하는지 식별하고 싶을때 True전달
#_merge열이 추가됨(both, left_only, right_only)
groups.merge(
    cities,
    how = "outer",
    left_on = "city_id",
    right_on = "id",
    indicator = True
)

Unnamed: 0,group_id,name,category_id,city_id,id,city,state,zip,_merge
0,6388.0,Alternative Health NYC,14.0,10001.0,10001,New York,NY,10001,both
1,6510.0,Alternative Energy Meetup,4.0,10001.0,10001,New York,NY,10001,both
2,8458.0,NYC Animal Rights,26.0,10001.0,10001,New York,NY,10001,both
3,8940.0,The New York City Anime Group,29.0,10001.0,10001,New York,NY,10001,both
4,10104.0,NYC Pit Bull Group,26.0,10001.0,10001,New York,NY,10001,both
...,...,...,...,...,...,...,...,...,...
16329,24303427.0,Midwest FPGA/AI/Machine Learning Meetup,34.0,60064.0,60064,North Chicago,IL,60064,both
16330,,,,,13417,New York Mills,NY,13417,right_only
16331,,,,,46312,East Chicago,IN,46312,right_only
16332,,,,,56567,New York Mills,MN,56567,right_only


In [29]:
#_merge 열을 이용해 DataFrame 중 하나에만 속하는 행을 필터링
outer_join = groups.merge(
    cities,
    how = "outer",
    left_on = "city_id",
    right_on = "id",
    indicator = True
)
in_right_only = outer_join["_merge"] == "right_only"
outer_join[in_right_only].head()

Unnamed: 0,group_id,name,category_id,city_id,id,city,state,zip,_merge
16330,,,,,13417,New York Mills,NY,13417,right_only
16331,,,,,46312,East Chicago,IN,46312,right_only
16332,,,,,56567,New York Mills,MN,56567,right_only
16333,,,,,95712,Chicago Park,CA,95712,right_only


# 인덱스 레이블 병합
- 조인하려는 DataFrame이 기본키를 인덱스에 저장하는 경우의 해결책

In [30]:
cities.head()

Unnamed: 0,id,city,state,zip
0,7093,West New York,NJ,7093
1,10001,New York,NY,10001
2,13417,New York Mills,NY,13417
3,46312,East Chicago,IN,46312
4,56567,New York Mills,MN,56567


In [31]:
cities = cities.set_index("id")
cities.head(3)

Unnamed: 0_level_0,city,state,zip
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
7093,West New York,NJ,7093
10001,New York,NY,10001
13417,New York Mills,NY,13417


In [32]:
groups.head(3)

Unnamed: 0,group_id,name,category_id,city_id
0,6388,Alternative Health NYC,14,10001
1,6510,Alternative Energy Meetup,4,10001
2,8458,NYC Animal Rights,26,10001


In [33]:
#merge의 왼쪽 조인 사용
#right_index: 오른쪽 DataFrame의 인덱스에서 공통값을 찾도록 하는 매개변수
groups.merge(
    cities,
    how = "left",
    left_on = "city_id",
    right_index = True
)

Unnamed: 0,group_id,name,category_id,city_id,city,state,zip
0,6388,Alternative Health NYC,14,10001,New York,NY,10001
1,6510,Alternative Energy Meetup,4,10001,New York,NY,10001
2,8458,NYC Animal Rights,26,10001,New York,NY,10001
3,8940,The New York City Anime Group,29,10001,New York,NY,10001
4,10104,NYC Pit Bull Group,26,10001,New York,NY,10001
...,...,...,...,...,...,...,...
16325,26377464,Shinect,34,94101,San Francisco,CA,94101
16326,26377698,The art of getting what you want [conference s...,14,94101,San Francisco,CA,94101
16327,26378067,Streeterville Running Group,9,60601,Chicago,IL,60290
16328,26378128,Just Dance NYC,23,10001,New York,NY,10001


- merge 메서드는 right_index와 대응하는 left_index도 지원

# 코딩 챌린지