In [1]:
# 서로다른 두 개의 데이터 프레임을 연결하기! 
# 결측치, 중복값 버림, 컬럼명 바꿈 등 으로 전처리한것을 하나로 합치는 단계!
#새로운 파일을 합쳐보기
import pandas as pd

df1 = pd.DataFrame({
    "id":[1,2,3],
    "customer_id":[1,2,3],
    "customer_name":["Robert","Peter","Dave"]
},columns=["id","customer_id","customer_name"])  #컬럼명 설정!

df1

Unnamed: 0,id,customer_id,customer_name
0,1,1,Robert
1,2,2,Peter
2,3,3,Dave


In [2]:
df2 = pd.DataFrame({
    "id":[1,2,4],
    "order_id":[100,200,300],
    "order_date":["2025-01-21","2025-02-03","2025-09-01"]
},columns=["id","order_id","order_date"])  #컬럼명 설정!
df2

Unnamed: 0,id,order_id,order_date
0,1,100,2025-01-21
1,2,200,2025-02-03
2,4,300,2025-09-01


In [None]:
#위에 생성한 두 데이터 프레임 합쳐보기!
# 두 데이터 프레임은 서로 id 값도 일치하지 않음

# 1) concat() : SQL의 concat은 서로다른 요소를 합칠때. pandas에서는 "데이터프레임"을 합침! 서로다른 데이터프레임을 단순 연결(교차되는 특정 index 고려 X )
# 좌우상하 어디로든 합칠 수 있음! 무식하게 합침
# 2) merge() : 특정 index값을 기준으로 합침 =join

In [4]:
pd.concat([df1,df2]) # 겹쳐지는 값이 없으면 NaN으로 다 묶어버림 id도 상하정렬! (굉장히 유연함, 상하정렬 기본)

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1.0,Robert,,
1,2,2.0,Peter,,
2,3,3.0,Dave,,
0,1,,,100.0,2025-01-21
1,2,,,200.0,2025-02-03
2,4,,,300.0,2025-09-01


In [None]:
####################### 4교시 ####################

In [5]:
doc = pd.concat([df1,df2],axis=1) # 좌우정렬하는 방법 axis= 1-> 축을 넣어주기!(가로정렬)
doc

Unnamed: 0,id,customer_id,customer_name,id.1,order_id,order_date
0,1,1,Robert,1,100,2025-01-21
1,2,2,Peter,2,200,2025-02-03
2,3,3,Dave,4,300,2025-09-01


In [6]:
pd.merge(df1,df2) # merge() -> SQL 의 INNER JOIN과 유사! 겹치는 값만 찾아오고 그렇지 않은것은 버림

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1,Robert,100,2025-01-21
1,2,2,Peter,200,2025-02-03


In [7]:
# merge 는 알아서 공통분모를 찾아서 합침
# 공통분모가 복수일때 특정한 것을 선정해서 합치고 싶을때?
pd.merge(df1,df2, on = "id")

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1,Robert,100,2025-01-21
1,2,2,Peter,200,2025-02-03


In [13]:
# =OUTER JOIN
pd.merge(df1,df2, on = 'id',how="inner") #방법을 넣어주면됨 "inner" 는 기본값 생략해도 나옴

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1,Robert,100,2025-01-21
1,2,2,Peter,200,2025-02-03


In [14]:
pd.merge(df1,df2, on = 'id',how="outer") # how = 에 "outer"를 넣어주면 겹쳐도 존재하지 않는 값에 NaN을 넣어줌!

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1.0,Robert,100.0,2025-01-21
1,2,2.0,Peter,200.0,2025-02-03
2,3,3.0,Dave,,
3,4,,,300.0,2025-09-01


In [16]:
pd.merge(df1,df2, on = 'id',how="left") # 1,2,3을 기준으로 매칭되지 않는 값도 가져옴 (3이 order 정보가 없음)

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1,Robert,100.0,2025-01-21
1,2,2,Peter,200.0,2025-02-03
2,3,3,Dave,,


In [17]:
pd.merge(df1,df2, on = 'id',how="right") # 1,2,4을 기준으로 매칭되지 않는 값도 가져옴 (4가 customer 정보가 없음)

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1.0,Robert,100,2025-01-21
1,2,2.0,Peter,200,2025-02-03
2,4,,,300,2025-09-01


In [19]:
# 기본 index 012 가 아닌 특정 컬럼을 인덱스로 가져가는 법 set_index
df1 = df1.set_index("id")
df1 # 실제 df 1 의 id가 index값이 됨

Unnamed: 0_level_0,customer_id,customer_name
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1,Robert
2,2,Peter
3,3,Dave


In [20]:
df2 = df2.set_index("id")
df2

Unnamed: 0_level_0,order_id,order_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,100,2025-01-21
2,200,2025-02-03
4,300,2025-09-01


In [21]:
#둘다 id 가 index값이 되었기 떄문에 인덱스를 기준으로 merge가 가능!
pd.merge(df1,df2,left_index=True,right_index=True) # 컬럼이 아닌 인덱스를 기준으로 할것이기 때문에 on이 아님! 
#두개의 인덱스를 활성화. 그 두개의 인덱스을 기준으로 INNER JOIN시킴

Unnamed: 0_level_0,customer_id,customer_name,order_id,order_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,Robert,100,2025-01-21
2,2,Peter,200,2025-02-03


In [23]:
# index를 기준으로 OUTER JOIN하기
pd.merge(df1,df2,how="outer",left_index=True,right_index=True) # how="outer"추가해주면 됨!

Unnamed: 0_level_0,customer_id,customer_name,order_id,order_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1.0,Robert,100.0,2025-01-21
2,2.0,Peter,200.0,2025-02-03
3,3.0,Dave,,
4,,,300.0,2025-09-01


In [24]:
pd.merge(df1,df2,how="left",left_index=True,right_index=True) # left 기준

Unnamed: 0_level_0,customer_id,customer_name,order_id,order_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,Robert,100.0,2025-01-21
2,2,Peter,200.0,2025-02-03
3,3,Dave,,


In [25]:
pd.merge(df1,df2,how="right",left_index=True,right_index=True) # right 기준

Unnamed: 0_level_0,customer_id,customer_name,order_id,order_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1.0,Robert,100,2025-01-21
2,2.0,Peter,200,2025-02-03
4,,,300,2025-09-01


In [None]:
###########################

In [27]:
df = pd.DataFrame({
    "영어" :[60,70],
    "수학" :[100,50]
},columns=["영어","수학"],index=["Dave","David"])

df

Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [36]:
def func(df_data) :
    print(type(df_data))
    print(df_data.index)
    print(df_data.values)
    return df_data


In [37]:
### UPGRADE ####
def func(df_data) :
    df_data["영어"] = 80 #영어 컬럼에서 찾아옴
    return df_data

In [39]:
df_func = df.apply(func,axis=0) # apply ->무언가를 적용하다. func함수 적용하기, axis = 0 열, 1 행
# 데이터 프레임의 한 열씩 인자값을 찾아옴
# apply는 함수의 한줄씩(행0 or 열1) 찾아서 적용하고 싶을때!

In [41]:
df_func = df.apply(func,axis=1)

In [42]:
df_func

Unnamed: 0,영어,수학
Dave,80,100
David,80,50


In [44]:
df = pd.DataFrame({
    "성별" : ["남","남","남"],
    "이름" : ["David","Dave","Dave"],
    "수학" : [100,50,80],
    "국어" : [80,70,50]
})

df

Unnamed: 0,성별,이름,수학,국어
0,남,David,100,80
1,남,Dave,50,70
2,남,Dave,80,50


In [47]:
# 컬럼들 묶어주기
selected_columns = ["이름","수학","국어"]

df = df[selected_columns] # dataFrame 재할당
df.groupby("이름").sum() # 이름을 기준으로 합계 구하기
df.groupby("이름").mean() # 이름을 기준으로 평균값 구하기

Unnamed: 0_level_0,수학,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
Dave,65.0,60.0
David,100.0,80.0
