# DataFrame 병합

In [1]:
import numpy as np 
import pandas as pd

### merge
- 특정 '컬럼' 기준으로 DataFrame 병합

In [82]:
df1 = pd.DataFrame({
    'id' : [1, 2, 3, 4], 
    'name' : ['다람쥐', '토끼', '곰', '고릴라']
})

df2 = pd.DataFrame({
    'id' : [1, 2, 3, 5],
    'score' : [100, 95, 88, 89]
})
df2

Unnamed: 0,id,score
0,1,100
1,2,95
2,3,88
3,5,89


In [None]:
# merge()     # 판다스의 함수
# - on : merge 기준 컬럼 
# - how : merge 방법 (inner(기본값), left, right, outer)    # left : 왼쪽 db 기준 / right : 오른쪽 db 기준 / outer : 합집합 / inner : 교집합
pd.merge(df1, df2, on='id', how='outer')                  # on : 해당 컬럼을 기준으로 병합하라는 인스턴스   

Unnamed: 0,id,name,score
0,1,다람쥐,100.0
1,2,토끼,95.0
2,3,곰,88.0
3,4,고릴라,
4,5,,89.0


In [None]:
df1 = pd.DataFrame({
    'n_id' : [1, 2, 3, 4], 
    'name' : ['다람쥐', '토끼', '곰', '고릴라']
})

df2 = pd.DataFrame({
    's_id' : [1, 2, 3, 5],
    'score' : [100, 95, 88, 89]
})         # 연결하는 컬럼명이 다른 경우

In [None]:
pd.merge(df1, df2, left_on='n_id', right_on='s_id')       # 연결하는 컬럼명이 다른 경우. left_on, right_on을 이용해 각 df의 기준 칼럼을 위치에 맞게 반환

Unnamed: 0,n_id,name,s_id,score
0,1,다람쥐,1,100
1,2,토끼,2,95
2,3,곰,3,88


---

### join
- 특정 '인덱스' 기준으로 DataFrame 병합

In [16]:
df3 = pd.DataFrame({
    'age' : [33, 48, 55, 24],
    'city' : ['서울', '수원', '인천', '서울']
}, index=['이석훈', '김용준', '김진호', '남윤진'])

df4 = pd.DataFrame({
    'pet' : ['고양이', '강아지', '햄스터', '돌']
}, index=['이석훈', '김용준', '김진호', '윤진'])

display(df3)
display(df4)

Unnamed: 0,age,city
이석훈,33,서울
김용준,48,수원
김진호,55,인천
남윤진,24,서울


Unnamed: 0,pet
이석훈,고양이
김용준,강아지
김진호,햄스터
윤진,돌


In [None]:
df3.join(df4)       # how 파라미터 기본값 = left    # 조인은 데이터프레임의 매서드(df.join으로 사용) / 머지는 기준이 없음. 조인은 앞에 작성한 df3가 기준으로 how의 기본값이 다름.

Unnamed: 0,age,city,pet
이석훈,33,서울,고양이
김용준,48,수원,강아지
김진호,55,인천,햄스터
남윤진,24,서울,


In [19]:
df3.join(df4, how='left')

Unnamed: 0,age,city,pet
이석훈,33,서울,고양이
김용준,48,수원,강아지
김진호,55,인천,햄스터
남윤진,24,서울,


In [20]:
df3.join(df4, how='right')

Unnamed: 0,age,city,pet
이석훈,33.0,서울,고양이
김용준,48.0,수원,강아지
김진호,55.0,인천,햄스터
윤진,,,돌


In [21]:
df3.join(df4, how='outer')

Unnamed: 0,age,city,pet
김용준,48.0,수원,강아지
김진호,55.0,인천,햄스터
남윤진,24.0,서울,
윤진,,,돌
이석훈,33.0,서울,고양이


In [22]:
df3.join(df4, how='inner')

Unnamed: 0,age,city,pet
이석훈,33,서울,고양이
김용준,48,수원,강아지
김진호,55,인천,햄스터


---

### concat
- 축을 기준으로 DataFrame 병합

In [24]:
df5 = pd.DataFrame({
    'name': ['구준표', '윤지후', '소이정', '프린스송'],
    'age': [18, 18, 18, 18]
})

df6 = pd.DataFrame({
    'name': ['금잔디'],
    'age': [17]
})

In [34]:
pd.concat([df5, df6], axis=0).reset_index(drop=True)

Unnamed: 0,name,age
0,구준표,18
1,윤지후,18
2,소이정,18
3,프린스송,18
4,금잔디,17


In [30]:
pd.concat([df5, df6], axis=1)

Unnamed: 0,name,age,name.1,age.1
0,구준표,18,금잔디,17.0
1,윤지후,18,,
2,소이정,18,,
3,프린스송,18,,


---

### melt
- 열 병합

In [35]:
df = pd.DataFrame({
    'name': ['홍길동', '신사임당', '이순신'],
    'math': [80, 99, 100],
    'english': [34, 58, 48],
    'science': [99, 55, 77],
})

df

Unnamed: 0,name,math,english,science
0,홍길동,80,34,99
1,신사임당,99,58,55
2,이순신,100,48,77


In [None]:
pd.melt(
    df,                                             # 대상 DataFrame
    id_vars = ['name'],                             # 고정(유지)될 컬럼
    value_vars = ['math', 'english', 'science'],    # 합쳐질 컬럼 내용
    var_name = 'subject',                           # 컬럼명이 합쳐질 컬럼의 이름
    value_name = 'score'                            # 컬럼값이 합쳐질 컬럼의 이름
)
# 열 여러개를 하나로 병합한다.                                                   

Unnamed: 0,name,subject,score
0,홍길동,math,80
1,신사임당,math,99
2,이순신,math,100
3,홍길동,english,34
4,신사임당,english,58
5,이순신,english,48
6,홍길동,science,99
7,신사임당,science,55
8,이순신,science,77


---

# pandas 종합 실습

## **[종합 실습 1] 상품 판매 데이터 분석**

다음은 한 전자상거래 사이트의 **상품 판매 데이터**입니다. 고객들이 특정 상품을 구매한 기록이 포함되어 있습니다. 데이터를 활용하여 아래의 문제를 해결하세요.



1. 각 고객(`CustomerID`)별로 총 구매 금액을 계산하세요.
2. `Laptop`을 구매한 고객들의 평균 구매 금액을 계산하세요.
3. 가장 많이 판매된 상품(상품 이름과 판매된 총 수량)을 구하세요.
4. `OrderDate`가 2024년 1월 10일 이후인 주문만 필터링하여 출력하세요.
5. `Product`별로 판매량과 총 판매 금액을 계산한 후, 이를 `Price` 기준으로 내림차순으로 정렬하여 출력하세요.

In [44]:
import pandas as pd

# 예시 상품 판매 데이터
sales_data = {
    'OrderID': [101, 102, 103, 104, 105, 106, 107, 108, 109, 110],
    'Product': ['Laptop', 'Mouse', 'Laptop', 'Monitor', 'Mouse', 'Keyboard', 'Laptop', 'Mouse', 'Monitor', 'Keyboard'],
    'Quantity': [1, 2, 1, 1, 2, 1, 1, 3, 1, 1],
    'Price': [1200, 25, 1200, 300, 25, 100, 1200, 25, 300, 100],
    'CustomerID': [1001, 1002, 1001, 1003, 1004, 1002, 1001, 1003, 1005, 1002],
    'OrderDate': ['2024-01-05', '2024-01-06', '2024-01-07', '2024-01-10', '2024-01-12', '2024-01-15', '2024-01-18', '2024-01-20', '2024-01-22', '2024-01-25']
}
df_sales = pd.DataFrame(sales_data)
df_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   OrderID     10 non-null     int64 
 1   Product     10 non-null     object
 2   Quantity    10 non-null     int64 
 3   Price       10 non-null     int64 
 4   CustomerID  10 non-null     int64 
 5   OrderDate   10 non-null     object
dtypes: int64(4), object(2)
memory usage: 612.0+ bytes


In [46]:
#1. 
df_sales_gb = df_sales.groupby('CustomerID')
df_sales_gb['Price'].sum()

CustomerID
1001    3600
1002     225
1003     325
1004      25
1005     300
Name: Price, dtype: int64

In [None]:
#2. 
a = df_sales[df_sales['Product'] == 'Laptop']
print(a['Price'].mean())

1200.0


In [None]:
#3. 가장 많이 판매된 상품(상품 이름과 판매된 총 수량)을 구하세요.

print(df_sales['Quantity'].max())


3


## [종합 실습 2] **컨텐츠 선호 데이터 분석**

다음은 사용자가 다양한 컨텐츠를 평가한 **컨텐츠 선호 데이터**입니다. 사용자가 영화, 음악, 책 등을 평가한 데이터를 바탕으로 분석을 수행하세요.

1. 각 컨텐츠 타입(`ContentType`)별로 평균 평점을 계산하세요.
2. 가장 높은 평점을 받은 `ContentID`와 해당 평점을 구하세요.
3. `ReviewDate`가 2024년 2월 10일 이후인 리뷰 중에서 `Rating`이 4 이상인 데이터를 필터링하여 출력하세요.
4. 각 사용자(`UserID`)가 평가한 컨텐츠 수를 계산하고, 이를 출력하세요.

In [66]:
import pandas as pd

# 예시 컨텐츠 선호 데이터
preference_data = {
    'UserID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'ContentID': [101, 102, 101, 103, 104, 105, 106, 101, 107, 102],
    'ContentType': ['Movie', 'Music', 'Movie', 'Book', 'Movie', 'Music', 'Book', 'Movie', 'Music', 'Book'],
    'Rating': [5, 3, 4, 2, 5, 4, 3, 4, 5, 2],
    'ReviewDate': ['2024-02-01', '2024-02-02', '2024-02-03', '2024-02-05', '2024-02-07', '2024-02-10', '2024-02-12', '2024-02-14', '2024-02-15', '2024-02-20']
}
df_preference = pd.DataFrame(preference_data)

In [69]:
#1.
df_preference_gb = df_preference.groupby('ContentType')
df_preference_gb['Rating'].mean()

ContentType
Book     2.333333
Movie    4.500000
Music    4.000000
Name: Rating, dtype: float64

In [None]:
#2. 
df_preference.index[df_preference['Rating'].max()]
print(df_preference.iloc[5])    # 105번, 4점

UserID                  6
ContentID             105
ContentType         Music
Rating                  4
ReviewDate     2024-02-10
Name: 5, dtype: object


In [80]:
#3. `ReviewDate`가 2024년 2월 10일 이후인 리뷰 중에서 `Rating`이 4 이상인 데이터를 필터링하여 출력하세요.
# df_preference[df_preference['ReviewDate'] <= '2024-02-10' & df_preference['Rating'] >= 4]