## 데이터프레임간의 결합 
- 유니언 결합 
    - 단순하게 행이나 열을 결합하는 형태 
    - pandas안에 존재하는 concat() 함수를 사용
    - 단순한 결합 형태이기 때문에 결합하려는 데이터프레임의 개수에 제한을 두지 않는다. 
        - pd.concat( [데이터프레임명, 데이터프레임명, ...] )
            - axis 매개변수
                - 0(rows) : 행을 결합 (기본값)
                - 1(columns) : 열을 결합
            - ignore_index 매개변수
                - False(기본값) : 결합되는 기준을 보존
                - True : 결합되는 기준을 초기화
            - axis가 0이고 ignore_index가 True이면 데이터프레임이 행으로 단순 결합이 되고 인덱스의 값이 초기화
            - axis가 1이고 ignore_index가 True이면 데이터프레임이 열로 단순 결합이 되고 컬럼의 값들이 초기화
- 조인 결합
    - 특정한 조건에 맞게 열을 결합하는 형태 
    - 데이터프레임과 데이터프레임을 조인결합 -> 특정 컬럼의 데이터들이 같은 값들로 이루어져 있을때만 열을 추가하는 결합 
    - pandas, DataFrame 두군데 모두 존재하는 merge() 함수를 이용
    - 특정 조건 맞춰서 열을 결합하기 때문에 결합되는 데이터프레임의 개수는 2개
    - 3개의 데이터프레임을 결합하려면?
        - merge()함수를 2번 호출
        - pd.merge(데이터프레임, 데이터프레임2)
            - on 매개변수
                - 조건식( 두개의 데이터프레임이 공통적으로 가지고 있는 컬럼명 )
                - 두개의 데이터프레임에서 컬럼의 이름이 다른경우
                    - left_on, right_on 매개변수를 이용하여 각각의 데이터프레임의 컬럼의 이름을 대입
            - how 매개변수
                - inner : 두개의 데이터프레임이 공통적으로 가지고 있는 데이터들을 기준으로 결합 
                - left : 왼쪽의 데이터프레임(첫번째 인자)을 기준으로 결합
                - right : 오른쪽의 데이터프레임(두번째 인자)을 기준으로 결합
                - outer : 두개의 데이터프레임의 모든 데이터 결합합

In [None]:
import pandas as pd

In [None]:
# dict 안에 list로 이루어진 2차원 데이터 
data = {
    'id' : ['a', 'b', 'c'], 
    'password' : ['1111', '2222', '3333']
}
df1 = pd.DataFrame( data )
df1

In [None]:
# list안에 dict형태의 2차원 데이터
data2 = [
    {
        'id' : 'a', 
        'name' : "kim"
    }, 
    {
        'id' : 'b', 
        'name' : 'park'
    }, 
    {
        'id' : 'd', 
        'name' : 'lee'
    }
]
df2 = pd.DataFrame(data2)
df2

In [None]:
# list안에 list인 2차원 데이터 
data3 = [
    ['a', '01012345678'], 
    ['b', '01099998888'], 
    ['f', '01011112222']
]
df3 = pd.DataFrame(data3, columns=['user_id', 'phone'])
df3

In [None]:
# 단순 결합 (유니언 결합)
# concat() 
# 단순한 행 결합( 컬럼의 이름이 같은 부분에 행 결합 )
pd.concat(
    [df1, df2, df3], 
    axis = 0, 
    ignore_index=True
)

In [None]:
# 단순한 열 결합 
pd.concat(
    [df1, df2, df3], 
    axis = 1
)

In [None]:
# df3의 인덱스 값을 2를 4로 변경 
df3.rename(
    index={
        2 : 4
    }, inplace=True
)

In [None]:
pd.concat(
    [df1, df2, df3], 
    axis=1, 
    ignore_index=True
)

In [None]:
# 조인결합 
# df1, df2를 조인결합 -> 합집합
pd.merge(df1, df2, on = 'id', how='outer')

In [None]:
pd.merge(df1, df2, on='id', how='left')

In [None]:
pd.merge(df1, df2, on='id', how='right')

In [None]:
merge_data = pd.merge(df1, df2, on='id', how='inner')

In [None]:
# merge() pandas에도 존재 DataFrame에도 존재
# on매개변수를 사용하려면 -> 결합되는 데이터프레임이 같은 컬럼의 이름
# 두개의 데이터프레임이 컬럼의 이름이 다른 경우
merge_data.merge(df3, how = 'outer', left_on='id', right_on='user_id')

In [None]:
# df3의 컬럼의 이름을 변경하고 merge()
df3.rename(
    columns={
        'user_id' : 'id'
    }, inplace=True
)

In [None]:
merge_data.merge(df3, on='id', how='outer')

In [None]:
df1

In [None]:
df2

In [None]:
# 데이터프레임 인덱스를 변경 
df1.set_index('id', inplace=True)

In [None]:
df2.set_index('name', inplace=True)

In [None]:
# 단순 열결합시 인덱스가 서로 다른 데이터라면 인덱스를 초기화하고 결합
pd.concat([df1.reset_index() , df2.reset_index()], axis=1)

### 데이터프레임 결합 예제
1. csv 폴더에서 tran_1, tran_2, tran_d_1, tran_d_2 csv파일을 로드 
2. tran_1, tran_2는 테이블의 구조가 같기 때문에 단순한 행 결합 
3. tran_d_1, tran_d_2도 테이블의 구조가 같기 때문에 단순한 행 결합 
4. 2번과정과 3번 과정에서 나온 데이터프레임을 조인 결합 (왼쪽을 기준)

In [None]:
# 파일 로드 
tran_1 = pd.read_csv("../../csv/tran_1.csv")
tran_2 = pd.read_csv("../../csv/tran_2.csv")
tran_d_1 = pd.read_csv("../../csv/tran_d_1.csv")
tran_d_2 = pd.read_csv("../../csv/tran_d_2.csv")

In [None]:
# tran_1, tran_2 단순 행 결합 -> 구조 파악
tran_1.info()

In [None]:
tran_2.head(3)

In [None]:
tran_2.info()

In [None]:
tran = pd.concat(
    [tran_1, tran_2], 
    axis=0
)

In [None]:
tran_d_1.info()

In [None]:
tran_d_2.info()

In [None]:
tran_d = pd.concat(
    [tran_d_1, tran_d_2]
)

In [None]:
tran_d.head()

In [None]:
# detail_id가 고유한 값인가?
# detail_id의 유니크 값들의 길이가 데이터프레임의 인덱스 크기와 같다.
len(tran_d['detail_id'].unique()) == len(tran_d)

In [None]:
# transaction_id는 고유한 값인가?
# value_counts() 함수를 이용하여 데이터의 개수가 모두 1개라면
tran_d['transaction_id'].value_counts()

In [None]:
# tran의 transaction_id와 tran_d에 있는 transaction_id가 같은 데이터인가?
tran_test = tran['transaction_id'].unique() == \
    tran_d['transaction_id'].unique()

tran_test.sum()

In [None]:
# tran, tran_d 조인결합 (왼쪽을 기준으로준으로)
df = pd.merge(
    tran, 
    tran_d, 
    on = 'transaction_id', 
    how = 'left'
)

In [None]:
tran['transaction_id'].value_counts()

In [None]:
df['transaction_id'].value_counts()

In [None]:
# item_master 파일을 로드 
item = pd.read_csv("../../csv/item_master.csv")

In [None]:
item.head()

In [None]:
item.info()

In [None]:
df['item_id'].unique()

In [None]:
total_df = pd.merge(
    df, 
    item, 
    on = 'item_id', 
    how = 'left'
)

In [None]:
total_df.info()

In [None]:
total_df.head()

In [None]:
# transaction_id에서 중복이 존재하는 데이터를 확인 
# value_counts()함수를 사용하여 개수가 2개 이상인 id를 찾는다. 
flag = total_df['transaction_id'].value_counts() >= 2

In [None]:
flag

In [None]:
for id in total_df['transaction_id']: 
    if id in ['T0000000790', 'T0000005598']:
        print(id in ['T0000000790', 'T0000005598'])

In [None]:
# transaction_id 기준으로 오름차순 정렬 
total_df.sort_values('transaction_id', inplace=True)

In [None]:
# transaction_id 데이터가 전행의 데이터와 같거나 다음 행의 데이터와 같다면 -> 중복 데이터
flag_1 = total_df['transaction_id'] == total_df['transaction_id'].shift()
flag_2 = total_df['transaction_id'] == total_df['transaction_id'].shift(-1)

(flag_1 | flag_2).sum()

In [None]:
total_df.loc[flag_1 | flag_2, ]

In [None]:
# duplicated() : 중복된 데이터를 확인하기 위한 함수 
    # keep 매개변수 
        # 'first' : 첫번째 데이터를 유지하고 나머지 데이터를 보여준다. 
        # 'last' : 중복된 데이터중 마지막 데이터만 확인
        # False : 중복된 모든 데이터를 보여준다. 
total_df.loc[
    total_df['transaction_id'].duplicated(keep=False), ]

In [None]:
# price 데이터를 합산을 했을때 전체 거래내역의 합산이라 볼수 없다. 
# 전체 거래내역의 합산을 구하기 위해서 아이템의 개수와 아이템 가격을 곱해서 새로운 변수를 생성
total_df['price2'] = total_df['quantity'] * total_df['item_price']

In [None]:
total_df.loc[
    total_df['transaction_id'].duplicated(keep=False), ]

In [None]:
total_df.loc[
    total_df['quantity'] >= 2, 
]

- 요일별 거래금액이 가장 높은 요일은 언제일까?
    1. payment_date컬럼을 시계열 데이터로 변경
    2. 변경된 시계열 데이터에서 요일을 추출(축약된 이름)하여 'week' 컬럼을 생성하여 대입 
    3. 요일별로 그룹화하여 price2의 그룹화 합산
    4. 합산된 데이터를 기준으로 내림차순 정렬


In [None]:
# 시계열 데이터를 변경 
total_df['payment_date'] = pd.to_datetime(total_df['payment_date'])

In [None]:
total_df.info()

In [None]:
total_df['week'] = total_df['payment_date'].dt.strftime('%a')

In [None]:
group_data = total_df.groupby(['week'])['price2'].sum()

In [None]:
group_data.sort_values(ascending=False)

In [None]:
# 그룹화 연산을 2개 이상
total_df.groupby(['week', 'item_name'])['price2'].agg(['sum', 'count']).unstack()

In [None]:
pd.pivot_table(
    total_df, 
    index = 'week', 
    values= 'price2', 
    columns= 'item_name',
    aggfunc= ['sum', 'count']
)

In [None]:
# map 함수 
# 반복문과 흡사
_list = [1,2,3,4]

res = []
for i in _list:
    res.append(i**2)

res

In [None]:
# map( 함수명 , 1차원 데이터 ) -> 1차원 데이터의 원소들은 함수에 대입해서 
# 결과를 map데이터 반환
def func_1(x):
    return x ** 2

list(
    map(
        func_1, 
        _list
    )
)

In [None]:
# map, lambda  함수를 이용
# lambda함수는 함수를 생성함과 동시에 호출
list(
    map(
        lambda x : x**2,
        _list
    )
)

In [None]:
# Series 데이터를 생성 
test_data =pd.Series([10, 20, 30, 40])
test_data

In [None]:
# Series  안에 있는 map + lambda함수 
test_data.map(
    lambda a : a / 10
)

In [None]:
def func_2(a):
    return a / 10

test_data.map(
    func_2
)

In [None]:
# map 함수를 이용해서 payment_date에서 요일을 출력 
# 요일 데이터를 숫자의 형태로 출력 -> 해당 요일의 이름을 변경 
# case1 (map + 일반함수)
def func_3(x):
    # x에 입력이 되는 데이터? -> payment_date의 value가 하나씩 입력
    # x의 데이터의 타입? -> Timestamp
    # x.strftime()
    # print(x)
    # print(type(x))
    # print(x.strftime('%w'))
    week_index = int(x.strftime('%w'))
    if week_index == 0:
        result = '일요일'
    elif week_index == 1:
        result = '월요일'
    elif week_index == 2:
        result = '화요일'
    elif week_index == 3:
        result = "수요일"
    elif week_index == 4:
        result = '목요일'
    elif week_index == 5:
        result = "금요일"
    else:
        result = '토요일'
    return result

total_df.head(3)['payment_date'].map(
    func_3
)

In [None]:
# 위의 if문을 효율적으로 코드를 작성한다면 
def func_4(x):
    week_names = ['일요일', '월요일', '화요일', '수요일', 
                  '목요일', '금요일', '토요일']
    week_index = int(x.strftime('%w'))

    return week_names[week_index]

total_df['payment_date'].map(
    func_4
)

In [137]:
# map + lambda 함수 이용
week_names = ['일요일', '월요일', '화요일', '수요일', 
                  '목요일', '금요일', '토요일']

total_df['payment_date'].map(
    lambda x : week_names[
        int(
            x.strftime('%w')
        )
    ]
)

0       금요일
1       금요일
2       금요일
3       금요일
4       금요일
       ... 
7139    수요일
7140    수요일
7141    수요일
7142    수요일
7143    수요일
Name: payment_date, Length: 7144, dtype: object

In [147]:
# 데이터프레임에서 map함수를 이용하면?
total_df.head(2).map(
    lambda x : x
)

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price,price2,week
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000,210000,Fri
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000,50000,Fri


In [145]:
total_df.head(2).apply(
    lambda x : x.astype('str')
)

Unnamed: 0,transaction_id,price,payment_date,customer_id,detail_id,item_id,quantity,item_name,item_price,price2,week
0,T0000000113,210000,2019-02-01 01:36:57,PL563502,0,S005,1,PC-E,210000,210000,Fri
1,T0000000114,50000,2019-02-01 01:37:23,HD678019,1,S001,1,PC-A,50000,50000,Fri
