## 학습목표
 1. merge & join 함수 활용하기

In [1]:
import numpy as np
import pandas as pd

#### dataframe merge
 - SQL의 join처럼 특정한 column을 기준으로 병합
   - join 방식: how 파라미터를 통해 명시
     - inner: 기본값, 일치하는 값이 있는 경우 
     - left: left outer join
     - right: right outer join
     - outer: full outer join
     
 - pandas.merge 함수가 사용됨

In [2]:
customer = pd.DataFrame({'customer_id' : np.arange(6), 
                    'name' : ['철수'"", '영희', '길동', '영수', '수민', '동건'], 
                    '나이' : [40, 20, 21, 30, 31, 18]})

customer

Unnamed: 0,customer_id,name,나이
0,0,철수,40
1,1,영희,20
2,2,길동,21
3,3,영수,30
4,4,수민,31
5,5,동건,18


In [3]:
orders = pd.DataFrame({'customer_id' : [1, 1, 2, 2, 2, 3, 3, 1, 4, 9], 
                    'item' : ['치약', '칫솔', '이어폰', '헤드셋', '수건', '생수', '수건', '치약', '생수', '케이스'], 
                    'quantity' : [1, 2, 1, 1, 3, 2, 2, 3, 2, 1]})
orders.head()

Unnamed: 0,customer_id,item,quantity
0,1,치약,1
1,1,칫솔,2
2,2,이어폰,1
3,2,헤드셋,1
4,2,수건,3


* on 
 - join 대상이 되는 column 명시

In [4]:
pd.merge(customer,orders, on='customer_id', how='inner')

Unnamed: 0,customer_id,name,나이,item,quantity
0,1,영희,20,치약,1
1,1,영희,20,칫솔,2
2,1,영희,20,치약,3
3,2,길동,21,이어폰,1
4,2,길동,21,헤드셋,1
5,2,길동,21,수건,3
6,3,영수,30,생수,2
7,3,영수,30,수건,2
8,4,수민,31,생수,2


In [None]:
pd.merge(customer, orders, on='customer_id', how='inner')

In [None]:
pd.merge(customer, orders, on='customer_id', how='left')

In [None]:
pd.merge(customer, orders, on='customer_id', how='right')

In [None]:
pd.merge(customer, orders, on='customer_id', how='outer')

* index 기준으로 join하기

In [None]:
cust1 = customer.set_index('customer_id')
order1 = orders.set_index('customer_id')

In [None]:
cust1

In [None]:
order1

In [None]:
pd.merge(cust1, order1, left_index=True, right_index=True)

#### 연습문제
1. 가장 많이 팔린 아이템은?
2. 영희가 가장 많이 구매한 아이템은?

In [None]:
pd.merge(customer, orders, on='customer_id').groupby('item').sum().sort_values(by='quantity', ascending=False)

In [None]:
pd.merge(customer, orders, on='customer_id').groupby(['name', 'item']).sum().loc['영희', 'quantity']

#### join 함수
 - 내부적으로 pandas.merge 함수 사용
 - 기본적으로 index를 사용하여 left join

In [None]:
cust1.join(order1, how='inner')

In [5]:
orders

Unnamed: 0,customer_id,item,quantity
0,1,치약,1
1,1,칫솔,2
2,2,이어폰,1
3,2,헤드셋,1
4,2,수건,3
5,3,생수,2
6,3,수건,2
7,1,치약,3
8,4,생수,2
9,9,케이스,1


In [6]:
orders['item']

0     치약
1     칫솔
2    이어폰
3    헤드셋
4     수건
5     생수
6     수건
7     치약
8     생수
9    케이스
Name: item, dtype: object

In [7]:
orders['item'][0]

'치약'

In [12]:
orders['item'][0] + str(orders['quantity'][0])

'치약1'

In [13]:
res = []
for i in orders['item']:
    

In [16]:
a,b = map(orders['item'][0], str(orders['quantity'][0]))
print(a)
print(b)

TypeError: 'str' object is not callable

In [17]:
res = []
for idx, d in enumerate(orders['item']):
    print(d + str(orders['quantity'][idx]))

치약1
칫솔2
이어폰1
헤드셋1
수건3
생수2
수건2
치약3
생수2
케이스1


In [18]:
res = []
for idx, d in enumerate(orders['item']):
    res.append(d + str(orders['quantity'][idx]))
res

['치약1', '칫솔2', '이어폰1', '헤드셋1', '수건3', '생수2', '수건2', '치약3', '생수2', '케이스1']

In [19]:
orders['비고'] = res
orders

Unnamed: 0,customer_id,item,quantity,비고
0,1,치약,1,치약1
1,1,칫솔,2,칫솔2
2,2,이어폰,1,이어폰1
3,2,헤드셋,1,헤드셋1
4,2,수건,3,수건3
5,3,생수,2,생수2
6,3,수건,2,수건2
7,1,치약,3,치약3
8,4,생수,2,생수2
9,9,케이스,1,케이스1


In [21]:
# map 함수 (파이썬 기본)
# map(함수, 이터러블)

def add(n):
    return n+1

ls=[1,2,3,4]
res = []
for i in ls:
    res.append(add(i))
print(res)

[2, 3, 4, 5]


In [30]:
res = map(add, ls)
list(res)

[2, 3, 4, 5]

In [31]:
res = map(lambda x:x+1, ls)
list(res)

[2, 3, 4, 5]

In [None]:
# 판다스 map: 판다스시리즈.map(함수)
# 쉽게 말해서 Series(이터러블).map(함수)
# 그러면 데이터프레임에 한번에 하고 싶어지지? apply()를 쓰면됨
# DataFrame.apply(함수)

In [34]:
orders['quantity'].unique()

array([1, 2, 3], dtype=int64)

In [35]:
dic = {
    1: '서울',
    2: '경기',
    3: '인천'
}

orders['quantity'].map(dic)

0    서울
1    경기
2    서울
3    서울
4    인천
5    경기
6    경기
7    인천
8    경기
9    서울
Name: quantity, dtype: object

In [36]:
orders['지역'] = orders['quantity'].map(dic)
orders

Unnamed: 0,customer_id,item,quantity,비고,지역
0,1,치약,1,치약1,서울
1,1,칫솔,2,칫솔2,경기
2,2,이어폰,1,이어폰1,서울
3,2,헤드셋,1,헤드셋1,서울
4,2,수건,3,수건3,인천
5,3,생수,2,생수2,경기
6,3,수건,2,수건2,경기
7,1,치약,3,치약3,인천
8,4,생수,2,생수2,경기
9,9,케이스,1,케이스1,서울


In [39]:
dic = {
    '인천': 1,
    '경기': 2,
    '서울': 3
}

orders['정렬'] = orders['지역'].map(dic)
orders

Unnamed: 0,customer_id,item,quantity,비고,지역,정렬
0,1,치약,1,치약1,서울,3
1,1,칫솔,2,칫솔2,경기,2
2,2,이어폰,1,이어폰1,서울,3
3,2,헤드셋,1,헤드셋1,서울,3
4,2,수건,3,수건3,인천,1
5,3,생수,2,생수2,경기,2
6,3,수건,2,수건2,경기,2
7,1,치약,3,치약3,인천,1
8,4,생수,2,생수2,경기,2
9,9,케이스,1,케이스1,서울,3


In [41]:
orders.sort_values('정렬')

Unnamed: 0,customer_id,item,quantity,비고,지역,정렬
4,2,수건,3,수건3,인천,1
7,1,치약,3,치약3,인천,1
1,1,칫솔,2,칫솔2,경기,2
5,3,생수,2,생수2,경기,2
6,3,수건,2,수건2,경기,2
8,4,생수,2,생수2,경기,2
0,1,치약,1,치약1,서울,3
2,2,이어폰,1,이어폰1,서울,3
3,2,헤드셋,1,헤드셋1,서울,3
9,9,케이스,1,케이스1,서울,3


# 점심시간

In [4]:
orders

Unnamed: 0,customer_id,item,quantity
0,1,치약,1
1,1,칫솔,2
2,2,이어폰,1
3,2,헤드셋,1
4,2,수건,3
5,3,생수,2
6,3,수건,2
7,1,치약,3
8,4,생수,2
9,9,케이스,1


In [5]:
dt = {}
dt

{}

In [6]:
dt['학생'] = 99
dt

{'학생': 99}

In [7]:
t = orders['item']

In [9]:
for idx,d in enumerate(t):
    dt[d] = str(idx) + d
dt

{'학생': 99,
 '치약': '7치약',
 '칫솔': '1칫솔',
 '이어폰': '2이어폰',
 '헤드셋': '3헤드셋',
 '수건': '6수건',
 '생수': '8생수',
 '케이스': '9케이스'}