# 5장 데이터의 재구성

## 이번 장의 목표

* 데이터 분석 목적에 따라 아래 작업을 실시한다
    - 데이터 정렬
    - 데이터 재구성

In [1]:
import pandas as pd

# 예제 5-1 시리즈의 값 정렬

In [2]:
obj1 = pd.Series([40,10,20,30], index = ['가','다','나','라'])

In [3]:
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [4]:
# 오름차순으로(기본) 정렬된 값을 반환하기
obj1.sort_values()

다    10
나    20
라    30
가    40
dtype: int64

In [5]:
# 자기 자신의 값은 유지
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [6]:
# 내림차순으로 정렬된 값을 반환하기
obj1.sort_values(ascending = False)

가    40
라    30
나    20
다    10
dtype: int64

In [7]:
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [8]:
obj1.argsort()
# argsort()로 나온 결과 인덱스와 기존 인덱스가 다를 수 있다

가    1
다    2
나    3
라    0
dtype: int64

In [9]:
obj2 = obj1.copy()
obj2

가    40
다    10
나    20
라    30
dtype: int64

In [10]:
org_sort_index = obj1.argsort()
# argsort()로 나온 결과를 변수에 할당
org_sort_index

가    1
다    2
나    3
라    0
dtype: int64

In [11]:
obj1.idxmin()
# idxmin()함수는 최소값 데이터를 가지고 있는 인덱스를 반환한다.

'다'

In [12]:
obj1[obj1.idxmin()]

10

In [13]:
obj1[obj1.idxmax()]

40

---

# 예제 5-2 시리즈의 인덱스 정렬

In [14]:
obj2 = pd.Series([40,10,20,30], index = ['c','a','b','d'])

In [15]:
obj2

c    40
a    10
b    20
d    30
dtype: int64

In [16]:
# 인덱스를 오름차순으로 정렬
obj2.sort_index()

a    10
b    20
c    40
d    30
dtype: int64

In [17]:
# 인덱스를 내림차순으로 정렬
obj2.sort_index(ascending = False)

d    30
c    40
b    20
a    10
dtype: int64

---

# 예제 5-3 데이터프레임의 값 정렬

In [18]:
import numpy as np

In [19]:
data = np.arange(8).reshape((2,4))
# 데이터범위.reshape(n행번호,n열번호) 함수는 n행 n열의 인덱스를 생성한다

In [20]:
data

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [21]:
frame = pd.DataFrame(data,
                     index = ['three','one'],
                     columns = ['d','a','b','c'])

In [22]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [23]:
# a열을 기준으로 오름차순으로 행 정렬
frame.sort_values(by = 'a')

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [24]:
# a열을 기준으로 내림차순으로 행 정렬
frame.sort_values(by = 'a',ascending = False)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [25]:
data1 = data.astype(np.float64)
# astype(np.데이터타입) 데이터 타입변경

In [26]:
data1[0,1] = np.nan
# nan 값을 적용하려면 float64 타입이어야한다

In [27]:
data1

array([[ 0., nan,  2.,  3.],
       [ 4.,  5.,  6.,  7.]])

In [28]:
frame1 = pd.DataFrame(data1,
                      index = ['three','one'],
                      columns = ['d','a','b','c'])

In [29]:
frame1

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


In [30]:
# 정렬시에는 NaN을 가장 큰 수로 처리한다
frame1.sort_values(by = 'a')

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


In [31]:
# na_position 인수를 활용해 NaN을 가장 마지막으로 처리하도록 지정할 수 있다
frame1.sort_values(by = 'a', na_position = 'last')

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


In [32]:
# NaN을 가장 처음으로 처리하도록 지정하기
frame1.sort_values(by = 'a', na_position = 'first')

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


In [33]:
frame2 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}])

In [34]:
frame2

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


In [35]:
# 가 열을 기준으로 내림차순 졍럴하기
frame2.sort_values(['가'], ascending = False)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
3,2,15,7
4,2,100,9
2,1,20,5


In [36]:
# 가 열을 기준으로 내림차순한 결과에서 가 열의 값이 같다면
# 나 열은 오름차순으로 정렬하기
frame2.sort_values(['가','나'], ascending =[False,True])
# 복수 기준으로 더 많이 추가가 가능하다

Unnamed: 0,가,나,다
1,3,10,5
0,3,15,3
3,2,15,7
4,2,100,9
2,1,20,5


# 예제 5-4 데이터프레임의 인덱스 정렬

In [37]:
frame3 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}],
                     columns=['다','가','나'])

In [38]:
# 딕셔너리는 특성상 순서가 정해져 있지 않으므로
# 컬럼을 지정하지 않는다면 랜덤한 순서로 출력된다.

In [39]:
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [40]:
# 행 정렬
frame3.sort_index(axis = 0)

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [41]:
frame4 = frame3.sort_index(axis = 0, ascending = False)
frame4

Unnamed: 0,다,가,나
4,9,2,100
3,7,2,15
2,5,1,20
1,5,3,10
0,3,3,15


In [42]:
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [43]:
# 열 정렬
frame3.sort_index(axis =1)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


In [44]:
frame4

Unnamed: 0,다,가,나
4,9,2,100
3,7,2,15
2,5,1,20
1,5,3,10
0,3,3,15


In [45]:
# 행을 정렬한 결과에 열을 정렬해보기
# 메소드 체이닝을 이용하여 행과 열을 동시에 정렬해보기
frame4.sort_index().sort_index(axis = 1)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


# 예제 5-5 데이터 프레임의 순위 및 이동 처리

In [46]:
data1 = {'이름': ['길동', '옥주', '현웅', '주몽', '지원'], 
        '학번': [2012, 2012, 2013, 2014, 2014], 
        '과제건수': [1, 5, 2, 3, 4],
        '점수': [25, 94, 57, 62, 70]}

In [47]:
frame3 = pd.DataFrame(data1)

In [48]:
frame3

Unnamed: 0,이름,학번,과제건수,점수
0,길동,2012,1,25
1,옥주,2012,5,94
2,현웅,2013,2,57
3,주몽,2014,3,62
4,지원,2014,4,70


In [49]:
# 데이터프레임['열이름'].rank() 열이름의 값의 높은 것부터 순위를 float형으로 반환한다
# ascending 인자는 기본값은 True이고 오름차순으로 정렬한다(제일 적은 수가 1순위)
# 그외에 인자로 method 가 있으며 method인자의 설정값은 다음과 같다
# 평균(method='average') : 동점 관측치 간의 그룹 내 평균 순위 부여 (default 설정)
# 최소값(method='min') : 동점 관측치 그룹 내 최소 순위 부여
# 최대값(method='max') : 동점 관측치 그룹 내 최대 순위 부여
# 첫번째 값 (method='first') : 동점 관측치 중에서 데이터 상에서 먼저 나타나는 관측치부터 순위 부여
# 조밀하게 (method='dense') : 최소값('min')과 같은 방법으로 순위부여하나,
#                            'min'과는 다르게 그룹 간 순위가 '1'씩 증가함

frame3['점수'].rank(ascending = False)

0    5.0
1    1.0
2    4.0
3    3.0
4    2.0
Name: 점수, dtype: float64

In [50]:
# 순위라는 열을 추가하고 점수에 대한 순위 정보를 추가함
frame3['순위'] = frame3['점수'].rank(ascending = False)

In [51]:
frame3

Unnamed: 0,이름,학번,과제건수,점수,순위
0,길동,2012,1,25,5.0
1,옥주,2012,5,94,1.0
2,현웅,2013,2,57,4.0
3,주몽,2014,3,62,3.0
4,지원,2014,4,70,2.0


In [52]:
# 순위 값으로 정렬하기
frame3.sort_values(by = '순위')

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


In [53]:
frame4 = frame3.sort_values(by = '순위')
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


In [54]:
# 인덱스를 새로 만들고 싶을 경우
frame4.index = [0,1,2,3,4]
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
0,옥주,2012,5,94,1.0
1,지원,2014,4,70,2.0
2,주몽,2014,3,62,3.0
3,현웅,2013,2,57,4.0
4,길동,2012,1,25,5.0


In [55]:
frame4.index = range(1,frame4.index.size+1)
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
2,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
4,현웅,2013,2,57,4.0
5,길동,2012,1,25,5.0


In [56]:
frame4['순위']

1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
Name: 순위, dtype: float64

In [57]:
data3 = frame4['순위'].astype(np.int64)
data3

1    1
2    2
3    3
4    4
5    5
Name: 순위, dtype: int64

In [58]:
frame4['순위'] = data3
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1
2,지원,2014,4,70,2
3,주몽,2014,3,62,3
4,현웅,2013,2,57,4
5,길동,2012,1,25,5


In [59]:
data = {'가' : pd.Series([1.], index=['a']),
        '나' : pd.Series([1., 2.], index=['a', 'b']),
        '다' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

In [60]:
df = pd.DataFrame(data)
df

Unnamed: 0,가,나,다
a,1.0,1.0,1.0
b,,2.0,2.0
c,,,3.0
d,,,4.0


In [61]:
# 나열 전체 값을 갱신
df['나'] = pd.Series([3,4,5,6], index = list('abcd'), dtype = 'float')

In [62]:
df

Unnamed: 0,가,나,다
a,1.0,3.0,1.0
b,,4.0,2.0
c,,5.0,3.0
d,,6.0,4.0


In [63]:
df1 = df[["나", "다"]]
df1

Unnamed: 0,나,다
a,3.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [64]:
# at 속성에 특정 행, 열의 이름을 지정하여 값을 할당할 경우 해당 값으로 갱신
df1.at['a','나'] = 100
df1

Unnamed: 0,나,다
a,100.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [65]:
# 아래와 같이 행의 요소를 리스트로 지정했을 경우에 각각 모든 값이 갱신이됨
# 그러나 기본 옵션으로는 Warning이 발생함
df1.at[['b','c'],['나']] = 99
df1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1.at[['b','c'],['나']] = 99


Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


In [66]:
# 위의 예제 Warning을 제거하려면 아래 코드 입력
pd.set_option('chained',None)

In [67]:
df1

Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


In [68]:
# 열의 값을 아래에서 위로 shift 할 경우, 빈 값은 NaN으로 채워짐
a = df1.나.shift(-1)
a

a    99.0
b    99.0
c     6.0
d     NaN
Name: 나, dtype: float64

In [69]:
df1['나'] = a
df1

Unnamed: 0,나,다
a,99.0,1.0
b,99.0,2.0
c,6.0,3.0
d,,4.0


In [70]:
# 열의 값을 위에서 아래로 shift 할 경우, 빈 값은 NaN으로 채워짐
b = df1.나.shift(1)

In [71]:
df1['나'] = b
df1

Unnamed: 0,나,다
a,,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


# 예제 5-6 피벗을 이용한 재구조화

#### 피벗: 데이터 열 중에서 두개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 방식

![image.png](attachment:image.png)

In [72]:
df10 = pd.DataFrame([
    ['index_1','col_1','10'],
    ['index_2','col_1','20'],
    ['index_1','col_2','30'],
    ['index_2','col_2','40']
], columns = ['index','cols','value'])

In [73]:
df10

Unnamed: 0,index,cols,value
0,index_1,col_1,10
1,index_2,col_1,20
2,index_1,col_2,30
3,index_2,col_2,40


In [74]:
df10_pivoted = df10.pivot(index = 'index', columns = 'cols', values = 'value')

In [75]:
df10_pivoted

cols,col_1,col_2
index,Unnamed: 1_level_1,Unnamed: 2_level_1
index_1,10,30
index_2,20,40


In [76]:
df = pd.DataFrame([
        ['20180901', 'A',   10],
        ['20180901', 'B',  100],
        ['20180901', 'C', 1000],
        ['20180902', 'A',   20],
        ['20180902', 'B',  200],
        ['20180902', 'C', 2000],
        ['20180903', 'A',   30],
        ['20180903', 'B',  300],
        ['20180903', 'C', 3000],
], columns=['date', 'typecode', 'volume'])

In [77]:
df

Unnamed: 0,date,typecode,volume
0,20180901,A,10
1,20180901,B,100
2,20180901,C,1000
3,20180902,A,20
4,20180902,B,200
5,20180902,C,2000
6,20180903,A,30
7,20180903,B,300
8,20180903,C,3000


In [78]:
# 분석하고자하는 값은 volume이며 분석기준은 data,typecode
# 해석 : 날짜별 typecode별 volume
df_pivoetd = df.pivot(index = 'date', columns = 'typecode', values = 'volume')

In [79]:
df_pivoetd

typecode,A,B,C
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
20180901,10,100,1000
20180902,20,200,2000
20180903,30,300,3000


In [80]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [81]:
# 피벗 분석을 분석할 때 대상이 되는 열의 데이터의 유형을 범주형 데이터를 선택한다.
# 2개의 열중에 데이터의 값이 많은 범주형 데이터를 일반적으로 행의 인덱스로 선택한다.
# 데이터프레임명.pivot(행기준,열기준,값기준)
df1.pivot('도시','연도','인구')
# 연도가 2005, 2010년, 2015년으로 전개되는데 해당값이 없다면 NaN으로 표시된다.
# 예) 2005년 인천의 값

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [82]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천","부산"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010","2015"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 2632003,1000000],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권","경상권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632003,수도권
8,부산,2015,1000000,경상권


In [83]:
# 중복이 되는 행의 값이 있을 경우 pivot이 불가능
#df1.pivot('도시','연도','인구')

In [84]:
# 이럴 경우 pivot_table()에서 aggfunc로 통계지표를 얻을 수 있음
df2 = df1.pivot_table(values = '인구',index = '도시',columns = '연도',aggfunc ='sum')
df2

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,4448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,2632003.0,2890451.0


## groupby: 데이터를 그룹별로 분할하여 독립된 그룹에 대하여 별도로 데이터를 처리

#### 그룹별 통계량을 확인할 때 확인하는 함수

#### 동작원리

![image.png](attachment:image.png)

In [85]:
import seaborn as sns
df = sns.load_dataset('tips')
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [86]:
# sex를 기준으로 수치형 데이터에 대한 통계자료를 제공
df.groupby('sex').mean()

Unnamed: 0_level_0,total_bill,tip,size
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,20.744076,3.089618,2.630573
Female,18.056897,2.833448,2.45977


In [87]:
# groupby 자체로는 의미가 없음
df.groupby('sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001E42CC17C70>

In [88]:
# smoker,day,time,size기준으로도 그룹화할 수 있을 듯

In [89]:
df.groupby('smoker').mean()

Unnamed: 0_level_0,total_bill,tip,size
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Yes,20.756344,3.00871,2.408602
No,19.188278,2.991854,2.668874


In [90]:
df_time = df.groupby('time').mean()
df_time

Unnamed: 0_level_0,total_bill,tip,size
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Lunch,17.168676,2.728088,2.411765
Dinner,20.797159,3.10267,2.630682


In [91]:
df_time['total_bill'][0]

17.168676470588235

In [92]:
df.groupby('size').mean()

Unnamed: 0_level_0,total_bill,tip
size,Unnamed: 1_level_1,Unnamed: 2_level_1
1,7.2425,1.4375
2,16.448013,2.582308
3,23.277632,3.393158
4,28.613514,4.135405
5,30.068,4.028
6,34.83,5.225


In [93]:
import seaborn as sns

In [94]:
titanic = sns.load_dataset('titanic')

In [95]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [96]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [97]:
# 모든 수치형 열에 대한 평균값을 집계
titanic_s = titanic.groupby('survived').mean()
titanic_s

Unnamed: 0_level_0,pclass,age,sibsp,parch,fare,adult_male,alone
survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,2.531876,30.626179,0.553734,0.32969,22.117887,0.817851,0.681239
1,1.950292,28.34369,0.473684,0.464912,48.395408,0.25731,0.476608


In [98]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [99]:
# sex열의 값을 행인덱스 기준, class열의 값을 열인덱스로 지정하여
# survived 값에대한 집계방식을 sum으로 지정함
titanic_ = titanic.pivot_table(values = 'survived',
                               index = 'sex',
                               columns = 'class',
                               aggfunc ='sum')
titanic_

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,91,70,72
male,45,17,47


In [100]:
titanic_.sum().sum()

342

In [101]:
titanic['survived'].sum()

342

## Stack/Unstack

### Stack : 열을 행인덱스로 전환, Unstack : 행을 열인덱스로 전환

In [102]:
weight = pd.read_csv('../data/weight_loss.csv',encoding='cp949')

In [103]:
weight.head()

Unnamed: 0,이름,월,주,몸무게
0,지완,1월,1주,70
1,찬준,1월,1주,60
2,지완,1월,2주,69
3,찬준,1월,2주,59
4,지완,1월,3주,69


In [104]:
# 주 열의 값중 '4주'인 값만 필터
week4 = weight.query('주 == "4주"')
# 데이터프레임명.query(조건 '"검색어")
week4

Unnamed: 0,이름,월,주,몸무게
6,지완,1월,4주,69
7,찬준,1월,4주,59
14,지완,2월,4주,66
15,찬준,2월,4주,56
22,지완,3월,4주,64
23,찬준,3월,4주,54
30,지완,4월,4주,62
31,찬준,4월,4주,52


In [105]:
week4.pivot(index = '월',columns = '이름', values = '몸무게')

이름,지완,찬준
월,Unnamed: 1_level_1,Unnamed: 2_level_1
1월,69,59
2월,66,56
3월,64,54
4월,62,52


In [106]:
week4.pivot_table(index='월',columns='이름',values="몸무게")

이름,지완,찬준
월,Unnamed: 1_level_1,Unnamed: 2_level_1
1월,69,59
2월,66,56
3월,64,54
4월,62,52


# 예제 5-7 스택을 이용한 재구조화

![image.png](attachment:image.png)

In [107]:
week4

Unnamed: 0,이름,월,주,몸무게
6,지완,1월,4주,69
7,찬준,1월,4주,59
14,지완,2월,4주,66
15,찬준,2월,4주,56
22,지완,3월,4주,64
23,찬준,3월,4주,54
30,지완,4월,4주,62
31,찬준,4월,4주,52


In [108]:
week5 = week4.set_index(['이름','월'])
week5.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,주,몸무게
이름,월,Unnamed: 2_level_1,Unnamed: 3_level_1
지완,1월,4주,69
찬준,1월,4주,59
지완,2월,4주,66
찬준,2월,4주,56
지완,3월,4주,64


In [109]:
# stack을 하면 주, 몸무게가 행의 멀티 인덱스로 들어가게 된다
week5_st = week5.stack()
week5_st

이름  월      
지완  1월  주      4주
        몸무게    69
찬준  1월  주      4주
        몸무게    59
지완  2월  주      4주
        몸무게    66
찬준  2월  주      4주
        몸무게    56
지완  3월  주      4주
        몸무게    64
찬준  3월  주      4주
        몸무게    54
지완  4월  주      4주
        몸무게    62
찬준  4월  주      4주
        몸무게    52
dtype: object

In [110]:
type(week5_st)

pandas.core.series.Series

In [111]:
week5_st.index.get_level_values(0)

Index(['지완', '지완', '찬준', '찬준', '지완', '지완', '찬준', '찬준', '지완', '지완', '찬준', '찬준',
       '지완', '지완', '찬준', '찬준'],
      dtype='object', name='이름')

In [112]:
week5_st.index.get_level_values(1)

Index(['1월', '1월', '1월', '1월', '2월', '2월', '2월', '2월', '3월', '3월', '3월', '3월',
       '4월', '4월', '4월', '4월'],
      dtype='object', name='월')

In [113]:
week5_st.index.get_level_values(2)

Index(['주', '몸무게', '주', '몸무게', '주', '몸무게', '주', '몸무게', '주', '몸무게', '주', '몸무게',
       '주', '몸무게', '주', '몸무게'],
      dtype='object')

In [114]:
week5_st.values

array(['4주', 69, '4주', 59, '4주', 66, '4주', 56, '4주', 64, '4주', 54, '4주',
       62, '4주', 52], dtype=object)

In [115]:
week5

Unnamed: 0_level_0,Unnamed: 1_level_0,주,몸무게
이름,월,Unnamed: 2_level_1,Unnamed: 3_level_1
지완,1월,4주,69
찬준,1월,4주,59
지완,2월,4주,66
찬준,2월,4주,56
지완,3월,4주,64
찬준,3월,4주,54
지완,4월,4주,62
찬준,4월,4주,52


In [116]:
week5_st.head(3)

이름  월      
지완  1월  주      4주
        몸무게    69
찬준  1월  주      4주
dtype: object

In [117]:
to_week5 = week5_st.to_frame()
to_week5.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,0
이름,월,Unnamed: 2_level_1,Unnamed: 3_level_1
지완,1월,주,4주
지완,1월,몸무게,69
찬준,1월,주,4주
찬준,1월,몸무게,59
지완,2월,주,4주


In [118]:
to_week5.index.levels

FrozenList([['지완', '찬준'], ['1월', '2월', '3월', '4월'], ['주', '몸무게']])

In [119]:
to_week5.columns

RangeIndex(start=0, stop=1, step=1)

In [120]:
week5

Unnamed: 0_level_0,Unnamed: 1_level_0,주,몸무게
이름,월,Unnamed: 2_level_1,Unnamed: 3_level_1
지완,1월,4주,69
찬준,1월,4주,59
지완,2월,4주,66
찬준,2월,4주,56
지완,3월,4주,64
찬준,3월,4주,54
지완,4월,4주,62
찬준,4월,4주,52


In [121]:
# unsatack()을 하면 행의 하위 인덱스가 열의 하위 인덱스로 전환됨
week5_un = week5.unstack()
week5_un

Unnamed: 0_level_0,주,주,주,주,몸무게,몸무게,몸무게,몸무게
월,1월,2월,3월,4월,1월,2월,3월,4월
이름,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
지완,4주,4주,4주,4주,69,66,64,62
찬준,4주,4주,4주,4주,59,56,54,52


In [122]:
type(week5_un)

pandas.core.frame.DataFrame

In [123]:
# unstack() 메소드를 메소드 체인으로 모든 행 인덱스를 소진하도록 연결하면
# 데이터프레임의 형태가 아닌 시리즈로 반환하게 되는 점에 유의한다.
week5_un_un = week5.unstack().unstack()

In [124]:
type(week5_un_un)

pandas.core.series.Series

In [125]:
week5_un_un.values

array(['4주', '4주', '4주', '4주', '4주', '4주', '4주', '4주', 69, 59, 66, 56, 64,
       54, 62, 52], dtype=object)

In [126]:
week5_un_un

     월   이름
주    1월  지완    4주
         찬준    4주
     2월  지완    4주
         찬준    4주
     3월  지완    4주
         찬준    4주
     4월  지완    4주
         찬준    4주
몸무게  1월  지완    69
         찬준    59
     2월  지완    66
         찬준    56
     3월  지완    64
         찬준    54
     4월  지완    62
         찬준    52
dtype: object

In [127]:
week5_un_un.unstack()

Unnamed: 0_level_0,이름,지완,찬준
Unnamed: 0_level_1,월,Unnamed: 2_level_1,Unnamed: 3_level_1
주,1월,4주,4주
주,2월,4주,4주
주,3월,4주,4주
주,4월,4주,4주
몸무게,1월,69,59
몸무게,2월,66,56
몸무게,3월,64,54
몸무게,4월,62,52


In [128]:
week6_un = week5_un_un.unstack(0)
week6_un

Unnamed: 0_level_0,Unnamed: 1_level_0,주,몸무게
월,이름,Unnamed: 2_level_1,Unnamed: 3_level_1
1월,지완,4주,69
1월,찬준,4주,59
2월,지완,4주,66
2월,찬준,4주,56
3월,지완,4주,64
3월,찬준,4주,54
4월,지완,4주,62
4월,찬준,4주,52


In [129]:
week7 = week6_un['몸무게']
week7

월   이름
1월  지완    69
    찬준    59
2월  지완    66
    찬준    56
3월  지완    64
    찬준    54
4월  지완    62
    찬준    52
Name: 몸무게, dtype: object

In [130]:
week7.to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,몸무게
월,이름,Unnamed: 2_level_1
1월,지완,69
1월,찬준,59
2월,지완,66
2월,찬준,56
3월,지완,64
3월,찬준,54
4월,지완,62
4월,찬준,52


In [131]:
week7 = week7.unstack(0)
week7

월,1월,2월,3월,4월
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지완,69,66,64,62
찬준,59,56,54,52


In [132]:
week5_un_un

     월   이름
주    1월  지완    4주
         찬준    4주
     2월  지완    4주
         찬준    4주
     3월  지완    4주
         찬준    4주
     4월  지완    4주
         찬준    4주
몸무게  1월  지완    69
         찬준    59
     2월  지완    66
         찬준    56
     3월  지완    64
         찬준    54
     4월  지완    62
         찬준    52
dtype: object

In [133]:
week5_un_un.unstack()

Unnamed: 0_level_0,이름,지완,찬준
Unnamed: 0_level_1,월,Unnamed: 2_level_1,Unnamed: 3_level_1
주,1월,4주,4주
주,2월,4주,4주
주,3월,4주,4주
주,4월,4주,4주
몸무게,1월,69,59
몸무게,2월,66,56
몸무게,3월,64,54
몸무게,4월,62,52


In [134]:
week5_un_un.unstack().unstack()

이름,지완,지완,지완,지완,찬준,찬준,찬준,찬준
월,1월,2월,3월,4월,1월,2월,3월,4월
주,4주,4주,4주,4주,4주,4주,4주,4주
몸무게,69,66,64,62,59,56,54,52


In [135]:
week5_un_un.to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,0
Unnamed: 0_level_1,월,이름,Unnamed: 3_level_1
주,1월,지완,4주
주,1월,찬준,4주
주,2월,지완,4주
주,2월,찬준,4주
주,3월,지완,4주
주,3월,찬준,4주
주,4월,지완,4주
주,4월,찬준,4주
몸무게,1월,지완,69
몸무게,1월,찬준,59


In [136]:
week5

Unnamed: 0_level_0,Unnamed: 1_level_0,주,몸무게
이름,월,Unnamed: 2_level_1,Unnamed: 3_level_1
지완,1월,4주,69
찬준,1월,4주,59
지완,2월,4주,66
찬준,2월,4주,56
지완,3월,4주,64
찬준,3월,4주,54
지완,4월,4주,62
찬준,4월,4주,52


In [137]:
week4

Unnamed: 0,이름,월,주,몸무게
6,지완,1월,4주,69
7,찬준,1월,4주,59
14,지완,2월,4주,66
15,찬준,2월,4주,56
22,지완,3월,4주,64
23,찬준,3월,4주,54
30,지완,4월,4주,62
31,찬준,4월,4주,52


In [138]:
week4_s = week4['몸무게']
week4_s

6     69
7     59
14    66
15    56
22    64
23    54
30    62
31    52
Name: 몸무게, dtype: int64

In [139]:
week4_s.index = week5['몸무게'].index
week4_s

이름  월 
지완  1월    69
찬준  1월    59
지완  2월    66
찬준  2월    56
지완  3월    64
찬준  3월    54
지완  4월    62
찬준  4월    52
Name: 몸무게, dtype: int64

In [140]:
week4_s.unstack()

월,1월,2월,3월,4월
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지완,69,66,64,62
찬준,59,56,54,52


In [141]:
type(week4_s.unstack())

pandas.core.frame.DataFrame

# 예제 5-8 데이터를 합치기 

In [142]:
import numpy as np

In [143]:
columns = np.array(['봄','여름','가을','겨울'])

In [144]:
data = np.array([['A0','A1','A2','A3'],
                 ['B0','B1','B2','B3'],
                 ['C0','C1','C2','C3'],
                 ['D0','D1','D2','D3']])

In [145]:
data

array([['A0', 'A1', 'A2', 'A3'],
       ['B0', 'B1', 'B2', 'B3'],
       ['C0', 'C1', 'C2', 'C3'],
       ['D0', 'D1', 'D2', 'D3']], dtype='<U2')

In [146]:
# 열거형객체.T -> 전치행렬: 행렬의 순서를 바꾼다
data.T

array([['A0', 'B0', 'C0', 'D0'],
       ['A1', 'B1', 'C1', 'D1'],
       ['A2', 'B2', 'C2', 'D2'],
       ['A3', 'B3', 'C3', 'D3']], dtype='<U2')

In [147]:
df1 = pd.DataFrame(data.T,columns = columns)
df1

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [148]:
# 데이터프레임에도 적용할 수 있다.
df1.T

Unnamed: 0,0,1,2,3
봄,A0,A1,A2,A3
여름,B0,B1,B2,B3
가을,C0,C1,C2,C3
겨울,D0,D1,D2,D3


In [149]:
data1 = np.array([['A4','A5','A6','A7'],
                 ['B4','B5','B6','B7'],
                 ['C4','C5','C6','C7'],
                 ['D4','D5','D6','D7']])

In [150]:
df2 = pd.DataFrame(data1.T,columns = columns)
df2

Unnamed: 0,봄,여름,가을,겨울
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [151]:
# pd.concat([데이터프레임명1,데이터프레임명2])
df_con = pd.concat([df1,df2])
df_con

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [152]:
index_r = list(range(0,8))

In [153]:
# 인덱스 재설정
df_con.index = index_r
df_con

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [154]:
# ignore_index = True 옵션은 0부터 시작해서 자동으로 인덱스를 할당한다.
df_con1 = pd.concat([df1,df2], ignore_index = True)
df_con1

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [155]:
# 열방향으로도 concat이 된다. 동일한 열 이름을 가지게 된다.
df_h = pd.concat([df1,df2],axis = 1)
df_h

Unnamed: 0,봄,여름,가을,겨울,봄.1,여름.1,가을.1,겨울.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


In [156]:
# 열이름을 구분하기 위하여 별도의 열이름 생성
columns_r = ['봄', '여름', '가을', '겨울', '봄_', '여름_', '가을_', '겨울_']

In [157]:
df_h.columns = columns_r
df_h

Unnamed: 0,봄,여름,가을,겨울,봄_,여름_,가을_,겨울_
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


In [158]:
df_g =pd.concat([df1,df2],axis = 1, ignore_index = True)
df_g

Unnamed: 0,0,1,2,3,4,5,6,7
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


# 예제 5-9 데이터를 추가하기

In [159]:
df1

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [160]:
df11 = df1.copy()

In [161]:
df11.loc[4] = ['A4','B4','C4','D4']

In [162]:
df11

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [163]:
# append 함수도 추가가 되지만 곧 사라질 에정. concat함수를 사용할 것을 권고
df11_a = df11.append({'봄':'A5','여름':'B5','가을':'C5','겨울':'D5'},
                     ignore_index = True)
df11_a

  df11_a = df11.append({'봄':'A5','여름':'B5','가을':'C5','겨울':'D5'},


Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5


In [164]:
df11

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4


In [165]:
df2

Unnamed: 0,봄,여름,가을,겨울
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [166]:
df11.append(df2)

  df11.append(df2)


Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [167]:
pd.concat([df11,df2],ignore_index = True)

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A4,B4,C4,D4
6,A5,B5,C5,D5
7,A6,B6,C6,D6
8,A7,B7,C7,D7


# 예제 5-10 데이터를 join해서 처리하기

In [168]:
from pandas import Series,DataFrame

In [169]:
JDF1 = DataFrame([["싸이",180,75],["덕구",160,65],["또치",170,75]], columns = ["이름","키","몸무게"])
JDF1

Unnamed: 0,이름,키,몸무게
0,싸이,180,75
1,덕구,160,65
2,또치,170,75


In [170]:
JDF2 = DataFrame([["싸이","포워드","잘함"],["덕구","미드필더","못함"],["똥갈","수비수","잘함"]], columns = ["이름","포지션","실력"])
JDF2

Unnamed: 0,이름,포지션,실력
0,싸이,포워드,잘함
1,덕구,미드필더,못함
2,똥갈,수비수,잘함


### Inner Join

![image.png](attachment:image.png)

In [171]:
# pd.merge(left = 데이터프레임1, right = 데이터프레임2, how = 'inner', on = '열이름')
pd.merge(left = JDF1, right = JDF2, how = 'inner', on = '이름')

Unnamed: 0,이름,키,몸무게,포지션,실력
0,싸이,180,75,포워드,잘함
1,덕구,160,65,미드필더,못함


In [172]:
JDF3 = JDF1.copy()
JDF4 = JDF2.copy()

JDF3 = JDF1.set_index('이름')
JDF4 = JDF2.set_index('이름')

In [173]:
JDF3

Unnamed: 0_level_0,키,몸무게
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
싸이,180,75
덕구,160,65
또치,170,75


In [174]:
JDF4

Unnamed: 0_level_0,포지션,실력
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
싸이,포워드,잘함
덕구,미드필더,못함
똥갈,수비수,잘함


In [175]:
JDF3.join(JDF4,how = 'inner')

Unnamed: 0_level_0,키,몸무게,포지션,실력
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
싸이,180,75,포워드,잘함
덕구,160,65,미드필더,못함


### Left Outer join
- 왼쪽 데이터프레임의 모든 데이터 출력
- 오른쪽 데이터프레임중 왼쪽 데이터프레임에 있는 데이터 출력
- 오른쪽 데이터프레임중 왼쪽 데이터프레임에 없는 데이터는 NaN으로 처리

![image.png](attachment:image.png)

In [176]:
pd.merge(left = JDF1, right = JDF2, how = 'left', on = '이름')

Unnamed: 0,이름,키,몸무게,포지션,실력
0,싸이,180,75,포워드,잘함
1,덕구,160,65,미드필더,못함
2,또치,170,75,,


In [177]:
JDF3.join(JDF4, how = 'left')

Unnamed: 0_level_0,키,몸무게,포지션,실력
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
싸이,180,75,포워드,잘함
덕구,160,65,미드필더,못함
또치,170,75,,


### Right Outer Join
+ 오른쪽 데이터프레임의 모든 데이터 출력
+ 왼쪽 데이터프레임중 오른쪽 데이터프레임에 있는 데이터는 출력
+ 왼쪽 데이터프레임중 오른쪽 데이터프레임에 없는 데이터는 NaN으로 처리

![image.png](attachment:image.png)

In [178]:
pd.merge(left = JDF1, right = JDF2, how = 'right', on = '이름')

Unnamed: 0,이름,키,몸무게,포지션,실력
0,싸이,180.0,75.0,포워드,잘함
1,덕구,160.0,65.0,미드필더,못함
2,똥갈,,,수비수,잘함


In [179]:
JDF3.join(JDF4, how = 'right')

Unnamed: 0_level_0,키,몸무게,포지션,실력
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
싸이,180.0,75.0,포워드,잘함
덕구,160.0,65.0,미드필더,못함
똥갈,,,수비수,잘함


### Outer Join
- 왼쪽,오른쪽 데이터프레임의 모든 데이터 출력
- 왼쪽 데이터프레임중 오른쪽 데이터프레임에 없는 데이터는 NaN으로 처리
- 오른쪽 데이터프레임중 왼쪽 데이터프레임에 없는 데이터는 NaN으로 처리

In [180]:
pd.merge(left = JDF1, right = JDF2, how ='outer', on = '이름')

Unnamed: 0,이름,키,몸무게,포지션,실력
0,싸이,180.0,75.0,포워드,잘함
1,덕구,160.0,65.0,미드필더,못함
2,또치,170.0,75.0,,
3,똥갈,,,수비수,잘함


### Join함수 활용 outer join

In [181]:
JDF3.join(JDF4, how = 'outer', on = '이름')

Unnamed: 0,이름,키,몸무게,포지션,실력
싸이,싸이,180.0,75.0,포워드,잘함
덕구,덕구,160.0,65.0,미드필더,못함
또치,또치,170.0,75.0,,
,똥갈,,,수비수,잘함


## 예제 추가 데이터를 join해서 처리하기

In [182]:
data3 = np.array([['A8','A9','A10','A11'],
                 ['B8','B9','B10','B11'],
                 ['E8','E9','E10','E11'],
                 ['F8','F9','F10','F11']])

In [183]:
columns3 = np.array(['봄','여름','춘분','추분'])

In [184]:
df3 = pd.DataFrame(data.T,columns = columns3)
df3

Unnamed: 0,봄,여름,춘분,추분
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [185]:
df1

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [186]:
# 행방향으로 concat하며 동일성 여부는 동일한 열이름으로 판단
df4 = pd.concat([df3,df1],join = 'inner', ignore_index = True)
df4

Unnamed: 0,봄,여름
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
4,A0,B0
5,A1,B1
6,A2,B2
7,A3,B3


In [187]:
df1

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [188]:
df3

Unnamed: 0,봄,여름,춘분,추분
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [189]:
# 열방향으로 concat하며 동일성 여부는 동일한 행번호로 판단
df5 = pd.concat([df3,df1], axis = 1, join = 'inner')
df5

Unnamed: 0,봄,여름,춘분,추분,봄.1,여름.1,가을,겨울
0,A0,B0,C0,D0,A0,B0,C0,D0
1,A1,B1,C1,D1,A1,B1,C1,D1
2,A2,B2,C2,D2,A2,B2,C2,D2
3,A3,B3,C3,D3,A3,B3,C3,D3


In [190]:
df1

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [191]:
df3

Unnamed: 0,봄,여름,춘분,추분
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [192]:
# key를 지정하면 리스트에 있는 순서대로 매칭된다
# 아래는 사계절이라는 키 하나만 지정했기 때문에 첫번째 df1에만 매칭되었다.
pd.concat([df1,df3], axis = 1, keys = ['사계절'], join = 'inner')

Unnamed: 0_level_0,사계절,사계절,사계절,사계절
Unnamed: 0_level_1,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [193]:
# df1,df3가 각각 사계절,춘추분 key에 매칭되어 concat
pd.concat([df1,df3], axis = 1, keys = ['사계절','춘추분'], join = 'inner')

Unnamed: 0_level_0,사계절,사계절,사계절,사계절,춘추분,춘추분,춘추분,춘추분
Unnamed: 0_level_1,봄,여름,가을,겨울,봄,여름,춘분,추분
0,A0,B0,C0,D0,A0,B0,C0,D0
1,A1,B1,C1,D1,A1,B1,C1,D1
2,A2,B2,C2,D2,A2,B2,C2,D2
3,A3,B3,C3,D3,A3,B3,C3,D3


# join함수 활용

In [194]:
df1

Unnamed: 0,봄,여름,가을,겨울
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [195]:
df3

Unnamed: 0,봄,여름,춘분,추분
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [196]:
# 중복이 되는 열이름에 대한 suffix를 지정하여 열이름을 변경한다.
df3.join(df1,how = 'inner', lsuffix = '_lx', rsuffix = '_rx')

Unnamed: 0,봄_lx,여름_lx,춘분,추분,봄_rx,여름_rx,가을,겨울
0,A0,B0,C0,D0,A0,B0,C0,D0
1,A1,B1,C1,D1,A1,B1,C1,D1
2,A2,B2,C2,D2,A2,B2,C2,D2
3,A3,B3,C3,D3,A3,B3,C3,D3


In [197]:
df1.join(df3,how='inner',lsuffix='_1', rsuffix='_2')

Unnamed: 0,봄_1,여름_1,가을,겨울,봄_2,여름_2,춘분,추분
0,A0,B0,C0,D0,A0,B0,C0,D0
1,A1,B1,C1,D1,A1,B1,C1,D1
2,A2,B2,C2,D2,A2,B2,C2,D2
3,A3,B3,C3,D3,A3,B3,C3,D3


In [198]:
df1.join(df3,how='outer',lsuffix='_lx', rsuffix='_rx')

Unnamed: 0,봄_lx,여름_lx,가을,겨울,봄_rx,여름_rx,춘분,추분
0,A0,B0,C0,D0,A0,B0,C0,D0
1,A1,B1,C1,D1,A1,B1,C1,D1
2,A2,B2,C2,D2,A2,B2,C2,D2
3,A3,B3,C3,D3,A3,B3,C3,D3


# 예제 5-11 데이터를 병합 처리하기

In [201]:
data = {

"student_id": [11111, 11112, 11113, 11114],

"Math": [60, 80, 90, 75],

"English": [85, 90, 65, 70],

"Class": [1, 2, 3, 4]

}



df = pd.DataFrame(data)

df

Unnamed: 0,student_id,Math,English,Class
0,11111,60,85,1
1,11112,80,90,2
2,11113,90,65,3
3,11114,75,70,4


In [203]:
# 데이터프레임명.melt 함수는 열을 (녹여서) 병합한다
# id_vars: 고정열, var_name: 병합해 만들 열 이름, value_name: 병합하여 만들 열의 값이름,
#  value_vars: 병합할 타겟 열
df2 = df.melt(id_vars = 'student_id', var_name = 'Subject', value_name = 'Score',
             value_vars = ['Math','English'])
df2

Unnamed: 0,student_id,Subject,Score
0,11111,Math,60
1,11112,Math,80
2,11113,Math,90
3,11114,Math,75
4,11111,English,85
5,11112,English,90
6,11113,English,65
7,11114,English,70


In [204]:
# 고정열을 여러개 두고 싶다면 id_vars를 리스트형으로 지정하면 된다.
df2 = df.melt(id_vars = ['student_id','Class'],var_name = 'Subject',
              value_name = 'Score', value_vars = ['Math','English'])
df2

Unnamed: 0,student_id,Class,Subject,Score
0,11111,1,Math,60
1,11112,2,Math,80
2,11113,3,Math,90
3,11114,4,Math,75
4,11111,1,English,85
5,11112,2,English,90
6,11113,3,English,65
7,11114,4,English,70


# 예제 5-12 열에 대한 추가

In [205]:
df = pd.DataFrame({'A': range(1,11), 'B': np.random.randn(10)})
df

Unnamed: 0,A,B
0,1,0.268471
1,2,1.071959
2,3,0.764616
3,4,-0.659202
4,5,-0.354067
5,6,-0.964247
6,7,-0.568225
7,8,-0.771588
8,9,-0.364123
9,10,2.440581


In [207]:
df_2 = df.copy()

In [208]:
df_2['In_A'] = np.log(df_2['A'])
df_2

Unnamed: 0,A,B,In_A
0,1,0.268471,0.0
1,2,1.071959,0.693147
2,3,0.764616,1.098612
3,4,-0.659202,1.386294
4,5,-0.354067,1.609438
5,6,-0.964247,1.791759
6,7,-0.568225,1.94591
7,8,-0.771588,2.079442
8,9,-0.364123,2.197225
9,10,2.440581,2.302585


# 예제 5-13 열에 대한 추가 활용

In [211]:
movie = pd.read_csv('../data/korea_movie_list.csv',encoding='cp949')

In [212]:
movie.head()

Unnamed: 0,movie_code,title,title_Eng,show_time,produce_year,open_date,produce_state,type,nation,genre,director,actor,show_type,watch_grade
0,20185801,할로우 차일드,The Hollow Child,88.0,2017,20180802,개봉예정,장편,캐나다,공포(호러)/판타지,제레미 루터,,,15세이상관람가
1,20187649,죽음의 리무진,Glass Coffin,75.0,2016,20180816,개봉예정,장편,스페인,스릴러/공포(호러),하리츠 쥬빌라가,파울라 본템피,,
2,20187641,극장판 도라에몽: 진구의 보물섬,,107.0,2018,20180815,개봉예정,장편,일본,애니메이션/SF/어드벤처,이마이 카즈아키,윤아영/김정아/조현정/최낙윤/이현주/임은정/김정은/이지현/이경태/강은애/박성영/이다...,"2D,디지털더빙",전체관람가
3,20187427,명탐정 코난 : 제로의 집행인,Detective Conan: Zero the Enforcer,110.0,2018,20180808,개봉예정,장편,일본,애니메이션,타치카와 유즈루,타카야마 미나미/야마자키 와카나/코야마 리키야/푸루야 토루,"2D,디지털/2D,디지털더빙",12세이상관람가
4,20173732,살아남은 아이,Last Child,123.0,2017,20180830,개봉예정,장편,한국,드라마,신동석,최무성/김여진/성유빈,"2D,디지털",


In [213]:
movie_ = pd.concat([movie.filter(like = 'prod'),
                   movie.filter(like = 'title')],
                  axis = 1)
movie_.head()

Unnamed: 0,produce_year,produce_state,title,title_Eng
0,2017,개봉예정,할로우 차일드,The Hollow Child
1,2016,개봉예정,죽음의 리무진,Glass Coffin
2,2018,개봉예정,극장판 도라에몽: 진구의 보물섬,
3,2018,개봉예정,명탐정 코난 : 제로의 집행인,Detective Conan: Zero the Enforcer
4,2017,개봉예정,살아남은 아이,Last Child


In [214]:
# 데이터프레임명.assign(새로운 열 이름 = 가져올 데이터프레임명[열이름])
movie_.assign(showtime = movie['show_time']).head()

Unnamed: 0,produce_year,produce_state,title,title_Eng,showtime
0,2017,개봉예정,할로우 차일드,The Hollow Child,88.0
1,2016,개봉예정,죽음의 리무진,Glass Coffin,75.0
2,2018,개봉예정,극장판 도라에몽: 진구의 보물섬,,107.0
3,2018,개봉예정,명탐정 코난 : 제로의 집행인,Detective Conan: Zero the Enforcer,110.0
4,2017,개봉예정,살아남은 아이,Last Child,123.0
