# 0910 피벗생성_스프레드시트 기반
- pivot_table = 데이터를 스프레드시트 기반 피벗 테이블로 변환함. 

In [1]:
import pandas as pd
import numpy as np

In [2]:
col = ['Machine','Country','Grade','Price','Count']
data = [['TV','Korea','A',1000,3],
        ['TV','Korea','B', 800,8],
        ['TV','Korea','B', 800,2],
        ['TV','Japan','A',1300,5],
        ['TV','Japan','A',1300,1],
        ['PC','Korea','B',1500,6],
        ['PC','Korea','A',2000,9],
        ['PC','Japan','A',3000,3],
        ['PC','Japan','B',2500,3]]
df = pd.DataFrame(data=data, columns=col)
print(df)

  Machine Country Grade  Price  Count
0      TV   Korea     A   1000      3
1      TV   Korea     B    800      8
2      TV   Korea     B    800      2
3      TV   Japan     A   1300      5
4      TV   Japan     A   1300      1
5      PC   Korea     B   1500      6
6      PC   Korea     A   2000      9
7      PC   Japan     A   3000      3
8      PC   Japan     B   2500      3


In [3]:
print(df.pivot_table(values = 'Count', index= ['Machine', 'Country'], columns ='Grade', aggfunc = np.sum))

Grade              A     B
Machine Country           
PC      Japan    3.0   3.0
        Korea    9.0   6.0
TV      Japan    6.0   NaN
        Korea    3.0  10.0


In [4]:
#sort=False 기존 입력 순서대로
print(df.pivot_table(values='Count',index=['Machine','Country'],columns='Grade',aggfunc=np.sum,sort=False))

Grade              A     B
Machine Country           
TV      Korea    3.0  10.0
        Japan    6.0   NaN
PC      Korea    9.0   6.0
        Japan    3.0   3.0


In [5]:
#여러 값에 대해 여러 함수 적용
#list를 이용해 다중 함수 적용 가능
print(df.pivot_table(values=['Count','Price'],index=['Machine','Country']
                     ,columns='Grade',aggfunc=[np.sum,np.mean]))

                  sum                        mean                     
                Count         Price         Count        Price        
Grade               A     B       A       B     A    B       A       B
Machine Country                                                       
PC      Japan     3.0   3.0  3000.0  2500.0   3.0  3.0  3000.0  2500.0
        Korea     9.0   6.0  2000.0  1500.0   9.0  6.0  2000.0  1500.0
TV      Japan     6.0   NaN  2600.0     NaN   3.0  NaN  1300.0     NaN
        Korea     3.0  10.0  1000.0  1600.0   3.0  5.0  1000.0   800.0


In [6]:
print(df.pivot_table(values=['Count','Price'],index=['Machine','Country'],columns='Grade'
                     ,aggfunc={'Count':np.sum,'Price':np.mean}))

                Count         Price        
Grade               A     B       A       B
Machine Country                            
PC      Japan     3.0   3.0  3000.0  2500.0
        Korea     9.0   6.0  2000.0  1500.0
TV      Japan     6.0   NaN  1300.0     NaN
        Korea     3.0  10.0  1000.0   800.0


In [7]:
#fill_value를 이용한 결측치 제거
print(df.pivot_table(values='Count',index=['Machine','Country'],
                     columns='Grade',aggfunc=np.sum,fill_value='누락'))

Grade              A     B
Machine Country           
PC      Japan    3.0   3.0
        Korea    9.0   6.0
TV      Japan    6.0    누락
        Korea    3.0  10.0


In [8]:
#margines / margines_name 인수 사용
#margines = 총계 출력함 , margines_name= 해당 레이블의 이름 지정
print(df.pivot_table(values='Count',index=['Machine','Country'],columns='Grade',
                     aggfunc=np.sum,margins=True))

Grade               A     B  All
Machine Country                 
PC      Japan     3.0   3.0    6
        Korea     9.0   6.0   15
TV      Japan     6.0   NaN    6
        Korea     3.0  10.0   13
All              21.0  19.0   40


In [9]:
print(df.pivot_table(values='Count',index=['Machine','Country'],
                     columns='Grade',aggfunc=np.sum,margins=True,margins_name='총계'))

Grade               A     B  총계
Machine Country                
PC      Japan     3.0   3.0   6
        Korea     9.0   6.0  15
TV      Japan     6.0   NaN   6
        Korea     3.0  10.0  13
총계               21.0  19.0  40


 # 0911 피벗해제
 - melt 메서드 : 피벗 형태의 dataframe을 기존 형태로 해체함.
 - id_vars : 기준이 될 열
 - value_vars : 기준 열에 대한 하위 카테고리를 나열할 열 선택
 - var_name : 카테고리들이 나열된 열의 이름 설정
 - value_name : 카테고리들의 값이 나열될 열의 이름 설정 
 - col_leve : multi index의 경우 melt를 수행할 레벨 설정

In [10]:
col = ['Country','Machine','Price','Brand']
data = [['Korea','TV',1000,'A'],
        ['Japan','TV',1300,'B'],
        ['Korea','PC',2000,'A'],
        ['Japan','PC',3000,'E']]
df = pd.DataFrame(data=data, columns=col)
print(df)

  Country Machine  Price Brand
0   Korea      TV   1000     A
1   Japan      TV   1300     B
2   Korea      PC   2000     A
3   Japan      PC   3000     E


In [12]:
print(df.melt(id_vars = 'Country', value_vars = ['Machine', 'Price']))

  Country variable value
0   Korea  Machine    TV
1   Japan  Machine    TV
2   Korea  Machine    PC
3   Japan  Machine    PC
4   Korea    Price  1000
5   Japan    Price  1300
6   Korea    Price  2000
7   Japan    Price  3000


In [14]:
#ignore_index = False로 할 경우 기존 인덱스 사용
print(df.melt(id_vars = 'Country', value_vars = ['Machine', 'Price'], ignore_index=False))

  Country variable value
0   Korea  Machine    TV
1   Japan  Machine    TV
2   Korea  Machine    PC
3   Japan  Machine    PC
0   Korea    Price  1000
1   Japan    Price  1300
2   Korea    Price  2000
3   Japan    Price  3000


In [16]:
print(df.melt(id_vars='Country', value_vars=['Machine', 'Price'], var_name ='Category',
             value_name='val'))

  Country Category   val
0   Korea  Machine    TV
1   Japan  Machine    TV
2   Korea  Machine    PC
3   Japan  Machine    PC
4   Korea    Price  1000
5   Japan    Price  1300
6   Korea    Price  2000
7   Japan    Price  3000


In [17]:
#multi-index의 경우
col2 = [['Area','Area','Value','Value','Value'],['Country','City','Machine','Price','Brand']]
data2 =[['Korea','Seoul','TV',1000,'A'],
        ['Japan','Tokyo','TV',1300,'B'],
        ['Korea','Jeju','PC',2000,'A'],
        ['Japan','Kyoto','PC',3000,'E']]
df2=pd.DataFrame(data=data2, columns=col2)
print(df2)

     Area          Value            
  Country   City Machine Price Brand
0   Korea  Seoul      TV  1000     A
1   Japan  Tokyo      TV  1300     B
2   Korea   Jeju      PC  2000     A
3   Japan  Kyoto      PC  3000     E


In [18]:
print(df2.melt(id_vars = [('Area', 'City')], value_vars = [('Value', 'Price')]))

  (Area, City) variable_0 variable_1  value
0        Seoul      Value      Price   1000
1        Tokyo      Value      Price   1300
2         Jeju      Value      Price   2000
3        Kyoto      Value      Price   3000


In [20]:
print(df2.melt(id_vars = 'City', value_vars = 'Price', col_level=1))

    City variable  value
0  Seoul    Price   1000
1  Tokyo    Price   1300
2   Jeju    Price   2000
3  Kyoto    Price   3000


# 0912

In [21]:
df = pd.DataFrame(index=['row1','row2','row3'],data={'col1':[1,2,3]})
print(df)

      col1
row1     1
row2     2
row3     3


In [22]:
print(df.assign(col2 = lambda x : x.col1+2))

      col1  col2
row1     1     3
row2     2     4
row3     3     5


In [23]:
#lambda 사용하지 않고 새 열 추가
print(df.assign(col3 = df['col1']*(-2)))

      col1  col3
row1     1    -2
row2     2    -4
row3     3    -6


In [24]:
#동시에 여러 열 할당
print(df.assign(col2 = lambda x : x.col1+2, col3= df['col1']*(-2)))

      col1  col2  col3
row1     1     3    -2
row2     2     4    -4
row3     3     5    -6


In [25]:
#열이 중복될 경우, 새 열의 이름이 기존열과 중복되다면, 새 값으로 덮어씌워주기
print(df.assign(col1= [0,0,0]))

      col1
row1     0
row2     0
row3     0


 # 0913 값 변경(replace)
 - 객체 내 값을 다른 값으로 변경하는 메서드
 - to_replace = 변경 전 기존 값
 - value : 변경될 값
 - inplace : 원본 변경할지 여부
 - limit : method 사용시 변경될 갯수
 - regex : regex 문법 이용하여 변경값 정함.

In [26]:
col = ['col1','col2','col3','col4']
row = ['row1','row2','row3','row4']
data = [['A','w',1,'alpha'],['B','x',2,'beta'],['C','y',3,'gamma'],['D','z',4,'delta']]
df = pd.DataFrame(data=data, index=row, columns=col)
print(df)

     col1 col2  col3   col4
row1    A    w     1  alpha
row2    B    x     2   beta
row3    C    y     3  gamma
row4    D    z     4  delta


In [27]:
#1을 99로
print(df.replace(to_replace = 1, value= 99))

     col1 col2  col3   col4
row1    A    w    99  alpha
row2    B    x     2   beta
row3    C    y     3  gamma
row4    D    z     4  delta


In [29]:
print(df.replace(to_replace=['A', 'B', 'y', 'z'], value='-'))

     col1 col2  col3   col4
row1    -    w     1  alpha
row2    -    x     2   beta
row3    C    -     3  gamma
row4    D    -     4  delta


In [30]:
print(df.replace(to_replace=['A','B','y','z'],value=['a','b','Y','Z']))

     col1 col2  col3   col4
row1    a    w     1  alpha
row2    b    x     2   beta
row3    C    Y     3  gamma
row4    D    Z     4  delta


In [32]:
#method와 limit인수의 사용
#mehod =ffill인 경우 to_replace값이 바로 위 값으로 변경
#bfill인 경우 to_replace값이 바로 아래 값으로 변경
print(df.replace(to_replace=['x','y'],method='ffill'))

     col1 col2  col3   col4
row1    A    w     1  alpha
row2    B    w     2   beta
row3    C    w     3  gamma
row4    D    z     4  delta


In [33]:
print(df.replace(to_replace=['x','y'],method='bfill'))

     col1 col2  col3   col4
row1    A    w     1  alpha
row2    B    z     2   beta
row3    C    z     3  gamma
row4    D    z     4  delta


In [34]:
#limit=1이면 1개만 변경됨, 변경될 개수 지정가능
print(df.replace(to_replace=['x', 'y'], method = 'bfill', limit=1))

     col1 col2  col3   col4
row1    A    w     1  alpha
row2    B    x     2   beta
row3    C    z     3  gamma
row4    D    z     4  delta


In [35]:
#dict형식의 사용
print(df.replace(to_replace = {'A':'a', 'z':'Z'}))

     col1 col2  col3   col4
row1    a    w     1  alpha
row2    B    x     2   beta
row3    C    y     3  gamma
row4    D    Z     4  delta


In [36]:
print(df.replace(to_replace={'col3':{1:'-',4:'+'}}))

     col1 col2 col3   col4
row1    A    w    -  alpha
row2    B    x    2   beta
row3    C    y    3  gamma
row4    D    z    +  delta


In [37]:
print(df.replace(to_replace = {'col1':'B', 'col2': 'w'}, value=100))

     col1 col2  col3   col4
row1    A  100     1  alpha
row2  100    x     2   beta
row3    C    y     3  gamma
row4    D    z     4  delta


In [38]:
#regex의 사용 : 정규표현식으로 원하는 값 지정해서 변경 가능
print(df.replace(to_replace=r'[e]', value='-', regex=True))

     col1 col2  col3   col4
row1    A    w     1  alpha
row2    B    x     2   b-ta
row3    C    y     3  gamma
row4    D    z     4  d-lta


In [39]:
print(df.replace(regex=r'[e]', value='-'))

     col1 col2  col3   col4
row1    A    w     1  alpha
row2    B    x     2   b-ta
row3    C    y     3  gamma
row4    D    z     4  d-lta


In [40]:
#inplace=True로 하면 원본도 변경됨
df.replace(regex=r'[e]', value='-', inplace=True)
print(df)

     col1 col2  col3   col4
row1    A    w     1  alpha
row2    B    x     2   b-ta
row3    C    y     3  gamma
row4    D    z     4  d-lta


# 0914 리스트 형태의 값 전개(explode)
- 리스트 형태의 값을 여러 행으로 전개하는 메서드

In [41]:
data= [[[1,2,3],0,['a','b','c']],[4,[],3],[5,2,['x','y','z']]]
idx = ['row1','row2','row3']
col = ['col1','col2','col3']
df = pd.DataFrame(data = data, index = idx, columns = col)
print(df)

           col1 col2       col3
row1  [1, 2, 3]    0  [a, b, c]
row2          4   []          3
row3          5    2  [x, y, z]


In [42]:
#리스트 형태의 데이터가 있는 열을 지정-> 리스트를 여러 행으로 전개가능
print(df.explode('col1'))

     col1 col2       col3
row1    1    0  [a, b, c]
row1    2    0  [a, b, c]
row1    3    0  [a, b, c]
row2    4   []          3
row3    5    2  [x, y, z]


In [43]:
#빈 리스트의 경우 NaN으로 반환
print(df.explode('col2'))

           col1 col2       col3
row1  [1, 2, 3]    0  [a, b, c]
row2          4  NaN          3
row3          5    2  [x, y, z]


In [44]:
print(df.explode('col3'))

           col1 col2 col3
row1  [1, 2, 3]    0    a
row1  [1, 2, 3]    0    b
row1  [1, 2, 3]    0    c
row2          4   []    3
row3          5    2    x
row3          5    2    y
row3          5    2    z


In [46]:
#여러 열을 동시에 전개할 경우
data = [[[1,2], ['a','b']], [3, 'c']]
idx = ['row1', 'row2']
col = ['col1', 'col2']
df = pd.DataFrame(data=data, index=idx, columns=col)
print(df)

        col1    col2
row1  [1, 2]  [a, b]
row2       3       c


In [47]:
print(df.explode(column=['col1', 'col2']))

     col1 col2
row1    1    a
row1    2    b
row2    3    c


In [48]:
print(df.explode(column=['col1', 'col2'], ignore_index=True))

  col1 col2
0    1    a
1    2    b
2    3    c
