# 0904 행열 삭제(drop)

In [2]:
import pandas as pd
import numpy as np

In [3]:
sr = pd.Series([1,2], index=["col1", "col2"])
deep = sr.copy(deep=True)
shallow = sr.copy(deep=False)
print(sr)

col1    1
col2    2
dtype: int64


In [4]:
row = ['row1', 'row2', 'row3']
col = ['col1', 'col2', 'col3']
data= [[1,2,3], [4,5,6], [7,8,9]]
df = pd.DataFrame(data=data, index=row, columns=col)
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


In [5]:
#label인수와 axis 인수로 삭제
print(df.drop(labels='row2', axis=0))

      col1  col2  col3
row1     1     2     3
row3     7     8     9


In [6]:
print(df.drop(labels='col2', axis=1))

      col1  col3
row1     1     3
row2     4     6
row3     7     9


In [7]:
#index인수와 columns 인수로 삭제
print(df.drop(index='row3'))

      col1  col2  col3
row1     1     2     3
row2     4     5     6


In [8]:
print(df.drop(columns='col3'))

      col1  col2
row1     1     2
row2     4     5
row3     7     8


In [10]:
#errors 인수 예시 삭제하고자하는 레이블이 존재하지 않으면 오류 발생함
print(df.drop(labels=['row3','row4'], errors='raise')) #오류 무시 하지 않음

KeyError: "['row4'] not found in axis"

In [11]:
print(df.drop(labels=['row3', 'row4'], errors='ignore'))

      col1  col2  col3
row1     1     2     3
row2     4     5     6


In [12]:
#inplace인수로 원본 변경 / 원본의 변경여부 의미 원본변경한다=True
df.drop(labels=['col1', 'col2'], axis=1, inplace=True)
print(df)

      col3
row1     3
row2     6
row3     9


# 0905 행 추가(append) 
- 데이터프레임에 행추가함

In [13]:
df = pd.DataFrame(data=[[1,2],[3,4]], index=['row1','row2'], columns=['col1','col3'])
print(df)

      col1  col3
row1     1     2
row2     3     4


In [14]:
df2 = pd.DataFrame(data=[[5,6]],index=['row3'],columns=['col2','col4'])
print(df2)

      col2  col4
row3     5     6


In [15]:
print(df.append(df2))

      col1  col3  col2  col4
row1   1.0   2.0   NaN   NaN
row2   3.0   4.0   NaN   NaN
row3   NaN   NaN   5.0   6.0


In [16]:
print(df.append(df2, sort=True))

      col1  col2  col3  col4
row1   1.0   NaN   2.0   NaN
row2   3.0   NaN   4.0   NaN
row3   NaN   5.0   NaN   6.0


In [17]:
#ignore_index=True 기본 인덱스 무시함.
print(df.append(df2, sort=True, ignore_index=True))

   col1  col2  col3  col4
0   1.0   NaN   2.0   NaN
1   3.0   NaN   4.0   NaN
2   NaN   5.0   NaN   6.0


In [18]:
#verify_Integrity 인수 사용 -> 이름이 중복되는 인덱스 파악하기
df3 = pd.DataFrame(data=[[7,8],[9,0]], index=['row2','row3'], columns=['col1','col3'])
print(df3)

      col1  col3
row2     7     8
row3     9     0


In [19]:
#verify_integrity가 False일 경우
print(df.append(df3, verify_integrity =False)) #인덱스 중복되도 가능

      col1  col3
row1     1     2
row2     3     4
row2     7     8
row3     9     0


In [None]:
#verify_integrity가 True일 경우
print(df.append(df3, verify_integrity=True)) #오류발생 인덱스 중복되면 

# 0906 자르기(truncate)

In [20]:
row = ['row1','row2','row3','row4']
col = ['col1','col2','col3','col4']
data = [[1,2,3,4],[5,6,7,8],[9,10,11,12],[13,14,15,16]]
df = pd.DataFrame(data=data, index=row, columns=col)
print(df)

      col1  col2  col3  col4
row1     1     2     3     4
row2     5     6     7     8
row3     9    10    11    12
row4    13    14    15    16


In [21]:
print(df.truncate(before='row2', after='row3', axis=0)) #row2이전, row3 이후를 삭제하라

      col1  col2  col3  col4
row2     5     6     7     8
row3     9    10    11    12


In [None]:
print(df.truncate(before='col2', after='col3', axis=1)) #col2이전, col3이후를 삭제하라

# 0907 중복행 제거(drop_duplicates)
- 내용이 중복되는 행을 제거하는 메서드

In [22]:
col = ['col1','col2','col3']
data = [['A','x','-'],['A','x','-'],['B','x','앞'],['B','y','-'],['B','y','뒤']]
df = pd.DataFrame(data=data, columns=col)
print(df)

  col1 col2 col3
0    A    x    -
1    A    x    -
2    B    x    앞
3    B    y    -
4    B    y    뒤


In [23]:
print(df.drop_duplicates())

  col1 col2 col3
0    A    x    -
2    B    x    앞
3    B    y    -
4    B    y    뒤


In [24]:
#subset에 특정 컬럼명만 입력할 경우
print(df.drop_duplicates(subset='col2'))

  col1 col2 col3
0    A    x    -
3    B    y    -


In [25]:
#subset에 열들을 입력할 경우
print(df.drop_duplicates(subset=['col1','col2']))

  col1 col2 col3
0    A    x    -
2    B    x    앞
3    B    y    -


In [26]:
#keep 인수를 통해 남길 행 선택
#keep 인수를 통해 중복값 제거, 남길 행 선택
print(df.drop_duplicates(subset='col1', keep='first'))

  col1 col2 col3
0    A    x    -
2    B    x    앞


In [27]:
print(df.drop_duplicates(subset='col1', keep='last'))

  col1 col2 col3
1    A    x    -
4    B    y    뒤


In [28]:
print(df.drop_duplicates(subset='col1', keep='last', ignore_index=True))

  col1 col2 col3
0    A    x    -
1    B    y    뒤


In [29]:
#inplace 인수의 사용
df.drop_duplicates(subset='col3', inplace=True)
print(df)

  col1 col2 col3
0    A    x    -
2    B    x    앞
4    B    y    뒤


# 0908 차원축소, 스칼라 변환
- squeeze 메서드 : 차원 축소하는 메서드

In [30]:
df=pd.DataFrame(data=[[1,2],[3,4]],index=['row1','row2'],columns=['col1','col2'])
print(df)

      col1  col2
row1     1     2
row2     3     4


In [31]:
#row1 삭제
df_row = df.drop(index='row1')
print(df_row)

      col1  col2
row2     3     4


In [32]:
#압축실행
print(df_row.squeeze()) #결과값이 series객체로 변환

col1    3
col2    4
Name: row2, dtype: int64


In [33]:
#col1 삭제
df_col=df.drop(columns='col1')
print(df_col)

      col2
row1     2
row2     4


In [34]:
print(df_row.squeeze()) #결과값이 series 객체로 변환

col1    3
col2    4
Name: row2, dtype: int64


In [35]:
#dataframe을 스칼라 값으로 압축
df_col_row = df.drop(index='row1', columns='col1')
print(df_col_row)

      col2
row2     4


In [36]:
print(df_col_row.squeeze())

4


In [37]:
#압축할 수 없는 경우
print(df.squeeze())

      col1  col2
row1     1     2
row2     3     4


# 0909 피벗변환(pivot)
- 데이터의 열을 기다란 걸 평평하게 만들어 준다.

In [38]:
col = ['Machine','Country','Price','Brand']
data = [['TV','Korea',1000,'A'],
        ['TV','Japan',1300,'B'],
        ['TV','China',300,'C'],
        ['PC','Korea',2000,'A'],
        ['PC','Japan',3000,'E'],
        ['PC','China',450,'F']]
df = pd.DataFrame(data=data, columns=col)
print(df)

  Machine Country  Price Brand
0      TV   Korea   1000     A
1      TV   Japan   1300     B
2      TV   China    300     C
3      PC   Korea   2000     A
4      PC   Japan   3000     E
5      PC   China    450     F


In [40]:
print(df.pivot(index = 'Machine', columns='Country', values='Price'))

Country  China  Japan  Korea
Machine                     
PC         450   3000   2000
TV         300   1300   1000


In [41]:
#values 값이 list 형태일 경우 피벗테이블이 옆쪽으로 연속으로 생성됨
print(df.pivot(index='Machine', columns='Country', values=['Price', 'Brand']))

        Price             Brand            
Country China Japan Korea China Japan Korea
Machine                                    
PC        450  3000  2000     F     E     A
TV        300  1300  1000     C     B     A


In [42]:
#values를 따로 입력하지 않으면 남은 모든 열이 values에 입력됨
print(df.pivot(index='Machine', columns='Country'))

        Price             Brand            
Country China Japan Korea China Japan Korea
Machine                                    
PC        450  3000  2000     F     E     A
TV        300  1300  1000     C     B     A


In [43]:
#위에 values를 따로 입력하지 않았을 때 []이용해서 value값으로 Brand 값을 출력할 수 있음
print(df.pivot(index='Machine', columns='Country')['Brand'])

Country China Japan Korea
Machine                  
PC          F     E     A
TV          C     B     A


In [44]:
#multi index 로 피벗 변환
print(df.pivot(index=['Country', 'Machine'], columns='Brand', values='Price'))

Brand                 A       B      C       E      F
Country Machine                                      
China   PC          NaN     NaN    NaN     NaN  450.0
        TV          NaN     NaN  300.0     NaN    NaN
Japan   PC          NaN     NaN    NaN  3000.0    NaN
        TV          NaN  1300.0    NaN     NaN    NaN
Korea   PC       2000.0     NaN    NaN     NaN    NaN
        TV       1000.0     NaN    NaN     NaN    NaN


In [45]:
#columns 가 list 형태일 경우
print(df.pivot(index='Country', columns=['Machine', 'Brand'], values='Price'))

Machine      TV                     PC               
Brand         A       B      C       A       E      F
Country                                              
China       NaN     NaN  300.0     NaN     NaN  450.0
Japan       NaN  1300.0    NaN     NaN  3000.0    NaN
Korea    1000.0     NaN    NaN  2000.0     NaN    NaN


In [46]:
#피벗변환이 불가능한 경우 -> 중복값으로 인해 피벗 테이블 생성 불가능할 때
df2 = pd.DataFrame(data=[['A','x',1],['A','x',2],['B','y',3],['B','z',4]],columns=['col1','col2','col3'])
print(df2)

  col1 col2  col3
0    A    x     1
1    A    x     2
2    B    y     3
3    B    z     4


In [47]:
#피벗 생성하면 오류 생김
print(df.pivot(index='col1', columns='col3'))

KeyError: "None of ['col1', 'col3'] are in the columns"