### 1) .drop()

- 행,열 삭제하기
    
    * index, columns를 통해 삭제
    
    * 특정 조건을 통해 삭제

In [1]:
import pandas as pd
df = pd.DataFrame({'ID':[20190103, 20190222, 20190531],'name':['Kim', 'Lee', 'Jeong'],'class':['H', 'W', 'S']})
df

Unnamed: 0,ID,name,class
0,20190103,Kim,H
1,20190222,Lee,W
2,20190531,Jeong,S


In [3]:
# 행 삭제 (index로)
df2 = df.drop(index = 0)
df2

Unnamed: 0,ID,name,class
1,20190222,Lee,W
2,20190531,Jeong,S


In [4]:
# 행 삭제 (특정조건) -> 조건에 만족 되지 않는 행은 삭제
df3 = df[df['name'] == 'Jeong']
df3

Unnamed: 0,ID,name,class
2,20190531,Jeong,S


In [5]:
# 열 삭제 (columns로)
df4 = df.drop(columns = ['name'])
df4

Unnamed: 0,ID,class
0,20190103,H
1,20190222,W
2,20190531,S


In [6]:
# columns를 안쓴다면 axis = 1 설정
df5 = df.drop(['class'],axis = 1)
df5

Unnamed: 0,ID,name
0,20190103,Kim
1,20190222,Lee
2,20190531,Jeong


### .replace()

 - 저장한 값 치환 

In [7]:
df1 = df.replace('Lee','Leeyerin')
df1

Unnamed: 0,ID,name,class
0,20190103,Kim,H
1,20190222,Leeyerin,W
2,20190531,Jeong,S


In [8]:
# 원본데이터를 바꾸고 싶은 경우에는 inplace설정
df.replace('W','WWW',inplace=True)
df

Unnamed: 0,ID,name,class
0,20190103,Kim,H
1,20190222,Lee,WWW
2,20190531,Jeong,S


### .fillna()

 - NaN을 특정 값으로 대체하는 기능 

In [9]:
import numpy as np
data = pd.DataFrame({'A':[1,2,np.nan],'B':[5,np.nan,np.nan],'C':[1,2,3]})
data

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [11]:
# NaN을 특정 텍스트로 대체
data.fillna(value = 'Fill')

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,Fill,2
2,Fill,Fill,3


In [16]:
# NaN을 평균으로 대체
data['A'].fillna(value=data['A'].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

### dropna()

 - 결측치 행/열 삭제

In [17]:
# NaN이 있는 index 모두 삭제
data.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [18]:
# NaN이 있는 column 삭제
data.dropna(axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [19]:
# 임계값 설정해서 해당하는 index 삭제
data.dropna(thresh=2)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


### Z-score

 - Z-score는 평균과 표준오차가 정의되어 있을 때 해당 데이터가 얼마나 벗어나 있는지 측정하는 지표
 
 - Z-score = (xi-평균)/표준오차
 
 - Z-score의 절대값이 클수록 이상치

In [20]:
data2 = pd.DataFrame({'A':[1,2,5],'B':[5,9,4],'C':[1,2,3]})
Z = (data2 - data2.mean())/data2.std()
Z

Unnamed: 0,A,B,C
0,-0.800641,-0.377964,-1.0
1,-0.320256,1.133893,0.0
2,1.120897,-0.755929,1.0


### .loc() 용법

 - 인덱스 기준으로 행 데이터 읽기

In [23]:
# 0번 인덱스에 해당하는 행 데이터 추출
df.loc[0]

ID       20190103
name          Kim
class           H
Name: 0, dtype: object

In [25]:
# 여러 개의 인덱스에 해당하는 행 데이터 추출
df.loc[[0,2]]

Unnamed: 0,ID,name,class
0,20190103,Kim,H
2,20190531,Jeong,S


### .duplicated()

 - DataFrame.duplicated(subset=list/none,keep='first'/'last'/False)

 - 데이터프레임에 있는 행들 중 중복된 값을 가진 행을 True,False형태로 알려줌 이전 행과 중복된 값을 가지면 True
     
    #### subset
    > - 중복값 테스트를 할 기준 column을 적음
    > - 지정한 컬럼의 데이터만 중복 체크 고려대상
    > - 안적으면 모든 열의 데이터를 기준으로 행을 체크
    
    #### keep
    > - first : 중복된 행 중에서 가장 위에 있는 행 제외 나머지에 True 
    > - last : 중복된 행 중에서 가장 아래 있는 행 제외 나머지 True
    > - False : 중복된 모든 행에 True

In [33]:
df_1 =pd.DataFrame( {
    'item_id': [1, 1, 2, 2, 2, 2, 3, 4,1],
    'company': ['A', 'A', 'B', 'B', 'B', 'C', 'A', 'C','A'],
    'item_name': ['apple', 'apple', 'banana', 'banana', 'banana', 'banana', 'grape', 'watermelon','apple'],
    'price': [15000, 15000, 4750, 4750, 4750, 4200, 13000, 18000,15000],
    'color': ['red', 'red', 'yellow', 'yellow', 'yellow', 'yellow', 'purple', 'green','red']
})

df_1

Unnamed: 0,item_id,company,item_name,price,color
0,1,A,apple,15000,red
1,1,A,apple,15000,red
2,2,B,banana,4750,yellow
3,2,B,banana,4750,yellow
4,2,B,banana,4750,yellow
5,2,C,banana,4200,yellow
6,3,A,grape,13000,purple
7,4,C,watermelon,18000,green
8,1,A,apple,15000,red


In [37]:
df_duplicated_info = df_1.duplicated()
df_duplicated_info

0    False
1     True
2    False
3     True
4     True
5    False
6    False
7    False
8     True
dtype: bool

In [38]:
df_duplicated_info2 = df_1.duplicated(keep = False)
df_duplicated_info2

0     True
1     True
2     True
3     True
4     True
5    False
6    False
7    False
8     True
dtype: bool

### .drop_duplicate()

 - 중복값 처리(unique한 1개의 key만 남기고 나머지 중복은 제거)
 - keep은 위의 duplicate와 동일

In [42]:
df_1.drop_duplicates( keep='first')

Unnamed: 0,item_id,company,item_name,price,color
0,1,A,apple,15000,red
2,2,B,banana,4750,yellow
5,2,C,banana,4200,yellow
6,3,A,grape,13000,purple
7,4,C,watermelon,18000,green


In [43]:
df_1.drop_duplicates()

Unnamed: 0,item_id,company,item_name,price,color
0,1,A,apple,15000,red
2,2,B,banana,4750,yellow
5,2,C,banana,4200,yellow
6,3,A,grape,13000,purple
7,4,C,watermelon,18000,green


### .sample()

 - 무작위 샘플 추출을 위한 메소드
 - df.sample(n=noene,frac=none,replace=False,weight=none,random_state =none, axis=none)
 > - n은 추출할 샘플의 수 (frac과 중복사용 불가)
 > - frac은 전체 개수의 비율만큼 샘플을 반환할 때 사용
 > - replace는 샘플을 중복하게 추출할지 여부 결정(기본은 False,허용X)
 > - weights는 샘플 추출시 샘플마다 뽑힐 확률 조정
 > - random_state는 샘플 추출시 시드를 입력 받음, 같은 시드 = 같은 결과
 > - axis는 샘플을 추출할 방향 결정 (기본은 0 = 행,1 = 열)
 

In [44]:
ex_df = pd.DataFrame(np.arange(0,12).reshape(4,3))
ex_df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [46]:
# 샘플 추출
ex_df.sample()

Unnamed: 0,0,1,2
3,9,10,11


In [47]:
ex_df.sample(n=3)

Unnamed: 0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


### cut()

 - 동일 길이로 나누어서 범주를 만듦

 #### bins
 > - bins = [start, end] = (미포함, 포함)
 > - bin 첫번째 구간보다 작으면 -> NaN
 > - bin 마지막 구간보다 크면 -> NaN

In [48]:
df = pd.DataFrame({'col': np.arange(10)})
df

Unnamed: 0,col
0,0
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9


In [50]:
df['grp_cut'] = pd.cut(df["col"], bins=[0,5,8], labels=['a', 'b'])
df

Unnamed: 0,col,grp_digitize,grp_cut
0,0,1,
1,1,1,a
2,2,1,a
3,3,1,a
4,4,1,a
5,5,2,a
6,6,2,b
7,7,2,b
8,8,3,b
9,9,3,


### digitize()

 #### bins
 > - bins = [start, end] = (포함, 미포함)
 > - bin 첫구간보다 작으면 자동 1로 digitize
 > - bin 마지막 구간보다 크면 자동으로 bin 순서에 따라 digitize
 
 #### label
 > - 0,1,2, ... 순서의 양의 정수 자동 설정
 

In [51]:
df['grp_digitize'] = np.digitize(df['col'], bins=[0,5,8])
df

Unnamed: 0,col,grp_digitize,grp_cut
0,0,1,
1,1,1,a
2,2,1,a
3,3,1,a
4,4,1,a
5,5,2,a
6,6,2,b
7,7,2,b
8,8,3,b
9,9,3,


### qcut()
    
 - 동일 개수로 나누어서 범주를 만듦

In [54]:
df = pd.DataFrame({'col_1': np.random.randint(20, size=20),'col_2': np.random.randn(20)})
df

Unnamed: 0,col_1,col_2
0,16,0.859115
1,13,-2.314382
2,19,-0.506729
3,3,1.232979
4,19,-0.43175
5,0,0.305958
6,1,0.476205
7,0,-0.342997
8,9,-1.796519
9,17,-0.087817


In [60]:
# qcut을 이용하여 col_2에 대해서 각 범주 바구니별로 4개의 개수를 가지도록 범주를 만듦
df_qcut = pd.qcut(df.col_2,4,labels=False)
df_qcut

0     3
1     0
2     1
3     3
4     1
5     2
6     2
7     1
8     0
9     1
10    2
11    2
12    3
13    0
14    3
15    3
16    2
17    0
18    0
19    1
Name: col_2, dtype: int64