# Pandas CheatSheet
> " 안 쓰면 잊어버리는, pandas에서의 주요 Dataframe 조작 방법들을 정리"

- badges: false
- comments: true
- author: limyj0708
- categories: [Pandas]
- sticky_rank: 1
- toc: true

In [1]:
import pandas as pd

## 1. Dataframe 생성

### 1-1. Dictionary에서 Dataframe 생성

In [2]:
data = {'col_1': [3, 2, 1, 0], 'col_2': ['a', 'b', 'c', 'd']}
pd.DataFrame.from_dict(data)
# key가 컬럼, value로 들어간 리스트가 컬럼의 row 하나하나가 된다.

Unnamed: 0,col_1,col_2
0,3,a
1,2,b
2,1,c
3,0,d


In [3]:
dict_list = [
    { "id" : 1001001, "address" : "AABCC"}
    ,{ "id" : 2101001, "address" : "BBBDD"}
    ,{ "id" : 3201001, "address" : "백두산"}
    ,{ "id" : 4301001, "address" : "한라산"}
    ,{ "id" : 5401001, "address" : "몰디브"}
] # 같은 key들을 가진 딕셔너리들이 담긴 리스트
pd.DataFrame.from_dict(dict_list) # 이렇게 넣어도, key들이 컬럼이 되어 데이터프레임이 만들어진다.
# 실무적으로는 이 형태를 더 많이 쓰게 된다.

Unnamed: 0,id,address
0,1001001,AABCC
1,2101001,BBBDD
2,3201001,백두산
3,4301001,한라산
4,5401001,몰디브


### 1-2. Column만 존재하는 빈 Dataframe을 만들고, 내용 채워 넣기

In [4]:
df = pd.DataFrame(columns=['A','B','BB','C','D'])
# 컬럼들이 될 리스트를 columns parameter에 argument로 넘김
df

Unnamed: 0,A,B,BB,C,D


In [5]:
df['A'] = [1,3,1]
df

Unnamed: 0,A,B,BB,C,D
0,1,,,,
1,3,,,,
2,1,,,,


In [6]:
df['B'] = [4,4,6]
df

Unnamed: 0,A,B,BB,C,D
0,1,4,,,
1,3,4,,,
2,1,6,,,


In [7]:
df.loc[((df['A'] == 1) & (df['B'] == 4)), 'C'] = 444
df
# 컬럼 값 조건을 걸고 값을 변경

Unnamed: 0,A,B,BB,C,D
0,1,4,,444.0,
1,3,4,,,
2,1,6,,,


In [8]:
df.loc[(df['B'] == 4), 'C'] = 0
df
# 컬럼 값 조건을 걸고 값을 변경 2

Unnamed: 0,A,B,BB,C,D
0,1,4,,0.0,
1,3,4,,0.0,
2,1,6,,,


In [9]:
sample_list = [1,2,3,4,5]
# 해당 데이터프레임 가장 아래에 리스트를 row로 넣음
df.loc[len(df)] = sample_list
# 이 방식은 좀 느린 편이며, 데이터프레임에 행을 추가해야 한다면
# 자료를 dictionary로 관리하다가 모든 데이터 추가가 다 끝나고 데이터프레임으로 변환하는 것이 빠름
df

Unnamed: 0,A,B,BB,C,D
0,1,4,,0.0,
1,3,4,,0.0,
2,1,6,,,
3,1,2,3.0,4.0,5.0


## 2. Indexing, 값 변경 & 추가

### 2-1. loc : 라벨 인덱싱

In [10]:
print(type(df.loc[0]))
df.loc[0]
# loc의 첫 번째 인자는 '행 라벨' 이다.
# 그래서 0을 넣으면, index가 0인 행을 series로 반환하고 있다.

<class 'pandas.core.series.Series'>


A       1
B       4
BB    NaN
C       0
D     NaN
Name: 0, dtype: object

In [11]:
print(type(df.loc[0, 'A']))
df.loc[0, 'A']
# 두 번째 인자는 컬럼명이다.

<class 'numpy.int64'>


1

In [12]:
df.loc[[0,1,2,3], ['A','B']]
# 이런 식으로 접근하면, 다중 컬럼과 행을 데이터프레임으로 가져올 수 있다.

Unnamed: 0,A,B
0,1,4
1,3,4
2,1,6
3,1,2


In [13]:
df.loc[df.index[0:3], ['A','B']]
# df.index로도 접근 가능

Unnamed: 0,A,B
0,1,4
1,3,4
2,1,6


In [14]:
df.loc[df['B'] == 4]
# row에 값 조건을 걸 수도 있다.

Unnamed: 0,A,B,BB,C,D
0,1,4,,0,
1,3,4,,0,


In [15]:
df.loc[df['B'] == 4, df.columns.str.contains('B')]
# 컬럼 이름에도 조건을 걸 수 있다. 위의 경우, 컬럼 이름에 B를 포함하는 컬럼만 가져옴.

Unnamed: 0,B,BB
0,4,
1,4,


In [16]:
df.loc[:,df.columns.str.contains('B')]
# 행 조건 자리에 :를 넣으면, 행에 대해서는 전체를 다 가져오라는 뜻이다.

Unnamed: 0,B,BB
0,4,
1,4,
2,6,
3,2,3.0


In [17]:
print(df.columns) # 컬럼명을 가져옴
print(df.columns.str)
print(df.columns.str.contains('B')) # boolean indexing이 가능한 형태가 된다.
print(type(df.columns.str.contains('B'))) # 결과물은 false와 true가 들어간 ndarray
print(df.columns.str.startswith('A')) # 이렇게 하면 A로 시작하는 컬럼을 가져올 수 있음
# 결론은, 다른 외부 함수를 사용해서 어쩄든 boolean 타입 값이 담긴 리스트를 만들면, loc에 넣어서 boolean indexing이 가능하다는 것.

Index(['A', 'B', 'BB', 'C', 'D'], dtype='object')
<pandas.core.strings.StringMethods object at 0x0000022DCBB08640>
[False  True  True False False]
<class 'numpy.ndarray'>
[ True False False False False]


In [18]:
df.loc[:,'new'] = 3
df
# loc으로도 기존에 없던 새 컬럼을 추가할 수 있음

Unnamed: 0,A,B,BB,C,D,new
0,1,4,,0.0,,3
1,3,4,,0.0,,3
2,1,6,,,,3
3,1,2,3.0,4.0,5.0,3


In [19]:
df.loc[4] = [1] * len(df.columns)
df.loc[99] = [1] * len(df.columns)
df.loc['cool'] = [22] * len(df.columns)
# dataframe에 행을 추가함. index가 늘어난다.
df

Unnamed: 0,A,B,BB,C,D,new
0,1,4,,0.0,,3
1,3,4,,0.0,,3
2,1,6,,,,3
3,1,2,3.0,4.0,5.0,3
4,1,1,1.0,1.0,1.0,1
99,1,1,1.0,1.0,1.0,1
cool,22,22,22.0,22.0,22.0,22


### 2-2. iloc : 위치 인덱싱

In [20]:
df.iloc[0:2,0:4]
# 기본적 동작은 loc과 동일하나, 받는 인자가 라벨이 아니고 '위치'다.

Unnamed: 0,A,B,BB,C
0,1,4,,0
1,3,4,,0


In [21]:
df.iloc[4:7,0:4]
# 위치를 받기 때문에, index는 99여도 5번째 줄로 인식됨

Unnamed: 0,A,B,BB,C
4,1,1,1,1
99,1,1,1,1
cool,22,22,22,22


In [22]:
df.iloc[7] = [2] * len(df.columns)
# IndexError: iloc cannot enlarge its target object
# 위치를 인자로 받기 때문에, 새로운 컬럼, 행을 만든다거나 하는 행위는 불가능하다.

IndexError: iloc cannot enlarge its target object

### 2-3. at : 스칼라값 접근

In [23]:
df.at[1,'A']
# 한 번에 1개의 스칼라값에만 접근 가능
# 여러 개의 값에 접근하려고 범위를 지정하면, 에러를 출력한다.
# 단일 값에 접근하는 목적이라면 loc보다 훨씬 빠름

3

In [24]:
df.at[1,'A'] = 100
df
# 값을 딱 하나만 바꾸고 싶다! 라고 하면 at을 활용해보자.

Unnamed: 0,A,B,BB,C,D,new
0,1,4,,0.0,,3
1,100,4,,0.0,,3
2,1,6,,,,3
3,1,2,3.0,4.0,5.0,3
4,1,1,1.0,1.0,1.0,1
99,1,1,1.0,1.0,1.0,1
cool,22,22,22.0,22.0,22.0,22


In [25]:
df.at[99, 'new']
# 그 이외에는 label base인 것이 loc과 똑같음

1

### 2-4. iat : iloc의 스칼라 버전

In [26]:
df.iat[4,2]
# iloc의 스칼라 버전.
# 이외의 동작은 at과 같다.

1

In [27]:
df.iat[df.index.get_loc('cool'),df.columns.get_loc('new')]
# get_loc을 쓰면, 해당 인덱스와 컬럼의 위치를 반환받을 수 있음.
# 그럼 인덱스와 컬럼의 이름으로도 iat, iloc을 이용 가능

22

### 2-5 map : Series의 원소 하나하나에 함수 적용
 - map함수는 DataFrame 타입이 아니라, 반드시 Series 타입에서만 사용해야 한다.
 - Series를 한마디로 정의하면 딱 이거다.
     - 값(value) + 인덱스(index) = 시리즈 클래스(Series)
 - Series는 NumPy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다. 하지만 데이터 자체는 그냥 값(value)의 1차원 배열이다.
 - map함수는 Series의 이러한 값 하나하나에 접근하면서 해당 함수를 수행한다.

In [28]:
import math as m # sqrt 함수 사용을 위해 부름
# http://www.leejungmin.org/post/2018/04/21/pandas_apply_and_map/
df["map_b"] = df["B"].map(lambda x : m.sqrt(x)) 
# B컬럼의 값 하나하나에 sqrt 함수를 적용한 결과를 map_b 컬럼으로 추가
df

Unnamed: 0,A,B,BB,C,D,new,map_b
0,1,4,,0.0,,3,2.0
1,100,4,,0.0,,3,2.0
2,1,6,,,,3,2.44949
3,1,2,3.0,4.0,5.0,3,1.414214
4,1,1,1.0,1.0,1.0,1,1.0
99,1,1,1.0,1.0,1.0,1,1.0
cool,22,22,22.0,22.0,22.0,22,4.690416


### 2-6. apply : 커스텀 함수에 복수 개의 컬럼이 필요하다면
- 커스텀 함수를 사용하기 위해 DataFrame에서 복수 개의 컬럼이 필요하다면, apply 함수를 사용해야 한다.

In [29]:
import math as m # sqrt 함수 사용을 위해 부름
# 두 컬럼의 제곱근의 값을 각각 곱하는 함수
def sqrt_multi(x,y):
    return m.sqrt(x) * m.sqrt(y)

In [30]:
df.loc[:,'new'] = df.apply(lambda x : sqrt_multi(x['A'], x['B']), axis=1) # axis=1 이면 각 열의 원소에 대해 연산 수행
df

Unnamed: 0,A,B,BB,C,D,new,map_b
0,1,4,,0.0,,2.0,2.0
1,100,4,,0.0,,20.0,2.0
2,1,6,,,,2.44949,2.44949
3,1,2,3.0,4.0,5.0,1.414214,1.414214
4,1,1,1.0,1.0,1.0,1.0,1.0
99,1,1,1.0,1.0,1.0,1.0,1.0
cool,22,22,22.0,22.0,22.0,22.0,4.690416


In [31]:
df["apply_bb_d"] = df.apply(lambda x : sqrt_multi(x['BB'], x['B']), axis=1) # axis=1 이면 각 열의 원소에 대해 연산 수행
df # NaN과의 연산은 NaN이 됨을 참고하자.

Unnamed: 0,A,B,BB,C,D,new,map_b,apply_bb_d
0,1,4,,0.0,,2.0,2.0,
1,100,4,,0.0,,20.0,2.0,
2,1,6,,,,2.44949,2.44949,
3,1,2,3.0,4.0,5.0,1.414214,1.414214,2.44949
4,1,1,1.0,1.0,1.0,1.0,1.0,1.0
99,1,1,1.0,1.0,1.0,1.0,1.0,1.0
cool,22,22,22.0,22.0,22.0,22.0,4.690416,22.0


### 2-7. index, columns로 index와 컬럼명 직접 지정

In [44]:
print(df.columns)
print(type(df.columns))
print(df.index)
print(type(df.index))
print(df.columns[2]) # 위치값으로 개별 요소에 접근 가능
print(df.index[6])

Index(['A', 'B', 'BB', 'C', 'D', 'new', 'map_b', 'apply_bb_d'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
Index([0, 1, 2, 3, 4, 99, 'cool'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
BB
cool


In [48]:
df.columns = ['가', '나', '다', '라', '마', '바', '사', '아'] 
# df.columns에 직접 컬럼명 리스트를 할당하여 컬럼명 변경 가능
# 기존 컬럼 수와 같은 길이의 리스트를 넣지 않으면 오류가 발생함
print(df.columns)
print(type(df.columns))

Index(['가', '나', '다', '라', '마', '바', '사', '아'], dtype='object')
<class 'pandas.core.indexes.base.Index'>


In [49]:
df.index = [1,2,3,4,5,6,7] 
# df.columns에 직접 컬럼명 리스트를 할당하여 컬럼명 변경 가능
print(df.index)
print(type(df.index))

Int64Index([1, 2, 3, 4, 5, 6, 7], dtype='int64')
<class 'pandas.core.indexes.numeric.Int64Index'>


### 2-8. set_index로 index 설정
```DataFrame.set_index(keys, drop=True, append=False, inplace=False)```
- keys에는 index로 할당하고자 하는 열의 레이블을 입력한다.
  - multi-index를 하고 싶으면, ['가', '나'] 이렇게 열 레이블 배열을 입력한다.
- drop : index로 할당한 열을 삭제할까요?
- append : 기존에 존재하던 index를 삭제할까요?
- inplace : 원본 데이터프레임을 변경할까요?

In [52]:
df

Unnamed: 0,가,나,다,라,마,바,사,아
1,1,4,,0.0,,2.0,2.0,
2,100,4,,0.0,,20.0,2.0,
3,1,6,,,,2.44949,2.44949,
4,1,2,3.0,4.0,5.0,1.414214,1.414214,2.44949
5,1,1,1.0,1.0,1.0,1.0,1.0,1.0
6,1,1,1.0,1.0,1.0,1.0,1.0,1.0
7,22,22,22.0,22.0,22.0,22.0,4.690416,22.0


In [57]:
df.set_index('가') # 기본값

Unnamed: 0_level_0,나,다,라,마,바,사,아
가,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,4,,0.0,,2.0,2.0,
100,4,,0.0,,20.0,2.0,
1,6,,,,2.44949,2.44949,
1,2,3.0,4.0,5.0,1.414214,1.414214,2.44949
1,1,1.0,1.0,1.0,1.0,1.0,1.0
1,1,1.0,1.0,1.0,1.0,1.0,1.0
22,22,22.0,22.0,22.0,22.0,4.690416,22.0


In [56]:
df.set_index('가', drop=False) # index로 선택된 열 삭제 안 함

Unnamed: 0_level_0,가,나,다,라,마,바,사,아
가,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,1,4,,0.0,,2.0,2.0,
100,100,4,,0.0,,20.0,2.0,
1,1,6,,,,2.44949,2.44949,
1,1,2,3.0,4.0,5.0,1.414214,1.414214,2.44949
1,1,1,1.0,1.0,1.0,1.0,1.0,1.0
1,1,1,1.0,1.0,1.0,1.0,1.0,1.0
22,22,22,22.0,22.0,22.0,22.0,4.690416,22.0


In [58]:
df.set_index('가', append=True) # 기존 index 삭제 안 함

Unnamed: 0_level_0,Unnamed: 1_level_0,나,다,라,마,바,사,아
Unnamed: 0_level_1,가,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,1,4,,0.0,,2.0,2.0,
2,100,4,,0.0,,20.0,2.0,
3,1,6,,,,2.44949,2.44949,
4,1,2,3.0,4.0,5.0,1.414214,1.414214,2.44949
5,1,1,1.0,1.0,1.0,1.0,1.0,1.0
6,1,1,1.0,1.0,1.0,1.0,1.0,1.0
7,22,22,22.0,22.0,22.0,22.0,4.690416,22.0


In [68]:
df.set_index(['가','나']) # 동시에 여러 열을 index로 설정하기

Unnamed: 0_level_0,Unnamed: 1_level_0,다,라,마,바,사,아
가,나,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,4,,0.0,,2.0,2.0,
100,4,,0.0,,20.0,2.0,
1,6,,,,2.44949,2.44949,
1,2,3.0,4.0,5.0,1.414214,1.414214,2.44949
1,1,1.0,1.0,1.0,1.0,1.0,1.0
1,1,1.0,1.0,1.0,1.0,1.0,1.0
22,22,22.0,22.0,22.0,22.0,4.690416,22.0


### 2-9. reset_index로 index 초기화
```DataFrame.reset_index(drop=False, inplace=False)```
- 기존에 있던 index 대신에, 0부터 시작하여 1씩 늘어나는 정수 index를 추가한다.
- drop : 기존에 index였던 열을 삭제할까요?
- inplace : 원본 데이터프레임을 변경할까요? 

In [71]:
df.reset_index()

Unnamed: 0,index,가,나,다,라,마,바,사,아
0,1,1,4,,0.0,,2.0,2.0,
1,2,100,4,,0.0,,20.0,2.0,
2,3,1,6,,,,2.44949,2.44949,
3,4,1,2,3.0,4.0,5.0,1.414214,1.414214,2.44949
4,5,1,1,1.0,1.0,1.0,1.0,1.0,1.0
5,6,1,1,1.0,1.0,1.0,1.0,1.0,1.0
6,7,22,22,22.0,22.0,22.0,22.0,4.690416,22.0


In [70]:
df.reset_index(drop=True)

Unnamed: 0,가,나,다,라,마,바,사,아
0,1,4,,0.0,,2.0,2.0,
1,100,4,,0.0,,20.0,2.0,
2,1,6,,,,2.44949,2.44949,
3,1,2,3.0,4.0,5.0,1.414214,1.414214,2.44949
4,1,1,1.0,1.0,1.0,1.0,1.0,1.0
5,1,1,1.0,1.0,1.0,1.0,1.0,1.0
6,22,22,22.0,22.0,22.0,22.0,4.690416,22.0


## 3. 값 삭제, 대치
 - 특정 조건의 값을 삭제하고 싶은 경우에는, 해당 조건의 반대 조건을 걸어서 반환 결과를 사용하는 식으로 처리한다.

### 3-1. drop : 원하는 행, 열 지우기
```DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')```
 - 특정 레이블의 행이나 열을 제거한다.
 - labels : 제거할 index, 레이블 하나 혹은 리스트 (list-like)
 - axis : 0이면 행, 1이면 컬럼 대상
 - index : labels, axis=0 대신 사용가능
 - columns : labels, axis=1 대신 사용가능
 - level : MultiIndex일 경우, 어떤 레벨을 제거할 것인지
 - inplace : 원본 변경 할 건가요?
 - errors : 'ignore'로 세팅하면, 에러 출력 안 하고 존재하는 레이블만 제거한다.

In [72]:
df

Unnamed: 0,가,나,다,라,마,바,사,아
1,1,4,,0.0,,2.0,2.0,
2,100,4,,0.0,,20.0,2.0,
3,1,6,,,,2.44949,2.44949,
4,1,2,3.0,4.0,5.0,1.414214,1.414214,2.44949
5,1,1,1.0,1.0,1.0,1.0,1.0,1.0
6,1,1,1.0,1.0,1.0,1.0,1.0,1.0
7,22,22,22.0,22.0,22.0,22.0,4.690416,22.0


In [77]:
df.drop(labels=['가','아'], axis=1)

Unnamed: 0,나,다,라,마,바,사
1,4,,0.0,,2.0,2.0
2,4,,0.0,,20.0,2.0
3,6,,,,2.44949,2.44949
4,2,3.0,4.0,5.0,1.414214,1.414214
5,1,1.0,1.0,1.0,1.0,1.0
6,1,1.0,1.0,1.0,1.0,1.0
7,22,22.0,22.0,22.0,22.0,4.690416


In [75]:
df.drop(labels=[1,7], axis=0)

Unnamed: 0,가,나,다,라,마,바,사,아
2,100,4,,0.0,,20.0,2.0,
3,1,6,,,,2.44949,2.44949,
4,1,2,3.0,4.0,5.0,1.414214,1.414214,2.44949
5,1,1,1.0,1.0,1.0,1.0,1.0,1.0
6,1,1,1.0,1.0,1.0,1.0,1.0,1.0


In [78]:
df.drop(columns=['가','아'])
# df.drop(labels=['가','아'], axis=1)와 같은 결과

Unnamed: 0,나,다,라,마,바,사
1,4,,0.0,,2.0,2.0
2,4,,0.0,,20.0,2.0
3,6,,,,2.44949,2.44949
4,2,3.0,4.0,5.0,1.414214,1.414214
5,1,1.0,1.0,1.0,1.0,1.0
6,1,1.0,1.0,1.0,1.0,1.0
7,22,22.0,22.0,22.0,22.0,4.690416


### 3-2. Na 대응

#### 3-2-1. isna : NaN인지 각 값에 대해 확인
- NaN인지 각 값에 대해 확인하여 boolean으로 표현
- isnull() 도 완전히 같은 기능을 한다.
- 왜 같은 기능을 하는 함수가 두 개나 있는지는 아래 링크를 참조
  - https://datascience.stackexchange.com/questions/37878/difference-between-isna-and-isnull-in-pandas
  > This is because pandas' DataFrames are based on R's DataFrames. In R na and null are two separate things. Read [this post](https://www.r-bloggers.com/2010/04/r-na-vs-null/) for more information. 
    However, in python, pandas is built on top of numpy, **which has neither na nor null values. Instead numpy has NaN values (which stands for "Not a Number").** Consequently, pandas also uses NaN values.

In [81]:
df.isna()
# 특정 컬럼, 행에 대해서도 사용 가능

Unnamed: 0,가,나,다,라,마,바,사,아
1,False,False,True,False,True,False,False,True
2,False,False,True,False,True,False,False,True
3,False,False,True,True,True,False,False,True
4,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False


#### 3-2-2. dropna : NA 드랍
```DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)```
- axis
  - 0 혹은 'index' : missing value가 있는 행을 드랍
  - 1 혹은 'columns' : missing value가 있는 열을 드랍
- how
  - any : missing value가 하나라도 있으면 드랍
  - all : 전체 값이 다 missing value여야 드랍
- thresh : 문턱값. 정수를 입력 시, 정상값이 해당 정수 갯수만큼은 있어야 제거 안 함
- subset : list-like 오브젝트를 넣으면, 해당 index나 컬럼에서만 missing value 체크
- inplace : 원본 변경 할 건가요?

In [84]:
df

Unnamed: 0,가,나,다,라,마,바,사,아
1,1,4,,0.0,,2.0,2.0,
2,100,4,,0.0,,20.0,2.0,
3,1,6,,,,2.44949,2.44949,
4,1,2,3.0,4.0,5.0,1.414214,1.414214,2.44949
5,1,1,1.0,1.0,1.0,1.0,1.0,1.0
6,1,1,1.0,1.0,1.0,1.0,1.0,1.0
7,22,22,22.0,22.0,22.0,22.0,4.690416,22.0


In [87]:
df.dropna() # 기본적으로 행 드랍

Unnamed: 0,가,나,다,라,마,바,사,아
4,1,2,3,4,5,1.414214,1.414214,2.44949
5,1,1,1,1,1,1.0,1.0,1.0
6,1,1,1,1,1,1.0,1.0,1.0
7,22,22,22,22,22,22.0,4.690416,22.0


In [88]:
df.dropna(axis=1) # 열 드랍

Unnamed: 0,가,나,바,사
1,1,4,2.0,2.0
2,100,4,20.0,2.0
3,1,6,2.44949,2.44949
4,1,2,1.414214,1.414214
5,1,1,1.0,1.0
6,1,1,1.0,1.0
7,22,22,22.0,4.690416


In [98]:
df.dropna(thresh=5) # index 3인 행은 정상값이 4개였음

Unnamed: 0,가,나,다,라,마,바,사,아
1,1,4,,0,,2.0,2.0,
2,100,4,,0,,20.0,2.0,
4,1,2,3.0,4,5.0,1.414214,1.414214,2.44949
5,1,1,1.0,1,1.0,1.0,1.0,1.0
6,1,1,1.0,1,1.0,1.0,1.0,1.0
7,22,22,22.0,22,22.0,22.0,4.690416,22.0


### 3-3. drop_duplicates