# Pandas CheatSheet
* 안 쓰면 자주 잊어버리는, pandas에서의 주요 Dataframe 조작 방법들을 정리한다.

**[1. Dataframe 생성](#1.-Dataframe-생성)**
 * [1-1. Dictionary에서 Dataframe 생성](#1-1.-Dictionary에서-Dataframe-생성)
 * [1-2. Column만 존재하는 빈 Dataframe을 만들고, 내용 채워 넣기](#1-2.-Column만-존재하는-빈-Dataframe을-만들고,-내용-채워-넣기)
 
**[2. Indexing, 값 변경 & 추가]()**
  * [2-1. loc]()
  * [2-2. iloc]()
  * [2-3. at]()
  * [2-4. iat]()
  * [2-5. map, apply]()
  * [2-6. reset_index]()
  * [2-7. 값 변경 예시모음]()
  * [2-8. 값 추가 예시모음]()

**[3. 값 삭제]()**
  * [3-1. drop]()
  * [3-2. Na 대응]()
  * [3-3. drop_duplicates]()

**[4. query]()**

**[5. 값 정렬]()**

**[6. dataframe 병합]()**

**[7. dataframe join]()**

**[8. dataframe 구조 변경]()**
  * [7-1. melt]()
  * [7-2. pivot]()
  
**[9. dataframe 정보 및 요약]()**
  * [9-1. value_counts]()
  * [9-2. columns]()
  * [9-3. 집계함수]()

**[10. groupby]()**

**[11. 파일 다루기]()**
  * [11-1. 불러오기]()
  * [11-1. 내보내기]()

In [1]:
import pandas as pd

## 1. Dataframe 생성

### 1-1. Dictionary에서 Dataframe 생성

In [2]:
data = {'col_1': [3, 2, 1, 0], 'col_2': ['a', 'b', 'c', 'd']}
pd.DataFrame.from_dict(data)
# key가 컬럼, value로 들어간 리스트가 컬럼의 row 하나하나가 된다.

Unnamed: 0,col_1,col_2
0,3,a
1,2,b
2,1,c
3,0,d


### 1-2. Column만 존재하는 빈 Dataframe을 만들고, 내용 채워 넣기

In [3]:
df = pd.DataFrame(columns=['A','B','BB','C','D'])
# 컬럼들이 될 리스트를 columns parameter에 argument로 넘김
df

Unnamed: 0,A,B,BB,C,D


In [4]:
df['A'] = [1,3,1]
df

Unnamed: 0,A,B,BB,C,D
0,1,,,,
1,3,,,,
2,1,,,,


In [5]:
df['B'] = [4,4,6]
df

Unnamed: 0,A,B,BB,C,D
0,1,4,,,
1,3,4,,,
2,1,6,,,


In [6]:
# 컬럼 값 조건을 걸고 값을 변경
df.loc[((df['A'] == 1) & (df['B'] == 4)), 'C'] = 444
df

Unnamed: 0,A,B,BB,C,D
0,1,4,,444.0,
1,3,4,,,
2,1,6,,,


In [7]:
# 컬럼 값 조건을 걸고 값을 변경 2
df.loc[(df['B'] == 4), 'C'] = 0
df

Unnamed: 0,A,B,BB,C,D
0,1,4,,0.0,
1,3,4,,0.0,
2,1,6,,,


In [8]:
sample_list = [1,2,3,4,5]
# 해당 데이터프레임 가장 아래에 리스트를 row로 넣음
df.loc[len(df)] = sample_list
df

Unnamed: 0,A,B,BB,C,D
0,1,4,,0.0,
1,3,4,,0.0,
2,1,6,,,
3,1,2,3.0,4.0,5.0


## 2. Indexing, 값 변경 & 추가

### 2-1. loc

In [9]:
# loc의 첫 번째 인자는 '행 라벨' 이다.
# 그래서 0을 넣으면, index가 0인 행을 series로 반환하고 있다.
print(type(df.loc[0]))
df.loc[0]

<class 'pandas.core.series.Series'>


A       1
B       4
BB    NaN
C       0
D     NaN
Name: 0, dtype: object

In [10]:
# 두 번째 인자는 컬럼명이다.
print(type(df.loc[0, 'A']))
df.loc[0, 'A']

<class 'numpy.int64'>


1

In [11]:
# 이런 식으로 접근하면, 다중 컬럼과 행을 데이터프레임으로 가져올 수 있다.
print(type(df.loc[df.index[0:3], ['A','B']]))
df.loc[[0,1,2,3], ['A','B']]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,A,B
0,1,4
1,3,4
2,1,6
3,1,2


In [12]:
# df.index로도 접근 가능
df.loc[df.index[0:3], ['A','B']]

Unnamed: 0,A,B
0,1,4
1,3,4
2,1,6


In [13]:
# row에 값 조건을 걸 수도 있다.
df.loc[df['B'] == 4]

Unnamed: 0,A,B,BB,C,D
0,1,4,,0,
1,3,4,,0,


In [14]:
# 컬럼 이름에도 조건을 걸 수 있다. 아래의 경우, 컬럼 이름에 B를 포함하는 컬럼만 가져옴.
df.loc[df['B'] == 4, df.columns.str.contains('B')]

Unnamed: 0,B,BB
0,4,
1,4,


In [15]:
# 행 조건 자리에 :를 넣으면, 행에 대해서는 전체를 다 가져오라는 뜻이다.
df.loc[:,df.columns.str.contains('B')]

Unnamed: 0,B,BB
0,4,
1,4,
2,6,
3,2,3.0


In [16]:
# 컬럼에 조건을 거는 경우를 하나하나 단계별로 보자.
print(df.columns)
print(df.columns.str)
print(df.columns.str.contains('B')) # boolean indexing이 가능한 형태가 된다.
print(type(df.columns.str.contains('B'))) # 결과물은 false와 true가 들어간 ndarray
print(df.columns.str.startswith('A')) # 이렇게 하면 A로 시작하는 컬럼을 가져올 수 있음
# 결론은, 다른 외부 함수를 사용해서 어쩄든 boolean 타입 값이 담긴 리스트를 만들면, loc에 넣어서 boolean indexing이 가능하다는 것.

Index(['A', 'B', 'BB', 'C', 'D'], dtype='object')
<pandas.core.strings.StringMethods object at 0x000002B0FBC80640>
[False  True  True False False]
<class 'numpy.ndarray'>
[ True False False False False]


In [17]:
# loc으로도 기존에 없던 새 컬럼을 추가할 수 있음
df.loc[:,'new'] = 3
df

Unnamed: 0,A,B,BB,C,D,new
0,1,4,,0.0,,3
1,3,4,,0.0,,3
2,1,6,,,,3
3,1,2,3.0,4.0,5.0,3


In [18]:
# dataframe에 행을 추가함. index가 늘어난다.
df.loc[4] = [1] * len(df.columns)
df.loc[99] = [1] * len(df.columns)
df.loc['cool'] = ['so'] * len(df.columns)

In [19]:
df

Unnamed: 0,A,B,BB,C,D,new
0,1,4,,0,,3
1,3,4,,0,,3
2,1,6,,,,3
3,1,2,3,4,5,3
4,1,1,1,1,1,1
99,1,1,1,1,1,1
cool,so,so,so,so,so,so


* **iloc**

In [20]:
df.iloc[0:2,0:4]
# 기본적 동작은 loc과 동일하나, 받는 인자가 라벨이 아니고 '위치'다.

Unnamed: 0,A,B,BB,C
0,1,4,,0
1,3,4,,0


In [21]:
df.iloc[4:7,0:4]
# 위치를 받기 때문에, index는 99여도 5번째 줄로 인식됨

Unnamed: 0,A,B,BB,C
4,1,1,1,1
99,1,1,1,1
cool,so,so,so,so


In [22]:
df.iloc[7] = [2] * len(df.columns)
# IndexError: iloc cannot enlarge its target object
# 위치를 인자로 받기 때문에, 새로운 컬럼, 행을 만든다거나 하는 행위는 불가능하다.

IndexError: iloc cannot enlarge its target object

* **at**

In [24]:
df.at[1,'A']
# 한 번에 1개의 스칼라값에만 접근 가능
# 여러 개의 값에 접근하려고 범위를 지정하면, 에러를 출력한다.
# 단일 값에 접근하는 목적이라면 loc보다 훨씬 빠름

3

In [25]:
df.at[1,'A'] = 100
df
# 값을 딱 하나만 바꾸고 싶다! 라고 하면 at을 활용해보자.

Unnamed: 0,A,B,BB,C,D,new
0,1,4,,0,,3
1,100,4,,0,,3
2,1,6,,,,3
3,1,2,3,4,5,3
4,1,1,1,1,1,1
99,1,1,1,1,1,1
cool,so,so,so,so,so,so


In [26]:
df.at[99, 'new']
# 그 이외에는 label base인 것이 loc과 똑같음

1

* **iat**

In [27]:
df.iat[4,2]
# iloc의 스칼라 버전.
# 이외의 동작은 at과 같다.

1

In [28]:
df.iat[df.index.get_loc('cool'),df.columns.get_loc('new')]
# get_loc을 쓰면, 해당 인덱스와 컬럼의 위치를 반환받을 수 있음.
# 그럼 인덱스와 컬럼의 이름으로도 iat, iloc을 이용 가능

'so'

**map함수**
 - map함수는 DataFrame 타입이 아니라, 반드시 Series 타입에서만 사용해야 한다.
 - Series를 한마디로 정의하면 딱 이거다.
     - 값(value) + 인덱스(index) = 시리즈 클래스(Series)
 - Series는 NumPy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다. 하지만 데이터 자체는 그냥 값(value)의 1차원 배열이다.
 - map함수는 Series의 이러한 값 하나하나에 접근하면서 해당 함수를 수행한다.

In [29]:
# sqrt 함수를 map 함수로 적용해 보자.
import math as m

In [34]:
df.dtypes
df['B'] = pd.to_datetime(df['B'])

A      object
B      object
BB     object
C      object
D      object
new    object
dtype: object

In [35]:
# http://www.leejungmin.org/post/2018/04/21/pandas_apply_and_map/
df["map_b"] = df["B"].map(lambda x : m.sqrt(x))
df

TypeError: must be real number, not str

**apply 함수**
- 커스텀 함수를 사용하기 위해 DataFrame에서 복수 개의 컬럼이 필요하다면, apply 함수를 사용해야 한다.

In [189]:
# 두 컬럼의 제곱근의 값을 각각 곱하는 함수
def sqrt_multi(x,y):
    return m.sqrt(x) * m.sqrt(y)

In [190]:
df.loc[:,'new'] = df.apply(lambda x : sqrt_multi(x['A'], x['B']), axis=1) # axis 1이면 각 행 값을 끌어옴
df

TypeError: must be real number, not str

In [None]:
df["apply_bb_d"] = df.apply(lambda x : sqrt_multi(x['BB'], x['B']), axis=1) # axis 1이면 각 행 값을 끌어옴
df

## 2. Indexing, 값 변경
 - loc
 - iloc
 - at
 - iat
 - https://stackoverflow.com/questions/28757389/pandas-loc-vs-iloc-vs-at-vs-iat