[View in Colaboratory](https://colab.research.google.com/github/YoungestSalon/TIL/blob/master/10_Mins_to_Pandas_%EB%8D%B0%EC%9E%87%EA%B1%B8%EC%A6%88_%EB%8B%A8%EC%B2%B4%EB%B2%88%EC%97%AD_180722_%EA%B0%80%EB%93%9C%EB%8B%9D.ipynb)

# Pandas 10분 완성

*역자 주 : 원문은 [링크](https://pandas.pydata.org/pandas-docs/stable/10min.html)를 참조하세요.*

이 소개서는 주로 신규 사용자를 대상으로 한 판다스에 대한 간략한 소개입니다. 더 복잡한 방법은 [Cookbook](https://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook) 에서 볼 수 있습니다.


일반적으로 다음과 같이 불러옵니다.

In [0]:
import pandas as pd

In [0]:
import numpy as np

In [0]:
import matplotlib.pyplot as plt

## Object Creation (객체 생성)

[데이터 구조 소개 섹션](https://pandas.pydata.org/pandas-docs/stable/dsintro.html#dsintro)을 참조하세요.

pandas는 값을 가지고 있는 리스트를 통해 [시리즈](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html#pandas.Series)를 만들고, 정수로 만들어진 인덱스를 기본값으로 불러올 것입니다.

In [0]:
s = pd.Series([1,3,5,np.nan,6,8])

In [5]:
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

datetime 인덱스와 레이블이 있는 열을 가지고 있는 NumPy 배열을 전달하여 데이터프레임을 만듭니다.

In [0]:
dates = pd.date_range('20130101', periods=6)

In [7]:
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [0]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

In [9]:
df

Unnamed: 0,A,B,C,D
2013-01-01,-3.059903,-0.749902,0.884566,-1.598847
2013-01-02,1.693356,0.465537,-1.061198,1.472685
2013-01-03,-0.13856,-0.106861,1.919986,-0.299081
2013-01-04,0.492017,0.443992,1.233379,1.030488
2013-01-05,0.461682,0.507397,-0.095607,-0.170903
2013-01-06,1.092195,0.105868,-1.812553,0.557987


시리즈와 같은 것으로 변환될 수 있는 객체들의 dict로 구성된 데이터프레임을 만듭니다.

In [0]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo' })

In [11]:
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


데이터프레임 결과물의 열은 다양한 데이터 타입(dtypes)으로 구성됩니다.

In [12]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

IPython을 이용하고 계시다면, (공용 속성을 포함한) 열 이름에 대한 Tap 자동완성 기능이 자동으로 활성화됩니다. <br>
다음은 완성될 속성에 대한 부분집합(subset)입니다. 

*역자 주 : 하기 코드의 경우, IPython이 아닌 환경(Google Colaboratory, Jupyter 등)에서는 사용이 불가능한 코드인 점에 주의하세요.*

In [0]:
# df2.<TAB>

*역자 주 : IPython에서 실행하면 다음과 같은 결과값이 나옵니다.*

```
df2.A                  df2.bool
df2.abs                df2.boxplot
df2.add                df2.C
df2.add_prefix         df2.clip
df2.add_suffix         df2.clip_lower
df2.align              df2.clip_upper
df2.all                df2.columns
df2.any                df2.combine
df2.append             df2.combine_first
df2.apply              df2.compound
df2.applymap           df2.consolidate
df2.D
```

보시다시피, A, B, C 그리고 D 열이 Tab 자동완성 기능으로 실행됩니다. 물론 E도 있습니다. 나머지 속성들은 간결하게 잘라버렸습니다. 

## Viewing Data(데이터 확인하기)

[Basic Section](https://pandas.pydata.org/pandas-docs/stable/basics.html#basics)을 참조하세요.

데이터프레임의 가장 윗 줄과 마지막 줄을 확인하고 싶을 때에 사용하는 방법은 다음과 같습니다. <br>

*역자 주 <br>
괄호()안에는 숫자가 들어갈 수도 있고 안 들어갈 수도 있습니다. <br>
숫자가 들어간다면, 윗/마지막 줄의 특정 줄을 불러올 수 있습니다. <br>
숫자가 들어가지 않다면, 기본값인 5로 처리됩니다.*

*예시 <br>
df.tail(3) - 끝에서 마지막 3줄을 불러옴 <br>
df.tail() - 끝에서 마지막 5줄 불러옴*

In [14]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,-3.059903,-0.749902,0.884566,-1.598847
2013-01-02,1.693356,0.465537,-1.061198,1.472685
2013-01-03,-0.13856,-0.106861,1.919986,-0.299081
2013-01-04,0.492017,0.443992,1.233379,1.030488
2013-01-05,0.461682,0.507397,-0.095607,-0.170903


In [15]:
df.tail(3)

Unnamed: 0,A,B,C,D
2013-01-04,0.492017,0.443992,1.233379,1.030488
2013-01-05,0.461682,0.507397,-0.095607,-0.170903
2013-01-06,1.092195,0.105868,-1.812553,0.557987


인덱스(Index), 열(Column) 그리고 NumPy 데이터에 대한 세부 정보를 봅니다.

In [16]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [17]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [18]:
df.values

array([[-3.05990333, -0.74990248,  0.88456628, -1.59884747],
       [ 1.69335583,  0.46553668, -1.06119833,  1.47268506],
       [-0.13855952, -0.10686097,  1.91998553, -0.29908073],
       [ 0.49201661,  0.44399221,  1.23337908,  1.03048804],
       [ 0.46168153,  0.50739715, -0.09560691, -0.17090314],
       [ 1.09219466,  0.10586784, -1.81255287,  0.55798677]])

[describe()](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html#pandas.DataFrame.describe)는 데이터의 대략적인 통계적 정보 요약을 보여줍니다.

In [19]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.090131,0.111005,0.178095,0.165388
std,1.664274,0.486283,1.42971,1.100264
min,-3.059903,-0.749902,-1.812553,-1.598847
25%,0.011501,-0.053679,-0.8198,-0.267036
50%,0.476849,0.27493,0.39448,0.193542
75%,0.94215,0.460151,1.146176,0.912363
max,1.693356,0.507397,1.919986,1.472685


데이터를 전치합니다.

In [20]:
df.T

Unnamed: 0,2013-01-01 00:00:00,2013-01-02 00:00:00,2013-01-03 00:00:00,2013-01-04 00:00:00,2013-01-05 00:00:00,2013-01-06 00:00:00
A,-3.059903,1.693356,-0.13856,0.492017,0.461682,1.092195
B,-0.749902,0.465537,-0.106861,0.443992,0.507397,0.105868
C,0.884566,-1.061198,1.919986,1.233379,-0.095607,-1.812553
D,-1.598847,1.472685,-0.299081,1.030488,-0.170903,0.557987


축 별로 정렬합니다.

In [21]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,-1.598847,0.884566,-0.749902,-3.059903
2013-01-02,1.472685,-1.061198,0.465537,1.693356
2013-01-03,-0.299081,1.919986,-0.106861,-0.13856
2013-01-04,1.030488,1.233379,0.443992,0.492017
2013-01-05,-0.170903,-0.095607,0.507397,0.461682
2013-01-06,0.557987,-1.812553,0.105868,1.092195


값 별로 정렬합니다.

In [22]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2013-01-01,-3.059903,-0.749902,0.884566,-1.598847
2013-01-03,-0.13856,-0.106861,1.919986,-0.299081
2013-01-06,1.092195,0.105868,-1.812553,0.557987
2013-01-04,0.492017,0.443992,1.233379,1.030488
2013-01-02,1.693356,0.465537,-1.061198,1.472685
2013-01-05,0.461682,0.507397,-0.095607,-0.170903


## Selection (선택)

주석(Note) : 선택과 설정을 위한 Python / Numpy의 표준화된 표현들이 직관적이며, 코드 작성을 위한 양방향 작업에 유용하지만 우리는 Pandas에 최적화된 데이터 접근 방법인 .at, .iat, .loc 및 .iloc 을 추천합니다. 

[데이터 인덱싱 및 선택](https://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing) 문서와 [다중 인덱싱 / 심화 인덱싱](https://pandas.pydata.org/pandas-docs/stable/advanced.html#advanced) 문서를 참조하세요.

### Getting (데이터 얻기)

df.A 와 동일한 Series를 생성하는 단일 열을 선택합니다.

In [23]:
df['A']

2013-01-01   -3.059903
2013-01-02    1.693356
2013-01-03   -0.138560
2013-01-04    0.492017
2013-01-05    0.461682
2013-01-06    1.092195
Freq: D, Name: A, dtype: float64

행을 분할하는 []를 통해 선택합니다.

In [24]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-3.059903,-0.749902,0.884566,-1.598847
2013-01-02,1.693356,0.465537,-1.061198,1.472685
2013-01-03,-0.13856,-0.106861,1.919986,-0.299081


In [25]:
df['20130102':'20130104']

Unnamed: 0,A,B,C,D
2013-01-02,1.693356,0.465537,-1.061198,1.472685
2013-01-03,-0.13856,-0.106861,1.919986,-0.299081
2013-01-04,0.492017,0.443992,1.233379,1.030488


### Selection by Label (Label 을 통한 선택)

[Label을 통한 선택](https://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-label)에서 더 많은 내용을 확인하세요.

라벨을 사용하여 횡단면을 얻습니다.

In [26]:
df.loc[dates[0]]

A   -3.059903
B   -0.749902
C    0.884566
D   -1.598847
Name: 2013-01-01 00:00:00, dtype: float64

라벨을 사용하여 여러 축(의 데이터)을 얻습니다.

In [27]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,-3.059903,-0.749902
2013-01-02,1.693356,0.465537
2013-01-03,-0.13856,-0.106861
2013-01-04,0.492017,0.443992
2013-01-05,0.461682,0.507397
2013-01-06,1.092195,0.105868


양쪽 종단점을 포함한 라벨 슬라이싱을 봅니다.

In [28]:
df.loc['20130102':'20130104', ['A','B']]

Unnamed: 0,A,B
2013-01-02,1.693356,0.465537
2013-01-03,-0.13856,-0.106861
2013-01-04,0.492017,0.443992


반환되는 객체의 크기를 줄입니다.

In [29]:
df.loc['20130102',['A','B']]

A    1.693356
B    0.465537
Name: 2013-01-02 00:00:00, dtype: float64

스칼라 값을 얻습니다.

In [30]:
df.loc[dates[0],'A']

-3.059903330827347

스칼라 값을 더 빠르게 구하는 방법입니다. (앞선 메소드와 동일합니다.)

In [31]:
df.at[dates[0],'A']

-3.059903330827347

### Selection by Position (위치로 선택하기)

자세한 내용은 [위치로 선택하기](https://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-integer)를 참고해주세요.

넘겨받은 정수의 위치를 기준으로 선택합니다.

In [32]:
df.iloc[3]

A    0.492017
B    0.443992
C    1.233379
D    1.030488
Name: 2013-01-04 00:00:00, dtype: float64

정수(로 표기된) 슬라이스들을 통해, numpy/python과 유사하게 작동합니다.

In [33]:
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2013-01-04,0.492017,0.443992
2013-01-05,0.461682,0.507397


정수(로 표기된) 위치값의 리스트들을 통해, numpy/python의 스타일과 유사해집니다.

In [34]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,1.693356,-1.061198
2013-01-03,-0.13856,1.919986
2013-01-05,0.461682,-0.095607


명시적으로 행을 나누고자 하는 경우입니다.

In [35]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,1.693356,0.465537,-1.061198,1.472685
2013-01-03,-0.13856,-0.106861,1.919986,-0.299081


명시적으로 열을 나누고자 하는 경우입니다.

In [36]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2013-01-01,-0.749902,0.884566
2013-01-02,0.465537,-1.061198
2013-01-03,-0.106861,1.919986
2013-01-04,0.443992,1.233379
2013-01-05,0.507397,-0.095607
2013-01-06,0.105868,-1.812553


명시적으로 (특정한) 값을 얻고자 하는 경우입니다.

In [37]:
df.iloc[1,1]

0.46553668319894514

스칼라 값을 빠르게 얻는 방법입니다. (위의 방식과 동일합니다.)

In [38]:
df.iat[1,1]

0.46553668319894514

### Boolean Indexing

데이터를 선택하기 위해 단일 열의 값을 사용합니다.

In [39]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-02,1.693356,0.465537,-1.061198,1.472685
2013-01-04,0.492017,0.443992,1.233379,1.030488
2013-01-05,0.461682,0.507397,-0.095607,-0.170903
2013-01-06,1.092195,0.105868,-1.812553,0.557987


Boolean 조건을 충족하는 데이터프레임에서 값을 선택합니다.

In [40]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,,,0.884566,
2013-01-02,1.693356,0.465537,,1.472685
2013-01-03,,,1.919986,
2013-01-04,0.492017,0.443992,1.233379,1.030488
2013-01-05,0.461682,0.507397,,
2013-01-06,1.092195,0.105868,,0.557987


필터링을 위한 메소드 [isin()](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.isin.html#pandas.Series.isin)을 사용합니다.

In [0]:
df2 = df.copy()

In [0]:
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']

In [43]:
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,-3.059903,-0.749902,0.884566,-1.598847,one
2013-01-02,1.693356,0.465537,-1.061198,1.472685,one
2013-01-03,-0.13856,-0.106861,1.919986,-0.299081,two
2013-01-04,0.492017,0.443992,1.233379,1.030488,three
2013-01-05,0.461682,0.507397,-0.095607,-0.170903,four
2013-01-06,1.092195,0.105868,-1.812553,0.557987,three


In [44]:
df2[df2['E'].isin(['two','four'])]

Unnamed: 0,A,B,C,D,E
2013-01-03,-0.13856,-0.106861,1.919986,-0.299081,two
2013-01-05,0.461682,0.507397,-0.095607,-0.170903,four


### Setting (설정)

인덱스에 의해 (생성된) 데이터가 새로운 열에서 자동으로 정렬되도록 설정합니다.

In [0]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))

In [46]:
s1

2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

In [0]:
df['F'] = s1

라벨에 의해 값을 설정합니다.

In [0]:
df.at[dates[0],'A'] = 0

위치에 의해 값을 설정합니다.

In [0]:
df.iat[0,1] = 0

NumPy 배열을 사용한 할당에 의해 값을 설정합니다.

In [0]:
df.loc[:,'D'] = np.array([5] * len(df))

위 설정대로 작동한 결과입니다.

In [52]:
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,0.884566,5,
2013-01-02,1.693356,0.465537,-1.061198,5,1.0
2013-01-03,-0.13856,-0.106861,1.919986,5,2.0
2013-01-04,0.492017,0.443992,1.233379,5,3.0
2013-01-05,0.461682,0.507397,-0.095607,5,4.0
2013-01-06,1.092195,0.105868,-1.812553,5,5.0


상기의 설정을 적용한 연산입니다.

In [0]:
df2 = df.copy()

In [0]:
df2[df2 > 0] = -df2

In [55]:
df2

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-0.884566,-5,
2013-01-02,-1.693356,-0.465537,-1.061198,-5,-1.0
2013-01-03,-0.13856,-0.106861,-1.919986,-5,-2.0
2013-01-04,-0.492017,-0.443992,-1.233379,-5,-3.0
2013-01-05,-0.461682,-0.507397,-0.095607,-5,-4.0
2013-01-06,-1.092195,-0.105868,-1.812553,-5,-5.0


## Missing Data (결측치)

pandas는 결측치를 표현하기 위해 주로 np.nan 값을 사용합니다. 이 방법은 기본 설정값이지만 계산에는 포함되지 않습니다. <br>
[Missing Data section](https://pandas.pydata.org/pandas-docs/stable/missing_data.html#missing-data)를 참조하세요.

Reindexing으로 지정된 축 상의 인덱스를 변경/추가/삭제할 수 있습니다. Reindexing은 데이터의 복사본을 반환합니다.

In [0]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])

In [0]:
df1.loc[dates[0]:dates[1],'E'] = 1

In [58]:
df1

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,0.884566,5,,1.0
2013-01-02,1.693356,0.465537,-1.061198,5,1.0,1.0
2013-01-03,-0.13856,-0.106861,1.919986,5,2.0,
2013-01-04,0.492017,0.443992,1.233379,5,3.0,


결측치를 가지고 있는 행들을 지웁니다.

In [59]:
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,F,E
2013-01-02,1.693356,0.465537,-1.061198,5,1.0,1.0


결측치를 채워 넣습니다.

In [60]:
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,0.884566,5,5.0,1.0
2013-01-02,1.693356,0.465537,-1.061198,5,1.0,1.0
2013-01-03,-0.13856,-0.106861,1.919986,5,2.0,5.0
2013-01-04,0.492017,0.443992,1.233379,5,3.0,5.0


nan인 값에 Boolean(을 통한) 표식을 얻습니다.

*역자 주 : 데이터프레임의 모든 값이 Boolean 형태로 표시되도록 하며, nan인 값에만 True가 표시되게 하는 함수입니다.*

In [61]:
pd.isna(df1)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,False,False,False,False,True,False
2013-01-02,False,False,False,False,False,False
2013-01-03,False,False,False,False,False,True
2013-01-04,False,False,False,False,False,True


## Operation (연산)

[바이너리 연산의 기본 섹션](https://pandas.pydata.org/pandas-docs/stable/basics.html#basics-binop)을 참조하세요.

### Stats (통계)

일반적으로 결측치를 제외한 후 연산됩니다.

서술적인 통계를 수행합니다.

In [0]:
df.mean()

A   -0.467911
B   -0.244368
C   -0.439973
D    5.000000
F    3.000000
dtype: float64

다른 축에서 동일한 연산을 수행합니다.

In [0]:
df.mean(1)

2013-01-01    0.771020
2013-01-02    1.010654
2013-01-03    1.346247
2013-01-04    1.385675
2013-01-05    1.690268
2013-01-06    1.567638
Freq: D, dtype: float64

정렬이 필요하며, 차원이 다른 객체로 연산해보겠습니다. 또한, pandas는 지정된 차원을 따라 자동으로 브로드 캐스팅됩니다.

*역자 주 : broadcast란 numpy에서 유래한 용어로, n차원이나 스칼라 값으로 연산을 수행할 때 도출되는 결과의 규칙을 설명하는 것을 의미합니다.*

In [0]:
s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)

In [0]:
s

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

In [0]:
df.sub(s, axis='index')

Unnamed: 0,A,B,C,D,F
2013-01-01,,,,,
2013-01-02,,,,,
2013-01-03,-2.938743,-0.388433,0.058411,4.0,1.0
2013-01-04,-4.394674,-2.83729,-2.839663,2.0,0.0
2013-01-05,-4.672071,-5.420072,-5.456519,0.0,-1.0
2013-01-06,,,,,


### Apply (적용)

데이터에 함수를 적용합니다.

In [0]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-1.915918,5,
2013-01-02,0.73914,-0.53603,-3.065756,10,1.0
2013-01-03,-1.199603,0.075536,-2.007344,15,3.0
2013-01-04,-2.594277,0.238247,-1.847008,20,6.0
2013-01-05,-2.266348,-0.181825,-2.303526,25,10.0
2013-01-06,-2.807464,-1.466208,-2.639837,30,15.0


In [0]:
df.apply(lambda x: x.max() - x.min())

A    2.677882
B    1.895950
C    2.974330
D    0.000000
F    4.000000
dtype: float64

### Histogramming (히스토그래밍)

더 많은 내용은 [Histogramming and Discretization (히스토그래밍과 이산화)](https://pandas.pydata.org/pandas-docs/stable/basics.html#basics-discretization) 항목을 참조하세요.

In [0]:
s = pd.Series(np.random.randint(0, 7, size=10))

In [0]:
s

0    3
1    0
2    5
3    3
4    0
5    3
6    5
7    1
8    4
9    4
dtype: int32

In [0]:
s.value_counts()

3    3
5    2
4    2
0    2
1    1
dtype: int64

### String Methods (문자열 메소드)

Series는 다음의 코드와 같이 문자열 처리 메소드 모음(set)을 가지고 있습니다. <br>
이 모음은 배열의 각 요소를 쉽게 조작할 수 있도록 만들어주는 문자열의 속성에 포함되어 있습니다.

문자열의 패턴 일치 확인은 기본적으로 정규 표현식을 사용하며, 몇몇 경우에는 항상 정규 표현식을 사용함에 유의하십시오.

좀 더 자세한 내용은 [벡터화된 문자열 메소드](https://pandas.pydata.org/pandas-docs/stable/text.html#text-string-methods) 부분에서 확인할 수 있습니다.

In [0]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])

In [0]:
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

## Merge (병합)

### Concat (연결)

결합(join) / 병합(merge) 형태의 연산에 대한 인덱스, 관계 대수 기능을 위한 다양한 형태의 논리를 포함한 Series, 데이터프레임, Panel 객체를 손쉽게 결합할 수 있도록 하는 다양한 기능을 pandas 에서 제공합니다. 

[Merging](https://pandas.pydata.org/pandas-docs/stable/merging.html#merging) 부분을 참조하세요. 

[concat()](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html#pandas.concat)으로 pandas 객체를 연결합니다. 

In [0]:
df = pd.DataFrame(np.random.randn(10, 4))

In [0]:
df

Unnamed: 0,0,1,2,3
0,0.46593,-0.294568,-0.969746,-0.942637
1,-0.507939,0.20436,-0.72654,-0.603563
2,-2.484222,0.429651,1.173268,0.98249
3,0.220123,-1.76494,0.561541,0.449386
4,0.062582,-0.661916,-0.623574,-0.070363
5,1.205013,0.576428,-0.928228,1.180106
6,0.099342,0.309656,-0.016077,-0.626761
7,-0.551134,0.13799,0.618834,0.526196
8,-1.082376,-0.52104,0.063525,-0.121236
9,-0.74191,1.272558,-0.966056,0.447806


In [0]:
# break it into pieces
pieces = [df[:3], df[3:7], df[7:]]

In [0]:
pd.concat(pieces)

Unnamed: 0,0,1,2,3
0,0.46593,-0.294568,-0.969746,-0.942637
1,-0.507939,0.20436,-0.72654,-0.603563
2,-2.484222,0.429651,1.173268,0.98249
3,0.220123,-1.76494,0.561541,0.449386
4,0.062582,-0.661916,-0.623574,-0.070363
5,1.205013,0.576428,-0.928228,1.180106
6,0.099342,0.309656,-0.016077,-0.626761
7,-0.551134,0.13799,0.618834,0.526196
8,-1.082376,-0.52104,0.063525,-0.121236
9,-0.74191,1.272558,-0.966056,0.447806


### Join (결합)

SQL 방식으로 병합합니다. [데이터베이스 스타일 결합](https://pandas.pydata.org/pandas-docs/stable/merging.html#merging-join) 부분을 참고하세요.

In [0]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})

In [0]:
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

In [0]:
left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [0]:
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [0]:
pd.merge(left, right, on= 'key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


다른 예시입니다.

In [0]:
left = pd.DataFrame({'key' : ['foo', 'bar'], 'lval' : [1, 2]})

In [0]:
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})

In [0]:
left

Unnamed: 0,key,lval
0,foo,1
1,bar,2


In [0]:
right 

Unnamed: 0,key,rval
0,foo,4
1,bar,5


In [0]:
pd.merge(left, right, on= 'key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


### Append (추가)

데이터프레임에 행을 추가합니다. [Appending](https://pandas.pydata.org/pandas-docs/stable/merging.html#merging-concatenation) 부분을 참조하세요.

In [0]:
df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D'])

In [0]:
df

Unnamed: 0,A,B,C,D
0,-0.094256,0.113071,0.086663,-0.958684
1,0.51469,0.437548,1.024788,-0.443315
2,0.208814,-1.511254,1.137071,1.02661
3,-2.341156,0.964865,0.115216,-0.180246
4,0.907866,0.740259,-1.856794,-1.587884
5,0.981032,2.246777,0.005626,-0.045686
6,0.497254,-1.091214,-0.150982,-0.60178
7,-0.666543,1.901743,-0.495735,-0.343708


In [0]:
s = df.iloc[3]

In [0]:
df.append(s, ignore_index=True)

Unnamed: 0,A,B,C,D
0,-0.094256,0.113071,0.086663,-0.958684
1,0.51469,0.437548,1.024788,-0.443315
2,0.208814,-1.511254,1.137071,1.02661
3,-2.341156,0.964865,0.115216,-0.180246
4,0.907866,0.740259,-1.856794,-1.587884
5,0.981032,2.246777,0.005626,-0.045686
6,0.497254,-1.091214,-0.150982,-0.60178
7,-0.666543,1.901743,-0.495735,-0.343708
8,-2.341156,0.964865,0.115216,-0.180246


## Grouping (그룹화)

**그룹화**는 다음 단계 중 하나 이상을 포함하는 과정을 가리킵니다.

- 몇몇 기준에 따라 여러 그룹으로 데이터를 **분할(Splitting)**
- 각 그룹에 독립적으로 함수를 **적용(Applying)**
- 결과물들을 하나의 데이터 구조로  **결합(Combining)**

자세한 내용은 [그룹화](https://pandas.pydata.org/pandas-docs/stable/groupby.html#groupby) 부분을 참조하세요.

In [0]:
df = pd.DataFrame(
    {
        'A' : ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
        'C' : np.random.randn(8),
        'D' : np.random.randn(8)
    })

In [0]:
df

Unnamed: 0,A,B,C,D
0,foo,one,0.444967,-0.089107
1,bar,one,0.136576,-1.220151
2,foo,two,1.890122,0.54042
3,bar,three,-1.15798,0.858108
4,foo,two,1.4074,-1.007997
5,bar,two,-0.359187,0.762959
6,foo,one,0.220698,-0.043295
7,foo,three,-0.054296,-0.828592


(생성된 데이터프레임을) 그룹화한 후 각 그룹에 [sum()](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sum.html#pandas.DataFrame.sum) 함수를 적용합니다.

In [0]:
df.groupby('A').sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,-1.38059,0.400916
foo,3.908892,-1.428571


여러 열을 기준으로 그룹화하면 계층적 인덱스가 형성됩니다. 여기에도 sum 함수를 적용할 수 있습니다.

In [0]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.136576,-1.220151
bar,three,-1.15798,0.858108
bar,two,-0.359187,0.762959
foo,one,0.665665,-0.132401
foo,three,-0.054296,-0.828592
foo,two,3.297522,-0.467577


## Reshaping (변형)

[계층적 인덱싱](https://pandas.pydata.org/pandas-docs/stable/advanced.html#advanced-hierarchical) 및 [변형](https://pandas.pydata.org/pandas-docs/stable/reshaping.html#reshaping-stacking) 부분을 참조하세요.

### Stack (스택)

In [0]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']]))

In [0]:
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])

In [0]:
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])

In [0]:
df2  =  df[:4]

In [0]:
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.070265,0.0161
bar,two,-0.493484,0.49318
baz,one,-1.024075,-1.810936
baz,two,-0.173661,0.840513


[stack()](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.stack.html#pandas.DataFrame.stack) 메소드는 데이터프레임 열들의 계층을 "압축"합니다.

In [0]:
stacked = df2.stack()

In [0]:
stacked

first  second   
bar    one     A   -0.070265
               B    0.016100
       two     A   -0.493484
               B    0.493180
baz    one     A   -1.024075
               B   -1.810936
       two     A   -0.173661
               B    0.840513
dtype: float64

"Stack된" 데이터프레임 또는 (MultiIndex를 인덱스로 사용하는) Series인 경우, [stack()](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.stack.html#pandas.DataFrame.stack)의 역 연산은 [unstack()](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.unstack.html#pandas.DataFrame.unstack)이며, 기본적으로 **마지막 계층**을 unstack합니다.

In [0]:
stacked.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.070265,0.0161
bar,two,-0.493484,0.49318
baz,one,-1.024075,-1.810936
baz,two,-0.173661,0.840513


In [0]:
stacked.unstack(1)

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,-0.070265,-0.493484
bar,B,0.0161,0.49318
baz,A,-1.024075,-0.173661
baz,B,-1.810936,0.840513


In [0]:
stacked.unstack(0)

Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-0.070265,-1.024075
one,B,0.0161,-1.810936
two,A,-0.493484,-0.173661
two,B,0.49318,0.840513


### Pivot Tables (피벗 테이블)

[피벗 테이블](https://pandas.pydata.org/pandas-docs/stable/reshaping.html#reshaping-pivot) 부분을 참조하세요.

In [0]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                   'B' : ['A', 'B', 'C'] * 4,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D' : np.random.randn(12),
                   'E' : np.random.randn(12)})

In [0]:
df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,-0.811411,-0.466878
1,one,B,foo,-1.108299,0.394386
2,two,C,foo,1.996453,1.516456
3,three,A,bar,0.124191,0.249932
4,one,B,bar,-0.59553,-0.428961
5,one,C,bar,-2.249604,0.143596
6,two,A,foo,1.290258,0.276448
7,three,B,foo,-1.370169,-2.172469
8,one,C,foo,0.704484,-1.081937
9,one,A,bar,0.159092,0.00678


이 데이터로부터 피벗 테이블을 매우 쉽게 생성할 수 있습니다.

In [0]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,0.159092,-0.811411
one,B,-0.59553,-1.108299
one,C,-2.249604,0.704484
three,A,0.124191,
three,B,,-1.370169
three,C,-0.193894,
two,A,,1.290258
two,B,0.159515,
two,C,,1.996453


## Time Series (시계열)

pandas는 자주 일어나는 변환(예시 : 5분마다 일어나는 데이터에 대한 2차 데이터 변환) 사이에 수행하는 리샘플링 연산을 위한 간단하고, 강력하며, 효율적인 함수를 제공합니다. 이는 재무(금융) 응용에서 매우 일반적이지만 이에 국한되지 않습니다. [시계열](https://pandas.pydata.org/pandas-docs/stable/timeseries.html#timeseries) 부분을 참고하세요.

In [0]:
rng = pd.date_range('1/1/2012', periods=100, freq='S')

In [0]:
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)

In [0]:
ts.resample('5Min').sum()

2012-01-01    24066
Freq: 5T, dtype: int32

시간대를 표현합니다.

In [0]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')

In [0]:
ts = pd.Series(np.random.randn(len(rng)), rng)

In [0]:
ts

2012-03-06    0.116103
2012-03-07    1.634178
2012-03-08    0.907955
2012-03-09   -1.289089
2012-03-10    0.618807
Freq: D, dtype: float64

In [0]:
ts_utc = ts.tz_localize('UTC')

In [0]:
ts_utc

2012-03-06 00:00:00+00:00    0.116103
2012-03-07 00:00:00+00:00    1.634178
2012-03-08 00:00:00+00:00    0.907955
2012-03-09 00:00:00+00:00   -1.289089
2012-03-10 00:00:00+00:00    0.618807
Freq: D, dtype: float64

다른 시간대로 변환합니다.

In [0]:
ts_utc.tz_convert('US/Eastern')

2012-03-05 19:00:00-05:00    0.116103
2012-03-06 19:00:00-05:00    1.634178
2012-03-07 19:00:00-05:00    0.907955
2012-03-08 19:00:00-05:00   -1.289089
2012-03-09 19:00:00-05:00    0.618807
Freq: D, dtype: float64

시간 표현 ↔ 기간 표현으로 변환합니다.

In [0]:
rng = pd.date_range('1/1/2012', periods=5, freq='M')

In [0]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)

In [0]:
ts

2012-01-31   -0.181686
2012-02-29   -0.004559
2012-03-31   -1.414444
2012-04-30   -1.355264
2012-05-31    0.987271
Freq: M, dtype: float64

In [0]:
ps = ts.to_period()

In [0]:
ps

2012-01   -0.181686
2012-02   -0.004559
2012-03   -1.414444
2012-04   -1.355264
2012-05    0.987271
Freq: M, dtype: float64

In [0]:
ps.to_timestamp()

2012-01-01   -0.181686
2012-02-01   -0.004559
2012-03-01   -1.414444
2012-04-01   -1.355264
2012-05-01    0.987271
Freq: MS, dtype: float64

기간 - 시간 변환은 편리한 산술 기능들을 사용할 수 있도록 만들어줍니다. 다음 예제에서, 우리는 11월에 끝나는 연말 결산의 분기별 빈도를 분기말 익월의 월말일 오전 9시로 변환합니다.

In [0]:
prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV')

In [0]:
ts = pd.Series(np.random.randn(len(prng)), prng)

In [0]:
ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9

In [0]:
ts.head()

1990-03-01 09:00    1.122972
1990-06-01 09:00   -2.001189
1990-09-01 09:00   -0.112309
1990-12-01 09:00    0.971896
1991-03-01 09:00    0.236775
Freq: H, dtype: float64

## Categoricals (범주화)

pandas는 데이터프레임 내에 범주형 데이터를 포함할 수 있습니다. [범주형 소개](https://pandas.pydata.org/pandas-docs/stable/categorical.html#categorical) 와 [API 문서](https://pandas.pydata.org/pandas-docs/stable/api.html#api-categorical) 부분을 참조하세요.

In [0]:
df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})

가공하지 않은 성적을 범주형 데이터로 변환합니다.

In [0]:
df["grade"] = df["raw_grade"].astype("category")

In [0]:
df["grade"]

0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): [a, b, e]

범주에 더 의미 있는 이름을 붙여주세요. (Series.cat.categories로 할당하는 것이 적합합니다!)

In [0]:
df["grade"].cat.categories = ["very good", "good", "very bad"]

범주의 순서를 바꾸고 동시에 누락된 범주를 추가합니다. (Series.cat에 속하는 메소드는 기본적으로 새로운 Series를 반환합니다.)

In [0]:
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])

In [0]:
df["grade"]

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): [very bad, bad, medium, good, very good]

정렬은 사전 순서가 아닌, 해당 범주에서 지정된 순서대로 배열합니다.

*역자 주 : 131번에서 very bad, bad, medium, good, very good 의 순서로 기재되어 있기 때문에 정렬 결과도 해당 순서대로 배열됩니다.*

In [0]:
df.sort_values(by="grade")

Unnamed: 0,id,raw_grade,grade
5,6,e,very bad
1,2,b,good
2,3,b,good
0,1,a,very good
3,4,a,very good
4,5,a,very good


범주의 열을 기준으로 그룹화하면 빈 범주도 표시됩니다.

In [0]:
df.groupby("grade").size()

grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

## Plotting

[Plotting](https://pandas.pydata.org/pandas-docs/stable/visualization.html#visualization) 부분을 참조하세요.

In [0]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))

In [0]:
ts = ts.cumsum()

In [0]:
ts.plot()

<matplotlib.axes._subplots.AxesSubplot at 0x9546710>

데이터프레임에서 [plot()](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.html#pandas.DataFrame.plot) 메소드는 라벨이 존재하는 모든 열을 그릴 때 편리합니다.

In [0]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
                  columns=['A', 'B', 'C', 'D'])  

In [0]:
df = df.cumsum()

In [0]:
plt.figure(); df.plot(); plt.legend(loc='best')

<matplotlib.legend.Legend at 0x9bc8c50>

## Getting Data In/Out (데이터 입/출력)

### CSV

[csv 파일에 씁니다.](https://pandas.pydata.org/pandas-docs/stable/io.html#io-store-in-csv)

In [0]:
df.to_csv('foo.csv')

[csv 파일을 읽습니다.](https://pandas.pydata.org/pandas-docs/stable/io.html#io-read-csv-table)

In [0]:
pd.read_csv('foo.csv')

Unnamed: 0.1,Unnamed: 0,A,B,C,D
0,2000-01-01,-0.673818,-2.229466,-2.318174,1.257831
1,2000-01-02,-0.420270,-3.602629,-3.444045,1.086148
2,2000-01-03,-1.666716,-4.354933,-3.709838,0.918151
3,2000-01-04,-0.692385,-4.941321,-3.084321,0.569502
4,2000-01-05,0.045749,-3.964906,-3.570405,1.026525
5,2000-01-06,0.959110,-3.478274,-3.029088,-0.649877
6,2000-01-07,1.276407,-5.012207,-3.696240,-1.232399
7,2000-01-08,-0.060906,-6.565836,-3.154668,-1.388649
8,2000-01-09,0.211959,-5.531839,-2.368236,-0.813646
9,2000-01-10,-0.234651,-4.916613,-2.735872,-1.682131


### HDF5

[HDFStores](https://pandas.pydata.org/pandas-docs/stable/io.html#io-hdf5)에 읽고 씁니다.

HDF5 Store에 씁니다.

In [0]:
df.to_hdf('foo.h5','df')

HDF5 Store에서 읽어옵니다.

In [0]:
pd.read_hdf('foo.h5','df')

Unnamed: 0,A,B,C,D
2000-01-01,-0.673818,-2.229466,-2.318174,1.257831
2000-01-02,-0.420270,-3.602629,-3.444045,1.086148
2000-01-03,-1.666716,-4.354933,-3.709838,0.918151
2000-01-04,-0.692385,-4.941321,-3.084321,0.569502
2000-01-05,0.045749,-3.964906,-3.570405,1.026525
2000-01-06,0.959110,-3.478274,-3.029088,-0.649877
2000-01-07,1.276407,-5.012207,-3.696240,-1.232399
2000-01-08,-0.060906,-6.565836,-3.154668,-1.388649
2000-01-09,0.211959,-5.531839,-2.368236,-0.813646
2000-01-10,-0.234651,-4.916613,-2.735872,-1.682131


### Excel
[MS Excel](https://pandas.pydata.org/pandas-docs/stable/io.html#io-excel)에 읽고 씁니다. 

엑셀 파일에 씁니다. 


In [0]:
df.to_excel('foo.xlsx', sheet_name='Sheet1')

엑셀 파일을 읽어옵니다.

In [0]:
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

Unnamed: 0,A,B,C,D
2000-01-01,-0.673818,-2.229466,-2.318174,1.257831
2000-01-02,-0.420270,-3.602629,-3.444045,1.086148
2000-01-03,-1.666716,-4.354933,-3.709838,0.918151
2000-01-04,-0.692385,-4.941321,-3.084321,0.569502
2000-01-05,0.045749,-3.964906,-3.570405,1.026525
2000-01-06,0.959110,-3.478274,-3.029088,-0.649877
2000-01-07,1.276407,-5.012207,-3.696240,-1.232399
2000-01-08,-0.060906,-6.565836,-3.154668,-1.388649
2000-01-09,0.211959,-5.531839,-2.368236,-0.813646
2000-01-10,-0.234651,-4.916613,-2.735872,-1.682131


## Gotchas (들켰지!)

연산을 수행하기 위해 시도하면 다음과 같은 예외 상황을 볼 수도 있습니다.

In [0]:
if pd.Series([False, True, False]):
    print("I was true")

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

설명과 무엇을 해야하는지에 대해서는 [비교](https://pandas.pydata.org/pandas-docs/stable/basics.html#basics-compare) 부분을 참조하세요.

[Gotchas](https://pandas.pydata.org/pandas-docs/stable/gotchas.html#gotchas) 부분도 참조하세요.