[View in Colaboratory](https://colab.research.google.com/github/YoungestSalon/TIL/blob/master/10_Mins_to_Pandas_%EA%B0%9C%EC%9D%B8_%EB%B2%88%EC%97%AD_v0.9.ipynb)

# 10 Minutes to Pandas 번역

(원본 : https://pandas.pydata.org/pandas-docs/stable/10min.html)

(역자 주 : 약간의 의역이 있으며, 존댓말과 반말을 오락가락하는 점 양해 부탁 드립니다.)


이것은 Pandas에 관한 간략한 소개로, 주로 신규 사용자를 대상으로 합니다. 더 복잡한 사용법은 Cookbook에서 보실 수 있습니다.

일반적으로, 우리는 (Pandas를) 다음과 같은 방법으로 불러옵니다.

In [0]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

##객체 생성 

[데이터 구조 소개 섹션](https://pandas.pydata.org/pandas-docs/stable/dsintro.html#dsintro)을 참조하십시오.

값의 목록을 전달하여 Pandas가 기본 정수 인덱스를 생성하도록 함으로써 Series를 만들기


In [5]:
s = pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

일자 인덱스와 레이블 된 열이 있는 Numpy(넘파이) 배열을 전달하여 DataFrame 만들기

In [3]:
dates = pd.date_range('20130101', periods = 6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [4]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.844384,0.201616,1.778816,0.244655
2013-01-02,-2.209277,0.828335,-0.936778,0.178987
2013-01-03,-1.337833,1.801974,-1.367746,-0.839407
2013-01-04,-0.548509,-1.458021,0.929009,0.040272
2013-01-05,-0.193988,0.391281,0.561286,0.23067
2013-01-06,0.358212,-1.533466,-0.25148,2.194119


Series와 유사하게 변형될 수 있는 객체들의 Dictionary를 전달하여 DataFrame 만들기

In [7]:
df2 = pd.DataFrame({ 'A' : 1.,
   ....:                      'B' : pd.Timestamp('20130102'),
   ....:                      'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
   ....:                      'D' : np.array([3] * 4,dtype='int32'),
   ....:                      'E' : pd.Categorical(["test","train","test","train"]),
   ....:                      'F' : 'foo' })
   ....: 

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


DataFrame 결과값의 열은 다른 데이터 타입들(dtypes)을 지님

In [8]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

만약 iPython을 사용한다면, 열 이름의 Tab 완성도 자동으로 가능해짐. 다음은 완료될 속성(attributes)의 부분 집합임.

(역자 주 : Google Colaboratory에도 동일한 기능이 있음. 하기 'df2.'의 뒷부분 '<TAB>'을 지우고 해당 위치에서 Tab 버튼을 누르면 동일한 기능이 작동함)

In [10]:
df2.

# 본 함수는 실행하면 invalid syntax Error가 발생함

SyntaxError: ignored

In [12]:
# 참고로, Tab 버튼으로 자동 완성이 가능한 항목은 다음과 같음.

df2.A                  df2.bool
df2.abs                df2.boxplot
df2.add                df2.C
df2.add_prefix         df2.clip
df2.add_suffix         df2.clip_lower
df2.align              df2.clip_upper
df2.all                df2.columns
df2.any                df2.combine
df2.append             df2.combine_first
df2.apply              df2.compound
df2.applymap           df2.consolidate
df2.D

# 본 항목도 실행하면 invalid syntax Error가 발생함.

SyntaxError: ignored

보신 바와 같이, A, B, C, D 열은 자동으로 Tab 완성됩니다. E 또한 마찬가지입니다. (나머지 항목은 간결함을 위해 생략합니다.)

## 데이터 확인

[기초 섹션](https://pandas.pydata.org/pandas-docs/stable/basics.html#basics)을 확인하십시오.

다음은 프레임의 처음과 마지막 행을 보는 방법입니다.

In [13]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,-0.844384,0.201616,1.778816,0.244655
2013-01-02,-2.209277,0.828335,-0.936778,0.178987
2013-01-03,-1.337833,1.801974,-1.367746,-0.839407
2013-01-04,-0.548509,-1.458021,0.929009,0.040272
2013-01-05,-0.193988,0.391281,0.561286,0.23067


In [14]:
df.tail(3)

Unnamed: 0,A,B,C,D
2013-01-04,-0.548509,-1.458021,0.929009,0.040272
2013-01-05,-0.193988,0.391281,0.561286,0.23067
2013-01-06,0.358212,-1.533466,-0.25148,2.194119


NumPy 데이터의 인덱스, 열 및 기본 정보(underlying)를 확인해 봅시다.

In [15]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [16]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [17]:
df.values

array([[-0.84438367,  0.20161619,  1.77881636,  0.24465453],
       [-2.20927699,  0.82833494, -0.93677785,  0.17898669],
       [-1.33783285,  1.80197372, -1.36774638, -0.8394066 ],
       [-0.54850891, -1.45802077,  0.92900859,  0.04027194],
       [-0.19398759,  0.39128116,  0.56128637,  0.23066952],
       [ 0.35821157, -1.5334665 , -0.25148043,  2.19411888]])

describe() 는 데이터의 빠른 통계적 요약을 보여줍니다.

In [18]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.795963,0.03862,0.118851,0.341549
std,0.899906,1.311136,1.189038,0.996549
min,-2.209277,-1.533466,-1.367746,-0.839407
25%,-1.214471,-1.043112,-0.765453,0.074951
50%,-0.696446,0.296449,0.154903,0.204828
75%,-0.282618,0.719071,0.837078,0.241158
max,0.358212,1.801974,1.778816,2.194119


데이터를 전이해보겠습니다.

(역자 주 : 데이터의 행과 열을 서로 바꾸는 것을 의미하는 듯)

In [19]:
df.T

Unnamed: 0,2013-01-01 00:00:00,2013-01-02 00:00:00,2013-01-03 00:00:00,2013-01-04 00:00:00,2013-01-05 00:00:00,2013-01-06 00:00:00
A,-0.844384,-2.209277,-1.337833,-0.548509,-0.193988,0.358212
B,0.201616,0.828335,1.801974,-1.458021,0.391281,-1.533466
C,1.778816,-0.936778,-1.367746,0.929009,0.561286,-0.25148
D,0.244655,0.178987,-0.839407,0.040272,0.23067,2.194119


축을 기준으로 정렬합니다.

In [20]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,0.244655,1.778816,0.201616,-0.844384
2013-01-02,0.178987,-0.936778,0.828335,-2.209277
2013-01-03,-0.839407,-1.367746,1.801974,-1.337833
2013-01-04,0.040272,0.929009,-1.458021,-0.548509
2013-01-05,0.23067,0.561286,0.391281,-0.193988
2013-01-06,2.194119,-0.25148,-1.533466,0.358212


값을 기준으로 정렬합니다.

In [21]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2013-01-06,0.358212,-1.533466,-0.25148,2.194119
2013-01-04,-0.548509,-1.458021,0.929009,0.040272
2013-01-01,-0.844384,0.201616,1.778816,0.244655
2013-01-05,-0.193988,0.391281,0.561286,0.23067
2013-01-02,-2.209277,0.828335,-0.936778,0.178987
2013-01-03,-1.337833,1.801974,-1.367746,-0.839407


## 선택

주 : 선택과 설정을 위한 Python, Numpy의 표준화된 표현들이 직관적이며, 코드 작성을 위한 양방향 작업에 유용하지만 우리는 Pandas에 최적화된 데이터 접근 방법인 .at, .iat, .loc 및 .iloc. 을 추천합니다. 

[데이터 인덱싱 및 선택](https://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing) 문서와 [다중 인덱싱 / 심화 인덱싱](https://pandas.pydata.org/pandas-docs/stable/advanced.html#advanced) 문서를 확인하십시오.

### 얻기

df.A 와 동일한 Series를 생성하는 단일 열을 선택합니다.

In [22]:
df['A']

2013-01-01   -0.844384
2013-01-02   -2.209277
2013-01-03   -1.337833
2013-01-04   -0.548509
2013-01-05   -0.193988
2013-01-06    0.358212
Freq: D, Name: A, dtype: float64

행을 분할하는 [] 를 통해 선택합니다.

In [23]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-0.844384,0.201616,1.778816,0.244655
2013-01-02,-2.209277,0.828335,-0.936778,0.178987
2013-01-03,-1.337833,1.801974,-1.367746,-0.839407


In [24]:
df['20130102':'20130104']

Unnamed: 0,A,B,C,D
2013-01-02,-2.209277,0.828335,-0.936778,0.178987
2013-01-03,-1.337833,1.801974,-1.367746,-0.839407
2013-01-04,-0.548509,-1.458021,0.929009,0.040272


### Label 을 통한 선택

[Label을 통한 선택](https://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-label)에서 더 많은 내용을 확인하세요.

라벨을 사용하여 횡단면을 얻는 방법입니다.

In [25]:
df.loc[dates[0]]

A   -0.844384
B    0.201616
C    1.778816
D    0.244655
Name: 2013-01-01 00:00:00, dtype: float64

라벨을 사용하여 여러 축(의 데이터)을 얻는 방법입니다.

In [26]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,-0.844384,0.201616
2013-01-02,-2.209277,0.828335
2013-01-03,-1.337833,1.801974
2013-01-04,-0.548509,-1.458021
2013-01-05,-0.193988,0.391281
2013-01-06,0.358212,-1.533466


양쪽 종단점을 포함한 라벨 슬라이싱을 봅시다.

In [27]:
df.loc['20130102':'20130104', ['A','B']]

Unnamed: 0,A,B
2013-01-02,-2.209277,0.828335
2013-01-03,-1.337833,1.801974
2013-01-04,-0.548509,-1.458021


반환되는 객체의 크기를 줄입니다.

In [28]:
df.loc['20130102',['A','B']]

A   -2.209277
B    0.828335
Name: 2013-01-02 00:00:00, dtype: float64

스칼라 값을 얻습니다.

In [29]:
df.loc[dates[0],'A']

-0.8443836703546894

스칼라 값을 더 빠르게 구하는 방법입니다. (앞선 method와 동일합니다)

In [30]:
df.at[dates[0],'A']

-0.8443836703546894

### 위치를 통한 선택

[위치를 통한 선택 문서](https://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-integer)에서 더 많은 내용을 확인하세요.

전달되는 정수의 위치를 통해 선택합니다.

In [31]:
df.iloc[3]

A   -0.548509
B   -1.458021
C    0.929009
D    0.040272
Name: 2013-01-04 00:00:00, dtype: float64

정수 슬라이스를 통해 Numpy, Python과 유사하게 작동할 수 있습니다.

In [32]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-01-04,-0.548509,-1.458021
2013-01-05,-0.193988,0.391281


정수 위치의 리스트를 통해 Numpy, Python 스타일과 비슷하게 작동 가능합니다.

In [33]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,-2.209277,-0.936778
2013-01-03,-1.337833,-1.367746
2013-01-05,-0.193988,0.561286


명시적으로 행을 분할합니다.

In [34]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,-2.209277,0.828335,-0.936778,0.178987
2013-01-03,-1.337833,1.801974,-1.367746,-0.839407


명시적으로 열을 분할합니다.

In [36]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2013-01-01,0.201616,1.778816
2013-01-02,0.828335,-0.936778
2013-01-03,1.801974,-1.367746
2013-01-04,-1.458021,0.929009
2013-01-05,0.391281,0.561286
2013-01-06,-1.533466,-0.25148


명시적으로 값을 얻습니다.

In [37]:
df.iloc[1,1]

0.8283349428054982

스칼라 값을 빠르게 얻는 방법입니다. (상기 method와 동일합니다.)

In [38]:
df.iat[1,1]

0.8283349428054982

### 논리형 인덱싱

데이터를 선택하기 위해 1개 열의 값을 사용한 방법입니다.

In [39]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-06,0.358212,-1.533466,-0.25148,2.194119


논리형(Boolean) 조건을 충족하는 DataFrame으로부터 값을 선택하는 방법입니다.

In [40]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,,0.201616,1.778816,0.244655
2013-01-02,,0.828335,,0.178987
2013-01-03,,1.801974,,
2013-01-04,,,0.929009,0.040272
2013-01-05,,0.391281,0.561286,0.23067
2013-01-06,0.358212,,,2.194119


isin() 메소드를 사용하면 필터링이 가능합니다.

In [41]:
df2 = df.copy()
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,-0.844384,0.201616,1.778816,0.244655,one
2013-01-02,-2.209277,0.828335,-0.936778,0.178987,one
2013-01-03,-1.337833,1.801974,-1.367746,-0.839407,two
2013-01-04,-0.548509,-1.458021,0.929009,0.040272,three
2013-01-05,-0.193988,0.391281,0.561286,0.23067,four
2013-01-06,0.358212,-1.533466,-0.25148,2.194119,three


In [42]:
df2[df2['E'].isin(['two','four'])]

Unnamed: 0,A,B,C,D,E
2013-01-03,-1.337833,1.801974,-1.367746,-0.839407,two
2013-01-05,-0.193988,0.391281,0.561286,0.23067,four


### 셋팅

인덱스들을 기준으로 데이터를 정렬하여 자동으로 새로운 열을 생성하는 방법입니다.

In [45]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods = 6))
s1

2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

In [0]:
df['F'] = s1

라벨을 통해 값을 설정하는 방법입니다.

In [0]:
df.at[dates[0],'A'] = 0

위치를 통해 값을 설정하는 방법입니다.

In [0]:
df.iat[0, 1] = 0

Numpy 배열 지정하여 설정하는 방법입니다.

In [0]:
df.loc[:,'D'] = np.array([5] * len(df))

상기 설정 작업을 통한 결과물입니다.

In [50]:
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,1.778816,5,
2013-01-02,-2.209277,0.828335,-0.936778,5,1.0
2013-01-03,-1.337833,1.801974,-1.367746,5,2.0
2013-01-04,-0.548509,-1.458021,0.929009,5,3.0
2013-01-05,-0.193988,0.391281,0.561286,5,4.0
2013-01-06,0.358212,-1.533466,-0.25148,5,5.0


설정을 함께 진행하는 작업입니다.

In [51]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,-1.778816,-5,
2013-01-02,-2.209277,-0.828335,-0.936778,-5,-1.0
2013-01-03,-1.337833,-1.801974,-1.367746,-5,-2.0
2013-01-04,-0.548509,-1.458021,-0.929009,-5,-3.0
2013-01-05,-0.193988,-0.391281,-0.561286,-5,-4.0
2013-01-06,-0.358212,-1.533466,-0.25148,-5,-5.0


## 결측치 (데이터 누락)

Pandas는 누락된 데이터를 나타내기 위해 주로 np.nan 값을 사용합니다. 이 값은 기본적으로 계산에 포함되지 않습니다. [누락된 데이터](https://pandas.pydata.org/pandas-docs/stable/missing_data.html#missing-data) 섹션을 참조하십시오.

지정된 축의 인덱스를 변경, 추가, 삭제하기 위해 인덱스 재작업(Reindexing)을 할 수 있습니다. 이것은 데이터의 복사본을 반환합니다.

In [52]:
df1 = df.reindex(index = dates[0:4], columns = list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,1.778816,5,,1.0
2013-01-02,-2.209277,0.828335,-0.936778,5,1.0,1.0
2013-01-03,-1.337833,1.801974,-1.367746,5,2.0,
2013-01-04,-0.548509,-1.458021,0.929009,5,3.0,


누락된 데이터가 존재하는 모든 행을 지워버립니다.

In [53]:
df1.dropna(how = 'any')

Unnamed: 0,A,B,C,D,F,E
2013-01-02,-2.209277,0.828335,-0.936778,5,1.0,1.0


누락된 데이터를 채워넣습니다.

In [54]:
df1.fillna(value = 5)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,0.0,0.0,1.778816,5,5.0,1.0
2013-01-02,-2.209277,0.828335,-0.936778,5,1.0,1.0
2013-01-03,-1.337833,1.801974,-1.367746,5,2.0,5.0
2013-01-04,-0.548509,-1.458021,0.929009,5,3.0,5.0


nan 인 값의 위치를 표시하는 논리형(Boolean)을 얻습니다.

In [55]:
pd.isna(df1)

Unnamed: 0,A,B,C,D,F,E
2013-01-01,False,False,False,False,True,False
2013-01-02,False,False,False,False,False,False
2013-01-03,False,False,False,False,False,True
2013-01-04,False,False,False,False,False,True


## 운영

[이진(Binary) 작업의 기본](https://pandas.pydata.org/pandas-docs/stable/basics.html#basics-binop) 섹션을 참조하세요.

### 통계

일반적으로 누락된 데이터는 계산에서 제외됩니다.

서술적인 통계를 수행합니다.

In [56]:
df.mean()

A   -0.655232
B    0.005017
C    0.118851
D    5.000000
F    3.000000
dtype: float64

동일한 계산을 다른 축에서 실행합니다.

In [57]:
df.mean(1)

2013-01-01    1.694704
2013-01-02    0.736456
2013-01-03    1.219279
2013-01-04    1.384496
2013-01-05    1.951716
2013-01-06    1.714653
Freq: D, dtype: float64

정렬이 필요하며, 차원이 다른 객체로 계산해보겠습니다.

또한, Pandas는 지정된 차원을 따라 자동으로 송출합니다.

In [58]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index = dates).shift(2)
s

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

In [59]:
df.sub(s, axis='index')

Unnamed: 0,A,B,C,D,F
2013-01-01,,,,,
2013-01-02,,,,,
2013-01-03,-2.337833,0.801974,-2.367746,4.0,1.0
2013-01-04,-3.548509,-4.458021,-2.070991,2.0,0.0
2013-01-05,-5.193988,-4.608719,-4.438714,0.0,-1.0
2013-01-06,,,,,


### 적용

데이터에 함수를 적용합니다.

In [60]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,0.0,1.778816,5,
2013-01-02,-2.209277,0.828335,0.842039,10,1.0
2013-01-03,-3.54711,2.630309,-0.525708,15,3.0
2013-01-04,-4.095619,1.172288,0.403301,20,6.0
2013-01-05,-4.289606,1.563569,0.964587,25,10.0
2013-01-06,-3.931395,0.030103,0.713107,30,15.0


In [61]:
df.apply(lambda x: x.max() - x.min())

A    2.567489
B    3.335440
C    3.146563
D    0.000000
F    4.000000
dtype: float64

### 히스토그램

[히스토그램 및 이산](https://pandas.pydata.org/pandas-docs/stable/basics.html#basics-discretization) 항목에서 더 많은 내용을 참조할 수 있습니다.

In [63]:
s = pd.Series(np.random.randint(0, 7, size = 10))
s

0    0
1    1
2    5
3    4
4    0
5    2
6    5
7    3
8    4
9    0
dtype: int64

In [65]:
s.value_counts()

0    3
5    2
4    2
3    1
2    1
1    1
dtype: int64

### 문자열 메소드

Series는 다음의 코드와 같이 문자열 처리 메소드 모음(set)을 가지고 있습니다. 이 모음은 배열의 각 요소를 쉽게 조작할 수 있도록 만들어주는 문자열의 속성에 포함되어 있습니다.

문자열의 패턴 일치 확인은 기본적으로 정규 표현식을 사용하며, 몇몇 경우에는 항상 정규 표현식을 사용함에 유의하십시오.

좀 더 자세한 내용은 [벡터화된 문자열 메소드](https://pandas.pydata.org/pandas-docs/stable/text.html#text-string-methods) 부분에서 확인할 수 있습니다.

In [66]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

## Merge