## 판다스 10 분 완성
## 10 minutes to pandas    
영문 : https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html    
한글 : https://dataitgirls2.github.io/10minutes2pandas/

이 소개서는 주로 신규 사용자를 대상으로 한 판다스에 대한 간략한 소개로, 아래와 같이 구성되어 있습니다. 더 자세한 방법은 Cookbook에서 볼 수 있습니다.

Object Creation (객체 생성)
Viewing Data (데이터 확인하기)
Selection (선택)
Missing Data (결측치)
Operation (연산)
Merge (병합)
Grouping (그룹화)
Reshaping (변형)
Time Series (시계열)
Categoricals (범주화)
Plotting (그래프)
Getting Data In / Out (데이터 입 / 출력)
Gotchas (잡았다!)


일반적으로 각 패캐지는 pd, np, plt라는 이름으로 불러옵니다.

In [117]:
import pandas as pd

In [118]:
import numpy as np

In [119]:
import matplotlib.pyplot as plt

1. Object Creation (객체 생성)

데이터 구조 소개 섹션을 참조하세요.

Pandas는 값을 가지고 있는 리스트를 통해 Series를 만들고, 정수로 만들어진 인덱스를 기본값으로 불러올 것입니다.

In [120]:
s = pd.Series([1,3,5,np.nan,6,8])

In [121]:
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

datetime 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터프레임을 만듭니다.

In [122]:
dates = pd.date_range('20130101', periods=6)

In [123]:
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [124]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

In [125]:
df

Unnamed: 0,A,B,C,D
2013-01-01,1.096648,-0.487988,-0.359217,-0.781398
2013-01-02,0.344175,-0.771685,-0.473469,-0.162239
2013-01-03,-1.055871,0.406498,-0.989208,-2.119538
2013-01-04,0.228958,0.022883,-0.669982,-0.963881
2013-01-05,0.80624,-0.719719,1.612131,-1.606452
2013-01-06,1.236621,-0.814583,0.085103,0.889925


Series와 같은 것으로 변환될 수 있는 객체들의 dict로 구성된 데이터프레임을 만듭니다.

In [126]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo' })

In [127]:
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


데이터프레임 결과물의 열은 다양한 데이터 타입 (dtypes)으로 구성됩니다.

In [129]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

IPython을 이용하고 계시다면 (공용 속성을 포함한) 열 이름에 대한 Tap 자동완성 기능이 자동으로 활성화 됩니다. 
다음은 완성될 속성에 대한 부분집합 (subset)입니다.

역자 주 : 아래 제시된 코드의 경우, IPython이 아닌 환경 (Google Colaboratory, Jupyter 등)에서는 사용이 불가능한 코드인 점에 주의하세요.

In [130]:
# df2.<TAB>

역자 주 : IPython에서 실행하면 다음과 같은 결과값이 나옵니다.

df2.A                  df2.bool
df2.abs                df2.boxplot
df2.add                df2.C
df2.add_prefix         df2.clip
df2.add_suffix         df2.clip_lower
df2.align              df2.clip_upper
df2.all                df2.columns
df2.any                df2.combine
df2.append             df2.combine_first
df2.apply              df2.compound
df2.applymap           df2.consolidate
df2.D

보시다시피 A, B, C, D열이 탭 자동완성 기능으로 실행됩니다. 물론 E도 있습니다. 나머지 속성들은 간결하게 잘라 버렸습니다.



# 2. Viewing Data (데이터 확인하기)

Basic Section을 참조하세요.

데이터프레임의 가장 윗 줄과 마지막 줄을 확인하고 싶을 때에 사용하는 방법은 다음과 같습니다.

역자 주: 괄호() 안에는 숫자가 들어갈 수도 있고 안 들어갈 수도 있습니다. 숫자가 들어간다면, 윗 / 마지막 줄의 특정 줄을 불러올 수 있습니다. 숫자가 들어가지 않다면, 기본값인 5로 처리됩니다.

예시

In [131]:
df.tail(3)  # 끝에서 마지막 3줄을 불러옴

Unnamed: 0,A,B,C,D
2013-01-04,0.228958,0.022883,-0.669982,-0.963881
2013-01-05,0.80624,-0.719719,1.612131,-1.606452
2013-01-06,1.236621,-0.814583,0.085103,0.889925


In [132]:
df.tail()  # 끝에서 마지막 5줄 불러옴

Unnamed: 0,A,B,C,D
2013-01-02,0.344175,-0.771685,-0.473469,-0.162239
2013-01-03,-1.055871,0.406498,-0.989208,-2.119538
2013-01-04,0.228958,0.022883,-0.669982,-0.963881
2013-01-05,0.80624,-0.719719,1.612131,-1.606452
2013-01-06,1.236621,-0.814583,0.085103,0.889925


In [133]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,1.096648,-0.487988,-0.359217,-0.781398
2013-01-02,0.344175,-0.771685,-0.473469,-0.162239
2013-01-03,-1.055871,0.406498,-0.989208,-2.119538
2013-01-04,0.228958,0.022883,-0.669982,-0.963881
2013-01-05,0.80624,-0.719719,1.612131,-1.606452
