# 2. Pandas 기초

- pandas는 <b>"panel datas"</b>의 약자입니다.


- pandas 역시 다양한 머신러닝 라이브러리들에 의존성을 가지고 있습니다.


- 간단하게 생각하면, **python에서 excel의 기능을 사용**할 수 있게 됩니다.


- 하지만, pandas는 numpy array를 베이스로 지원하며 파이썬과 함께 강력한 시너지를 내기 때문에, 엑셀 그 이상의 퍼포먼스를 냅니다.

![numpy_data_type](../images/pandas/dataframe.png)

- Pandas 라이브러리에서 기본적으로 데이터를 다루는 단위는 DataFrame입니다. 흔히 알고있는 spreadsheet와 같은 개념입니다.


- 이러한 형태의 데이터는 Structured Data 또는 Panel Data 또는 Tabular Data라고 부릅니다.


- pandas를 공부한다는 것은 결국 dataframe의 사용법을 익히고 활용하는 방법을 배운다는 것과 같습니다.


- pandas를 잘 활용하면 대부분의 structured data를 자유자재로 다룰 수 있게 됩니다.

![pandas_files](../images/pandas/pandas_files.png)

## 2.1. Pandas DataFrame 

In [1]:
!pip install pandas==0.25.3

You should consider upgrading via the '/Users/emphimac/.conda/envs/textmining/bin/python -m pip install --upgrade pip' command.[0m


In [2]:
# pandas 라이브러리를 불러옵니다. pd를 약칭으로 사용합니다.
import pandas as pd
import numpy as np
print(pd.__version__)

0.25.3


- DataFrame은 2차원 테이블이고, 테이블의 한 줄(행/열)을 Series라고 합니다.


- Series의 모임이 곧, DataFrame이 됩니다.

In [3]:
# s는 1, 3, 5, np.nan, 6, 8을 원소로 가지는 pandas.Series
s = pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

- pandas는 date_range라는 함수를 통해, 날짜정보를 쉽게 생성해주는 객체도 제공합니다.

In [4]:
# 20130101부터 6일간의 날짜 범위를 생성하는 pandas.date_range
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [5]:
# 6x4 행렬에 -1에서 1 사이의 랜덤한 숫자를 가지는 원소를 가지고, index열은 dates, 나머지 coulmns은 순서대로 A, B, C, D로 하는 DataFrame 생성
df = pd.DataFrame(np.random.randn(6,4), index=dates, 
                  columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.923866,0.459454,0.131194,0.804772
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923
2013-01-04,-0.496957,-1.547344,2.561785,1.299443
2013-01-05,-0.018852,0.791909,-0.546474,-1.479269
2013-01-06,-0.485396,0.25093,-0.061975,0.031784


## 2.2. Dataframe 기초 method

In [6]:
# dataframe의 맨 위 다섯줄을 보여주는 head()
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,-0.923866,0.459454,0.131194,0.804772
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923
2013-01-04,-0.496957,-1.547344,2.561785,1.299443
2013-01-05,-0.018852,0.791909,-0.546474,-1.479269


In [7]:
df.head(3) # 3줄

Unnamed: 0,A,B,C,D
2013-01-01,-0.923866,0.459454,0.131194,0.804772
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923


In [8]:
df.index # dataframe index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [9]:
df.columns # dataframe columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [10]:
df.values # dataframe values

array([[-0.92386608,  0.45945431,  0.13119371,  0.80477172],
       [ 0.06971147, -1.22079501, -0.39686363, -1.40255002],
       [-1.39259431, -1.95646616, -1.65500644,  0.50592278],
       [-0.49695738, -1.54734426,  2.56178481,  1.29944316],
       [-0.01885153,  0.79190947, -0.54647439, -1.47926856],
       [-0.48539607,  0.25093011, -0.06197468,  0.03178423]])

In [11]:
# dataframe에 대한 전체적인 요약정보를 보여줍니다. index, columns, null/not-null/dtype/memory usage가 표시됩니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 6 entries, 2013-01-01 to 2013-01-06
Freq: D
Data columns (total 4 columns):
A    6 non-null float64
B    6 non-null float64
C    6 non-null float64
D    6 non-null float64
dtypes: float64(4)
memory usage: 240.0 bytes


In [12]:
# dataframe에 대한 전체적인 통계정보를 보여줍니다.
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.541326,-0.537052,0.005443,-0.039983
std,0.551804,1.173287,1.398485,1.160945
min,-1.392594,-1.956466,-1.655006,-1.479269
25%,-0.817139,-1.465707,-0.509072,-1.043966
50%,-0.491177,-0.484932,-0.229419,0.268854
75%,-0.135488,0.407323,0.082902,0.730059
max,0.069711,0.791909,2.561785,1.299443


In [13]:
# column B를 기준으로 내림차순 정렬
df.sort_values(by='B', ascending=False)

Unnamed: 0,A,B,C,D
2013-01-05,-0.018852,0.791909,-0.546474,-1.479269
2013-01-01,-0.923866,0.459454,0.131194,0.804772
2013-01-06,-0.485396,0.25093,-0.061975,0.031784
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255
2013-01-04,-0.496957,-1.547344,2.561785,1.299443
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923


In [14]:
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.923866,0.459454,0.131194,0.804772
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923
2013-01-04,-0.496957,-1.547344,2.561785,1.299443
2013-01-05,-0.018852,0.791909,-0.546474,-1.479269
2013-01-06,-0.485396,0.25093,-0.061975,0.031784


In [15]:
# pandas dataframe은 column 이름을 이용하여 기본적인 Indexing이 가능합니다.
df['A']

2013-01-01   -0.923866
2013-01-02    0.069711
2013-01-03   -1.392594
2013-01-04   -0.496957
2013-01-05   -0.018852
2013-01-06   -0.485396
Freq: D, Name: A, dtype: float64

In [16]:
# dataframe에서 slicing을 이용하면 row 단위로 잘려나옵니다.
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-0.923866,0.459454,0.131194,0.804772
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923


In [17]:
# df에서 index value를 기준으로 indexing도 가능합니다. (여전히 row 단위)
df['20130102':'20130104']

Unnamed: 0,A,B,C,D
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923
2013-01-04,-0.496957,-1.547344,2.561785,1.299443


In [18]:
# df.loc는 특정값을 기준으로 indexing합니다. (key - value)
df.loc[dates[0]]

A   -0.923866
B    0.459454
C    0.131194
D    0.804772
Name: 2013-01-01 00:00:00, dtype: float64

In [19]:
# df.loc에 2차원 indexing도 가능합니다. [:, ["A", "B"]]의 의미는 모든 row에 대해서 columns는 A, B만 가져오라는 의미입니다.
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,-0.923866,0.459454
2013-01-02,0.069711,-1.220795
2013-01-03,-1.392594,-1.956466
2013-01-04,-0.496957,-1.547344
2013-01-05,-0.018852,0.791909
2013-01-06,-0.485396,0.25093


In [20]:
# 이번엔 slicing을 통해 특정 row중에서 columns는 A, B
df.loc['20130102':'20130104',['A','B']]

Unnamed: 0,A,B
2013-01-02,0.069711,-1.220795
2013-01-03,-1.392594,-1.956466
2013-01-04,-0.496957,-1.547344


In [21]:
# 특정 row를 index값을 통한 indexing
df.loc['20130102',['A','B']]

A    0.069711
B   -1.220795
Name: 2013-01-02 00:00:00, dtype: float64

In [22]:
# 2차원 리스트 indexing과 같은 원리가 되었습니다.
df.loc[dates[0],'A']

-0.9238660756491315

In [23]:
# df.iloc는 정수를 이용한 indexing과 같습니다.(row 기준) 3은 4번째를 의미합니다.
df.iloc[3]

A   -0.496957
B   -1.547344
C    2.561785
D    1.299443
Name: 2013-01-04 00:00:00, dtype: float64

In [24]:
# iloc로 2차원 indexing을 하게되면, row 기준으로 index 3,4를 가져오고 column 기준으로 0, 1을 가져옵니다.
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2013-01-04,-0.496957,-1.547344
2013-01-05,-0.018852,0.791909


In [25]:
# slicing이 아닌 직접 리스트 형태로 기재하는 indexing
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,0.069711,-0.396864
2013-01-03,-1.392594,-1.655006
2013-01-05,-0.018852,-0.546474


In [26]:
df.iloc[1:3,:] # Q. 2차원 indexing에 뒤에가 : 면 어떤 의미일까요?

Unnamed: 0,A,B,C,D
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923


In [27]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2013-01-01,0.459454,0.131194
2013-01-02,-1.220795,-0.396864
2013-01-03,-1.956466,-1.655006
2013-01-04,-1.547344,2.561785
2013-01-05,0.791909,-0.546474
2013-01-06,0.25093,-0.061975


In [28]:
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.923866,0.459454,0.131194,0.804772
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923
2013-01-04,-0.496957,-1.547344,2.561785,1.299443
2013-01-05,-0.018852,0.791909,-0.546474,-1.479269
2013-01-06,-0.485396,0.25093,-0.061975,0.031784


In [29]:
# pandas는 fancy indexing을 지원합니다. (사실 numpy에서 지원하기 때문에 pandas도 지원합니다.)
# fancy indexing이란 조건문을 통해 indexing을 할 수 있는 방법으로 True와 False를 원소로 하는 리스트를 통해 masking하는 원리로 동작합니다.
df.A > 0

2013-01-01    False
2013-01-02     True
2013-01-03    False
2013-01-04    False
2013-01-05    False
2013-01-06    False
Freq: D, Name: A, dtype: bool

In [30]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255


In [31]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,,0.459454,0.131194,0.804772
2013-01-02,0.069711,,,
2013-01-03,,,,0.505923
2013-01-04,,,2.561785,1.299443
2013-01-05,,0.791909,,
2013-01-06,,0.25093,,0.031784


In [32]:
df2 = df.copy() # dataframe 하나를 복사합니다. 정말 말그대로 복사합니다.

In [33]:
# dataframe은 dictionary와 비슷한 방식으로 assignment가 가능합니다.
# df에 ['one', 'one','two','three','four','three'] 리스트를 column의 value로 하는 column E를 추가합니다.
df2['E'] = ['one', 'one','two','three','four','three'] # 만약 이미 column E가 존재한다면 update.
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,-0.923866,0.459454,0.131194,0.804772,one
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255,one
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923,two
2013-01-04,-0.496957,-1.547344,2.561785,1.299443,three
2013-01-05,-0.018852,0.791909,-0.546474,-1.479269,four
2013-01-06,-0.485396,0.25093,-0.061975,0.031784,three


In [34]:
# df.isin은 해당 value들이 들어있는 row에 대해선 True를 가지는 Series를 리턴한다.
df2['E'].isin(['two','four'])

2013-01-01    False
2013-01-02    False
2013-01-03     True
2013-01-04    False
2013-01-05     True
2013-01-06    False
Freq: D, Name: E, dtype: bool

In [35]:
df2[df2['E'].isin(['two','four'])]

Unnamed: 0,A,B,C,D,E
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923,two
2013-01-05,-0.018852,0.791909,-0.546474,-1.479269,four


In [36]:
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.923866,0.459454,0.131194,0.804772
2013-01-02,0.069711,-1.220795,-0.396864,-1.40255
2013-01-03,-1.392594,-1.956466,-1.655006,0.505923
2013-01-04,-0.496957,-1.547344,2.561785,1.299443
2013-01-05,-0.018852,0.791909,-0.546474,-1.479269
2013-01-06,-0.485396,0.25093,-0.061975,0.031784


In [37]:
# df.apply를 통해서 df 전체에 특정 함수를 적용할 수 있다.
# np.cumsum(cumulative summation, 누적합)을 df 전체에 적용한다.
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D
2013-01-01,-0.923866,0.459454,0.131194,0.804772
2013-01-02,-0.854155,-0.761341,-0.26567,-0.597778
2013-01-03,-2.246749,-2.717807,-1.920676,-0.091856
2013-01-04,-2.743706,-4.265151,0.641108,1.207588
2013-01-05,-2.762558,-3.473242,0.094634,-0.271681
2013-01-06,-3.247954,-3.222312,0.032659,-0.239897


In [38]:
# lambda 함수에 대해선 자세히 다룬적이 없으니 개념적으로 활용법만 익히고 넘어가자.
df.apply(lambda x: x.max() - x.min())

A    1.462306
B    2.748376
C    4.216791
D    2.778712
dtype: float64

## 2.3. Pandas 고급 두 DataFrame 병합하기

In [39]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])

In [40]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [41]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [42]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [43]:
# pd.concat 함수는 np.vstack과 같은 개념이다.
result = pd.concat([df1, df2, df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [44]:
# 이렇게 합쳐진 dataframe에 index를 추가로 줄 수 있다. 이러한 방법을 Multi-Index라고 한다.
result = pd.concat([df1, df2, df3], keys=['x', 'y', 'z'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


In [45]:
result.index

MultiIndex([('x',  0),
            ('x',  1),
            ('x',  2),
            ('x',  3),
            ('y',  4),
            ('y',  5),
            ('y',  6),
            ('y',  7),
            ('z',  8),
            ('z',  9),
            ('z', 10),
            ('z', 11)],
           )

In [46]:
result.index.get_level_values(0) # 가장 바깥 index가 가장 상위레벨이며 level 0에 해당한다.

Index(['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y', 'z', 'z', 'z', 'z'], dtype='object')

In [47]:
result.index.get_level_values(1)

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], dtype='int64')

In [48]:
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


In [49]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])

result = pd.concat([df1, df4], axis=1)

In [50]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [51]:
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [52]:
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [53]:
# SQL과 같이 join operation을 사용할 수 있다. inner join을 이용하여 교집합으로 겹치는 row만 남기고 다 제거.
result = pd.concat([df1, df4], axis=1, join='inner')
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [54]:
result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])
result

  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [55]:
# concat을 하되, 합쳐진 상태를 기준으로 다시 index를 매긴다.
result = pd.concat([df1, df4], ignore_index=True)
result

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [56]:
left = pd.DataFrame({'key': ['K0', 'K4', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [57]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K4,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [58]:
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [59]:
# merge는 np.hstack과 같다.
pd.merge(left, right, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


In [60]:
# on option을 주면 key column을 기준으로 합친다. 만약 존재하지 않는 row가 있다면 value를 NaN으로 채워넣는다.
# 이때 how 옵션은 어떤 Join을 이용할 것인지 정한다. 현재는 left join이다.
pd.merge(left, right, how='left', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [61]:
# right join
pd.merge(left, right, how='right', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
3,K1,,,C1,D1


In [62]:
# outer join
pd.merge(left, right, how='outer', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K1,,,C1,D1


In [63]:
# inner join
pd.merge(left, right, how='inner', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
