#10.Pandas Library
- Panadas 라이브러리를 사용하려면, 다음과 같은 pip 명령문을 실행 시켜서 library를 설치해야합니다.
```python
pip install pandas (or python -m pip install U pandas)
```

##10.1 Pandas Data Structure
- Pandas Data Structure 에는 (1D array와 비슷한) Series형 psd, 그리고 (2D array와 비슷한) DataFrame 형 pds 두 가지가 있다.

###10.1.1 Series 형 Pandas Data Structure (PDS)
- Series형 pds(s-pds)는 (value들로 구성된) 1D array와 그 요소들에 대한(똑같은 길이의) index array로 구성되며,
- 그것을 생성하기 위해서는 pd.Series() class 생성자(constructor)에 입력인자 Python list나 dictionary 를 넣어 실행시킴으로써 그 instance(class) 를 만든다.

In [None]:
import pandas as pd
import numpy as np

ds1 = pd.Series([4, 2, 1])
ds1

0    4
1    2
2    1
dtype: int64

이렇게 생성 된 pds를 보면, pd.Series() class에 입력 인자로 넣어준 list의 요소들로 구성되 value array와 그 왼쪽에 index array, 그리고 아래쪽에 data type도 보인다. 그리고 이 s-pds의 value array와 index array를 따로 꺼내볼 수 있는 속성(attribute)이 있다.

In [None]:
ds1.values

array([4, 2, 1])

In [None]:
ds1.index

RangeIndex(start=0, stop=3, step=1)

- 이 s-pds의 요소를 indexing하는 것은 Python list나 NumPu ndarray와 비슷하지만, index를 -1로 해서 그 마지막 요소를 찾을 수 없다는 점에서 완전히 같지는 않다.
  - 사용불가 : ds1[-1]  # -1인덱스 사용불가

In [None]:
ds1[0:2]

0    4
1    2
dtype: int64

In [None]:
ds1[0:3:2]

0    4
2    1
dtype: int64

In [None]:
ds1[[1,2]]

1    2
2    1
dtype: int64

그러나 부분적으로 변경하거나 첨가할 수 있다는 것은 Python list와 같다

In [None]:
ds1[2] = -1
ds1

0    4
1    2
2   -1
dtype: int64

In [None]:
ds1[4] = 3.     # 새로운(실수형) 요소 추가
ds1

0    4.0
1    2.0
2   -1.0
4    3.0
dtype: float64

이렇게 새로운 요소 하나를 실수형으로 추가했더니 모든 요소들의 type이 int64에서 float64로 바뀐다. 이와 같이 모든 요소들이 다 숫자인 s-pds에 대해서는 어떤 조건을 만족시키는 요소들만 골라내거나 일률적인 산술연산을 하기가 매우 쉬우며,

In [None]:
ds1[ds1 > 2]      # 2보다 더 큰 요소들을 보여줘

0    4.0
4    3.0
dtype: float64

In [None]:
ds1 * 2            # ds1의 모든 요소들에 2를 곱하면?

0    8.0
1    4.0
2   -2.0
4    6.0
dtype: float64

모든 요소들이 다 실수인 s-pds 라면 NumPy함수를 사용하는 산술적 연산도 가능해진다.

In [None]:
np.exp(ds1)       # ds1의 모든 요소들에 대한 지수 함수값들은?

0    54.598150
1     7.389056
2     0.367879
4    20.085537
dtype: float64

또한, 위에서 처럼 default로 들어가는 index array가 아닌 다른 indext array를 넣어줄 수도 있다.

In [None]:
ds2 = pd.Series([4, 2, -1, 3], index=['b', 'c', 'a', 'd']); ds2

b    4
c    2
a   -1
d    3
dtype: int64

위에서 처럼 list가 아닌 dictionary 도, 그 안에 또 다른 dictionary 를 포함하지 않은 단순한 구조이면서, 모든 key에 대한 value를 구성하는 요소들의 개수가 동일하다면, pd.Series() class에 입력인자로 그 dictionary 를 넣어줌으로써 s-pds로 변환할 수 있다.
  - 예를 들어 어느 지역의 연도별 연중 최저온도와 최고온도에 관한 data를 수집한 dictionary

In [None]:
dic1 = {'2015' : [36, -15.5], '2016' : [36.6, -15], '2017' : [35.4, -14]}

를 다음과 같이 s-pds로 변환할 수 있다.

In [None]:
ds3 = pd.Series(dic1); ds3

2015    [36, -15.5]
2016    [36.6, -15]
2017    [35.4, -14]
dtype: object

여기서 index array를 다음과 같이 바꿔줄 수도 있다.

In [None]:
ds3.index=['15', '16', '17']; ds3

15    [36, -15.5]
16    [36.6, -15]
17    [35.4, -14]
dtype: object

###10.1.2 DataFrame 형 Pandas Data Structure (PDS)
- DataFrame 형 pds(df-pds)는 여러 개의 column으로 구성된 표와 비슷하며, 각 column별로 그 type이 다를 수 있다. 전 절에서 나왔던 Series형 pds(s-pds)가 row index만 있고, column index는 없다는 점이 아쉽게 느껴졌다면, 이 df-pds가 대안이 될수 있을 것이다.
- df-pds를 구성하는 방법은 세 가지가 있는데,

1. 첫 번째 방법은 다음과 같이 data외 column 값들을 가진 list들로 구성된 2D list를 numpy.array() 함수의 입력인자로 넣어서 2D ndarray 를 만들고,

In [None]:
npa = np.array([['Tom', 'NY', 45, 'M'],
                ['Judy', 'CA', 36, 'F'],
                ['Fred', 'PA', 21, 'M']])

각 column 의 label 들로 구성 된 list를 만들어서

In [None]:
labels = ['Name', 'State', 'Age', 'Gender']

이들을 각각 pd.DataFrame() class 생성자(constructor)에 제 0 입력인자와 columns 입력인자의 값으로 넣어 실행시킴으로써 그 instance(class)를 만든다.

In [None]:
df1 = pd.DataFrame(npa, columns=labels); df1

Unnamed: 0,Name,State,Age,Gender
0,Tom,NY,45,M
1,Judy,CA,36,F
2,Fred,PA,21,M


참고로, Series 형이든 DataFrame 형이든 pds를 ndarray로 바꾸려면 .to_numpy() method를 적용한다.

In [None]:
npa1 = df1.to_numpy(); npa1   # Pandas DataFrame 을 Numpy ndarray로 변환

array([['Tom', 'NY', '45', 'M'],
       ['Judy', 'CA', '36', 'F'],
       ['Fred', 'PA', '21', 'M']], dtype=object)

2. 두 번째 방법은 각 column의 label들을 Key로, 각 column에 대한 data 값 들로 구성 된 list들을 value값으로 가진 dictionary를 구성해서, pd.DataFrame() class 생성자에 입력인자로 넣어 실행시키는 것이다.

In [None]:
dic2 = {'Name' : ['Tom', 'Judy', 'Fred'], 'State' : ['NY', 'CA', 'PA'], 'Age' : [45, 36, 21], 'Gender' : ['M', 'F', 'M']}
df2 = pd.DataFrame(dic2); df2

Unnamed: 0,Name,State,Age,Gender
0,Tom,NY,45,M
1,Judy,CA,36,F
2,Fred,PA,21,M


row index를 지정해 주려면, pd.DataFrame() class 에 index 입력인자의 값으로 넣어준다.

In [None]:
df2 = pd.DataFrame(dic2, index=[1,2,3]); df2

Unnamed: 0,Name,State,Age,Gender
1,Tom,NY,45,M
2,Judy,CA,36,F
3,Fred,PA,21,M


3. 세 번째 방법은 (index를 key로 가진) dictionary 를 포함한 dictionary, 즉 nested dictionary 를 구성해서 pd.DataFrame() class 생성자에 입력인자로 넣어 실행시키는 것이다.

In [None]:
dic3 = {'Name' : {11:'Tom', 12:'Judy', 13:'Fred'},
        'State' : {11:'NY', 12:'CA', 13:'PA'},
        'Age' : {11:'45', 12:'36', 13:'21'},
        'Gender' : {11:'M', 12:'F', 13:'M'}}
df3 = pd.DataFrame(dic3); df3

Unnamed: 0,Name,State,Age,Gender
11,Tom,NY,45,M
12,Judy,CA,36,F
13,Fred,PA,21,M


이 df-pds 의 내용/column label/index 만 보려면 각각, .values/.columns/.index 속성을 이용하여 확인할 수 있습니다

In [None]:
df3.values

array([['Tom', 'NY', '45', 'M'],
       ['Judy', 'CA', '36', 'F'],
       ['Fred', 'PA', '21', 'M']], dtype=object)

In [None]:
list(df3.columns)

['Name', 'State', 'Age', 'Gender']

In [None]:
list(df3.index)

[11, 12, 13]

index 와 column label 을 함께 보려면 .axes 속성을 이용한다.

> 인용구 추가



In [None]:
df3.axes

[Index([11, 12, 13], dtype='int64'),
 Index(['Name', 'State', 'Age', 'Gender'], dtype='object')]

####10.1.2.1 색인(Indexing)
 - DataFrame형 pds를 indexing 하기 위항 method로는 .loc .iloc .at .iat 네 가지가 있으며, 이들을 사용해서 가령 df1의 제0행(row), 제0열(column)에 있는 요소들을 꺼내보는 방법은 다음과 같이 네 가지가 있다.

In [None]:
df1

Unnamed: 0,Name,State,Age,Gender
0,Tom,NY,45,M
1,Judy,CA,36,F
2,Fred,PA,21,M


In [None]:
df1.iloc[0][0]

'Tom'

In [None]:
df1.loc[0]['Name']

'Tom'

In [None]:
df1.at[0, 'Name']

'Tom'

In [None]:
df1.iat[0,0]

'Tom'

그리고, 열(column) 째로, 가령 'Age'열을 보려면,

In [None]:
df1.loc[:]['Age']     # 'Age' 열

0    45
1    36
2    21
Name: Age, dtype: object

와 같이 .loc() method를 사용할 수도 있고, df1을 하나의 dictionary로 간주하고, 그 'Age' key에 대한 value 값을 보거나

In [None]:
df1['Age']          # 'Age' key의 값

0    45
1    36
2    21
Name: Age, dtype: object

또는 df1의 Age 속성(attribute)을 보듯 볼 수도 있다.

In [None]:
df1.Age           # 'Age' 속성(attribute) 의 값

0    45
1    36
2    21
Name: Age, dtype: object

[링크 텍스트](https://)그리고 두 개 이상의 열, 가령 'Name' 열과 'Gender' 열(의 모든 요소들)을 보려면 다음과 같이, 그 column label들로 구성된 list를 pds의 key로 넣어주면 된다.

In [None]:
df1[['Name', 'Gender']][1:3]      # 'Name', 'Gender' 열의 제 1,2행

Unnamed: 0,Name,Gender
1,Judy,F
2,Fred,M


한편, 하나의 행(row), 가령 제1행을 보려면,

In [None]:
df1.loc[1]      # 제1행, 만약 제1,3행을 보려면 df1.loc[[1,3]]

Name      Judy
State       CA
Age         36
Gender       F
Name: 1, dtype: object

'State' 열(column)의 제1,2요소를 보려면,

In [None]:
df1.loc[1:3]['State']     # 제1~2행과 'State'열

1    CA
2    PA
Name: State, dtype: object

와 같이 하면 된다. 한편 만들어진 pds의 길이를 알려면 len() 함수, 크기를 알려면 .shape 속성을 들여다보는데,

In [None]:
len(df1)      # df1.size = 12

3

In [None]:
df1.shape     # Row size = 3, Column Size = 4

(3, 4)

이 결과는 pds df1의 행/열 개수가 각각 3/4 라는 것을 의미한다.

####10.1.2.2 행(Row) 첨가하기

위에서 생성된 pds df1에 하나의 row를 가령 마지막 행으로 첨가하는 예는 다음과 같다.

In [None]:
df1.loc[len(df1)] = ['Hellen', 'TX', 4, 'F']      # df1 의 끝에 입력
df1

Unnamed: 0,Name,State,Age,Gender
0,Tom,NY,45,M
1,Judy,CA,36,F
2,Fred,PA,21,M
3,Hellen,TX,4,F


####10.1.2.3 열(column) 첨가하기

위 pds df1에 column이 'Major' 인 하나의 column을 첨가하는 예는 다음과 같다.

In [None]:
df1['Major'] = ['Eng', 'Math', 'Physics', 'Arts']
df1

Unnamed: 0,Name,State,Age,Gender,Major
0,Tom,NY,45,M,Eng
1,Judy,CA,36,F,Math
2,Fred,PA,21,M,Physics
3,Hellen,TX,4,F,Arts


만약 Age가 18보다 많은지/아닌지 에 따라 각각 adult/child 값을 가진 column을 추가하려면, 다음과 같이 Age에 따라 분류하는 함수를 정의해서 Age column에 적용하면 된다.

In [None]:
adult = lambda x : '어른' if int(x) > 18 else '아이'
df1['Adult'] = list(map(adult, list(df1.Age)))
df1

Unnamed: 0,Name,State,Age,Gender,Major,Adult
0,Tom,NY,45,M,Eng,어른
1,Judy,CA,36,F,Math,어른
2,Fred,PA,21,M,Physics,어른
3,Hellen,TX,4,F,Arts,아이


####10.1.2.4 열(column) 제거하기

위 pds df1 로 부터 하나의 column 가령, 'Gender' column을 제거하기 위해, .drop() method를 사용하면,

In [None]:
df1.drop('Gender', axis=1)

Unnamed: 0,Name,State,Age,Major,Adult
0,Tom,NY,45,Eng,어른
1,Judy,CA,36,Math,어른
2,Fred,PA,21,Physics,어른
3,Hellen,TX,4,Arts,아이


와 같이 'Gender' column이 제거된 것처럼 보인다. 그런데 막상 이를 확인해 보면,

In [None]:
df1

Unnamed: 0,Name,State,Age,Gender,Major,Adult
0,Tom,NY,45,M,Eng,어른
1,Judy,CA,36,F,Math,어른
2,Fred,PA,21,M,Physics,어른
3,Hellen,TX,4,F,Arts,아이


'Gender' column은 버젓이 살아있다. 그렇다면 이렇게 변경 된 df1의 값을 저장하려면 어떻게 해야 할까? 일단은 기존의 pds를 그대로 두고, 변경 된 값을 가진 새로운 pds를 생성하면 된다.

In [None]:
df_new = df1.drop('Gender', axis=1); df_new

Unnamed: 0,Name,State,Age,Major,Adult
0,Tom,NY,45,Eng,어른
1,Judy,CA,36,Math,어른
2,Fred,PA,21,Physics,어른
3,Hellen,TX,4,Arts,아이


만약 기존 df1의 값을 변경하면 싶으면, dfs 내용변경을 하는 method 들의 입력 인자 중 하나로서 **inplace=True** 를 넣어주면 된다.

In [None]:
# axis=1 (열(column) 기준)
df1.drop('Gender', axis=1, inplace=True); df1

Unnamed: 0,Name,State,Age,Major,Adult
0,Tom,NY,45,Eng,어른
1,Judy,CA,36,Math,어른
2,Fred,PA,21,Physics,어른
3,Hellen,TX,4,Arts,아이


####10.1.2.5 행(Row) 제거하기


위 pds df1 으로부터 하나의 row, 가령 제1행을 제거하려면 다음과 같이 .drop() method를 사용한다.

In [None]:
df1.drop([1], inplace=True); df1

Unnamed: 0,Name,State,Age,Major,Adult
0,Tom,NY,45,Eng,어른
2,Fred,PA,21,Physics,어른
3,Hellen,TX,4,Arts,아이


:여기서 중간에 이가 빠져서 흐트러진 (row) index를 원상태로 되돌리려면 .reset_index() method를 사용한다.

In [None]:
df1.reset_index(drop=True, inplace=True); df1

Unnamed: 0,Name,State,Age,Major,Adult
0,Tom,NY,45,Eng,어른
1,Fred,PA,21,Physics,어른
2,Hellen,TX,4,Arts,아이


####10.1.2.6 특정 행/열(들)만 골라내기 (Reindexing)

.reindex() method 를 사용하면, 주어진 pds 에서 특정 row/column(들) 만 골라낼 수 있다.

In [None]:
df1_ = df1
df1_ = df1_.reindex(index=[0, 2], columns=['Name', 'Major'])
df1_

Unnamed: 0,Name,Major
0,Tom,Eng
2,Hellen,Arts


이 .reindex() method를 사용하면, 특정 row/column 을 삭제하는 것은 물론 기존 row/column 들의 순서도 마음대로 변경 할 수 있습니다.

####10.1.2.7 열이름(Column Label)

위 pds df1의 column 이름을 바꾸는 예는 다음과 같다.

In [None]:
newcols = {'Age' : 'age', 'Major' : 'major'}
df1.rename(columns=newcols, inplace=True); df1

Unnamed: 0,Name,State,age,major,Adult
0,Tom,NY,45,Eng,어른
1,Fred,PA,21,Physics,어른
2,Hellen,TX,4,Arts,아이


####10.1.2.8 문자열 변경하기

위 pds df1내의 string 들을 변경하는 예는 다음과 같다.

In [None]:
df1.replace(['TX', 'PA'], ['Tex', 'Pen'], inplace=True); df1

Unnamed: 0,Name,State,age,major,Adult
0,Tom,NY,45,Eng,어른
1,Fred,Pen,21,Physics,어른
2,Hellen,Tex,4,Arts,아이


####10.1.2.9 숫자 변경하기

위 pds df1 내의 숫자들을 변경하려면, 가령 'age' column에 있는 숫자들을 변경하려면 먼저 pd.to_numeric() 함수를 사용해서 그 대상 요소들을 확실히 숫자형으로 지정한 후에 하는 것이 좋다.

In [None]:
df1['age'] = pd.to_numeric(df1['age'], downcast='float') * 2; df1

Unnamed: 0,Name,State,age,major,Adult
0,Tom,NY,90.0,Eng,어른
1,Fred,Pen,42.0,Physics,어른
2,Hellen,Tex,8.0,Arts,아이


또는, .astype(np.float16) method 를 적용하여, 그 대상 요소들을 숫자형으로 지정하고, 그 숫자들을 변경하는 lambda 함수를 정의한 후에, 그 함수를 apply() method 의 입력 인자로 넣어서 실행시키는 방법도 있다.

In [None]:
doubler = lambda x : x * 2
df1['age'] = df1['age'].astype(np.float16).apply(doubler);  df1

Unnamed: 0,Name,State,age,major,Adult
0,Tom,NY,180.0,Eng,어른
1,Fred,Pen,84.0,Physics,어른
2,Hellen,Tex,16.0,Arts,아이


####10.1.2.10 행/열의 배열순서

pd.DataFrame() class 생성자에 제0입력 인자로서 기존의 df-pds와 함께, index 입력 인자로(배열순서가 다른) index array, 그리고 columns 입력 인자로 (배열 순서가 다른) column label array 를 넣어서 실행시킴으로써 row 나 column의 배열 순서를 변경할 수 있으며, 그 예로서 row와 column의 순서들을 거꾸로 해보는 예는 다음과 같다.

In [None]:
df1 = pd.DataFrame(df1, index=df1.index[::-1], columns=df1.columns[::-1]); df1

Unnamed: 0,Adult,major,age,State,Name
2,아이,Arts,16.0,Tex,Hellen
1,어른,Physics,84.0,Pen,Fred
0,어른,Eng,180.0,NY,Tom



####10.1.2.11 (맨 왼쪽) index 열과 (맨 위) label 행에 이름

보통 df-pds의 좌상귀는 비어 있는데, 원한다면 거기에도 index 나 column label 들의 의미를 설명하는 Tag를 삽입할 수 있으며, 그 예는 다음과 같다.

In [None]:
df1.index.name = 'Index'; df1.columns.name='Item'
df1

Item,Adult,major,age,State,Name
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2,아이,Arts,16.0,Tex,Hellen
1,어른,Physics,84.0,Pen,Fred
0,어른,Eng,180.0,NY,Tom


####10.1.2.12 행과 열을 서로 맞바꾸기(Transpose)



df-pds의 행과 열을 서로 맞바꿔서 전치된 df-pds를 얻고자 한다면 T.method를 사용한다.

In [None]:
df1_T = df1.T; df1_T

Index,2,1,0
Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adult,아이,어른,어른
major,Arts,Physics,Eng
age,16.0,84.0,180.0
State,Tex,Pen,NY
Name,Hellen,Fred,Tom


####10.1.2.13 Column Label 앞/뒤에 문자열 덧붙이기 (Prefix / Suffix)

pd.DataFrame.add_prefix/suffix() 를 사용하여 column label 의 앞/뒤에 부가적인 문자열을 덧붙일 수 있다. 가령 위에서 얻어진 df-pds의 column name 인 2,1,0 의 앞에다가 'col_'이라는 문자열을 덧붙이기 위한 문장과 실행결과는 다음과 같다.

In [None]:
df1_T = df1_T.add_prefix('col_'); df1_T

Index,col_2,col_1,col_0
Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adult,아이,어른,어른
major,Arts,Physics,Eng
age,16.0,84.0,180.0
State,Tex,Pen,NY
Name,Hellen,Fred,Tom


###10.1.3 계층적 (Hierachical) Indexing

pd.DataFrame() class 생성자는 **계층적(hierachical) index를** 가진 DataFrame 형 pds(df-pds)를 생성할 수도 있게 해준다.

In [None]:
df2 = pd.DataFrame({'x': [91, 33, 45, 27, 68, 54],
                    'y' : [15, 24, 46, 38, 57, 79]},
                   index = [['A', 'A', 'A', 'B', 'B', 'C'],
                            [1, 2, 3, 1, 2, 1]]
                   )
df2

Unnamed: 0,Unnamed: 1,x,y
A,1,91,15
A,2,33,24
A,3,45,46
B,1,27,38
B,2,68,57
C,1,54,79


이러한 계층적 index를 가진 fd-pds를 indexing 하는 예들은 다음과 같다.

In [None]:
df2.loc['A']['y']

1    15
2    24
3    46
Name: y, dtype: int64

In [None]:
df2.loc['A',2]['y']

24

In [None]:
df2.loc['B'][['y', 'x']]

Unnamed: 0,y,x
1,38,27
2,57,68


In [None]:
df2.loc[['B', 'A']]['y']

B  1    38
   2    57
A  1    15
   2    24
   3    46
Name: y, dtype: int64

이와 같이 (row) index 뿐만 아니라, column label도 계층적인 df-pds 를 생성할 수도 있다.

In [None]:
data44 = np.array([[1,4,2,7],[3,5,8,4],[8,3,6,1],[7,9,6,2]])
df22 = pd.DataFrame(data44,
                    index=[['Store1', 'Store1', 'Store2', 'Store2'],
                           [1,2,1,2]],
                    columns = [['Rose', 'Rose', 'Lily', 'Lily'],
                               ['Red', 'White', 'White', 'Pink']])
df22

Unnamed: 0_level_0,Unnamed: 1_level_0,Rose,Rose,Lily,Lily
Unnamed: 0_level_1,Unnamed: 1_level_1,Red,White,White,Pink
Store1,1,1,4,2,7
Store1,2,3,5,8,4
Store2,1,8,3,6,1
Store2,2,7,9,6,2


또한, index.name 이나 columns.names 같은 속성(attribute)을 통해서 index나 column label 들의 의미를 나타내는 이름(name)들도 그 level 별로 표시되게 할 수도 있

In [None]:
df22.index.names = ['Store', 'Size']
df22.columns.names = ['Flower', 'Color']
df22

Unnamed: 0_level_0,Flower,Rose,Rose,Lily,Lily
Unnamed: 0_level_1,Color,Red,White,White,Pink
Store,Size,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Store1,1,1,4,2,7
Store1,2,3,5,8,4
Store2,1,8,3,6,1
Store2,2,7,9,6,2


.unstack() method 를 사용해서, 다음과 같이 level 1 index를 새로운(level2) column label로 가진 형태로 재배열 할 수도 있다.

In [None]:
df22_1 = df22.unstack(); df22_1

Flower,Rose,Rose,Rose,Rose,Lily,Lily,Lily,Lily
Color,Red,Red,White,White,White,White,Pink,Pink
Size,1,2,1,2,1,2,1,2
Store,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
Store1,1,3,4,5,2,8,7,4
Store2,8,7,3,9,6,6,1,2


한편, 세 개 이상의 column을 갖고 있으면서, 지정된 index는 없는 df-pds라면, .set_index() method를 사용하여, column 두 개를 계층적 index로 지정하는 재배열도 가능하다.

In [None]:
data54 = np.array([['Tom', 'NY', 45, 'M'],
                   ['Judy', 'CA', 36, 'F'],
                   ['Robin', 'NY', 15, 'M'],
                   ['Sanders', 'CA', 78, 'M'],
                   ['Mary', 'NY', 15, 'F'],
                   ])
df54 = pd.DataFrame(data54, columns = ['Name', 'State', 'Age', 'Gender'])
df54

Unnamed: 0,Name,State,Age,Gender
0,Tom,NY,45,M
1,Judy,CA,36,F
2,Robin,NY,15,M
3,Sanders,CA,78,M
4,Mary,NY,15,F


In [None]:
df = df54.set_index(['State', 'Gender']); df

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,Age
State,Gender,Unnamed: 2_level_1,Unnamed: 3_level_1
NY,M,Tom,45
CA,F,Judy,36
NY,M,Robin,15
CA,M,Sanders,78
NY,F,Mary,15


(cf) 이 .set_index() method 의 작업결과를 되돌리려면, reset_index() method를 사용한다. 그런데 이러한 indext 모양은 혼잡스럽게 보이므로, .sort_index() method를 사용해서 index(들) 에 따라 정렬시키는 것이 좋다.

In [None]:
df = df.sort_index(); df

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,Age
State,Gender,Unnamed: 2_level_1,Unnamed: 3_level_1
CA,F,Judy,36
CA,M,Sanders,78
NY,F,Mary,15
NY,M,Tom,45
NY,M,Robin,15


또한, .sort_values(by='column') method 를 사용해서, (한 개 이상의) 특정 column 의 값에 따라 재정렬 시킬 수도 있다.

In [None]:
df = df.sort_values(by=['Age', 'Name']);  df

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,Age
State,Gender,Unnamed: 2_level_1,Unnamed: 3_level_1
NY,F,Mary,15
NY,M,Robin,15
CA,F,Judy,36
NY,M,Tom,45
CA,M,Sanders,78


이것은 위 df-pds를 먼저 'Age' column의 값에 따라 정렬한 후, 'Name' column의 값에 따라 정렬한 것이다. 한편 .swaplevel() method 를 사용해서 df-pds의 index 열의 순서를 바꿀 수 있다.

In [None]:
df = df.swaplevel('State', 'Gender').sort_index(); df

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,Age
Gender,State,Unnamed: 2_level_1,Unnamed: 3_level_1
F,CA,Judy,36
F,NY,Mary,15
M,CA,Sanders,78
M,NY,Robin,15
M,NY,Tom,45


또한, sort_index() method 의 level 입력 인자의 값을 0/1로 지정함으로써, 첫/두 번째 index에 따라 재정렬시킬 수도 있다.

In [None]:
# df = df.sort_index(level=0); df     # level=0 => Gender
df = df.sort_index(level=1); df       # level=1 => State

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,Age
Gender,State,Unnamed: 2_level_1,Unnamed: 3_level_1
F,CA,Judy,36
M,CA,Sanders,78
F,NY,Mary,15
M,NY,Robin,15
M,NY,Tom,45


한편, .rename() method 를 사용해서 index_name 들과 column label 들을 바꿀수 도 있다.

In [None]:
 # 인덱스 : 'CA' => 'PA'
 # 컬럼   : 'Name' => '이름', 'Age' => '나이'
 df = df.rename(index = {'CA' : 'PA'}, columns={'Name' : '이름', 'Age' : '나이'}); df

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,나이
Gender,State,Unnamed: 2_level_1,Unnamed: 3_level_1
F,PA,Judy,36
M,PA,Sanders,78
F,NY,Mary,15
M,NY,Robin,15
M,NY,Tom,45


##10.2 Pandas Data Structure 에 대한 연산
- 이 절에서는 Pandas Data Structure에 대한 여러가지 연산에 대해 알아본다.

###10.2.1 요소(들)의 Type 알아내고 바꾸기 - dtypes 와 astype()

.dtypes 속성을 통해서 pds에 속한 요소들의 type을 알 수 있고, .astype() method 를 사용하여 그 type을 바꿀 수도 있다. 가령 다음과 같은 df-pds를 만들어

In [None]:
dic1 = {'이름' : ['성춘향', '이몽룡'],
        '보통예금' : [2100, 2700],
        '저축예금' : [3400, 4600]}
df1 = pd.DataFrame(dic1, index=[1012, 1010]); df1

Unnamed: 0,이름,보통예금,저축예금
1012,성춘향,2100,3400
1010,이몽룡,2700,4600


이 df-pds df1에 포함된 요소들의 dtype을 column 별로 알려면, .dtype  속성을

In [None]:
df1.dtypes

이름      object
보통예금     int64
저축예금     int64
dtype: object

그 요소들의 dtype을 column별로 바꾸려면, .astype() method를 사용하며,

In [None]:
df1[['보통예금', '저축예금']] = df1[['보통예금', '저축예금']].astype(np.float64); df1

Unnamed: 0,이름,보통예금,저축예금
1012,성춘향,2100.0,3400.0
1010,이몽룡,2700.0,4600.0


그 결과로서

In [None]:
df1.dtypes

이름       object
보통예금    float64
저축예금    float64
dtype: object

'보통예금'과 '저축예금' column의 dtype 'int64' => 'float64' 로 변경 된것을 확인할 수 있다.

###10.2.2 요소들의 포함 여부 판별 - isin(), str.find()

pds 에 대해, .isin() method 를 적용하면, 그 index 와 column label 들은 물론 그 요소들 하나 하나가 어느 특정한 값 이거나 또는 특정 list에 포함되어 있는지 아닌지를 판별할 수 있다.

In [None]:
print(df1.index.isin([1011]))       # [False False]
print(df1.index.isin([1012]))       # [ True False]

[False False]
[ True False]


df1의 index name (두 개) 중에 1011 은 없다는 것을 False 로 알려주고,

In [None]:
df1.columns.isin(['보통예금', '정기예금'])

array([False,  True, False])

는 df1의 column label 세 개 중에 '보통예금' 또는 '정기예금' 인 것(들)의 위치를

In [None]:
df1.isin({'이름' : ['이몽룡', '홍길동']})

Unnamed: 0,이름,보통예금,저축예금
1012,False,False,False
1010,True,False,False


는 df1의 '이름' column에 속해 있으면서 그 값이 '이몽룡' 또는 '홍길동'
인 요소(들)의 위치

In [None]:
df1['이름'].isin(['이몽룡', '홍길동'])

1012    False
1010     True
Name: 이름, dtype: bool

는 df1의 '이름' column 에서 그 값이 '이몽룡' 또는 '홍길동'인 요소들의 위치를 True로 알려준다.

또한 .str.find() method를 적용하면, string형 요소들마다 특정 문자열을 포함하고 있는지, 포함하고 있는지 포함하고 있다면 몇 번째 문자부터 인지를 알아낼 수 있다. 가령, 위에서 생성 된 df1의 '이름' column에서 그 값의 0번째 문자부터 시작하여 '몽' 이라는 문자열을 포함한 요소(들)의 위치가(0 이상의 정수값으로) 표시되도록 하려면 다음과 같은 문장을 실행시키는데,

In [None]:
df1['이름'].str.find('몽', 0)

1012   -1
1010    1
Name: 이름, dtype: int64

이 실행결과 중 -1 값은 ('이름' column 에서) 그 위치에 있는 요소가 '몽' 이라는 문자 또는 문자열을 포함하고 있지 않다는 것을, 1값은 그 위치에 있는 string의 제1문자부터 '몽' 이라는 문자 또는 문자열이 시작된다는 것을 알려준다. 이 .str.find() method 를 잘 활용하면 가령 '이름' column에 있는 요소들 중 첫 문자가 '이'로 시작되는 요소들의 위치를 보여주는 새로운 column을 추가할 수도 있다.

In [None]:
df1['이씨'] = df1['이름'].str.find('이', end = 1)
df1

Unnamed: 0,이름,보통예금,저축예금,이씨
1012,성춘향,2100.0,3400.0,-1
1010,이몽룡,2700.0,4600.0,0


여기서, .str.find() method 의 입력인자에 찾아야 할 문자 '이' 외에 end=1을 추가로 넣어준 것은, 검색범위를 제 0(=1-1) 문자까지만으로 제한함으로써 맨 첫 번째 문자로 '이'를 가진 요소들만 골라보기 위한 것이며, 이 실행결과는 '이'가 제0문자부터 시작된다는 것을 의미한다.

In [None]:
# (Q) 만약, 위에서 '이'대신 '몽'이나 '룡'을 .find() method의 제0입력인자로 넣어주면?
df1['이름'].str.find('성', end = 1)

1012    0
1010   -1
Name: 이름, dtype: int64

###10.2.3 중복된 데이터 찾아내고 제거하기 - duplicated(), drop_duplicates()
- pds에 대해 .duplicated() 와 .drop_duplicated() method를 적용하면, (모든 column 들에 대해서나 또는 column 별로) 중복 된 data (row)를 찾아내고 제거할 수 있다. 가령 다음과 같은 df-pds를 만들어보자.

In [None]:
dic2 = {'Flower' :
        ['Rose', 'Rose', 'Lily', 'Lily', 'Rose', 'Lily', 'Rose'],
        'Color' :
        ['red', 'white', 'white', 'pink', 'red', 'pink', 'red'],
        'Size' : ['L', 'S', 'S', 'L', 'L', 'L', 'S']
        }
df2 = pd.DataFrame(dic2); df2

Unnamed: 0,Flower,Color,Size
0,Rose,red,L
1,Rose,white,S
2,Lily,white,S
3,Lily,pink,L
4,Rose,red,L
5,Lily,pink,L
6,Rose,red,S


이 df-pds df2에서 중복된 data (row)를 보기 위해 .duplicated() method를 사용하면,

In [None]:
df2.duplicated()

0    False
1    False
2    False
3    False
4     True
5     True
6    False
dtype: bool

와 같은 결과가 얻어지며, 이것은 index 4,5 인 data (row) 가 그 전에 있는 data(row)와 동일한(중복된) 것임을 말해준다. 여기서 특정 column 값이 중복되어 있는 data (row)를 알려면 입력인자로 그 column label 을 2개 이상이라면 그들을 담은 list를 넣어준다.
- 중복여부가 True로 표시 된 data (row)들을 제거하려면 .drop_duplicates() method 를 사용한다.

In [None]:
df2.drop_duplicates()

Unnamed: 0,Flower,Color,Size
0,Rose,red,L
1,Rose,white,S
2,Lily,white,S
3,Lily,pink,L
6,Rose,red,S


만약 Size와 상관없이 'Flower'와 'Color' 두 column의 값이 중복된 data (row) 들 중 맨 처음 것만 남기고 다른 것들을 제거하려면, 그 column label 들로 구성된 list를 .drop_duplicates() method 의 입력인자로 넣어서 실행시킨다.

In [None]:
df2.drop_duplicates(['Flower', 'Color'])

Unnamed: 0,Flower,Color,Size
0,Rose,red,L
1,Rose,white,S
2,Lily,white,S
3,Lily,pink,L


###10.2.4 Ranking - rank()

주어진 pds의 특정 column 값에 따라 순위(rank)를 매기려면 .rank() method를 적용한다. 가령..

In [None]:
dic3 = {'이름' : ['이몽룡', '한석봉', '성춘향', '제갈량', '관우'],
        '점수' : [72, 90, None, 100, 90]}
df3 = pd.DataFrame(dic3); df3

Unnamed: 0,이름,점수
0,이몽룡,72.0
1,한석봉,90.0
2,성춘향,
3,제갈량,100.0
4,관우,90.0


와 같은 df-pds 에 대해, 다음 문장들을 실행시켜 보자.

In [None]:
df3['점수'] = df3['점수'].astype(float)
df3['default_rank'] = df3['점수'].rank()                     # 점수 column 값에 따라 정렬
df3['lst_rank'] = df3['점수'].rank(method='first')
df3['max_rank'] = df3['점수'].rank(method='max')
df3['NA_bottom'] = df3['점수'].rank(na_option = 'bottom')
df3['pct_rank'] = df3['점수'].rank(pct=True)                 # 순위를 0~1 사이의 숫자로 표시
df3

Unnamed: 0,이름,점수,default_rank,lst_rank,max_rank,NA_bottom,pct_rank
0,이몽룡,72.0,1.0,1.0,1.0,1.0,0.25
1,한석봉,90.0,2.5,2.0,3.0,2.5,0.625
2,성춘향,,,,,5.0,
3,제갈량,100.0,4.0,4.0,4.0,4.0,1.0
4,관우,90.0,2.5,3.0,3.0,2.5,0.625


이러한 실행결과로부터 .rank() method 의 입력인자에 따라 동점자의 순위나 (data 없음을 의미하는) Nan(Not a Number)의 순위, 순위의 표시형식이 다음과 같이 달라진다는 것을 알수 있다.
- 아무런 입력 인자를 넣어주지 않으면 동점자의 순위를 평균으로 처리한다. 즉 위 data를 보면, '한석봉'과 '관우'의 점수가 90점으로 동점인데 누구를 2등,3등 으로 매기기가 곤란해서 그 평균을 취하여 2.5등으로 정한 것이다. (위 실행결과의 'default_rank' column 참조)
- method='first'/'min'/'max' 를 입력인자로 넣어주면 동점 중 첫 번째 것을 앞선 걸로 처리하거나 매길 수 있는 순위 중 최소/최대수로 동순위 처리된다. (위 실행결과의 'lst_rank'/'max_rank' column 참조)
- na_option='bottom'을 입력 인자로 넣어주면 NaN을 꼴등으로 처리하며, 만약 이 입력인자를 지정해주지 않으면 순위를 정하지 않고, NaN으로 표시한다.
- pct='True' 를 입력인자로 넣어주면 모든 순위를 (작은 값부터) 자연수대신 1로 정규화된 percent 값으로 표시한다. 그래서 위 실행결과의 'pct_rank' column 을 보면, 총 4명인 '이몽룡'(72점)과 '한석봉'(90점)='관우'(90점), '제갈량'(100점)의 순위가 낮은 점수부터 각각 1/4=0.25 등, (2/4 + 3/4)/2, 1/4 등으로 처리된 것이며, 여기서 동점자의 순위는 (method 입력인자의 값을 넣어주지 않았기 때문에 default로) 평균 처리 된 것입니다.

###10.2.5 Missing Data 찾아내고 처리하기 - isnull(), dropna(), fillna()

####[Remark 10.1] NaN은 무엇인가?
- 위에서는 NaN을 포함한 data에 대해 .rank() method를 적용해서 순위를 매겨보기 위해 일부러 NaN(None)이라는 특수한 값을 포함시켰는데, Numpy와 Pandas library도 각각 NaN과 비슷한 **np.nan** 과 **pd.NA** 라는 예약어(reserved word)를 가지고 있다. 그런데, Python에서는 가령 Excel 파일을 읽어들일 때, 읽혀지는 자리가 비어있으면, 그 자리의 값을 NaN으로 표시하므로, 'Missing Value'(누락된 값) 라는 뜻으로 보면 된다.

가령, 다음과 같이 NaN 이나 None 을 포함한 df-pds가 있다고 하자.

In [None]:
df4 = pd.DataFrame([[4.1, None, np.nan, None],
    [0.0, -1.0, 2.5, None],
    [3.3, 2.7, None, None],
    [None, None, None, None]],
    columns = ['A', 'B', 'C', 'D'])
df4

Unnamed: 0,A,B,C,D
0,4.1,,,
1,0.0,-1.0,2.5,
2,3.3,2.7,,
3,,,,


이 df-pds df4는 size가 작아서 Nan/None 의 위치가 바로 눈에 보이지만, 요소의 개수가 많은 data에 있는 NaN/None 의 위치를 알려면 .isna() 또는 .notna() method 함수를 사용해야 한다.

In [None]:
df4.isna()
#pd.isna(df4)

Unnamed: 0,A,B,C,D
0,False,True,True,True
1,False,False,False,True
2,False,False,True,True
3,True,True,True,True


In [None]:
df4.notna()
#pd.notna(df4)

Unnamed: 0,A,B,C,D
0,True,False,False,False
1,True,True,True,False
2,True,True,False,False
3,False,False,False,False


또한, .dropna() method 를 사용해서, 모든 요소가 Nan / None 인 행을 제거할 수도

In [None]:
df4.dropna(how='all')     # NaN / None 을 한 개라도 가진 행들을 제거하려면 'any'

Unnamed: 0,A,B,C,D
0,4.1,,,
1,0.0,-1.0,2.5,
2,3.3,2.7,,


모든 요소가 NaN / None 인 열을 제거하는 것도 어렵지 않다.

In [None]:
df4.dropna(axis=1, how='all')

Unnamed: 0,A,B,C
0,4.1,,
1,0.0,-1.0,2.5
2,3.3,2.7,
3,,,


그리고, 가령 두 개 이하의 NaN / None 을 가진 행들만 놔두려면 thresh 입력 인자의 값을 2로 지정해서 넣어준다.

In [None]:
df4.dropna(thresh=2)          # thresh => NaN / None 의 개수 지정

Unnamed: 0,A,B,C,D
1,0.0,-1.0,2.5,
2,3.3,2.7,,


In [None]:
#df4.dropna(thresh=2, axis=0)        # 열(row) 기준
df4.dropna(thresh=2, axis=1)       # 행(col) 기준

Unnamed: 0,A,B
0,4.1,
1,0.0,-1.0
2,3.3,2.7
3,,


이제 data에 포함되어 있는 NaN들을 그냥 무시해버리지 않는다면 어떻게 처리하는 방법이 있는지 알아보기 위해, 다음과 같은 df-pds 를 생각해 보자.

In [None]:
dic5 = {'data' : [1, 2, None, 4, 5, np.nan]}
df5 = pd.DataFrame(dic5); df5

Unnamed: 0,data
0,1.0
1,2.0
2,
3,4.0
4,5.0
5,


이 df-pds df5에 포함되어 있는 NaN을 처리하기 위해 .fillna() method 를 사용해 보자.

In [None]:
df5['(0)'] = df5['data'].fillna(0)
df5['mean'] = df5['data'].fillna(df5['data'].mean())
df5['ffill'] = df5['data'].fillna(method='ffill')       # 이전 행의 값으로 대체
df5['bfill'] = df5['data'].fillna(method='bfill')       # 이후 행의 값으로 대체
df5

Unnamed: 0,data,(0),mean,ffill,bfill
0,1.0,1.0,1.0,1.0,1.0
1,2.0,2.0,2.0,2.0,2.0
2,,0.0,3.0,2.0,4.0
3,4.0,4.0,4.0,4.0,4.0
4,5.0,5.0,5.0,5.0,5.0
5,,0.0,3.0,5.0,


이러한 실행결과가 .fillna() method의 사용범에 관해 말해주는 것은 다음과 같다.
- 입력 인자로 0이나 평균값 등 어떤 값을 넣어주든지, 모든 NaN 요소들이 그 값으로 대체된다.
- method='ffill'을 입력인자로 넣어주면 NaN 요소들이 그 바로 전 요소의 값으로 대체 된다.
- method='bfill'을 입력인자로 넣어주면 NaN 요소들이 그 바로 다음 요소의 값으로 대체 된다.
- (cf) .fillna() method 를 적용한 결과가 바로 반영되도록 하려면 그 입력인자에 inplace = True를 추가해야 한다.
- (Q) 위에서 df-pds df4를 생성하기 위해, pd.DataFrame() class 의 제0 입력인자로 넣어준 list의 요소들 중 None 이 여러 개가 있었는데, 그 문장을 실행시켜서 만들어진 df4를 보면 'A','B','C' column 에서는 NaN으로 'D' column에서는 None으로 나타났다. 왜 이런 차이가 나타나는 것일까?

(A) 그것은 Pandas 가 column에 따라 기대하는 data의 type이 숫자이면, NaN(Not-a-Number) 으로, 아니면 None(data 없음)으로 표시하기 때문이다.
  - 다시 말하자면, 'A', 'B', 'C' column 은 None 외의 요소들이 다 숫자이므로 None이 '숫자 아님' 을 의미하는 NaN으로 표시가 된 것이고,
  - 'D' column은 숫자가 한개도 없으므로 숫자와 상관없이 값없음을 의미하는 None으로 표시된 것이다.
- 이 NaN에 상당하는 Numpy 상수는 numpy.nan, Pandas 상수는 pandas.NA 이다.

(예제 10.1) **None, numpy.nan, pandas.NA**, 그리고 **NaN** 에 대한 이해도를 높이기 위해 다음과 같은 df-pds를 만들어서, .isnull() method 를 적용해 보자

In [None]:
dic6 = {'이름' : ['NaN', pd.NA, None, np.nan],
        '물리' : [72, pd.NA, None, np.nan],
        '수학' : [72, 45, None, np.nan]}
df6 = pd.DataFrame(dic6); df6

Unnamed: 0,이름,물리,수학
0,,72.0,72.0
1,,,45.0
2,,,
3,,,


In [None]:
df6.isna()
#df6.isnull()

Unnamed: 0,이름,물리,수학
0,False,False,False
1,True,True,False
2,True,True,True
3,True,True,True


이 실행결과가 말해주는 것은 다음과 같다.
  - pandas.NA 나 numpy.nan 은 같은 column의 요소들이 숫자든 아니든간에 각각 <NA>와 NaN으로 표시되는데 비해, **core Python의 None은 같은 column의 요소들이 숫자냐 아니냐에 따라 NaN 또는 None 으로 표시된다.**
  - pandas.NA 와 numpy.nan 그리고 None이 모두 isnull() method 에 입력인자로 넣어주면 True가 반환되는 걸로 봐서 값 없음(missing value)으로 인식된다는 것을 알수 있다.
  - 하나의 string 'NaN'도 NaN으로 print 되어 겉보기로는 분간이 안되지만, 엄연히 종류가 다른 객체라는 사실은 그 type을 봐서도 알 수 있다.

In [None]:
type(df6['이름'][0]), type(df6['이름'][3]), type(np.nan)

(str, float, float)

###10.2.6 Data 값 바꾸기 - replace()

.repace() method 를 사용해서 pds에 속한 요소들의 값을 바꾸는 예를

In [3]:
import pandas as pd
import numpy as np

df7 = pd.DataFrame({'col1' : ['A', 'A', 'B', 'B'],
                    'col2' : ['a1', 'a2', 'b1', 'b2'],
                    'col3' : [2, 5, 4, np.nan],
                    })
df7

Unnamed: 0,col1,col2,col3
0,A,a1,2.0
1,A,a2,5.0
2,B,b1,4.0
3,B,b2,


이 df-pds df7에 포함되어 있는 'a1'과 'a2'를 똑같이 'a12'로 바꾸는 문장과 그 실행결과는 다음과 같다.
(cf) 단, 이 결과가 실제로 df7에 반영되도록 하려면 inplace=True 입력인자를 추가해야 한다.

In [4]:
df7.replace(['a1', 'a2'], 'a12')

Unnamed: 0,col1,col2,col3
0,A,a12,2.0
1,A,a12,5.0
2,B,b1,4.0
3,B,b2,


만약 'b1'과 'b2'를 각각 'b_1'과 'b_2'로 바꾸려면 다음과 같이 교체될 요소들로 구성된 list와 그들을 대체할 요소들로 구성 된 list 두 개를 입력인자로 넣어주거나

In [None]:
df7.replace(['b1', 'b2'], ['b_1', 'b_2'])

Unnamed: 0,col1,col2,col3
0,A,a1,2.0
1,A,a2,5.0
2,B,b_1,4.0
3,B,b_2,


 교체될 요소와 그것을 대체할 요소를 각각 key와 value로 가진 dictionary 를 입력인자로 넣어서, .replace() method를 실행시킨다.

In [None]:
df7.replace({'b1' : 'b_1', 'b2' : 'b_2'})

Unnamed: 0,col1,col2,col3
0,A,a1,2.0
1,A,a2,5.0
2,B,b_1,4.0
3,B,b_2,


가령, 'a2'라는 요소를 NaN으로 바꾸는 문장과 그 실행결과는 다음과 같다.

In [None]:
df7.replace('a2', np.nan)

Unnamed: 0,col1,col2,col3
0,A,a1,2.0
1,A,,5.0
2,B,b1,4.0
3,B,b2,


In [None]:
df7.replace('a2', None)

Unnamed: 0,col1,col2,col3
0,A,a1,2.0
1,A,,5.0
2,B,b1,4.0
3,B,b2,


In [None]:
df7.replace('a2', method='bfill')

Unnamed: 0,col1,col2,col3
0,A,a1,2.0
1,A,b1,5.0
2,B,b1,4.0
3,B,b2,


한편, 이 df-pds df7에 포함되어 있는 NaN을 처리하기 위해 .replace(np.nan, *) 또는 .fillna(*) method를 사용해 보자.

In [None]:
df7.replace(np.nan,0)
# df7.fillna(0)

Unnamed: 0,col1,col2,col3
0,A,a1,2.0
1,A,a2,5.0
2,B,b1,4.0
3,B,b2,0.0


###10.2.7 특정 조건을 만족시키는 Data 찾기 - where()

특정 조건을 만족시키는 data값(들)을, 가령 'col1' column의 값이 'A'이면서 'col3' column의 값이 4보다 큰 data (row)를 찾기 위해, .where method를 사용하는 예를 보자

In [7]:
filter = (df7['col1'] == 'A') & (df7['col3'] > 4)
df7.where(filter)

Unnamed: 0,col1,col2,col3
0,,,
1,A,a2,5.0
2,,,
3,,,


In [6]:
filter = (df7['col1'] == 'A') & (df7['col3'] > 4)
df7[:][filter]

Unnamed: 0,col1,col2,col3
1,A,a2,5.0


꼭, .where() method를 사용할 필요없이, 특정 조건을 직접 pds df7에 적용하는 **Boolean Indexing** 을 통해서도 그 조건을 만족시키는 data (row)를 찾을 수 있다.

In [None]:
df7[abs(df7['col3']) > 4]

Unnamed: 0,col1,col2,col3
1,A,a2,5.0


또한, .where() method의 제 1입력 인자로 어떤 값을 넣어줌으로써 (제 0입력 인자로 넣어준) 특정 조건을 만족시키지 않는 요소들을 그 값으로 대체할 수 있다.

In [None]:
inlier = lambda x : abs(x) <= 4
df7['col3'] = df7['col3'].where(inlier, np.nan);  df7

Unnamed: 0,col1,col2,col3
0,A,a1,2.0
1,A,a2,
2,B,b1,4.0
3,B,b2,


In [10]:
inlier = lambda x : abs(x) <= 4
df7['col3'][inlier] = np.nan
df7

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df7['col3'][inlier] = np.nan


Unnamed: 0,col1,col2,col3
0,A,a1,
1,A,a2,5.0
2,B,b1,
3,B,b2,


이것은 원래의 df-pds df7의 'col3' column에서 4이하의 수들을 그대로 남기고, 이 조건을 만족시키지 않는, 즉 4보다 큰 수(들)만 NaN으로 대체시킨 결과이다.

###10.2.8 합/평균/최소/최대치 구하기

pds에 대해 .sum(), .mean(), .min(), .max() method 등을 사용해서 여러가지 산술연산을 해보자.

In [11]:
df8 = pd.DataFrame([[4,2],[9,3],[-1,8],[5,np.nan]],
                   columns=['A', 'B'])
df8

Unnamed: 0,A,B
0,4,2.0
1,9,3.0
2,-1,8.0
3,5,


이 pds의 column별 합을 구하려면, .sum() method 를 사용한다.

In [None]:
df8.sum()     # 각 column 별 합계

A    17.0
B    13.0
dtype: float64

여기서 data 중에 NaN이 있더라도 무시되었는데, 만약 한 column의 요소들이 모두 NaN이라면 어쩔 수 없겠지만, 이 df8의 'B' column 처럼 한 개만 NaN이라도 그 column에 대한 연산을 포기하고, 결과를 NaN으로 처리하려면 입력인자로 skipna=False를 넣어준다.

In [None]:
df8.sum(skipna=False)

A    17.0
B     NaN
dtype: float64

그리고 만약, 각 column 별 합이 아니라 각 row 별 합을 구하고자 한다면, .sum() method 의 입력인자로 axis=1 을 넣어준다.

In [None]:
df8.sum(axis=1)     # axis=1 => 열(row) 별 합계

0     6.0
1    12.0
2     7.0
3     5.0
dtype: float64

이 .sum() method 외에도 각 column 별 최대/최소값이나 그 index를 구하는 .max() .min() .idxmax() .idxmin() 을 비롯해서 평균, 표준편차, 최소, 최대 등 통계적인 특징들을 한 꺼번에 구해주는 .describe() 등 여러가지 method들이 있습니다.

---
- Pandas Data Structure 에 대한 여러가지 산술연산 method

|Method|설명|비고|
|:---:|:---|:---|
|count|NaN이 아닌 수의 개수||
|min|최소값||
|max|최대값||
|idxmin|최소값의 index||
|idxmax|최대값의 index||
|sum|각 열(column) 또는 행(row)의 모든 요소들의 합||
|mean|각 열 또는 행의 모든 요소들의 평균||
|median|각 열 또는 행의 모든 요소들의 median||
|prod|각 열 또는 행의 모든 요소들의 곱||
|var|각 열 또는 행의 모든 요소들의 분산||
|std|각 열 또는 행의 모든 요소들의 표준편차||
|cumsum|각 열 또는 행의 모든 요소들의 누적합(cumulative sum)||
|cumprod|각 열 또는 행의 모든 요소들의 누적곱(cumulative product)||
|diff|각 열 또는 행의 이웃하는 요소들간의 차분(difference)||
|pct_change|각 열 또는 행의 이웃하는 요소들간의 차분(percent change)[%]||
|describe|평균,편차,최소/최대값 등 여러가지 통계적 ||


In [14]:
df8.max(axis=0)

A    9.0
B    8.0
dtype: float64

In [12]:
df8.max()   # 각 column의 최대값

A    9.0
B    8.0
dtype: float64

In [None]:
df8.idxmax()   # 각 column(열)의 최대값의 index

A    1
B    2
dtype: int64

In [None]:
df8.describe()  # 각 열의 요소 개수, 평균, 표준편차, 최소값 등

Unnamed: 0,A,B
count,4.0,3.0
mean,4.25,4.333333
std,4.112988,3.21455
min,-1.0,2.0
25%,2.75,2.5
50%,4.5,3.0
75%,6.0,5.5
max,9.0,8.0


###10.2.9 Function 적용과 Mapping - apply(), applymap(), assign()

.apply() method 를 적절히 활용하면, 위의 표의 Pandas DataFrame method 들보다 더 다양한 함수들을 (만들어서라도) pds를 적용할 수 있다.

In [15]:
df8.apply(np.sum, axis=1)

0     6.0
1    12.0
2     7.0
3     5.0
dtype: float64

In [None]:
df8.apply(np.sum)

A    17.0
B    13.0
dtype: float64

In [17]:
df8.sum(axis=1)

0     6.0
1    12.0
2     7.0
3     5.0
dtype: float64

In [None]:
df8.apply(np.sqrt)

Unnamed: 0,A,B
0,2.0,1.414214
1,3.0,1.732051
2,,2.828427
3,2.236068,


또한, 기존의 함수만 사용해선 바로 구할 수 없는, 가령 하나의 list나 ndarray에 대해 최대값과 최소값의 차이를 구하는 lambda 함수를

In [None]:
f = lambda x : max(x) - min(x)

.apply() method의 입력인자로 넣어줌으로써 (column 별로) 최대값과 최소값의 차이를 구할수 도 있고, (axis=1 을 입력인자에 추가로 넣어주면 row 별 연산)

In [None]:
df8.apply(f)

A    10.0
B     6.0
dtype: float64

한 개의 수를 제곱하는 lambda 함수를

In [None]:
f2 = lambda x : x ** 2

.apply() method의 입력 인자로 넣어줌으로써 각 요소들의 제곱을 구할 수도 있다.

In [None]:
df8.apply(f2)

Unnamed: 0,A,B
0,16,4.0
1,81,9.0
2,1,64.0
3,25,


그리고, applymap() method를 다음과 같이 활용해서 숫자를 표시하는 형식을 가령 소수점 이하 두 자리로 제한할 수도 있다.

In [None]:
format = lambda x : '%.2f' % x
df8.applymap(format)

Unnamed: 0,A,B
0,4.0,2.0
1,9.0,3.0
2,-1.0,8.0
3,5.0,


한 걸음 더 나아가 .assign() method 를 다음과 같이 활용해서 임의의 연산결과를 기존의 df-pds에 하나의 column으로 추가할 수도 있다.

In [None]:
c2f = lambda x : x.B * 9/5 + 32   # x.B는 x의 B속성이나 B열
df8_1 = df8.assign(C=c2f); df8_1

Unnamed: 0,A,B,C
0,4,2.0,35.6
1,9,3.0,37.4
2,-1,8.0,46.4
3,5,,


또한, clip() method 를 사용해서 수의 범위를 (가령, 36이상 45이하로) 제한할 수도 있다.

In [None]:
df8_2 = df8_1.copy()
df8_2['C'] = df8_2['C'].clip(36, 45)
df8_2

Unnamed: 0,A,B,C
0,4,2.0,36.0
1,9,3.0,37.4
2,-1,8.0,45.0
3,5,,


####[Remark 10.2] Pandas 에서 실수(float)형 숫자를 표시하는 형식(소수점 이하 자리수)의 지정 Pandas 에서 나타나는 실수형 숫자가 표시되는 형식을 일괄적으로 지정하여, 가령 소수점 이하 세 자리까지 표시되도록 하려면 다음과 같은 문장을 실행시킨다.

In [None]:
pd.options.display.float_format = '{:,.3f}'.format

###10.2.10 Group 별 Function 적용 - groupby(), agg(), apply(), pivot_table()

df-pds를 그 column 한 개 또는 그 이상의 값에 따라 여러 group으로 나누려고 할때. 다음과 같이 apply() method를 적용한다.

In [18]:
import pandas as pd

df = pd.DataFrame({'State' : ['CA', 'NY', 'NY', 'CA', 'NY', 'CA', 'CA', 'NY'],
                   'Gender' : ['M', 'M', 'F', 'F', 'F', 'F', 'M', 'M'],
                   'Income' : [21, 17, 23, 32, 25, 14, 29, 18],
                   'Expense' : [15, 21, 28, 13, 21, 18, 25, 15],
                   })
df

Unnamed: 0,State,Gender,Income,Expense
0,CA,M,21,15
1,NY,M,17,21
2,NY,F,23,28
3,CA,F,32,13
4,NY,F,25,21
5,CA,F,14,18
6,CA,M,29,25
7,NY,M,18,15


먼저, 'Income' column에서 'Expense' column을 빼서 (새로운) 'Revenue' column을 만들어 보자

In [19]:
df['Revenue'] = df['Income'] - df['Expense']; df

Unnamed: 0,State,Gender,Income,Expense,Revenue
0,CA,M,21,15,6
1,NY,M,17,21,-4
2,NY,F,23,28,-5
3,CA,F,32,13,19
4,NY,F,25,21,4
5,CA,F,14,18,-4
6,CA,M,29,25,4
7,NY,M,18,15,3


이 df-pds df의 'Gender' column 값에 따라 'F'와 'M' group 으로 나누기 위해 다음 문장을 실행시켜 얻어진 DataFrameGroupBy object 를 가령 'group_G' 라는 이름으로 저장하

In [23]:
groups_G = df.groupby('Gender')['State'].sum()
groups_G

Gender
F    NYCANYCA
M    CANYCANY
Name: State, dtype: object

In [21]:
groups_G = df.groupby('Gender')
groups_G

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7865aa25d000>

그 내용을 들여다 보기 위해 다음곽 같은 for loop 문장을 실행시킨다.

In [None]:
for name, group in groups_G:
  print(name), print(group)

F
  State Gender  Income  Expense  Revenue
2    NY      F      23       28       -5
3    CA      F      32       13       19
4    NY      F      25       21        4
5    CA      F      14       18       -4
M
  State Gender  Income  Expense  Revenue
0    CA      M      21       15        6
1    NY      M      17       21       -4
6    CA      M      29       25        4
7    NY      M      18       15        3


이 Gender 별 group 중에서 특히 어떤 group, 가령 M group 만을 꺼내 보려면 **.get_group()** method를 다음과 같이 사용하고

In [None]:
groups_G.get_group('M')

Unnamed: 0,State,Gender,Income,Expense,Revenue
0,CA,M,21,15,6
1,NY,M,17,21,-4
6,CA,M,29,25,4
7,NY,M,18,15,3


각 group의 (숫자로 구성된) 각 column 들에 대해 합을 구하려면 나눠진 group에 .sum() method를 적용하면 되고,

In [None]:
groups_G.sum()

Unnamed: 0_level_0,State,Income,Expense,Revenue
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
F,NYCANYCA,94,80,14
M,CANYCANY,85,76,9


각 group 별로 'Income', 'Revenue' column 의 합/평균을 구하려면, 다음과 같이 column 이름을 key로, 적용 함수 이름을 value로 가진 dictionary 를 .agg() method 의 입력인자로 넣어서,

In [None]:
groups_G.agg({'Income' : 'sum', 'Revenue' : 'mean'})

Unnamed: 0_level_0,Income,Revenue
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
F,94,3.5
M,85,2.25


그리고, 여기에 column 이름까지 (가령 적용 함수의 의미를 담도록) 바꾸고 싶다면 다음과 같이 .agg() method 를 사용한다.

In [None]:
groups_G.agg(수입_합계=('Income', 'sum'), 수익_평균=('Revenue', 'mean'))

Unnamed: 0_level_0,수입_합계,수익_평균
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
F,94,3.5
M,85,2.25


각 group 별 통계적 특성을 구하려면 (groups_G 를 구성하는 각 group 에 대해) .describe() method 를 적용하는 lambda 함수를 .apply() method의 입력인자로 넣어서 실행시킨다.

In [None]:
groups_G.apply(lambda x : x.describe())

Unnamed: 0_level_0,Unnamed: 1_level_0,Income,Expense,Revenue
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
F,count,4.0,4.0,4.0
F,mean,23.5,20.0,3.5
F,std,7.416,6.272,11.091
F,min,14.0,13.0,-5.0
F,25%,20.75,16.75,-4.25
F,50%,24.0,19.5,0.0
F,75%,26.75,22.75,7.75
F,max,32.0,28.0,19.0
M,count,4.0,4.0,4.0
M,mean,21.25,19.0,2.25


또한, 위 df-pds df를 'State'와 'Gender', 두 column 의 값에 따라 CA-F, CA-M, NY-F, NY-M group 으로 나누고, 각 group의 (숫자로 구성된) 각 column들에 대한 합(한 개밖에 없다면 바로 그 값)을 구하려면 다음 문장들을 실행시킨다.

In [None]:
groups_SG = df.groupby(['State', 'Gender'])
groups_SG.sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Income,Expense,Revenue
State,Gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,F,46,31,15
CA,M,50,40,10
NY,F,48,49,-1
NY,M,35,36,-1


그리고 만약, 어떤 column값을 (row) index로, 다른 어떤 column 값을 차상위 (level 1) column label 로 table 을 구성하되, (row) index 및 column label 이 동일한 요소가 두 개 이상인 경우, 그 값들을 더해주기 위해서는, .pivot_table() 함수를 다음과 같이 사용한다.

In [None]:
table = pd.pivot_table(df, index='Gender', columns='State', aggfunc='sum')
table

Unnamed: 0_level_0,Expense,Expense,Income,Income,Revenue,Revenue
State,CA,NY,CA,NY,CA,NY
Gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
F,31,49,46,48,15,-1
M,40,36,50,35,10,-1


In [None]:
table['Income']['NY']['F']

48

###10.2.11 Column 기준 Data 정렬 - pivot()

한 df-pds 에서 (가령 다음 df-pds df의 State, Gender column 처럼) 두 column의 값들이 모두 일치하는 data 가 없는 경우, 한 column의 (unique 한) 값들을 index로, 다른 column의 (unique 한) 값들을 (level 1) column label 로 가진 table 을 만들고 싶으면, .pivot() method 를 다음과 같이 사용한다.

In [None]:
df = pd.DataFrame({'State' : ['CA', 'NY', 'NY', 'CA', 'PA', 'TX', 'PA', 'TX'],
                   'Gender' : ['M', 'M', 'F', 'F', 'F', 'F', 'M', 'M'],
                   'Income' : [21, 17, 23, 32, 25, 14, 29, 18],
                   'Expense' : [15, 21, 28, 13, 21, 18, 25, 15],
                   })
df

Unnamed: 0,State,Gender,Income,Expense
0,CA,M,21,15
1,NY,M,17,21
2,NY,F,23,28
3,CA,F,32,13
4,PA,F,25,21
5,TX,F,14,18
6,PA,M,29,25
7,TX,M,18,15


In [None]:
df.pivot(index='Gender', columns='State')

Unnamed: 0_level_0,Income,Income,Income,Income,Expense,Expense,Expense,Expense
State,CA,NY,PA,TX,CA,NY,PA,TX
Gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
F,32,23,25,14,13,28,21,18
M,21,17,29,18,15,21,25,15


##10.3 두 Pandas DataFrame 의 통합

이 절에서는 data row의 개수도 column의 개수도 서로 다른 두 개의 df-pds 를 통합하는 것에 대해 알아본다.

###10.3.1 Concatenating 과 Combining - concat(), combine_first()

이 절에서는 두 개의 df-pds를 통합하는데 사용될 수 있는 .concat() 함수와 .combine_first() method 를 경험해 보자.

In [None]:
df1 = pd.DataFrame({'이름' : ['홍길동', '최창관', '성춘향'],
                    '보통예금' : [1200, 2300, 1400],
                    '정기예금' : [3400, 2900, 2600]},
                   index = [1012, 1011, 2010])
df1.index.name = 'ID'

df2 = pd.DataFrame({'이름' : ['홍길동', '이몽룡'],
                    '보통예금' : [2100, 3400],
                    '정기예금' : [2700, 4700]},
                   index = [1012, 1010])
df2.index.name = 'ID'

In [None]:
df1

Unnamed: 0_level_0,이름,보통예금,정기예금
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1012,홍길동,1200,3400
1011,최창관,2300,2900
2010,성춘향,1400,2600


In [None]:
df2

Unnamed: 0_level_0,이름,보통예금,정기예금
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1012,홍길동,2100,2700
1010,이몽룡,3400,4700


이 두개의 df-pds df1과 df2를 상하 방향으로 통합하기 위해 그들로 구성된 list를 pd.concat() 함수에 입력인자로 넣어서 실행시켜 보자.

In [None]:
pd.concat([df1, df2])

Unnamed: 0_level_0,이름,보통예금,정기예금
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1012,홍길동,1200,3400
1011,최창관,2300,2900
2010,성춘향,1400,2600
1012,홍길동,2100,2700
1010,이몽룡,3400,4700


- 이것은 수평방향으로는 같은 label을 가진 column이 있다면 같은 column으로 합성되고, 그렇지 않은 column 들은 독립적으로 들어갔으며,
- 수직 방향으로는 두 df-pds 의 index 들 중 서로 일치하는 것이 있든 말든 data row 들이 그냥 (물리적으로) 합쳐지면서, 빈 자리는 NaN으로 채워진 것으로서, 이 경우 ID 1012 두 개가 중복되어 있어 꺼림직하다. 이러한 수직적 통합이(NaN이 없는) 보다 의미있는 결과를 줄 수 있으려면 두 df-pds가 그 index 들끼리는 전형 중복되지 않고 column label 들끼리는 완벽히 중복되어 있어야 한다.

이제 위 두개의 df-pds를 좌우방향으로 통합하기 위해 pd.concat() 함수에 입력인자로 (통합될) df-pds의 이름을 df1, df2로 구성된 list와 함께, axis 입력 인자의 값을 1로 넣어서 실행시켜 보자.

In [None]:
pd.concat([df1, df2], axis=1)

Unnamed: 0_level_0,이름,보통예금,정기예금,이름,보통예금,정기예금
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1012,홍길동,1200.0,3400.0,홍길동,2100.0,2700.0
1011,최창관,2300.0,2900.0,,,
2010,성춘향,1400.0,2600.0,,,
1010,,,,이몽룡,3400.0,4700.0


- 이것은 수직방향으로는 동일한 index를 가진 data row 들은 합쳐지고, 그렇지 않은 data row 들은 독립적으로 들어갔으며,
- 수평방향으로는 두 df-pds의 column label 중 서로 일치하는 것이 있든 말든 data row 들이 그냥 (물리적으로) 합쳐지면서, 빈 자리는 NaN으로 채워진 것으로, 이 경우, '보통예금' column 두 개가 중복되어 있어 꺼림직하다. 그런데, 이러한 수평적 통합이 (NaN이 없는) 보다 의미있는 결과를 가져올 수 있으려면 두 df-pds가 그 index 들끼리는 완벽히 중복되고 column label 들끼리는 전혀 중복되지 않아 있어야 한다. 그러지 않아서 이렇게 column 들이 통합되지 않고 이름이 중복된 채로 남아 있는 꼴이 마음에 들지 않으면 그 source df(DataFrame) 에 따라 column label 들이 구분될 수 있도록 상위 column label 을 추가하기 위해 pd.concat() 함수의 력 인자에 그 두 df로 구성된 list 대신, 각 df를 표시하는 상위 column label과 그 df이름의 쌍들을 key-value 로 가진 dictionary 를 넣어서 실행시킨다.

In [None]:
pd.concat({'df1':df1, 'df2':df2}, axis=1)

Unnamed: 0_level_0,df1,df1,df1,df2,df2,df2
Unnamed: 0_level_1,이름,보통예금,정기예금,이름,보통예금,정기예금
ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1012,홍길동,1200.0,3400.0,홍길동,2100.0,2700.0
1011,최창관,2300.0,2900.0,,,
2010,성춘향,1400.0,2600.0,,,
1010,,,,이몽룡,3400.0,4700.0


그런데, 이 결과를 보면 통합되기 전 두 df 들간에 중복되었던 '보통예금' column 이 (source df별로) 구분되어 표시된 것은 바람직할 수도 있지만, 당연히 통합될 법한 '이름' column 도 따로 표시되었기 때문에 그다지 바람직하지 않은 것 같다.
- 이제 위 두개의 df-pds를 병합하기 위해 .combine_first() method를 적용해 보자

In [None]:
df1.combine_first(df2)

Unnamed: 0_level_0,이름,보통예금,정기예금
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1010,이몽룡,3400,4700
1011,최창관,2300,2900
1012,홍길동,1200,3400
2010,성춘향,1400,2600


- 이것은 수직방향으로는 동일한 index를 가진 data row 들이 하나의 data row 로 합성되고, 그렇지 않은 data row 들은 독립적으로 들어갔으며,
- 수평방향으로도 두 df-pds의 column label 중 서로 일치하는 것이 있으면 하나의 column 으로 합성되고, 그렇지 않은 columne 들은 독립적으로 들어가면서,
  - (가령 ID 1010 의 '이름' 처럼) 어떤 자리에 두 df-pds 중 하나만 값을 가지고 있다면 바로 그 값이 그 자리에 채워지고
  - (가령 ID 1012 의 '보통예금' 처럼) 어떤 자리에 두 df-pds가 서로 다른 값을 가지고 있다면, 그 자리는 calling pds df1 의 값으로 채워지고,
  - (가령 ID 1011 의 '저축예금' 처럼) 어떤 자리에 두 df-pds 모두 값을 가지고 있지 않으면 그 자리의 값은 NaN으로 채워진 것이다.
- 만약 어떤 이유로든 NaN을 0으로 대체하고자 한다면 다음과 같이 .fillna() method를 부가적으로 사용하면된다.

In [None]:
df1.combine_first(df2).fillna(0)

Unnamed: 0_level_0,이름,보통예금,정기예금
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1010,이몽룡,3400,4700
1011,최창관,2300,2900
1012,홍길동,1200,3400
2010,성춘향,1400,2600


- 이와 같이 (row) index 또는 column label 이 일부라도 중복되는 부분을 가진 두 pds 를 병합할 목적으로 .combine_first() method 를 사용하면, 일단 index 들도 column label 들도 중복된 것이 없기 때문에 (.concat() method 를 사용한 것에 비해) 의미있는 결과가 얻어진 것처럼 보인다.
- 그러나 이 결과도 두 pds 의 값이 충돌하는 자리에는 calling pds 의 값이 우선적으로 채워짐으로써 완벽하게 바람직한(화학적) 통합이라고 보긴 어렵다. 가령 홍길동의 보통예금 액수는 두 pds의 값의 합이 되든지, 또는 보통예금이라는 column label 은 똑같더라도 어떤 식으로든 구분되어야 마땅하지 않겠는가?
- 참고도, pd.concat() 함수와 .combine_first() method가 둘 다 확실히 의미있는 data 통합결과를 보여주는 경우는, 가령 다음과 같이 두 df가 index들끼리는 전혀 중복되지 않으면서 그 column label 끼리는 완벽하게 일치하는 경우뿐이다.

In [None]:
df3 = pd.DataFrame({'이름' : ['한석봉', '이몽룡'],
                    '보통예금' : [2100, 3400],
                    '정기예금' : [2700, 4700]},
                   index = [1007, 1010])
df3.index.name = 'ID'

In [None]:
df1

Unnamed: 0_level_0,이름,보통예금,정기예금
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1012,홍길동,1200,3400
1011,최창관,2300,2900
2010,성춘향,1400,2600


In [None]:
df3

Unnamed: 0_level_0,이름,보통예금,정기예금
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1007,한석봉,2100,2700
1010,이몽룡,3400,4700


In [None]:
pd.concat([df1, df3])

Unnamed: 0_level_0,이름,보통예금,정기예금
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1012,홍길동,1200,3400
1011,최창관,2300,2900
2010,성춘향,1400,2600
1007,한석봉,2100,2700
1010,이몽룡,3400,4700


In [None]:
df1.combine_first(df3)

Unnamed: 0_level_0,이름,보통예금,정기예금
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1007,한석봉,2100,2700
1010,이몽룡,3400,4700
1011,최창관,2300,2900
1012,홍길동,1200,3400
2010,성춘향,1400,2600


보라, 이 NaN이 하나도 없는 통합결과, 느낌이 편안하지 않은가?

####(예제 10.2) 한 경로내에 있는 CSV 파일들을 하나의 DataFrame으로 통합하

In [None]:
# Case.1
import pandas as pd

# 특정 경로에 있는 여러 개의 csv 파일들을 하나의 DataFrame으로 통합
MyPath = 'D:/Python/data/'
file_nos = [1,2,3]
n = 0

for file_no in file_nos:
  filename = MyPath + f'grade0{file_no}.csv'
  dfn = pd.read_csv(filename)
  dfn['class'] = file_no
  if n == 0: dfs = dfn
  else: dfs = pd.concat([dfs, dfn], ignore_index=True)
  n = n + 1

print(dfs)

FileNotFoundError: [Errno 2] No such file or directory: 'D:/Python/data/grade01.csv'

In [None]:
# Case.2
import pandas as pd

# 특정 경로에 있는 여러 개의 csv 파일들을 하나의 DataFrame으로 통합
MyPath = 'D:/Python/data/'
file_nos = [1,2,3]
dfns = []

for file_no in file_nos:
  filename = MyPath + f'grade0{file_no}.csv'
  dfn = pd.read_csv(filename)
  dfn['class'] = file_no
  dfns.append(dfn)

dfs = pd.concat(dfns, ignore_index=True)

print(dfs)

In [None]:
# Case.3
import pandas as pd

# 특정 경로에 있는 여러 개의 csv 파일들을 하나의 DataFrame으로 통합
MyPath = 'D:/Python/data/'
file_nos = [1,2,3]
dfns = []

for file_no in file_nos:
  filename = MyPath + f'grade0{file_no}.csv'
  dfn = pd.read_csv(filename, index_col = ['Name'])
  dfn['class'] = file_no
  dfns.append(dfn)
dfs = pd.concat(dfns, ignore_index=True)
print(dfs)

foname = 'grade_out.csv'    # 출력 파일명
dfs.to_csv(MyPath + foname, sep = ',', index=True)

###10.3.2 Merging 과 Joining - merge(), join()

이 절에서는 두 개의 df-pds 를 통합하는 데 사용될 수 있는 또 다른 Pandas 함수 또는 method 인 .merge() 와 .join()에 대해 알아보자.

In [None]:
import pandas as pd

df1 = pd.DataFrame({'ID' : [1012, 1011, 2010],
                    '이름' : ['홍길동', '최참관', '성춘향'],
                    '보통예금' : [1200, 2300, 1400],
                    '정기예금' : [3400, 2900, 2600]})
df2 = pd.DataFrame({'ID' : [1012, 1010],
                    '이름' : ['홍길동', '이몽룡'],
                    '보통예금' : [2100, 3400],
                    '정기예금' : [2700, 4700]})

In [None]:
df1

In [None]:
df2

- 이 두개의 pds df1과 df2를 통합하기 위해
  - df1에다 (df2를 제0 입력인자로 한) .merge() method를 적용하되,
  - 'ID'와 '이름' column 을 통합기준으로 지정하기 위해 그들로 구성된 tuple을 on 입력인자로 넣어주고,
  - 두 df의 data가 (합집합 처럼) 다 포함되도록 하기 위해 how 입력인자로 'outer'를,
  - 그리고 두 df간에 (통합기준으로 지정 된 column들을 제외하고) 공통된 column label 이 있다면 그들이 구분되도록 하기 위해 붙여줄 어미(suffix)로 구성된 tuple을 suffixex 입력인자로 넣어준다.

In [None]:
df1.merge(df2, on=('ID', '이름'), how='outer', suffixes=('_1', '_2'))

이 결과를 보면, 통합기준으로 지정 된 'ID'와 '이름' column 이 과연 중복되지 않았고, 그 외에 두 df간에 중복 포함되어 있었던 '보통예금' column은 구분되도록 각 각 '_1'과 '_2'라는 어미가 붙어있으며, 허깨비처럼 나타난 NaN들도 그 자리에 해당되는 data가 없다는 것을 나타내므로 아무런 하자가 없는 것이다.
- 다만, NaN을 어떤 값으로 처리할 것인가 하는 문제가 남아있는데, 그것은 data 통합의 성격과 목적에 따라서 사용자가 적절하게 판단해서 결정해야 한다. 이러한 결과는 .merge() 함수를 사용하되, 통합할 두 개의 df를 그 제0,1입력인자로 넣어서 실행시킴으로써 얻을 수도 있다.

In [None]:
pd.merge(df1, df2, on=('ID', '이름'), how='outer', suffixes=('_1', '_2'))

이 결과는 두 개의 df-pds의 통합기준이 일부 중복되면서도 일치하지는 않은 경우에 그 들을 대조 검토하는 목적으로 사용하기에 .merge() 함수가 적절하다는 것을 보여준다.
- 이제 위 두개의 df-pds 를 index-based 형태로 바꿔서 .merge() 함수를 적용해보자.

In [None]:
df1_id = df1.set_index('ID'); df1_id

In [None]:
df2_id = df2.set_index('ID'); df2_id

In [None]:
pd.merge(df1_id, df2_id, left_index = True, right_index = True, how='outer')

이 결과는 위에서 index 가 아닌, 공통된 column 을 기준으로 통합한 결과와 일치한다. 이제 .join() method 를 적용해 보자

In [None]:
df = df1_id.join(df2_id, how='outer', lsuffix = '_1', rsuffix = '_2');  df

여기서, 위에서 처럼 df1에 .set_index() method를 적용해서 'ID' column 을 index 로 내세우는 대신, column label 'ID'를 on 입력인자의 값으로 지정해서 실행시켜도 비슷한 결과가 얻어진다.

In [None]:
df = df1.join(df2_id, on = 'ID', how='outer', lsuffix = '_1', rsuffix = '_2');  df

- 그런데 이 통합결과를 보면 비록 틀린건 없지만, source pds에 따라 어미로 구분된 '이름_1'과 '이름_2', 그리고 '보통예금_1'과 '보통예금_2' column까지 합치면 더 깔끔할 것 같다.
- 먼저 '이름_1'과 '이름_2' column을 합칠 목적으로, '이름_1' column 의 값들 중에서 NaN 들을 '이름_2' column 의 값들로 채워서 새로운 '이름' column을 만든 후에 두 column을 지워버리기 위해 다음 문장들을 실행 시키면,

In [None]:
df['이름'] = df['이름_1'].where(df['이름_1'].notna(), df['이름_2'])
df.drop(['이름_1', '이름_2'], axis = 1, inplace = True)
df

와 같은 결과가 얻어진다. 이어서, '보통예금_1'과 '보통예금_2' column을 병합할 목적으로 없는 통장의 잔고를 의미하는 NaN을 모두 0으로 기록한 후에 더하여 새로운 column '보통예금'을 만들고 나서 두 column을 지워버리기 위해 다음 문장들을 실행시키면,

In [None]:
df = df.fillna(0)
df['보통예금'] = df['보통예금_1'] + df['보통예금_2']
df.drop(['보통예금_1', '보통예금_2'], axis=1, inplace=True)
df

와 같은 결과가 얻어진다. 여기서, 만약 이름 column 을 맨 왼쪽에 배치하고 싶으면, column 들의 순서를 바꾸는 다음 문장을 실행시키면 된다.

In [None]:
df = pd.DataFrame(df, columns = ['이름', '보통예금', '정기예금', '저축예금'])
df

####[Remark 10.3] .concat() .combine_first() vs .merge() .join()

1. concat() method 는 index를 기준으로 해서 두 개의 df-pds 를 통합할 목적으로 적용된다. 이 method는 axis 입력 인자의 값을 설정하지 않거나 0(default)으로 설정하면 수직방향 으로는 두 df-pds 의 index들 중 서로 일치하는 것이 있든 말든 data row 들을 그냥 (물리적으로) 합치고, 수평방향으로는 같은 label을 가진 column이 있다면 한 column 으로 합성하며, 그렇지 않은 column들은 독립적으로 넣어주면 빈 자리가 있다면 NaN으로 채워 넣는다. 그런데 이렇게 하면 index가 중복되어 걸리적 거릴 수가 있으므로, 이러한 수직적 통합이(NaN이 없는) 보다 의미있는 결과를 낳을 수 있으려면 두 df-pds가 그 index들 끼리는 전혀 중복되지 않고, column label 들 끼리는 완벽하게 중복되어 있어야 한다.한편 axis 입력인자의 값을 1로 해서 넣어주면, 수직방향으로는 동일한 index를 가진 data row들은 합치고, 그렇지 않은 data row 들은 독립적으로 넣어주면, 수평방향으로는 두 df-pds의 column label 중 서로 일치하는 것이 있든 말든 data row 들을 그냥 (물리적으로) 합치면서, 빈 자리는 NaN으로 채워넣는다. 그런데 이렇게 하면 Column label 들끼리는 전혀 중복되지 않아 있어야 한다. 또한 column 들이 통합되지 않고 이름만 중복되어 있는 꼴이 싫다면 그 source df(DataFrame)에 따라 column label 들이 구분될 수 있도록 상위 column label을 추가할 수도 있다.
2. (row) index 또는 column label 이 일부라도 중복되는 부분을 가진 두 df-pds를 통합할 목적으로 .combine_first() method를 사용하면, 일단 index 들도 column label 들도 중복되지 않은 결과를 주긴 하지만, 두 df의 값이 충돌하는 자리가 있다면 그 자리에 calling df의 값이 우선적으로 채워짐으로써 완전히 바람직한(화학적)통합이라고 볼수는 없다. 그러므로 이 method는 두 df중 한개, 가령 df1이 df2보다 훨씩 믿음직한 자료로서, df1에 없는 부분에 대해서만 df2를 인용하고자 하는 경우에 적절한 method이다.
3. pd.concat() 함수와 .combine_first() method 가 둘 다 확실히 의미있는 data 통합결과를 보여주는 경우는, 두 df-pds가 indext들끼리는 전혀 중복되지 않으면서 그 column label은 완벽하게 일치하는 경우 뿐이다.
4. .merge() method 는 on 입력인자를 통하여, index 대신 두 df-pds에 공통된 column(들)을 통합기준으로 지정할 수 있다. how 입력인자의 값을 지정하지 않거나 'inner'로 지정하면 두 df의 교집합 같은 것을, 'outer'로 지정하면 두 df-pds의 합집합 같은 것을 만들어 준다. 또한 두 df 간에(통합기준으로 지정된 column 들을 제외하고) 공통된 column label 이 있다면 그들이 구분되도록 하기 위해 붙여줄 어미(suffix)로 구성된 tuple을 suffixed 입력인자로 넣어줄 수 있으므로, (보통 data의 속성을 의미하는) column label 이 중복디는 df-pds들을 대조 검토하는 데 유용한 method 로 볼 수 있다)
5. 'join() method 는 .merge() method와 약간 달리, 두 번째 df가 (통합기준으로 사용될) index를 갖고 있는 색인 기반(index-based) 형태라야 하고, 첫 번째 df는 색인 기반 형태가 아니라면 on 입력인자로 통합기준 column 이름을 지정해줄 필요가 있으며, source df 를 구분하는데 필요한 어미(suffix)를 전달하는 입력인자 형식이 .merge() method 와 약간 다를 뿐 큰 차이는 없으므로, 두 method 중 하나만 알아두어도 충분하다.
6. .join()과 .merge() method는 둘 다 how 입력인자를 'inner'/'outer'로 지정해 주면 두 df-pds 의 교집합/합집합 같은 것을 만들어 내고, 'left'/'right'로 지정해주면 왼쪽/오른쪽 df의 data row만 모두 포함하면서 그 data row들에 대해 다른 df가 가진 부분이 있다면 그것만 채워 넣는 통합방식을 취하게 된다.

###10.3.3 행/열 개수가 다른 두 DataFrame 의 병합

##10.4 Pandas Time Series Data

###10.4.1 Timestamp와 DatetimeIndex

###10.4.2 Period 와 PeriodIndex

###10.4.3 Resampling - Frequency 변환

###10.4.4 두 Time Series DataFrame 통합