# Pandas 데이터 구조
- 작성자: 고려대학교 경제학과 한치록 교수

Pandas 데이터 구조는 [Pandas User Guide](https://pandas.pydata.org/docs/user_guide/index.html)의 [Intro to data structures](https://pandas.pydata.org/docs/user_guide/dsintro.html)에 잘 설명되어 있다. 이하는 이 문서를 참조한 것이다. Pandas 데이터 구조 중 1차원은 `Series`, 2차원은 `DataFrame`이라 한다. 계량경제 분석에서 1차원 데이터를 사용하는 경우는 거의 없으며 대부분의 작업에서 `DataFrame`을 활용할 것이다. 그런데 `DataFrame`은 `Series`를 특정한 방식으로 모아놓은 것이기 때문에 `Series`에 대해 알아두는 것도 도움이 된다.

## Series
먼저 `Series`에 대하여 살펴보자. `Series`는 데이터 벡터(1차원 array로서 `ExtensionArray`)에 인덱스를 붙인 것으로 생각하면 된다. 시각적으로, 열 벡터 또는 $n\times 1$ 행렬이라고 생각하면 좋다. '인덱스'(index)란 행의 이름에 해당한다. 다음 예를 보면 분명하다.


In [1]:
import pandas as pd
pd.Series([10,20,30], index=["a","b","c"])

a    10
b    20
c    30
dtype: int64

위 예에서 10, 20, 30은 데이터이고 행 이름은 a, b, c이다. `pd.Series([10,20,30])`과 같이 별도로 인덱스를 지정하지 않으면 0, 1, 2,... 이런 식으로 인덱스가 자동으로 붙는다.

In [2]:
pd.Series([10,20,30])

0    10
1    20
2    30
dtype: int64

행 이름이 0, 1, 2임을 알 수 있다. 참고로, (별로 쓸 일은 없겠지만) 다음과 같이 dictionary로부터 Series를 만들 수도 있다. 먼저 dictionary를 만든다.

In [3]:
dict = {"a": 10, "b": 20, "c": 30}
dict

{'a': 10, 'b': 20, 'c': 30}

그 다음에 이것으로부터 Series를 만들 수 있다.

In [4]:
pd.Series(dict)

a    10
b    20
c    30
dtype: int64

데이터 부분에 scalar 값 하나만 쓰고 Series를 만들 수도 있다. `pd.Series(5.0, index=["a", "b", "c"])`라고 하면 5.0 값을 3번 반복해서 사용하는 것으로서, `pd.Series([5.0, 5.0, 5.0], index=["a", "b", "c"])`와 같다.

In [5]:
pd.Series(5.0, index=["a", "b", "c"])

a    5.0
b    5.0
c    5.0
dtype: float64

대부분의 계량경제 분석에서 데이터는 파일로부터 읽어들일 것이기 때문에 이상의 내용은 별로 사용할 일이 없을 것이다.

Series를 만든 다음 `[]` 기호를 사용해서 일부를 추출하는 등을 할 수 있다. 다음 예는 시리즈를 만들고 s의 평균인 5.5보다 큰 값들만 추출한다.

In [6]:
s = pd.Series(range(1,11))
s[s > s.mean()] # s.mean() = 5.5

5     6
6     7
7     8
8     9
9    10
dtype: int64

In [7]:
s[:3]

0    1
1    2
2    3
dtype: int64

보다 상세한 내용은 [Pandas User Guide](https://pandas.pydata.org/docs/user_guide/index.html)를 참고하기 바란다.

## Data Frame
`DataFrame`은 각 변수별로 변수값의 벡터를 저장한다. 엑셀의 열(column)별로 값들의 벡터가 저장된다고 생각하면 좋다. 이 문서는 pandas의 [Getting started tutorials](https://pandas.pydata.org/docs/getting_started/intro_tutorials/)를 참조하여 만들었다. 먼저 다음과 같은 '데이터프레임'을 만들어 보자.

In [1]:
import pandas as pd
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)
df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


각 변수에 해당하는 Series는 `df["Name"]`과 같이 하여 추출할 수 있다.

In [9]:
df["Name"]

0     Braund, Mr. Owen Harris
1    Allen, Mr. William Henry
2    Bonnell, Miss. Elizabeth
Name: Name, dtype: object

In [10]:
df["Sex"]

0      male
1      male
2    female
Name: Sex, dtype: object

Python의 기본 데이터 구조인 리스트로 바꾸려면 `tolist()` 메쏘드를 사용한다.

In [11]:
df['Sex'].tolist()

['male', 'male', 'female']

NumPy의 `ndarray`로 바꾸려면 `to_numpy()` 메쏘드를 사용한다.

In [12]:
df['Sex'].to_numpy()

array(['male', 'male', 'female'], dtype=object)

`df[...]`라고 하면 행들이 선택되는데, 이 행을 선택하는 데에는 [특별한 문법](https://pandas.pydata.org/docs/user_guide/indexing.html)이 필요하다. 예를 들어 0\~5 인덱스(즉, 1\~6행)는 `df[0:5]`라고 해도 되고 `df[:5]`라고 해도 된다. 아래 예에서는 `df` 자체에 3개 행밖에 없으므로 `:5`라고 해도 3개밖에 선택되지 않는다.

In [13]:
df[:5]

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


0\~1 행 인덱스(1\~2행)에서 `Age`와 `Sex` 칼럼을 선택하려면 다음 방법을 사용한다.

In [14]:
df.loc[:2, ['Age', 'Sex']]

Unnamed: 0,Age,Sex
0,22,male
1,35,male
2,58,female


2행 이하(즉 행 인덱스 1 이하)의 열 인덱스 0과 2(즉, 1열과 3열)을 선택하는 방법은 다음과 같다.

In [15]:
df.iloc[1:, [0,2]]

Unnamed: 0,Name,Sex
1,"Allen, Mr. William Henry",male
2,"Bonnell, Miss. Elizabeth",female


`df[1]`이라고 하면 제2행(행 인덱스 1)이지만, `df[:,1]`이라고 하면 2열이 선택되지 않고 오류가 발생한다. 그 대신 `df.iloc[:,1]`이라고 하면 2열 선택된다. 그런데 `df['Age']`라고 하면 제2열(열 인덱스 1)이 선택된다. `df[:,'Age']`라고 하면 안 된다. `df.loc[:,'Age']`라고 하면 된다. `df[df.columns[1]]`이라고 하면 `df.columns[1]`이 칼럼명의 두 번째 원소이므로 `'Age'`와 같고, 따라서 `df[df.columns[1]]`은 `df['Age']`와 같아서 `Age` 칼럼을 얻는다. 여러 가지를 시험해 보았더니 결과는 다음과 같았다.

```python
df[df.Sex=='male']  # OK. df.Sex=='male'인 행들로 이루어진 DataFrame
df[[True,True,False]] # OK. 위와 동일
df[[0,1]] # 오류
df[:1] # OK. 행 인덱스 0 (즉, 1행)의 DataFrame
df[1:] # OK. 행 인덱스 1~ (즉 2~끝행)의 DataFrame
df[1:2] # OK. 행 인덱스 1(즉, 2행)의 DataFrame
df[1:1] # OK. Empty DataFrame 
df[1]  # 오류
df[:2,0] # 오류
df[:2,:2] # 오류
df[[0,1], :2]  # 오류
df[[0,1], 'Age'] # 오류
df['Age']  # OK. "Age" 칼럼(Series)
df[df.columns[0]] # OK. 첫 번째 칼럼(Series)
df[:,'Age'] # 오류
df.loc[:,'Age'] # OK "Age" 칼럼의 Series
df.loc[:2,'Name'] # OK. 1~2행, "Name"열의 Series
df.loc[:2,['Name']] # OK. 1~2행, "Name"열의 DataFrame
df.loc[df.Sex=='male'] # OK
df.loc[[True,True,False]] # OK
df.loc[(df.Sex=='male').tolist()] # OK
df.iloc[1] # OK. 행 인덱스 1(즉, 2행)의 원소들로 이루어진 Series
df.iloc[:2,0] # OK. 1~2행, 1열의 Series
df.iloc[:2,:2] # OK
df.iloc[:2,[0,1]] # OK. DataFrame
df.iloc[[0,1],[0,1]] # OK
df.iloc[df.Sex=='male'] # 오류
df.iloc[[True,True,False]] # OK. 행 인덱스 0과 1로 이루어진 DataFrame
df.iloc[(df.Sex=='male').tolist()] # OK. 위와 동일
```

왜 이런 식으로 디자인해야 했는지 이해하기는 어렵지만 어쩔 수 없다. 가장 간편한 방법은 칼럼을 이름으로 참조하고 `.loc`를 사용하는 것이다. 칼럼명은 직접 사용하거나 다음과 같이 칼럼명을 추출한다.

```python
cols = df.columns
cols[[0,2]]
```

### 변수 생성 등
`Age`의 제곱은 다음과 같이 만들 수 있다. 아래에서 우변은 `df["Age"]**2`라고 해도 좋다. 하지만 좌변을 `df.AgeSq`라고 해서는 안 된다.

In [16]:
df["AgeSq"] = df.Age**2
df

Unnamed: 0,Name,Age,Sex,AgeSq
0,"Braund, Mr. Owen Harris",22,male,484
1,"Allen, Mr. William Henry",35,male,1225
2,"Bonnell, Miss. Elizabeth",58,female,3364


40세 미만인지를 나타내는 더미변수, 여성 더미변수는 다음과 같이 만들 수 있다.

In [17]:
df["Below40"] = 1*(df.Age < 40)
df["female"] = 1*(df.Sex=="female")
df

Unnamed: 0,Name,Age,Sex,AgeSq,Below40,female
0,"Braund, Mr. Owen Harris",22,male,484,1,0
1,"Allen, Mr. William Henry",35,male,1225,1,0
2,"Bonnell, Miss. Elizabeth",58,female,3364,0,1


로그를 취하기 위해서는 `numpy` 모듈을 사용해야 한다.

In [18]:
import numpy as np
df["logAge"] = np.log(df.Age)
df

Unnamed: 0,Name,Age,Sex,AgeSq,Below40,female,logAge
0,"Braund, Mr. Owen Harris",22,male,484,1,0,3.091042
1,"Allen, Mr. William Henry",35,male,1225,1,0,3.555348
2,"Bonnell, Miss. Elizabeth",58,female,3364,0,1,4.060443


### 변수 제거
변수를 제거하려면 `del`이나 `pop`을 사용한다.

In [19]:
df2 = df
del df2["logAge"]
agesq = df2.pop("AgeSq")
df2

Unnamed: 0,Name,Age,Sex,Below40,female
0,"Braund, Mr. Owen Harris",22,male,1,0
1,"Allen, Mr. William Henry",35,male,1,0
2,"Bonnell, Miss. Elizabeth",58,female,0,1


In [20]:
agesq

0     484
1    1225
2    3364
Name: AgeSq, dtype: int64

In [21]:
type(agesq)

pandas.core.series.Series

### 데이터프레임 복사
앞에서 `df2 = df`라고 한 다음에 `df2`에 대하여 작업을 진행하고 변수를 제거하였다. 이렇게 `df2` 내의 변수들을 지우면 원래의 `df`는 어떻게 되는가?

In [22]:
df

Unnamed: 0,Name,Age,Sex,Below40,female
0,"Braund, Mr. Owen Harris",22,male,1,0
1,"Allen, Mr. William Henry",35,male,1,0
2,"Bonnell, Miss. Elizabeth",58,female,0,1


원래의 `df`에서도 `logAge`와 `AgeSq`가 지워진 것을 확인할 수 있다. 이는 `df`가 데이터 자체가 아니라 어떤 저장된 데이터(A라 하자)을 **가리키는 것**(포인터, 뷰)이고 `df2`는 `df`과 같으므로 `df2` 또한 A를 가리킨다. 그러니까 `df2`에 있는 변수를 삭제하면 A에서 변수가 삭제되고, `df`도 A를 가리키므로 `df`에서도 변수가 삭제되는 것이다.

`df2`에서 변수를 생성해도 `df`에 변수가 생성된다.

In [23]:
df2["AgeSq"] = df2.Age**2
df2

Unnamed: 0,Name,Age,Sex,Below40,female,AgeSq
0,"Braund, Mr. Owen Harris",22,male,1,0,484
1,"Allen, Mr. William Henry",35,male,1,0,1225
2,"Bonnell, Miss. Elizabeth",58,female,0,1,3364


In [24]:
df

Unnamed: 0,Name,Age,Sex,Below40,female,AgeSq
0,"Braund, Mr. Owen Harris",22,male,1,0,484
1,"Allen, Mr. William Henry",35,male,1,0,1225
2,"Bonnell, Miss. Elizabeth",58,female,0,1,3364


이런 의도하지 않은 일이 발생하지 않게 하려면 pandas에서 `DataFrame`이란 데이터 자체가 아니라 데이터(A)가 저장된 주소라고 꼭 기억해 두어야 할 것이다. 데이터를 복사해서 별도의 데이터프레임을 만들면 이런 일이 일어나지 않는다. 데이터를 복사해서 별도의 데이터프레임을 만드는 것을 Pandas는 "deep copy"라 칭한다. Deep copy를 하려면 `df2 = df`처럼 하는 것이 아니라 `copy`라는 별도의 명령을 사용해야 한다.

In [25]:
df2 = df.copy()
del df2["AgeSq"] # df is intact.
df2

Unnamed: 0,Name,Age,Sex,Below40,female
0,"Braund, Mr. Owen Harris",22,male,1,0
1,"Allen, Mr. William Henry",35,male,1,0
2,"Bonnell, Miss. Elizabeth",58,female,0,1


In [26]:
df

Unnamed: 0,Name,Age,Sex,Below40,female,AgeSq
0,"Braund, Mr. Owen Harris",22,male,1,0,484
1,"Allen, Mr. William Henry",35,male,1,0,1225
2,"Bonnell, Miss. Elizabeth",58,female,0,1,3364


### 행 붙이기와 열 붙이기

DataFrame들을 행 또는 열로 붙이려면 [`pandas.concat`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)를 사용한다. 예를 들어 다음과 같다.

```python
import pandas as pd
new_df = pd.concat([df1,df2], axis=0) # 행으로 붙이기
new_df = pd.concat([df3,df4], axis=1) # 열로 붙이기
```

열 붙이기를 할 때에는 '인덱스'가 같아야 함에 유의하라. 행 붙이기를 할 때에는 변수명이 같으면 붙이고 상이한 변수가 있으면 빈 자리를 `np.nan`으로 치환하여 붙이다.

In [27]:
import pandas as pd
import numpy as np

df1 = pd.DataFrame({'x': np.random.normal(size=3), 'y': np.random.normal(size=3)})
df2 = pd.DataFrame({'x': np.random.normal(size=2), 'y': np.random.normal(size=2)})
df3 = pd.DataFrame({'z': np.random.normal(size=5)})
df4 = pd.DataFrame({'x': np.random.normal(size=2), 'w': np.random.normal(size=2)})
df1

Unnamed: 0,x,y
0,0.630509,1.024472
1,-1.426814,-0.869674
2,1.602573,-2.003204


In [28]:
df2

Unnamed: 0,x,y
0,0.402702,-0.695055
1,0.18706,-0.358584


In [29]:
new_df = pd.concat([df1,df2], axis=0, ignore_index = True)
new_df

Unnamed: 0,x,y
0,0.630509,1.024472
1,-1.426814,-0.869674
2,1.602573,-2.003204
3,0.402702,-0.695055
4,0.18706,-0.358584


In [30]:
df3 # index = 0, 1, ..., 4

Unnamed: 0,z
0,1.405496
1,-1.140769
2,0.065532
3,-0.791768
4,0.405108


In [31]:
# 열 붙이기
pd.concat([new_df, df3], axis=1)

Unnamed: 0,x,y,z
0,0.630509,1.024472,1.405496
1,-1.426814,-0.869674,-1.140769
2,1.602573,-2.003204,0.065532
3,0.402702,-0.695055,-0.791768
4,0.18706,-0.358584,0.405108


두 행렬을 가로로 붙일 때 만약 두 행렬의 행 인덱스가 서로 다르면 오류가 발생한다. 예를 들어

```python
tmp = pd.concat([df1,df2], axis=0)
```

이라고 하면 `tmp`의 행 인덱스가 0, 1, 2, 0, 1이 된다. 그런데 `df3`이 행 인덱스는 0, 1, 2, 3, 4로 서로 다르므로

```python
pd.concat([tmp,df3], axis=1)
```

이라고 하면 오류가 발생한다. 앞에서 `new_df` 만들 때 그 이유 때문에 `ignore_index = True` 옵션을 주었다. 다른 방법은 다음과 같이 하는 것이다.

```python
pd.concat([tmp.set_index(df3.index), df3], axis=1)
```

이렇게 하면 `tmp`의 행 인덱스를 `df3`의 행 인덱스와 똑같이 만든 다음에 열 붙이기를 하므로 작동한다.

In [32]:
tmp = pd.concat([df1,df2], axis=0)
# pd.concat([tmp,df3], axis=1) # Error!
pd.concat([tmp.set_index(df3.index),df3], axis=1) # OK

Unnamed: 0,x,y,z
0,0.630509,1.024472,1.405496
1,-1.426814,-0.869674,-1.140769
2,1.602573,-2.003204,0.065532
3,0.402702,-0.695055,-0.791768
4,0.18706,-0.358584,0.405108


In [33]:
# 변수명이 상이한 행렬들을 행으로 붙이면 변수명들의 합집합
pd.concat([df1,df4], axis=0)

Unnamed: 0,x,y,w
0,0.630509,1.024472,
1,-1.426814,-0.869674,
2,1.602573,-2.003204,
0,-0.073863,,0.250986
1,1.008082,,1.191872


## Series와 DataFrame
DataFrame의 한 열(변수)은 Series이다. 예를 들어 `df["Age"]`, `df.Sex` (`df['Sex']`와 같음)등은 Series이다. `df[["Age", "Name"]]`은 DataFrame이다. 1~2행을 나타내는 `df[0:2]`와 `df[[True, True, False]]`는 모두 DataFrame이다.

In [34]:
type(df["Age"])

pandas.core.series.Series

In [35]:
type(df.Sex)

pandas.core.series.Series

In [36]:
df[["Age", "Name"]] # DataFrame

Unnamed: 0,Age,Name
0,22,"Braund, Mr. Owen Harris"
1,35,"Allen, Mr. William Henry"
2,58,"Bonnell, Miss. Elizabeth"


In [37]:
# slice rows
df[0:2]

Unnamed: 0,Name,Age,Sex,Below40,female,AgeSq
0,"Braund, Mr. Owen Harris",22,male,1,0,484
1,"Allen, Mr. William Henry",35,male,1,0,1225


In [38]:
# Select rows by boolean vector
df[[True, True, False]]

Unnamed: 0,Name,Age,Sex,Below40,female,AgeSq
0,"Braund, Mr. Owen Harris",22,male,1,0,484
1,"Allen, Mr. William Henry",35,male,1,0,1225


In [39]:
# Select row by integer location
df.iloc[[0,1]]

Unnamed: 0,Name,Age,Sex,Below40,female,AgeSq
0,"Braund, Mr. Owen Harris",22,male,1,0,484
1,"Allen, Mr. William Henry",35,male,1,0,1225


한 행을 추출해도 Series가 된다. 이는 상당한 혼동을 야기할 수 있으므로 주의하여야 할 것이다.

In [40]:
df.iloc[0] # first row

Name       Braund, Mr. Owen Harris
Age                             22
Sex                           male
Below40                          1
female                           0
AgeSq                          484
Name: 0, dtype: object

In [41]:
type(df.iloc[0])

pandas.core.series.Series

원소를 추출할 때에는 다음 방법들을 사용할 수 있다.

In [42]:
df.at[0,'Name']

'Braund, Mr. Owen Harris'

In [43]:
df['Name'][0]

'Braund, Mr. Owen Harris'

In [44]:
df.loc[1,'Name']

'Allen, Mr. William Henry'

In [45]:
df.loc[0:1, ['Name','Sex']]

Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
1,"Allen, Mr. William Henry",male


## 검색

Pandas DataFrame 검색은 `query()` 메쏘드를 사용한다([pandas.DataFrame.query](pandas.DataFrame.query)). [이 링크](https://likegeeks.com/pandas-query-regex/)가 도움이 된다. regular expression도 사용할 수 있다.

In [46]:
df.query("Name.str.contains('H.*[sy]')&Age>30")

Unnamed: 0,Name,Age,Sex,Below40,female,AgeSq
1,"Allen, Mr. William Henry",35,male,1,0,1225


## Pandas와 NumPy 데이터
Pandas와 [NumPy](https://numpy.org/)가 데이터를 저장하는 방식이 다르다. 그러다 보니 `pandas` 데이터에 대하여 `numpy` 함수를 사용할 때에 알지 못하는 오류가 발생하곤 한다. Pandas의 `Series` `s`를 NumPy의 `ndarray`로 변환하려면 `s.to_numpy()`라고 하면 된다. Series의 데이터에 해당하는 `PandasArray`는 `s.array`로 접근 가능하다.

In [47]:
s = pd.Series(range(0,8))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
dtype: int64

In [48]:
s.array

<PandasArray>
[0, 1, 2, 3, 4, 5, 6, 7]
Length: 8, dtype: int64

In [49]:
s.to_numpy()

array([0, 1, 2, 3, 4, 5, 6, 7])

R과 달리 통일된 인터페이스를 기대할 수 없으며, 늘 주의가 필요하다. Pandas는 파이썬에서 기본으로 제공하는 데이터와 구조가 다르고 NumPy와도 데이터를 저장하고 데이터를 지칭하는 방식이 다르다는 점을 늘 염두에 두고 있어야 한다.

앞에서 잠깐 array에 대해 말했는데, Pandas가 말하는 array는 `PandasArray`이다. NumPy에서도 `array`를 별도로 정의한다. 파이썬에서 `array`라는 모듈을 import해서 쓸 수 있는 `array`도 있다. 매우 혼란스러울 수 있으므로 주의하여야 할 것이다.

래그는 [pandas.Series.shift](https://pandas.pydata.org/docs/reference/api/pandas.Series.shift.html)를 사용한다. DataFrame에 적용할 수도 있다([pandas.DataFrame.shift](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shift.html)).

In [50]:
df['L1.Age'] =  df.Age.shift()
df['L2.Age'] =  df.Age.shift(2)
df['F1.Age'] =  df.Age.shift(-1)
df

Unnamed: 0,Name,Age,Sex,Below40,female,AgeSq,L1.Age,L2.Age,F1.Age
0,"Braund, Mr. Owen Harris",22,male,1,0,484,,,35.0
1,"Allen, Mr. William Henry",35,male,1,0,1225,22.0,,58.0
2,"Bonnell, Miss. Elizabeth",58,female,0,1,3364,35.0,22.0,
