![](../img/b13_pd.png)

<div style="page-break-after: always;"></div> 

#  판다스(pandas) 

<img src="https://www.tomasbeuzen.com/python-programming-for-data-science/_static/logo.png" alt="python for data science" width="300" height="300">


1. 판다스 소개

2. 판다스 시리즈

3. 판다스 데이터프레임

4. 자료구조 선택 지침

<div style="page-break-after: always;"></div> 

## 학습 목표

- 판다스에서 `pd.Series()`와 `pd.DataFrame()`을 활용하여  
  시리즈와 데이터프레임을 생성할 수 있다. 
- 인덱싱 및 슬라이싱 개념을 이해하고,  
  `df[]`, `df.loc[]`, `df.iloc[]`, `df.query()`와 같은 표현을 사용하여  
  시리즈 및 데이터프레임에서 원하는 특정 원소 값에 접근할 수 있다. 
- 두 시리즈 간에 수치 연산을 수행하고 그 결과를 예측할 수 있다. 
- 판다스가 시리즈에 자료형을 지정하는 원리를 이해하고  
  객체의 자료형이 무엇인지 식별할 수 있다. 
- 판다스 `pd.read_csv()`를 활용하여  
  지역 경로나 url로부터 .csv 파일을 읽을 수 있다.
- 파이썬에서 `np.ndarray`, `pd.Series` 및 `pd.DataFrame` 간의  
  차별성 및 관련성을 설명할 수 있다. 

<div style="page-break-after: always;"></div>   

## 1. 판다스 소개

|![그림 1. 판다스 로고](../img/chapter7/pandas.png)<br>그림 1. 판다스 로고|
|:---|

- 판다스(pandas)는 표 형태 자료 구조를 위한 가장 인기 좋은 파이썬 라이브러리이다. 
  - 판다스를 엑셀의 초강력 버전으로 생각해도 좋다. 
  - 엑셀보다 기능이 훨씬 강력하지만, 무료이다. 
      - 엑셀: 수작업으로 조작
      - 판다스: 파이썬 프로그램으로 조작
- 판다스는 시간의 흐름에 따라 추적한 자료, 즉 시계열 데이터라는 의미를 가지는  
  패널 자료(panel data)에서 유래한 이름이다. 
- 판다스는 R에서 제공하는 벡터 및 행렬과 유사한 자료구조이다. 
- 판다스는 시리즈(series)와 데이터프레임(dataframe) 자료구조를 제공한다.
  - 시리즈: 단일 열 (일차원) 자료구조로서 스칼라 값의 컨테이너
  - 데이터프레임: 다수 시리즈가 결합한 형태의 (다차원) 자료구조로서 시리즈의 컨테이너
- 판다스 라이브러리는 `conda`를 활용하여 다음과 같은 명령으로 설치한다.    

```shell
$ conda install pandas
```

- 통상적으로 판다스에 대하여 `pd`라는 별칭을 지정하여 수입한다.  
  대부분의 데이터 과학 코드 앞 부분에서 아래 두 행과 같은 수입 명령을 볼 수 있다. 

In [1]:
import pandas as pd
import numpy as np

- 판다스에 대한 간단한 소개를 마치고, 판다스 시리즈에 대해 공부하자. 

<div style="page-break-after: always;"></div> 

## 2. 판다스 시리즈 

### 2.1 시리즈의 개념

- 판다스가 제공하는 자료구조는 두 종류이다. 
  - 시리즈: 단일 열 형태의 (일차원) 자료구조
  - 데이터프레임: 다수 시리즈로 구성된 (다차원) 자료구조
- 판다스 시리즈 객체는 넘파이 배열 객체와 비슷하지만,  
  행/열에 대한 레이블(label)을 지정할 수 있다. 
- 이 두 객체(넘파이 배열과 판다스 시리즈)는 모두 일차원 자료구조이다. 
- 시리즈 객체에는 모든 넘파이 자료형(정수, 실수, 문자열, 객체, ...)을 저장할 수 있고,  
  이들 자료형을 혼합하여 저장할 수도 있다는 점에서, 넘파이 배열 객체와는 다르다. 
- 판다스 시리즈는 단일 열 벡터 형태의 자료구조이고,  
  인덱스와 데이터가 쌍을 이루어 저장된다. 
- `pd.Series()`를 활용하여 판다스 시리즈를 생성할 수 있으며,  
  단일(scalar) 값, 리스트, 배열 또는 사전 등을 매개변수로 `pd.Series()`에 전달하면 된다.
- `pd.Series()`에서 **"S"**가 대문자라는 점에 주의하라.

|![그림 2. 판다스 시리즈에서 인덱스와 데이터가 저장되는 방식](../img/chapter7/series.png)<br>그림 2. 판다스 시리즈에서 인덱스와 데이터가 저장되는 방식|
|:---|

- 판다스 시리즈의 데이터에는 다양한 데이터 유형을 저장할 수 있고,  
  판다스 시리즈의 인덱스에도 다양한 데이터 유형을 사용할 수 있다.  

- 판다스 시리즈에 대한 개념 소개를 마치고, 판다스 시리즈 생성 방법을 공부하자. 

<div style="page-break-after: always;"></div> 

### 2.2 시리즈의 생성

- 시리즈는 0부터 시작하는 수치형 인덱스를 기본값으로 가진다. 

In [2]:
pd.Series(data=[-5, 1.3, 21, 6, 3])       # pd.Series()의 data 인자에 리스트를 전달

0    -5.0
1     1.3
2    21.0
3     6.0
4     3.0
dtype: float64

- (기본형 인덱스가 아닌) 맞춤형 인덱스를 지정할 수 있다: 

In [3]:
s = pd.Series(data=[-5, 1.3, 21, 6, 3],
              index=['a', 'b', 'c', 'd', 'e'])  # index 인자로 맞춤형 인덱스 지정
s

a    -5.0
b     1.3
c    21.0
d     6.0
e     3.0
dtype: float64

- 시리즈와 인덱스에 이름 지정이 가능하다: 

In [4]:
s.name = 'my_values'       # 시리즈 이름 지정
s.index.name = 'alphabet'  # 인덱스 이름 지정
s

alphabet
a    -5.0
b     1.3
c    21.0
d     6.0
e     3.0
Name: my_values, dtype: float64

- 사전으로부터 시리즈를 생성할 수 있는데,  
  시리즈는 근본적으로 사전과 유사한 자료구조이다: 

In [5]:
성적 = pd.Series(data={'김학생': 90, '나학생': 100, '최학생': 80},
                 name='성적')  # 사전의 키가 인덱스 레이블로 지정됨
성적.index.name = '이름'
성적

이름
김학생     90
나학생    100
최학생     80
Name: 성적, dtype: int64

In [6]:
성적['나학생']

100

- 넘파이 배열(ndarray)로부터 시리즈를 생성할 수 있다:

In [7]:
pd.Series(data=np.random.randn(3))  # np.random.randn()은 표준정규분포를 따르는 값으로 ndarray를 반환함 

0    0.168011
1   -0.505047
2    0.086657
dtype: float64

- `np.random`에서 제공되는 난수 관련 메소드를 정리하면 다음과 같다: 

| 메소드 | 기능 | 비고 |
|---|:---|---|
| `np.random.randint(low, high, (m, n))` | **`[low, high)` 구간**에서 균일분포에 따르는 **정수** 난수 생성 | 배열 모양 지정 |
| `np.random.rand(m, n)` | **`[0, 1)` 구간**에서 균일분포에 따르는, (m, n) 모양의 난수 배열 생성 |
| `np.random.random((m, n))` | **`[0, 1)` 구간**에서 균일분포에 따르는, (m, n) 모양의 난수 배열 생성 | 배열 모양 지정, *구식*|
| `np.random.default_rng().random(m, n)` | **`[0, 1)` 구간**에서 균일분포에 따르는, (m, n) 모양의 난수 배열 생성 | *추천*  |
| `np.random.randn(m, n)` | (μ, σ)=(0, 1)인 **표준정규분포**에 따르는, (m, n) 모양의 난수 배열 생성 ||


- 단일(스칼라) 값으로부터 시리즈를 생성할 수 있다:

In [8]:
pd.Series(3.141)  # 스칼라 값으로 시리즈 생성

0    3.141
dtype: float64

In [9]:
# data는 스칼라 값으로, index는 리스트로 지정
pd.Series(data=3.141, index=['a', 'b', 'c'])  # 인덱스 개수로 행 개수가 결정됨

a    3.141
b    3.141
c    3.141
dtype: float64

- 판다스 시리즈 생성 방법의 내용을 정리하면 다음과 같다;
  - 인덱스 
    - 기본형 인덱스
    - 맞춤형 인덱스
  - 시리즈 생성
    - 사전으로 시리즈 생성
    - 배열로 시리즈 생성
    - 스칼라로 시리즈 생성
    - 데이터는 스칼라 값으로, 인덱스는 문자형 리스트로 시리즈 생성

- 이제 판다스 시리즈의 특성에 대해 공부하자. 

<div style="page-break-after: always;"></div> 

### 2.3 시리즈의 특성

- 시리즈에 `name` 속성을 지정할 수 있다. 

In [10]:
s = pd.Series(data=np.random.randn(5),    # 표준정규분포 난수
              name='random_series')       # 시리즈에 name 지정
s

0    0.142501
1    2.095291
2   -0.347846
3   -0.789145
4   -1.469600
Name: random_series, dtype: float64

In [11]:
s.name  # 시리즈에 지정한 name 속성 확인

'random_series'

In [12]:
s.rename("another_name")  # 시리즈 name 재지정

0    0.142501
1    2.095291
2   -0.347846
3   -0.789145
4   -1.469600
Name: another_name, dtype: float64

- `index` 속성으로 시리즈의 인덱스 레이블에 접근할 수 있다.

In [13]:
s.index  # 시리즈의 인덱스 속성 

RangeIndex(start=0, stop=5, step=1)

- `to_numpy()` 메소드로 시리즈에 저장된 데이터를  
  넘파이 배열로 변환할 수 있다.

In [14]:
s.to_numpy()  # 시리즈를 넘파이 배열로 변환 

array([ 0.14250122,  2.09529134, -0.34784635, -0.78914454, -1.46960015])

In [15]:
pd.Series([[1, 2, 3], "b", 1]).to_numpy()  # 혼합 자료형 시리즈를 넘파이 배열로 변환하면 객체로 저장됨
                                           # 하지만, 넘파이 배열에 혼합 자료형을 저장하는 것은 부적절함 

array([list([1, 2, 3]), 'b', 1], dtype=object)

- 판다스 시리즈의 특성을 정리하면 다음과 같다:
  - `name` 속성
  - `index` 속성
  - `to_numpy()` 메소드

- 판다스 시리즈의 특성에 대한 공부를 마치고,  
  판다스 시리즈에 대한 인덱싱과 슬라이싱을 공부하자. 

<div style="page-break-after: always;"></div> 

### 2.4 인덱싱과 슬라이싱

- 판다스 시리즈는 넘파이 n차원 배열(ndarrays)과 매우 비슷하다. 
  - 시리즈는 거의 모든 넘파이 함수에게 인자로 전달 가능하다. 
  - 시리즈는 `[ ]` 및 `:` 표기법을 이용하여 인덱싱이 가능하다. 

In [16]:
s = pd.Series(data=range(5),
              index=['A', 'B', 'C', 'D', 'E'])
s                                                # 모양을 캡처하고, 이후 내용을 공부하라. 

A    0
B    1
C    2
D    3
E    4
dtype: int64

In [17]:
s[0]  # 정수 인덱싱은 기본적으로 가능함

0

In [18]:
s[[1, 3, 2]]  # 정수 인덱스 리스트로 인덱싱

B    1
D    3
C    2
dtype: int64

In [19]:
s[0:3]  # 콜론 표기법에 의한 슬라이싱

A    0
B    1
C    2
dtype: int64

- 시리즈에 대한 인덱싱 및 슬라이싱 결과에는  
  데이터 값과 인덱스 레이블이 함께 반환된다. 

- 인덱스 레이블을 통하여 값에 접근할 수 있다는 점에서  
  시리즈는 사전과도 유사하다.   

In [20]:
s["A"]              # 레이블로 인덱싱

0

In [21]:
s[["B", "D", "C"]]  # 레이블 리스트로 인덱싱 

B    1
D    3
C    2
dtype: int64

In [22]:
s["A":"C"]          # 레이블 슬라이싱
                    # *** 마지막 레이블도 포함됨 ***

A    0
B    1
C    2
dtype: int64

- 판다스 시리즈에 대한 `in` 연산자는 인덱스에 특정 레이블의 포함 여부를 알려준다.
  - 레이블 인덱스에 대해 적용이 가능하다.  
    아래 코드에서, 레이블 인덱스 "A"는 s에 포함되어 있지만, "Z"는 그렇지 않다.  
  - 정수 인덱스에 대해 적용이 불가하다.  
    아래 코드에서, 정수 인덱스 0과 26은 모두 s에 포함되어 있지 않다.

In [23]:
"A" in s  # 레이블 인덱스의 시리즈 포함 여부 확인

True

In [24]:
"Z" in s  # 레이블 인덱스의 시리즈 포함 여부 확인  

False

In [25]:
0 in s    # 레이블 인덱스 "A"에 대응하는 정수 인덱스 0

False

In [26]:
25 in s   # 레이블 인덱스 "Z"에 대응하는 정수 인덱스 26

False

- 인덱스 포함 여부가 아니라,  
  데이터 값의 포함 여부는 `시리즈.isin(탐색대상)` 메소드를 써서 확인한다.  
  - 여기서 `탐색대상`은 리스트 형태로 지정해야 한다. 
  - `탐색대상`을 (리스트 형태로) 여러 개 지정할 수 있다. 

In [27]:
s.isin([0])       # "A"에 탐색대상이 포함되어 있음      

A     True
B    False
C    False
D    False
E    False
dtype: bool

In [28]:
s.isin((0, 3, 4))  # "A", "D", "E"에 탐색대상 중 하나가 포함되어 있음

A     True
B    False
C    False
D     True
E     True
dtype: bool

- 시리즈에서 중복된 레이블 인덱스도 허용되는데,  
  중복된 레이블로 인덱싱한 결과 값은 유일 값이 아니므로 **주의가 필요하다**. 

In [29]:
x = pd.Series(data=range(5),
              index=["A", "A", "A", "B", "C"])  # 중복된 레이블
x

A    0
A    1
A    2
B    3
C    4
dtype: int64

In [30]:
x.index  # 중복된 레이블 확인

Index(['A', 'A', 'A', 'B', 'C'], dtype='object')

In [31]:
x["A"]  # 중복된 레이블로 인덱싱한 결과

A    0
A    1
A    2
dtype: int64

- 시리즈에 대한 논리형 인덱싱도 가능하다. 

In [32]:
s[s >= 1]       # 논리형 인덱싱, `>=`를 입력했는데 ...

B    1
C    2
D    3
E    4
dtype: int64

In [33]:
s[s > s.mean()]  # 논리형 인덱싱

D    3
E    4
dtype: int64

In [34]:
s != 1           # 시리즈와 단일 값의 비교, `!=`를 입력했는데, ...

A     True
B    False
C     True
D     True
E     True
dtype: bool

- 판다스 시리즈 인덱싱/슬라이싱을 정리하면 다음과 같다:
  - 정수 인덱싱   `s[0]` 
  - 정수 리스트 인덱싱    `s[[3, 1, 2]]`
  - 정수 슬라이싱   `s[0:3]`     <- 마지막 인덱스 **제외**
  - 레이블 인덱싱 `s["A"]` (사전과 비슷한 사용법)     
  - 레이블 리스트 인덱싱  `s[["B", "D", "C"]]`
  - 레이블 슬라이싱 `s["A":"C"]` <- 마지막 인덱스 **포함**
  - 레이블 인덱스의 시리즈 포함 여부 `"A" in s`
  - 데이터 값의 시리즈 포함 여부     `s.isin([0, 3])`
  - 중복된 레이블 인덱스 `Index(['A', 'A', 'A', 'B', 'C']`
  - 논리식 인덱싱 `s[s >= s.mean()]`
  - 시리즈와 스칼라 값 비교 `s != 1`

- 이제 판다스 시리즈 연산에 대해 공부하자. 

<div style="page-break-after: always;"></div> 

### 2.5 시리즈에 대한 연산

- 넘파이 n차원 배열에서의 연산과는 달리,  
  판다스 시리즈 간의 수치 연산(+, -, \*, /)은  
  (위치 기반이 아니라) *레이블 기반으로 값을 정렬*한 후,  
  **정렬된 레이블 기반**으로 수행된다. 
- 결과 인덱스는 두 인덱스의 __*정렬된 합집합*__이다. 
- 레이블과 무관하게 시리즈에 대한 연산이 가능하도록 융통성을 확보할 수 있다. 

- 기본 인덱스를 가진 시리즈 간의 연산은 다음과 같이 수행된다:

In [35]:
s1 = pd.Series(data=range(3))      # 원소 3개
s1

0    0
1    1
2    2
dtype: int64

In [36]:
s1 = s1.drop(s1.index[0])          # 인덱스 0인 값 삭제
s1

1    1
2    2
dtype: int64

In [37]:
s2 = pd.Series(data=range(10, 13))  # 원소 4개
s2

0    10
1    11
2    12
dtype: int64

In [38]:
s1 + s2                             # 대응되는 원소가 없으면 NaN

0     NaN
1    12.0
2    14.0
dtype: float64

- 기본 인덱스를 가진 시리즈 간의 연산은 넘파이 배열 연산과 유사하다. 

- 맞춤형 (수치) 인덱스를 가진 시리즈 간의 연산을 수행하여 보자. 

In [39]:
s1 = pd.Series(data=range(1, 3), 
               index=range(1, 3))
s1

1    1
2    2
dtype: int64

In [40]:
s2 = pd.Series(data=range(2, 4), 
               index=range(2, 4))
s2

2    2
3    3
dtype: int64

In [41]:
s1 + s2

1    NaN
2    4.0
3    NaN
dtype: float64

- 맞춤형 (수치) 인덱스를 가진 시리즈 간의 연산에서  
  - (수치) 인덱스가 대응되는 원소끼리만 수행됨을 알 수 있다. 
  - 대응되는 (수치) 인덱스가 없으면 연산의 결과가 `NaN`이다. 
  - (수치) 인덱스 기반으로 연산이 수행된다. 

- 맞춤형 (문자) 인덱스를 가진 시리즈 간의 연산은 다음과 같이 수행된다: 

In [42]:
s1 = pd.Series(data=range(4),
               index=["A", "B", "C", "D"])
s1

A    0
B    1
C    2
D    3
dtype: int64

In [43]:
s2 = pd.Series(data=range(10, 14),
               index=["B", "C", "D", "E"])
s2

B    10
C    11
D    12
E    13
dtype: int64

In [44]:
s1 + s2  # 대응되는 레이블 인덱스가 없으면 연산 결과가 NaN이 됨
         # 정수 간 덧셈 결과는 실수

A     NaN
B    11.0
C    13.0
D    15.0
E     NaN
dtype: float64

- 앞에서 확인할 수 있듯이, 시리즈 간의 연산은 일치하는 인덱스끼리만 수행된다. 
- 두 시리즈에 일치하는 인덱스가 (어느 한 쪽이라도) 없는 경우,  
  연산 결과는 `NaN` 값이 된다. 
- 연산 결과의 인덱스는 두 인덱스의 합집합이 된다. 

|![그림 3. 시리즈 간의 레이블 인덱스 기반 연산](../img/chapter7/series_addition.png)<br>그림 3. 시리즈 간의 인덱스 기반 연산|
|:---|


- 곱셈이나 제곱과 같은 시리즈에 대한 표준적 연산도 수행 가능하다.
- (대부분의 경우) 넘파이 함수 인자로서 판다스 시리즈를 허용한다.  
  이는 판다스 시리즈가 넘파이 배열에 기반하여 구현되었기 때문이다. 

In [45]:
s1                            # 앞서 정의한 s1

A    0
B    1
C    2
D    3
dtype: int64

In [46]:
s2                            # 앞서 정의한 s2

B    10
C    11
D    12
E    13
dtype: int64

In [47]:
s2['A'] = 9                  # 시리즈에 원소 추가
s2.sort_index(inplace=True)  # 인덱스 기준 정렬
s2

A     9
B    10
C    11
D    12
E    13
dtype: int64

In [48]:
s = s1 * s2
s

A     0.0
B    10.0
C    22.0
D    36.0
E     NaN
dtype: float64

In [49]:
s1       # 앞서 정의한 s1

A    0
B    1
C    2
D    3
dtype: int64

In [50]:
s1 ** 2  # 시리즈에 대한 제곱 연산

A    0
B    1
C    4
D    9
dtype: int64

- `np.exp(x)` 메소드는 자연상수 *e*에 대한 거듭제곱값 *e<sup>x</sup>*를 계산한다. 
- 자연상수 *e*는 ["100%의 성장률을 가지고 1회 연속 성장할 때 얻게되는 성장량"](https://angeloyeo.github.io/2019/09/04/natural_number_e.html)을 의미한다. 

In [51]:
np.exp(s1)  # 시리즈를 인자로 지정한 넘파이 함수 활용

A     1.000000
B     2.718282
C     7.389056
D    20.085537
dtype: float64

- 결측치는 `NaN`, `NA` 및 `None`으로 처리된다. 
  - `NaN`: Not a Number
  - `NA`: Not Available
  - `None`: 파이썬 버전 null
- 결측치 조사 방법은 다음과 같다:
  - `pd.isnull(s)` 또는 `pd.isna(s)`
  - `s.isnull()` 또는 `s.isna()`
  - 이 4개 명령은 모두 동일하다. 

In [52]:
pd.isnull(s)  # pd.isna(s) 메소드와 동일

A    False
B    False
C    False
D    False
E     True
dtype: bool

In [53]:
s.isnull()   # s.isna() 메소드와 동일

A    False
B    False
C    False
D    False
E     True
dtype: bool

- 비결측치 조사 방법은 다음과 같다:
  - `pd.notnull(s)` 또는 `pd.notna(s)`
  - `s.notnull()` 또는 `s.notna()`
  - 이 4개 명령은 모두 동일하다. 

In [54]:
pd.notnull(s)  # pd.notna() 메소드와 동일

A     True
B     True
C     True
D     True
E    False
dtype: bool

In [55]:
s.notnull()   # s.notna() 메소드와 동일

A     True
B     True
C     True
D     True
E    False
dtype: bool

- 넘파이 배열과 마찬가지로,  
  시리즈에도 내장된 메소드가 매우 다양하다. 
- 넘파이 시리즈에 내장된 메소드는 `help(pd.Series)` 코드로 확인 가능하다. 

In [56]:
# help(pd.Series)  # 너무 긴 출력! 주석을 제거하고 실행하여 보라.

|![그림 4. 200쪽이 넘는 `help(pd.Series)` 출력 결과의 앞 부분 ](../img/chapter7/help.png)<br>그림 4. 200쪽이 넘는 `help(pd.Series)` 출력 결과의 앞 부분 |
|:---|

In [57]:
series_method_list = [x for x in dir(pd.Series) if not x.startswith("_")]  # 모든 일반 메소드를 리스트로 저장
print(len(series_method_list))
print(series_method_list)  

212
['T', 'abs', 'add', 'add_prefix', 'add_suffix', 'agg', 'aggregate', 'align', 'all', 'any', 'append', 'apply', 'argmax', 'argmin', 'argsort', 'array', 'asfreq', 'asof', 'astype', 'at', 'at_time', 'attrs', 'autocorr', 'axes', 'backfill', 'between', 'between_time', 'bfill', 'bool', 'cat', 'clip', 'combine', 'combine_first', 'compare', 'convert_dtypes', 'copy', 'corr', 'count', 'cov', 'cummax', 'cummin', 'cumprod', 'cumsum', 'describe', 'diff', 'div', 'divide', 'divmod', 'dot', 'drop', 'drop_duplicates', 'droplevel', 'dropna', 'dt', 'dtype', 'dtypes', 'duplicated', 'empty', 'eq', 'equals', 'ewm', 'expanding', 'explode', 'factorize', 'ffill', 'fillna', 'filter', 'first', 'first_valid_index', 'flags', 'floordiv', 'ge', 'get', 'groupby', 'gt', 'hasnans', 'head', 'hist', 'iat', 'idxmax', 'idxmin', 'iloc', 'index', 'infer_objects', 'interpolate', 'is_monotonic', 'is_monotonic_decreasing', 'is_monotonic_increasing', 'is_unique', 'isin', 'isna', 'isnull', 'item', 'items', 'iteritems', 'keys',

In [58]:
s1                # 앞서 정의한 s1

A    0
B    1
C    2
D    3
dtype: int64

In [59]:
s1.mean()         # 시리즈 평균 확인

1.5

In [60]:
s1.sum()          # 시리즈 합계 확인

6

In [61]:
s1.astype(float)  # 시리즈 자료형 변환

A    0.0
B    1.0
C    2.0
D    3.0
dtype: float64

- 판다스 연산의 "**연쇄**(chaining)"는 자주 쓰는 방식이다.  

In [62]:
# 시리즈에 덧셈, 제곱, 평균 연산을 연쇄적으로 수행
s1.add(3.14).pow(2).mean()

22.779600000000002

- 판다스 시리즈의 연산에 대한 내용을 정리하면 다음과 같다:
  - 시리즈 간의 연산은 두 시리즈에서 일치하는 인덱스끼리만 수행된다. 
  - 시리즈와 스칼라 값 간의 연산은 시리즈 원소 모두에 대하여 스칼라 값이 반복적으로 적용된다. 
  - 대부분의 넘파이 함수는 판다스 시리즈에서도 적용 가능하다. 
  - 메소드 연쇄 호출 형식은 자주 사용되는 스타일이다. 
- 이제 판다스 시리즈에 저장 가능한 자료형에 대해 공부하자. 

<div style="page-break-after: always;"></div> 

### 2.6 저장 가능한 자료형

- 시리즈에는 모든 종류의 자료형(`dtypes`)을 저장할 수 있다. 
  - `int`, `float`, `bool` 
  - `object`, `DateTime` 및 `Category`
- 판다스 기본 자료형에 대해서는 [여기](https://wikidocs.net/78180)를 참고하라. 
- 판다스 `Category` 자료형에 대해서는 [여기](https://wikidocs.net/78187)를 참고하라. 

 아래 코드는 `dtype`이 `int64`인 시리즈에 대한 예제이다:

In [63]:
x = pd.Series(range(5))
x.dtype

dtype('int64')

- 파이썬 문자열은 `str`로 표시하지만, 판다스 문자열은 `object`로 표시된다. 
- 판다스 `object`는 문자열 또는 혼합된 자료형을 의미한다. 
- 판다스는 전용 문자열 자료형인 `StringDtype`에 대한 [실험을 진행](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.StringDtype.html#pandas.StringDtype) 중이다.

In [64]:
x = pd.Series(['A', 'B'])  # 판다스에서 문자열은 `object` 자료형
x

0    A
1    B
dtype: object

In [65]:
x = pd.Series(            # 판다스에서 혼합된 자료형을 가지는 시리즈도 `object` 자료형
    ['A', 1, ["I", "AM", "A", "LIST"]])  
x

0                   A
1                   1
2    [I, AM, A, LIST]
dtype: object

- `object` 자료형이 유연하기는 하지만 메모리 소비가 크므로,  
  `object` 자료형의 활용을 권하지는 않는다. 
  - 자료형이 `object`로 지정된 시리즈에서는  
    모든 개별 원소마다 자료형이 별도로 지정된다. 
  - 자료형이 혼합된 시리즈에서,  
    원소마다 개별적으로 지정된 자료형을 검사하는 다양한 방법이 존재하는데,  
    아래에서 `map()` 메소드를 활용하는 방법을 살펴보자.

In [66]:
x.map(type)  # 시리즈 x의 모든 원소마다 type() 함수를 적용

0     <class 'str'>
1     <class 'int'>
2    <class 'list'>
dtype: object

- 직전 셀의 실행 결과에서, 시리즈에 저장된 개별 원소마다 자료형이 다르다는 점을 알 수 있다. 
  - 이는 메모리 비용이라는 대가를 치러서 얻은 것이다.
  - 혼합 자료형으로 저장한 시리즈의 메모리 소비량이 훨씬 크다는 점을  
    [`.memory_usage()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.memory_usage.html)를 써서 확인할 수 있다.   

- 다음과 같이 자료형에 따른 메모리 소비량을 비교할 수 있다:

In [67]:
x1 = pd.Series([1, 2, 3])                   # 단일 자료형 시리즈
print(f"x1 dtype: {x1.dtype}")
print(f"x1 memory usage: {x1.memory_usage(deep=True)} bytes")

x2 = pd.Series([1, 2, "3"])                 # 혼합 자료형 시리즈
print(f"\nx2 dtype: {x2.dtype}")
print(f"x2 memory usage: {x2.memory_usage(deep=True)} bytes")

x3 = pd.Series([1, 2, "3"]).astype('int8')  # 혼합 자료형 시리즈의 자료형을 강제로 'int8'로 지정
print(f"\nx3 dtype: {x3.dtype}")
print(f"x3 memory usage: {x3.memory_usage(deep=True)} bytes")

x1 dtype: int64
x1 memory usage: 152 bytes

x2 dtype: object
x2 memory usage: 258 bytes

x3 dtype: int8
x3 memory usage: 131 bytes


- 가능하다면, 시리즈 내부의 자료형을 통일적으로 지정하라.  
  그래야 메모리 효율을 높일 수 있다. 

- `NaN`은 데이터에서 결측치를 표현하기 위하여 흔히 사용하는 값인데,  
  `NaN`의 자료형은 `float`이다.
- `NaN`은 /næn/으로 발음하며, "Not a Number"의 줄임말이다.  

In [68]:
type(np.NaN)

float

- `NaN`의 자료형이 `float`라는 점이 문제가 되기도 한다.
  - 정수로 구성된 시리즈에 결측치가 하나 포함되어 있다고 가정하자. 
  - 이 결측치를 `NaN`으로 지정하면,  
    판다스가 전체 시리즈를 `float` 자료형으로 강제 변환해 버린다. 

In [69]:
pd.Series([1, 2, 3, np.NaN])

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64

- 판다스는 최근에서야,  
  "[널로 처리되는 정수형](https://pandas.pydata.org/pandas-docs/stable/user_guide/integer_na.html)"을 구현했다. 
  - 이 방식에서는 전체 시리즈의 자료형을 강제 변환하지 않고도  
    정수형 시리즈에 포함된 `NaN`을 취급할 수 있게 만들어 준다. 
  - 이 방식을 쓰려면, 아래 예제 코드와 같이,  
    넘파이에서 제공하는 (소문자 'i'로 시작하는) `int64` 대신에  
    판다스에서 제공하는 (대문자 'I'로 시작하는) `Int64` 자료형으로  
    형변환을 해야 한다.  


In [70]:
pd.Series([1, 2, 3, np.NaN]).astype('Int64')

0       1
1       2
2       3
3    <NA>
dtype: Int64

- 이 방식은 아직 판다스의 기본값이 아니며,  
  기능 구현 방식이 향후 변경될 수도 있다. 

- 판다스 시리즈에 
  - 정수, 실수, 논리값, 날짜 및 카테고리 등의 기본 자료형을 저장할 수 있다.
  - 판다스 기본 자료형 중에서 카테고리 형은 범주형 값을 처리할 때 사용한다. 
  - 문자열은 object 자료형으로 취급된다. 
  - 자료형을 혼합하여 저장하여도 object 자료형으로 처리된다. 
  - 시리즈 원소마다 자료형이 다를 수 있으므로 넘파이 배열보다 유연하지만,  
    처리 속도 및 저장 공간에 대한 비용을 치르게 된다. 
  - NaN이 포함되면 float 자료형으로 취급된다. 
- 판다스 시리즈에 저장 가능한 자료형에 대한 공부를 마치고,  
  판다스 데이터프레임에 대해 공부하자. 

<div style="page-break-after: always;"></div> 

## 3. 판다스 데이터프레임

### 3.1 데이터프레임의 개념

- 판다스 데이터프레임(DataFrame)이야말로 멋진 데이터 과학 도구이다. 
  - 당신이 사용하던 엑셀 스프레드시트와 비슷하다. 
  - 데이터프레임은 시리즈가 여러 개 결합된 형태이다. 
  - 데이터프레임을 시리즈의 사전(dictionary)이라고 생각하라. 
    - 데이터프레임의 열 레이블이 사전의 키 역할을 담당한다.
    - 데이터프레임에 저장된 값들은 사전의 데이터 시리즈에 해당한다. 

|![그림 5. 여러 시리즈가 합쳐진 형태와 유사한 데이터프레임](../img/chapter7/dataframe.png)<br>그림 5. 여러 시리즈가 결합된 형태와 유사한 데이터프레임|
|:---|

- 판다스 데이터프레임에 대한 개념 소개를 간략하게 마치고,  
  판다스 데이터프레임 생성에 대해 공부하자. 

<div style="page-break-after: always;"></div> 

### 3.2 데이터프레임의 생성

- 데이터프레임은 `pd.DataFrame()`으로 생성한다. 
  - 여기서 "D"와 "F"가 대문자이다. 
  - 시리즈와 유사하게,  
    데이터프레임의 행 인덱스와 열 레이블은 기본적으로 0부터 시작하는 정수이다. 

In [71]:
# 특별히 지정하지 않으면, 
# 행 인덱스와 열 레이블이 모두 0부터 시작하는 정수로 지정됨
pd.DataFrame(
    [[1, 2, 3],  
     [4, 5, 6],
     [7, 8, 9]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


- `index` 및 `columns` 인자를 이용하여  
  (기본값이 아닌) 행 인덱스 및 열 레이블을 지정할 수 있다. 


In [72]:
pd.DataFrame(
    data=[[1, 170, 70],                 # data 인자
          [2, 160, 65],
          [3, 180, 82]],
    index=["학생1", "학생2", "학생3"],  # index 인자
    columns=["번호", "신장", "체중"])   # columns 인자

Unnamed: 0,번호,신장,체중
학생1,1,170,70
학생2,2,160,65
학생3,3,180,82


- 데이터프레임을 생성하는 방법은 매우 다양하다.  
  사전이나 n차원 배열로부터 데이터프레임을 생성하는 방식이  
  가장 자주 사용된다. 

In [73]:
pd.DataFrame(
    data={"번호": np.arange(1, 4),               # 사전으로 열 레이블과 값을 지정
          "신장": [170, 160, 180],               # 사전으로 열 레이블과 값을 지정
          "체중": [70, 65, 82]},                 # 사전으로 열 레이블과 값을 지정
    index=["학생"+str(_) for _ in range(1, 4)])  # 리스트로 행 인덱스 지정

Unnamed: 0,번호,신장,체중
학생1,1,170,70
학생2,2,160,65
학생3,3,180,82


- `pd.DataFrame()`의 `data` 인자를 사전 형태로 지정하면,  
  - 사전의 키가 열 레이블이 되고, 
  - 사전의 값이 열 데이터가 되는 
  - 데이터프레임을 생성한다.

- 리스트 컴프리헨션(list comprehension)에 대해 복습하자.  
  리스트 컴프리헨션은 컴프리헨션을 활용하여 리스트를 생성하는 코드이다. 
- 데이터프레임의 `index` 및 `columns` 인자를 리스트 컴프리헨션 형식으로 지정하면 편리하다. 

In [74]:
# 리스트 컴프리헨션 연습 (1)
[x for x in range(5)]

[0, 1, 2, 3, 4]

In [75]:
# 리스트 컴프리헨션 연습 (2)
[f"No-{x}" for x in range(5)]    # f-string 표현

['No-0', 'No-1', 'No-2', 'No-3', 'No-4']

In [76]:
pd.DataFrame(
    data=np.random.randn(5, 5),                # 표준정규분포 난수의 이차원 배열로 값을 지정
    index=[f"행_{i}" for i in range(1, 6)],    # 리스트 컴프리헨션으로 행 인덱스 지정
    columns=[f"열_{j}" for j in range(1, 6)])  # 리스트 컴프리헨션으로 열 레이블 지정

Unnamed: 0,열_1,열_2,열_3,열_4,열_5
행_1,-0.847331,0.836852,0.56185,-1.354839,0.441841
행_2,-1.3423,0.558517,-0.9846,0.295162,1.32624
행_3,0.881174,2.769117,-0.093789,0.811669,1.596233
행_4,-2.368994,-0.643614,0.58545,-0.826103,0.090494
행_5,-2.449578,-0.375919,-1.196036,1.611254,0.521545


- 중첩된 리스트로 데이터프레임을 생성할 수 있다: 

In [77]:
# 리스트의 리스트로 데이터프레임 생성
# 기본 행 인덱스와 열 레이블 사용
df = pd.DataFrame(
    data=np.array([['Tom', 7], ['Mike', 15], ['Tiffany', 3]]), 
    columns=['이름', '포인트'], 
    index=[f'r{_}' for _ in range(3)])
df.index.name='행'
df

Unnamed: 0_level_0,이름,포인트
행,Unnamed: 1_level_1,Unnamed: 2_level_1
r0,Tom,7
r1,Mike,15
r2,Tiffany,3


- 데이터프레임 생성 방법을 표로 정리하면 다음과 같다.  
  더 자세한 정보는 [판다스 공식 문서(영어)](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html#dataframe)를 참고하라. 

|데이터프레임 생성 원천|코드|
|---|---|
|리스트의 리스트|`pd.DataFrame([['Tom', 7], ['Mike', 15], ['Tiffany', 3]])`|
|n차원 배열|`pd.DataFrame(np.array([['Tom', 7], ['Mike', 15], ['Tiffany', 3]]))`|
|리스트를 값으로 지정한 사전|`pd.DataFrame({"Name": ['Tom', 'Mike', 'Tiffany'],` <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `"Number": [7, 15, 3]})`|
|시리즈를 값으로 지정한 사전|`pd.DataFrame({"Name": pd.Series(['Tom', 'Mike', 'Tiffany']),` <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `"Number": pd.Series([7, 15, 3])})`|
|튜플의 리스트|`pd.DataFrame(zip(['Tom', 'Mike', 'Tiffany'], [7, 15, 3]))`|

- 표에서 정리했던 방법을 한 번씩 시도해보자.

In [78]:
# 리스트의 리스트
df = pd.DataFrame(
    data=[['Tom', 7], ['Mike', 15], ['Tiffany', 3]], 
    index=[f'r{_}' for _ in range(3)],
    columns=['이름', '포인트'])
df.index.name = '행'
df

Unnamed: 0_level_0,이름,포인트
행,Unnamed: 1_level_1,Unnamed: 2_level_1
r0,Tom,7
r1,Mike,15
r2,Tiffany,3


In [79]:
# n차원 배열
pd.DataFrame(
    data=np.array([['Tom', 7], ['Mike', 15], ['Tiffany', 3]]),
    index=[f'r{_}' for _ in range(3)],
    columns=['이름', '포인트'])
df.index.name = '행'
df

Unnamed: 0_level_0,이름,포인트
행,Unnamed: 1_level_1,Unnamed: 2_level_1
r0,Tom,7
r1,Mike,15
r2,Tiffany,3


In [80]:
# 값을 리스트로 지정한 사전
pd.DataFrame(
    data={"Name": ['Tom', 'Mike', 'Tiffany'],
          "Number": [7, 15, 3]},
    index=[f'r{_}' for _ in range(3)])
df.index.name = '행'
df

Unnamed: 0_level_0,이름,포인트
행,Unnamed: 1_level_1,Unnamed: 2_level_1
r0,Tom,7
r1,Mike,15
r2,Tiffany,3


In [81]:
# 값을 시리즈로 지정한 사전
pd.DataFrame(
    data={"Name": pd.Series(['Tom', 'Mike', 'Tiffany']),
          "Number": pd.Series([7, 15, 3])},
    index=[f'r{_}' for _ in range(3)])
df.index.name = '행'
df

Unnamed: 0_level_0,이름,포인트
행,Unnamed: 1_level_1,Unnamed: 2_level_1
r0,Tom,7
r1,Mike,15
r2,Tiffany,3


In [82]:
# 튜플 반복자(iterator)
pd.DataFrame(
    data=zip(['Tom', 'Mike', 'Tiffany'], [7, 15, 3]),
    index=[f'r{_}' for _ in range(3)],
    columns=['이름', '포인트'])
df.index.name = '행'
df

Unnamed: 0_level_0,이름,포인트
행,Unnamed: 1_level_1,Unnamed: 2_level_1
r0,Tom,7
r1,Mike,15
r2,Tiffany,3


In [83]:
# 튜플 반복자의 개념적 이해를 위한 코드
for t in zip(['Tom', 'Mike', 'Tiffany'], [7, 15, 3]):
    print(t)

('Tom', 7)
('Mike', 15)
('Tiffany', 3)


- 판다스 데이터프레임 생성 방법을 다양하게 알아보았고,  
  판다스 데이터프레임의 인덱싱/슬라이싱에 대해 공부하자. 

<div style="page-break-after: always;"></div> 

### 3.3 인덱싱과 슬라이싱

- 데이터프레임에서 특정 데이터를 선택하는 방법은 다양하다: 
    1. `[]`
    2. `.loc[]`
    3. `.iloc[]`
    4. 논리식 인덱싱
    5. `.query()`

In [84]:
df = pd.DataFrame(
    data={"Name": ["Tom", "Mike", "Tiffany"],
          "Language": ["Python", "Python", "R"],
          "Courses": [5, 4, 7]},
    index=[f'row{_}' for _ in range(3)])
df.index.name = 'No'
df                  # 이후 예제에서 계속 참조해야 하므로, 화면 캡처해 두자. 

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row1,Mike,Python,4
row2,Tiffany,R,7


-  `[]`를 활용한 인덱싱부터 공부하자. 

<div style="page-break-after: always;"></div> 

#### 3.3.1 `[]` 인덱싱

- 단일 레이블, 레이블의 리스트 또는 슬라이싱으로 열을 선택할 수 있다. 

- `[]`를 활용한 인덱싱에서 단일 값을 지정하면 열에 대한 인덱싱으로 해석된다. 

In [85]:
# 단일 열 레이블로 인덱싱하면 시리즈로 반환됨 
df['Name']  

No
row0        Tom
row1       Mike
row2    Tiffany
Name: Name, dtype: object

In [86]:
# 단일 열을 리스트 형태로 인덱싱하면, 
# 시리즈가 아니라 데이터프레임으로 반환됨
df[['Name']]  

Unnamed: 0_level_0,Name
No,Unnamed: 1_level_1
row0,Tom
row1,Mike
row2,Tiffany


In [87]:
# 다수 열 레이블 리스트로 인덱싱
df[['Name', 'Language']]  # 데이터프레임으로 반환

Unnamed: 0_level_0,Name,Language
No,Unnamed: 1_level_1,Unnamed: 2_level_1
row0,Tom,Python
row1,Mike,Python
row2,Tiffany,R


- 지금까지 `df['열']`, `df[['열']]` 및 `df[['열1', '열2']]` 형식으로 열에 대한 인덱싱을 공부했다. 
- 그런데 `df[열1:열2]` 형식으로 열에 대한 슬라이싱이 가능할 것으로 예상할 수 있지만,  
  이는 오류를 유발한다. 
- 의아스럽겠지만,  
  `[]` 인덱싱에서 슬라이싱은 행에 대한 슬라이싱으로 처리된다.   
  `df[행1:행2]` 형식으로 행에 대한 슬라이싱이 가능하다.
- 이런 까다로움때문에 판다스에서도 `[]` 인덱싱을 추천하지 않는다.  
  뒤에서 소개할 `loc[]` 및 `iloc[]` 인덱싱을 추천한다. 

- 요약하면 다음과 같다: 
  - `df['열']`은 단일 열에 대한 인덱싱이다.  
    (행 인덱싱에 이 형식을 쓰면 오류이다.)
  - `df[['열']]`와 `df[['열1', '열2']]`는 열 리스트에 대한 인덱싱이다.  
    (행 인덱싱에 이 형식을 쓰면 오류이다.)
  - `df['행1':'행2']`는 행 슬라이싱이다.  
    (열 슬라이싱에 이 형식을 쓰면 오류이다.)

- 아래 예제를 통하여 확인하자:

In [88]:
# 단일 열 인덱싱 (시리즈 반환)
df['Name']

No
row0        Tom
row1       Mike
row2    Tiffany
Name: Name, dtype: object

In [89]:
# 단일 열이지만, 열 리스트로 인덱싱 
df[['Name']]

Unnamed: 0_level_0,Name
No,Unnamed: 1_level_1
row0,Tom
row1,Mike
row2,Tiffany


In [90]:
# 복수 열 리스트로 인덱싱
df[['Name', 'Courses']]

Unnamed: 0_level_0,Name,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1
row0,Tom,5
row1,Mike,4
row2,Tiffany,7


In [91]:
# 행 슬라이싱
df[:]

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row1,Mike,Python,4
row2,Tiffany,R,7


In [92]:
# 행 슬라이싱
df[0:1]

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5


In [93]:
# 행 슬라이싱
df[1:3]

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row1,Mike,Python,4
row2,Tiffany,R,7


- 지금까지 `[]` 인덱싱을 제대로 사용하는 예제를 살펴 보았다. 
- 이제부터 `[]` 인덱싱을 잘못 사용하는 예제를 살펴 보자:

- 행을 `df[1]` 형식으로 인덱싱할 수 없다. 
  - 이 형식은 열 인덱싱 형식인데, `1`이라는 키로 지정된 열이 없으므로 오류를 유발한다. 
  - `df[x]`라는 표현에서 `x`는 열로 간주된다. 

In [94]:
df[1]  # 오류

KeyError: 1

- 단일 행을 리스트 형태로 인덱싱해도 마찬가지 이유로 동일한 오류가 발생한다. 
  - 이 형식은 열 리스트 인덱싱 형식인데, `1`이라는 키로 지정된 열이 없으므로 오류를 유발한다.
  - `df[[x]]`라는 표현에서 `x`는 열로 간주된다. 

In [None]:
df[[1]]

- 복수 행을 리스트 형태로 인덱싱해도 마찬가지 이유로 동일한 오류가 발생한다. 
    - 이 형식은 열 리스트 인덱싱 형식인데, `0`이나 `1`이라는 키로 지정된 열이 없으므로 오류를 유발한다.
    - `df[[x1, x2]]`라는 표현에서 `x1`과 `x2`는 모두 열로 간주된다.

In [None]:
df[[0, 1]]

- 열 슬라이싱도 오류를 유발한다.  
  `df[x1:x2]`에서 `x1`이나 `x2`는 행 인덱스로 취급되기 때문이다. 

In [95]:
df['Name':'Language']    # 오류는 피했지만, 결과가 None이다. 
                         # 'Name' 및 'Language' 인데스를 가지는 행이 없기 때문이다. 
                         # 만일 행 인덱스가 정수형이었다면 오류가 발생했을 것이다. 

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1


- `df[열]` 인덱싱을 응용하여, `df[열][행]` 인덱싱 형식도 쓸 수 있다. 

In [96]:
df['Name'][1]  # 'Name' 열에서 정수 인덱스 1인 행의 값에 접근

'Mike'

In [97]:
df['Name'][0:2]  # df[:][0]은 오류 (왜냐하면 "df[:]" 부분이 행 슬라이싱으로 해석되므로 )

No
row0     Tom
row1    Mike
Name: Name, dtype: object

In [98]:
df[['Name', 'Courses']][1:2]

Unnamed: 0_level_0,Name,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1
row1,Mike,4


- `df[행1:행2]` 슬라이싱을 응용하여, `df[행1:행2][열]` 인덱싱 형식을 쓸 수 있다. 

In [99]:
df[:]['Name']  

No
row0        Tom
row1       Mike
row2    Tiffany
Name: Name, dtype: object

In [100]:
df[0:2][['Name', 'Courses']] 

Unnamed: 0_level_0,Name,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1
row0,Tom,5
row1,Mike,4


In [101]:
df[:][:]  

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row1,Mike,Python,4
row2,Tiffany,R,7


- 그런데 (이해하기 어렵지만) 아래 코드는 여전히 오류를 유발한다.  
  행 슬라이싱 형식을 열 슬라이싱 형식으로 확장할 수는 없다.  

In [102]:
df[:]['Name':'Courses']  # 오류

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1


- `[]`를 활용한 데이터프레임 인덱싱 방법을 정리하면 다음과 같다: 
  - `df[x]`는 단일 열에 대한 인덱싱이다.  
    (행 인덱싱에 이 형식을 쓰면 오류이다.)
  - `df[[x]]`와 `df[[x1, x2]]`는 열 리스트에 대한 인덱싱이다.  
    (행 인덱싱에 이 형식을 쓰면 오류이다.)
  - `df[x1:x2]`는 행 슬라이싱이다.  
    (열 슬라이싱에 이 형식을 쓰면 오류이다.)
- 위와 같은 기본 규칙을 응용하여 다음과 같은 확장 형식이 가능하다:     
  - `df[열]` 형식을 확장하여 `df[열][행]` 형식으로 사용 가능하다. 
  - `df[행1:행2]` 형식을 확장하여 `df[행1:행2][열]` 형식으로 사용 가능하다. 

- `[]` 인덱싱은 까다롭기 때문에 추천하지 않으며,  
  이어서 `.loc[]` 및 `.iloc[]`를 활용한 인덱싱을 공부하자. 

<div style="page-break-after: always;"></div> 

#### 3.3.2 `.loc[]`/`.iloc[]` 인덱싱

- 판다스는 데이터프레임의 데이터에 접근하는 유연성을 확장하고자  
  `.loc[]` 및 `.iloc[]` 메소드를 제공하며, 이들의 활용을 권장한다: 
  - `df.loc[]`는 레이블 인덱싱에 사용한다. 
  - `df.iloc[]`는 정수 인덱싱에 사용한다. 
  
  - `loc[]` 및 `iloc[]`는 행과 열 지정 형식이 일관적이라는 점에서 `[]` 인덱싱보다 쉽다. 
- 이들은 **판다스에서 [추천하는 인덱싱 방법](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated)**이다. 

In [103]:
df  

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row1,Mike,Python,4
row2,Tiffany,R,7


- 정수 인덱싱 `.iloc[]`를 먼저 배우자.  
  정수 인덱싱은 `.iloc[행, 열]` 형식을 사용한다.  
  레이블 인덱싱도 `.loc[행, 열]` 형식을 일관적으로 사용한다. 

- `.iloc[행]` 형식으로 행에 대해서만 인덱싱이 가능하다:

In [104]:
df.iloc[0]       # 행 인덱싱

Name           Tom
Language    Python
Courses          5
Name: row0, dtype: object

In [105]:
df.iloc[[0, 2]]  # 행 리스트 인덱싱

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row2,Tiffany,R,7


In [106]:
df.iloc[0:1]     # 행 슬라이싱

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5


- `.iloc[]`로 열에 접근하려면, `.iloc[행, 열]` 형태를 써야 한다. 

In [107]:
df.iloc[2, 1]  # 2 행 1 열 원소를 인덱싱

'R'

In [108]:
# 행 리스트 및 열 리스트
df.iloc[[0, 1], [1, 2]]  # [0, 1] 행 리스트, [1, 2] 열 리스트

Unnamed: 0_level_0,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1
row0,Python,5
row1,Python,4


In [109]:
# 행 슬라이싱 및 열 슬라이싱
df.iloc[0:2, 1:]

Unnamed: 0_level_0,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1
row0,Python,5
row1,Python,4


In [110]:
# (모든 행) 특정 열에 접근
df.iloc[:, 1:2]  # df.iloc[:, 1]은 시리즈를 반환함

Unnamed: 0_level_0,Language
No,Unnamed: 1_level_1
row0,Python
row1,Python
row2,R


In [111]:
# (모든 열) 특정 행에 접근
df.iloc[1:2, :]  # df.iloc[1, :]은 시리즈를 반환함

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row1,Mike,Python,4


- (정수 인덱싱에 이어서) 레이블 인덱싱 `.loc[]`도 배워보자.  
  레이블 인덱싱도 `.loc[행, 열]` 형식을 사용한다. 

In [112]:
df.loc['row0']     # df.iloc[0] 결과와 동일

Name           Tom
Language    Python
Courses          5
Name: row0, dtype: object

In [113]:
df.loc[['row0', 'row2']]

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row2,Tiffany,R,7


In [114]:
df.loc['row0':'row2']   # df.iloc[0:2] 결과와 비슷하지만, 'row2' 행도 포함됨!!!

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row1,Mike,Python,4
row2,Tiffany,R,7


- 정수 인덱싱과 달리,  
  레이블 인덱싱에서 슬라이싱 범위는 끝 값도 포함하는 방식이다. 

- `iloc[]`와 마찬가지로,  
  `loc[]`도 열에 접근하려면, `[행, 열]` 형태를 써야 한다. 

In [115]:
df.loc['row2', 'Language']                         # df.iloc[2, 1] 결과와 동일

'R'

In [116]:
# 행 리스트 및 열 리스트
df.loc[['row0', 'row1'], ['Language', 'Courses']]  # df.iloc[[0, 1], [1, 2]]

Unnamed: 0_level_0,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1
row0,Python,5
row1,Python,4


In [117]:
# 행 슬라이싱 및 열 슬라이싱
df.loc['row0':'row1', 'Language':]                 # df.iloc[0:2, 1:]  
                                                   # iloc[]와 동일하게 행 슬라이싱을 하려면 
                                                   # loc[] 행 슬라이싱 범위가 달라야 함!!!

Unnamed: 0_level_0,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1
row0,Python,5
row1,Python,4


- `.loc[]` 슬라이싱은 끝이 닫힌 범위로 처리되어, 범위의 끝 위치도 포함한다.
- `.iloc[]` 슬라이싱은 끝이 열린 범위로 처리되어, 범위의 끝 위치를 제외한다.


- 일반적으로 데이터프레임에서 열 인덱스는 레이블 형식을 쓰기 때문에  
  레이블 인덱싱을 위한 `.loc[]`를 자주 사용한다. 

In [118]:
# 모든 행과 열에 접근

df.loc[:, :] 

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row1,Mike,Python,4
row2,Tiffany,R,7


In [119]:
# (모든 행) 특정 열에 접근

df.loc[:, ['Language']]  # df.iloc[:, 1] 

Unnamed: 0_level_0,Language
No,Unnamed: 1_level_1
row0,Python
row1,Python
row2,R


In [120]:
# (모든 열) 특정 행에 접근

df.loc[['row1'], :]  # df.iloc[1, :]

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row1,Mike,Python,4


In [121]:
df.loc[:, 'Name']  # 특정 열만 선별
                   # 반환값이 시리즈

No
row0        Tom
row1       Mike
row2    Tiffany
Name: Name, dtype: object

In [122]:
df.loc[:, ['Name']]  # 특정 열만 선별
                     # 반환값이 데이터프레임

Unnamed: 0_level_0,Name
No,Unnamed: 1_level_1
row0,Tom
row1,Mike
row2,Tiffany


In [123]:
df.loc['row1', :]  # 특정 행만 선별
              # 반환값이 시리즈

Name          Mike
Language    Python
Courses          4
Name: row1, dtype: object

In [124]:
df.loc[['row1'], :]  # 특정 행만 선별
                # 반환값이 데이터프레임

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row1,Mike,Python,4


- 때때로 데이터프레임 내부의 데이터에 접근하기 위하여  
  정수와 레이블을 혼합하여 사용하고 싶은 경우가 있다.  
  이렇게 하는 가장 쉬운 방법은 다음 두 방법을 함께 사용하는 것이다:
  - 레이블을 지정하는 `.loc[]` 
  - 정수를 지정하는 `.index` 및 `.columns`  

In [125]:
df

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row1,Mike,Python,4
row2,Tiffany,R,7


In [126]:
df.index  # 데이터프레임의 index 속성, 결국 행 인덱스 값의 리스트

Index(['row0', 'row1', 'row2'], dtype='object', name='No')

In [127]:
df.columns  # 데이터프레임의 columns 속성, 결국 열 인덱스 값의 리스트

Index(['Name', 'Language', 'Courses'], dtype='object')

In [128]:
# 행은 df.index[]로, 열은 df.columns[]로 지정 
df.loc[df.index[0], df.columns[0]] 

'Tom'

In [129]:
# 행만 df.index[]로 지정
df.loc[df.index[0], 'Name']  # df.index[0]은 'row0'  

'Tom'

In [130]:
# 열만 df.columns[]로 지정
df.loc['row0', df.columns[0]]  # df.index[0]은 'row0', df.columns[0]는 'Name'

'Tom'

In [131]:
df.loc[df.index[:], df.columns[:]]  # 모든 행과 열에 접근

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row1,Mike,Python,4
row2,Tiffany,R,7


- 지금까지, `[]`, `.iloc[]` 및 `.loc[]` 인덱싱을 공부했다.  
  이어서 논리형 인덱싱을 공부하자. 

<div style="page-break-after: always;"></div> 

#### 3.3.3 논리형 인덱싱

- 시리즈에서와 마찬가지로, 데이터를 논리형 마스크로 추출할 수 있다.  
  - **논리형 마스크는 행 단위로 적용**된다.
  - 이 말은 논리형 마스크로 행을 인덱싱할 수 있다는 의미이다.

In [132]:
df

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row1,Mike,Python,4
row2,Tiffany,R,7


In [133]:
df[[True, False, True]]  # 논리값 벡터, 즉 논리 마스크로 행 인덱싱

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row2,Tiffany,R,7


In [134]:
df['Courses'] > 5  # 행에 대한 논리값 벡터를 산출하는 논리식

No
row0    False
row1    False
row2     True
Name: Courses, dtype: bool

In [135]:
df[df['Courses'] > 5]  # 논리식 마스킹으로 행 추출

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row2,Tiffany,R,7


In [136]:
df[df['Courses'] > 4]  # 조건에 부합하는 행 추출

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row2,Tiffany,R,7


In [137]:
# 조건에 부합하는 행을 추출한 후, 다시 특정 열 리스트만 추출
df[df['Courses'] > 4][['Name', 'Language']]  

Unnamed: 0_level_0,Name,Language
No,Unnamed: 1_level_1,Unnamed: 2_level_1
row0,Tom,Python
row2,Tiffany,R


In [138]:
# 조건에 부합하는 행에서 특정 열만 (시리즈로) 추출
df[df['Courses'] > 4]['Name']  

No
row0        Tom
row2    Tiffany
Name: Name, dtype: object

In [139]:
# 조건에 부합하는 행에서 특정 열만 (데이터프레임으로) 추출
df[df['Courses'] > 4][['Name']]  

Unnamed: 0_level_0,Name
No,Unnamed: 1_level_1
row0,Tom
row2,Tiffany


- 논리형 인덱싱에 이어서 `.query()` 인덱싱을 공부하자. 

<div style="page-break-after: always;"></div> 

#### 3.3.4 `.query()` 인덱싱

- 논리형 마스크도 잘 작동하지만,  
  데이터 선별을 위해서라면 `.query()` 메소드가 더욱 편리하다. 
  - `df.query()`는 데이터 추출을 위한 강력한 도구이다. 
  - `df.query()`에서 요구하는 문법은 SQL 조건문과 비슷하다. 
  - `df.query()`는 조건을 지정하는 문자열을 인자로 요구하며,  
    `df` 데이터프레임에 포함된 열 이름을 메소드가 이미 알고 있으므로 편리하게 사용할 수 있다. 

- `.query()` 메소드에 검색 조건을 문자열 인자로 지정할 때,  
  작은 따옴표를 쓰거나 큰 따옴표를 쓰거나 차이가 없다. 

In [140]:
df.query("Courses > 4 & Language == 'Python'")

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5


In [141]:
df[(df['Courses'] > 4) & (df['Language'] == 'Python')]  

# 논리형 인덱싱은 .query()보다 가독성이 떨어짐

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5


In [142]:
df[(df.Courses > 4) & (df.Language == 'Python')] 

# 직전 셀과 동일한 코드를 이처럼 작성할 수도 있음
# 조금 나아졌지만, 여전히 .query()보다 가독성이 떨어짐

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5


- `.query()`와 논리형 인덱싱은 동일한 조건 검색 기능을 제공하지만,  
  질의 조건이 복잡할수록 `.query()`의 가독성이 훨씬 좋다. 

- `.query()` 메소드에서는  
  현재 작업공간(workspace)에 정의된 변수에 대한 참조를  
  `@` 기호로 사용할 수 있다. 

In [143]:
course_threshold = 4

In [144]:
df.query("Courses > @course_threshold")  # 변수 값에 대한 참조를 질의 조건에 포함
                                         # 데이터프레임 내부 열 이름은 그냥 사용

Unnamed: 0_level_0,Name,Language,Courses
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
row0,Tom,Python,5
row2,Tiffany,R,7


- 지금까지 공부한 인덱싱 방법을 정리하자. 

<div style="page-break-after: always;"></div> 

#### 3.3.5 인덱싱 방법 요약

|방법|문법|산출 결과|
|---|---|---|
|열 선택|`df[열_레이블]`|시리즈|
|행 슬라이스 선택|`df[행_1_정수:행_2_정수]`|데이터프레임|
|레이블로 행/열 선택|`df.loc[행_레이블, 열_레이블]`|단일 값 선택이면 객체, <br>단일 행/열 선택이면 시리즈, <br>아니면 데이터프레임|
|정수로 행/열 선택|`df.iloc[행_정수, 열_정수]`|단일 값 선택이면 객체, <br>단일 행/열 선택이면 시리즈, <br>아니면 데이터프레임|
|행 정수 및 열 레이블로 선택|`df.loc[df.index[행_정수], 열_레이블]`|단일 값 선택이면 객체, <br>단일 행/열 선택이면 시리즈, <br>아니면 데이터프레임|
|행 레이블 및 열 정수로 선택|`df.loc[행_레이블, df.columns[열_정수]]`|단일 값 선택이면 객체, <br>단일 행/열 선택이면 시리즈, <br>아니면 데이터프레임|
|논리값으로 선택|`df[논리값_벡터]`|단일 값 선택이면 객체, <br>단일 행/열 선택이면 시리즈, <br>아니면 데이터프레임|
|논리식으로 선택|`df.query("논리식")`|단일 값 선택이면 객체, <br>단일 행/열 선택이면 시리즈, <br>아니면 데이터프레임|

- 데이터프레임 인덱싱 방법에 이어서  
  데이터프레임에 대한 입력/출력을 공부하자. 

<div style="page-break-after: always;"></div> 

### 3.4 입력 및 출력

#### 3.4.1 csv 파일

- .csv 파일 데이터를 읽어서  
  판다스 데이터프레임으로 적재하는 작업은  
  데이터 과학 분야에서 매우 일상적이다. 
  - `pd.read_csv()` 함수로 이 작업을 수행할 수 있다. 
  - 실습 데이터는 자전거 출퇴근에 관한 실제 데이터셋이다. 
  - `pd.read_csv()` 함수에는 인자가 매우 다양하게 정의되어 있다.  
  - 주피터 노트북 코드 셀에  
    `pd.read_csv`, `pd.read_csv?` 또는 `help(pd.read_csv)`라고 입력하고  
    셀을 실행하면, 해당 함수의 매개변수에 대한 상세 정보를 확인할 수 있다. 

In [145]:
pd.read_csv

<function pandas.io.parsers.readers.read_csv(filepath_or_buffer: 'FilePathOrBuffer', sep=<no_default>, delimiter=None, header='infer', names=<no_default>, index_col=None, usecols=None, squeeze=False, prefix=<no_default>, mangle_dupe_cols=True, dtype: 'DtypeArg | None' = None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal: 'str' = '.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors: 'str | None' = 'strict', dialect=None, error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None, delim_whitespace=False, low_memory=True, memory_map=False,

In [146]:
path = '../data/cycling_data.csv'                      # 파일을 문서 편집기 및 엑셀에서 확인
df = pd.read_csv(path, index_col=0, parse_dates=True)  # 인덱스를 0번 열로, 날짜 해석 요청
df

Unnamed: 0_level_0,Name,Type,Time,Distance,Comments
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-09-10 00:13:04,Afternoon Ride,Ride,2084,12.62,Rain
2019-09-10 13:52:18,Morning Ride,Ride,2531,13.03,rain
2019-09-11 00:23:50,Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
2019-09-11 14:06:19,Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
2019-09-12 00:28:05,Afternoon Ride,Ride,1891,12.48,Tired by the end of the week
2019-09-16 13:57:48,Morning Ride,Ride,2272,12.45,Rested after the weekend!
2019-09-17 00:15:47,Afternoon Ride,Ride,1973,12.45,Legs feeling strong!
2019-09-17 13:43:34,Morning Ride,Ride,2285,12.6,Raining
2019-09-18 13:49:53,Morning Ride,Ride,2903,14.57,Raining today
2019-09-18 00:15:52,Afternoon Ride,Ride,2101,12.48,Pumped up tires


- `df.read_csv()` 함수에서 제공하는 다양한 인자를 활용할 수 있다면,  
  많은 복잡한 전처리 작업을 쉽게 해결 가능하다. [여기를 확인하라](https://rfriend.tistory.com/250). 
- `df.to_csv()` 함수로 데이터프레임을 .csv 파일로 저장할 수 있다.  
  `df.to_csv()` 함수에도 매우 다양한 매개변수가 준비되어 있으니 [여기를 확인하기 바란다](https://rfriend.tistory.com/252). 
- 모든 사항을 다 배우고, 외우는 방식으로 공부할 수는 없다.  
  "csv 형식의 파일을 판다스에서 입력하고, 출력하는 함수가 있었는데..." 정도의 기억을 남겨두었다가,  
  필요한 때가 오면 구글링으로 해결하면 된다. 

- 파일에 대한 입출력에 이어서,  
  url을 활용한 입출력을 공부하자. 

<div style="page-break-after: always;"></div> 

#### 3.4.2 url

- 판다스에서는 url을 지정하여 웹 데이터에 직접 접근할 수 있다.  
  `pd.read_csv()` 함수에 url을 직접 지정하면 된다. 

In [147]:
url = 'https://raw.githubusercontent.com/logistex/jBook/main/cycling_data.csv'
df = pd.read_csv(url)
df.head()    # df 앞 부분만 출력

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
0,"10 Sep 2019, 00:13:04",Afternoon Ride,Ride,2084,12.62,Rain
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
3,"11 Sep 2019, 14:06:19",Morning Ride,Ride,2192,12.84,Stopped for photo of sunrise
4,"12 Sep 2019, 00:28:05",Afternoon Ride,Ride,1891,12.48,Tired by the end of the week


- csv 파일 및 url을 활용한 입출력 외에도,  
  기타 다양한 유형의 파일에 대한 입출력이 가능하다. 

#### 3.4.3 기타

- 판다스는 HTML, JSON, Excel, Parquet, Feather 등을 포함하는  
  매우 다양한 유형의 파일을 읽을 수 있다.
  - 일반적으로 이들 유형마다 전용 입출력 함수가 준비되어 있다.  
  - 판다스 공식 문서에서 [이들에 대한 자세한 내용](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-tools-text-csv-hdf5)을 확인할 수 있다. 

- 데이터프레임의 입출력에 이어서,  
  데이터프레임에 대한 연산을 공부하자. 

<div style="page-break-after: always;"></div> 

### 3.5 데이터프레임 연산

- 데이터프레임은 `.min()`, `idxmin()`, `sort_values()` 등을 포함하여  
  다양한 작업 수행을 위한 함수를 내장하고 있다. 
  - [데이터프레임 내장 함수](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)의 방대한 내용은 판다스 공식 문서에서 확인할 수 있다.
  - 아래에서 이들 중의 일부에 대한 예제를 공부하자. 

In [148]:
df = pd.read_csv('../data/cycling_data.csv')
df.tail()  # 데이퍼프레임의 끝 부분만 확인

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.7,Really cold! But feeling good
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise
32,"11 Oct 2019, 00:16:57",Afternoon Ride,Ride,1843,11.79,"Bike feeling tight, needs an oil and pump"


In [149]:
df.shape

(33, 6)

In [150]:
df.min()  # df의 최소값

Date                         1 Oct 2019, 00:15:07
Name                               Afternoon Ride
Type                                         Ride
Time                                         1712
Distance                                    11.79
Comments    A little tired today but good weather
dtype: object

In [151]:
df.max()

Date        9 Oct 2019, 13:55:40
Name                Morning Ride
Type                        Ride
Time                       48062
Distance                   14.57
Comments                 raining
dtype: object

In [152]:
df.mean(numeric_only=True)

Time        3512.787879
Distance      12.667419
dtype: float64

In [153]:
df['Time'].min()     # df.Time 열의 최소값

1712

In [154]:
df['Time'].idxmin()  # df.Time 열 최소값의 인덱스 

20

In [155]:
df.iloc[20]          # 행 인덱스 지정하여 확인

Date               27 Sep 2019, 01:00:18
Name                      Afternoon Ride
Type                                Ride
Time                                1712
Distance                           12.47
Comments    Tired by the end of the week
Name: 20, dtype: object

In [156]:
df.sum()            # df의 열별 합계 (문자열에 대해서는 연결!)

Date        10 Sep 2019, 00:13:0410 Sep 2019, 13:52:1811 S...
Name        Afternoon RideMorning RideAfternoon RideMornin...
Type        RideRideRideRideRideRideRideRideRideRideRideRi...
Time                                                   115922
Distance                                               392.69
Comments    RainrainWet road but nice weatherStopped for p...
dtype: object

- `.mean()`과 같은 일부 메소드는 수치 열에 대해서만 작업을 수행하고,  
  비수치 열은 무시했었는데, 이제는 경고를 한다.  
  아래 코드에서 인자를 지우고 실행하여 보라. 

In [157]:
df.mean(numeric_only=True)  # df 수치 열에 대한 평균

Time        3512.787879
Distance      12.667419
dtype: float64

- `.sort_values()`와 같은 일부 메소드에 대해서는 인자를 지정해야 한다. 

In [158]:
df.sort_values(by='Time')  # 정렬 기준 열 레이블을 by 인자로 지정

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
20,"27 Sep 2019, 01:00:18",Afternoon Ride,Ride,1712,12.47,Tired by the end of the week
26,"3 Oct 2019, 00:45:22",Afternoon Ride,Ride,1724,12.52,Feeling good
22,"1 Oct 2019, 00:15:07",Afternoon Ride,Ride,1732,,Legs feeling strong!
24,"2 Oct 2019, 00:13:09",Afternoon Ride,Ride,1756,,A little tired today but good weather
16,"25 Sep 2019, 00:07:21",Afternoon Ride,Ride,1775,12.1,Feeling really tired
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
32,"11 Oct 2019, 00:16:57",Afternoon Ride,Ride,1843,11.79,"Bike feeling tight, needs an oil and pump"
18,"26 Sep 2019, 00:13:33",Afternoon Ride,Ride,1860,12.52,raining
2,"11 Sep 2019, 00:23:50",Afternoon Ride,Ride,1863,12.52,Wet road but nice weather
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"


In [159]:
# by 및 ascending 인자 
df.sort_values(by='Time', ascending=False)  # 10 행의 Time 수치는 이상치?

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
10,"19 Sep 2019, 00:30:01",Afternoon Ride,Ride,48062,12.48,Feeling good
12,"20 Sep 2019, 01:02:05",Afternoon Ride,Ride,2961,12.81,Feeling good
8,"18 Sep 2019, 13:49:53",Morning Ride,Ride,2903,14.57,Raining today
1,"10 Sep 2019, 13:52:18",Morning Ride,Ride,2531,13.03,rain
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise
13,"23 Sep 2019, 13:50:41",Morning Ride,Ride,2462,12.68,Rested after the weekend!
19,"26 Sep 2019, 13:42:43",Morning Ride,Ride,2350,12.91,Detour around trucks at Jericho
15,"24 Sep 2019, 13:41:24",Morning Ride,Ride,2321,12.68,Bike feeling much smoother
7,"17 Sep 2019, 13:43:34",Morning Ride,Ride,2285,12.6,Raining
5,"16 Sep 2019, 13:57:48",Morning Ride,Ride,2272,12.45,Rested after the weekend!


- 데이터프레임에 포함된 수치 열에 대하여 주요 통계량을 한번에 확인할 수 있다: 
  - Distance 열의 개수가 31개
  - Time 열의 평균은 다소 크고, 표준편차는 매우 큼
  - Distance 열의 모든 사분위 수치는 큰 차이가 없음
  - Time 열의 최대값은 특이하게 큰 수치임

In [160]:
df.describe()

Unnamed: 0,Time,Distance
count,33.0,31.0
mean,3512.787879,12.667419
std,8003.309233,0.428618
min,1712.0,11.79
25%,1863.0,12.48
50%,2118.0,12.62
75%,2285.0,12.75
max,48062.0,14.57


In [161]:
df[df.Distance.isnull()]

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
22,"1 Oct 2019, 00:15:07",Afternoon Ride,Ride,1732,,Legs feeling strong!
24,"2 Oct 2019, 00:13:09",Afternoon Ride,Ride,1756,,A little tired today but good weather


- `.sort_index()`와 같은 일부 메소드는  
  인덱스에 대한 연산을 수행한다. 

In [162]:
df.sort_index(ascending=False)

Unnamed: 0,Date,Name,Type,Time,Distance,Comments
32,"11 Oct 2019, 00:16:57",Afternoon Ride,Ride,1843,11.79,"Bike feeling tight, needs an oil and pump"
31,"10 Oct 2019, 13:47:14",Morning Ride,Ride,2463,12.79,Stopped for photo of sunrise
30,"10 Oct 2019, 00:10:31",Afternoon Ride,Ride,1841,12.59,Feeling good after a holiday break!
29,"9 Oct 2019, 13:55:40",Morning Ride,Ride,2149,12.7,Really cold! But feeling good
28,"4 Oct 2019, 01:08:08",Afternoon Ride,Ride,1870,12.63,"Very tired, riding into the wind"
27,"3 Oct 2019, 13:47:36",Morning Ride,Ride,2182,12.68,Wet road
26,"3 Oct 2019, 00:45:22",Afternoon Ride,Ride,1724,12.52,Feeling good
25,"2 Oct 2019, 13:46:06",Morning Ride,Ride,2134,13.06,Bit tired today but good weather
24,"2 Oct 2019, 00:13:09",Afternoon Ride,Ride,1756,,A little tired today but good weather
23,"1 Oct 2019, 13:45:55",Morning Ride,Ride,2222,12.82,Beautiful morning! Feeling fit


- 데이터프레임 연산에 이어서,  
  자료구조 선택에 관한 지침을 알아보자. 

<div style="page-break-after: always;"></div> 

## 4. 자료구조 선택 지침

- 왜 이 모든 자료구조가 필요한가?  
  각 자료구조마다 고유한 용도가 있고, 적당한 용처가 있다. 
  - 일반적으로 넘파이가 판다스보다 빠르고 메모리 요구량이 적다.
  - 모든 파이썬 패키지가 넘파이 및 판다스와 호환되지는 않는다. 
  - 데이터에 레이블을 지정할 수 있는 기능은 시계열 데이터 등에서 쓸모가 있다.
  - 넘파이 및 판다스는 제공하는 내장 함수가 다르다. 
- 당신의 작업에 필요한 **조건을 충족하는, 가장 단순한** 자료구조를 사용하라. 
- 넘파이 배열에서, 판다스 시리즈를 거쳐 판다스 데이터프레임으로 진행하였다. 
  - 넘파이 배열: ndarray (`np.array()`) 
  - 판다스 시리즈: Series (`pd.Series()`) 
  - 판다스 데이터프레임: DataFrame (`pd.DataFrame()`)
- 데이터프레임이나 시리즈에서 넘파이 배열로 가려면,  
  `df.to_numpy()`를 쓸 수 있다. 

In [163]:
type(df)

pandas.core.frame.DataFrame

In [164]:
type(df.Distance)

pandas.core.series.Series

In [165]:
type(df.Distance.to_numpy())

numpy.ndarray

- 자료구조 선택 지침을 끝으로 판다스 공부를 마친다.
- 지금까지 넘파이 및 판다스를 공부했고,  
  다음 장에서는 데이터 정제를 공부할 예정이다. 

<div style="page-break-after: always;"></div> 