2장에서 loc을 사용하여 데이터프레임에서 시리즈를 추출하는 슬라이싱 기법을 알아봤다.

### 시리즈 추출하기
1. 먼저 매개변수 index에 행 이름 인덱스를 지정하여 예제 데이터프레임 scientists를 생성한다.

In [2]:
import pandas as pd

In [3]:
scientists = pd.DataFrame(
    data={
        "Occupation": ["Chemist", "Statistician"],
        "Born": ["1920-07-25", "1876-06-13"],
        "Died": ["1958-04-16", "1937-10-16"],
        "Age": [37, 61]
    },
    index=["Rosaline Franklin", "William Gosset"],
    columns=["Occupation",
             "Born",
             "Died",
             "Age"]
)
print(scientists)

                     Occupation        Born        Died  Age
Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
William Gosset     Statistician  1876-06-13  1937-10-16   61


2. 이제 scientists 데이터프레임에서 loc로 행 이름 인덱스 "William Gosset"을 지정하여 행을 추출한다. 추출한 행을 first_row에 저장하고 type() 함수로 자료형을 살펴보면 다음과 같다.

In [5]:
first_row = scientists.loc["William Gosset"]
print(type(first_row))

<class 'pandas.core.series.Series'>


first_row의 내용은 아래와 같다.

In [6]:
print(first_row)

Occupation    Statistician
Born            1876-06-13
Died            1937-10-16
Age                     61
Name: William Gosset, dtype: object


시리즈를 print()로 출력하면 첫 번째 열에 열 이름을, 두 번째 열에 값을 표시한다.

3. 시리즈 객체는 index, values와 같은 다양한 속성과 메서드를 제공한다.

In [7]:
print(first_row.index)

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')


In [8]:
print(first_row.values)

['Statistician' '1876-06-13' '1937-10-16' 61]


이 밖에도 다음 표와 같은 여러 가지 속성이 있다. 

| 시리즈 속성          | 설명                             |
|-----------------|--------------------------------|
| loc             | 열 이름으로 데이터 추출                  |
| iloc            | 열 위치로 데이터 추출                   |
| dtype or dtypes | 시리즈에 저장된 값의 자료형                |
| T               | 시리즈의 전치                        |
| shape           | 데이터의 차원                        |
| size            | 시리즈의 요소 개수                     |
| values          | 시리즈의 ndarray 또는 ndarray와 같은 형태 |


## 시리즈의 keys() 메서드
시리즈의 keys() 메서드는 index 속성과  같은 역할을 한다.

In [10]:
print(first_row.keys())

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')


속성은 객체의 특성이라 볼 수 있고 메서드는 객체를 대상으로 수행하는 계산이나 연산이라 할 수 있다. 속성 구문을 사용할 때는 소괄호가 아닌  대괄호를 사용한다. 예를 들어 loc와 iloc 구문은 모두 속성이므로 대괄호를 사용했다. keys() 는 메서드이므로 첫 번째 키를 추출하고 싶다면 메서드를 호출한 후에 대활호를 사용한다.

In [11]:
print(first_row.index[0])

Occupation


속성 뒤에 바로 대괄호를 사용하여 인덱스를 추출했다. 이와 달리 keys() 메서드를 사용하여 첫 번째 인덱스를 추출하는 방법은 다음과 같다.

In [14]:
print(first_row.keys()[0])

Occupation


메서드를 호출 뒤에 대괄호를 사용하여 첫 번째 인덱스를 추출했다.

## 시리즈와 ndarray

판다스의 시리즈 자료구조는 넘파이의 ndarray(numpy.ndarray)와 매우 닮았다. ndarray에서 사용할 수 있는 대부분의 메서드와 함수는 시리즈에도 사용할 수 있다. 한 특성에 대한 여러 가지 값이므로 시리즈를 벡터라고도 한다.

### 시리즈의 메서드 사용하기

1. 먼저 scientists 데이터프레임에서 age 열 시리즈를 추출한다.

In [15]:
ages = scientists["Age"]
print(ages)

Rosaline Franklin    37
William Gosset       61
Name: Age, dtype: int64


2. 넘파이는 숫자 벡터를 다루는 유명한 과학 계산 라이브러리이다. 시리즈는 넘파이의 ndarray를 확장한 개념으로 생각할 수 있고, 많은 속성과 메서드를 그대로 사용할 수 있다. 숫자 벡터에 적용할 수 있는 몇 가지 연산을 살펴보면 다음과 같다.

In [16]:
# 평균
print(ages.mean())

49.0


In [17]:
# 최솟값
print(ages.min())

37


In [18]:
# 최대값
print(ages.max())

61


In [19]:
# 표준편차
print(ages.std())

16.97056274847714


mean(), min(), max(), std() 메서드는 넘파이의 ndarray 의 메서드이기도 하다. 다음은 시리즈에 사용할 수 있는 메서드를 정리한 표이다.