2장에서 loc을 사용하여 데이터프레임에서 시리즈를 추출하는 슬라이싱 기법을 알아봤다.

### 시리즈 추출하기
1. 먼저 매개변수 index에 행 이름 인덱스를 지정하여 예제 데이터프레임 scientists를 생성한다.

In [1]:
import pandas as pd

In [2]:
scientists = pd.DataFrame(
    data={
        "Occupation": ["Chemist", "Statistician"],
        "Born": ["1920-07-25", "1876-06-13"],
        "Died": ["1958-04-16", "1937-10-16"],
        "Age": [37, 61]
    },
    index=["Rosaline Franklin", "William Gosset"],
    columns=["Occupation",
             "Born",
             "Died",
             "Age"]
)
print(scientists)

                     Occupation        Born        Died  Age
Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
William Gosset     Statistician  1876-06-13  1937-10-16   61


2. 이제 scientists 데이터프레임에서 loc로 행 이름 인덱스 "William Gosset"을 지정하여 행을 추출한다. 추출한 행을 first_row에 저장하고 type() 함수로 자료형을 살펴보면 다음과 같다.

In [3]:
first_row = scientists.loc["William Gosset"]
print(type(first_row))

<class 'pandas.core.series.Series'>


first_row의 내용은 아래와 같다.

In [4]:
print(first_row)

Occupation    Statistician
Born            1876-06-13
Died            1937-10-16
Age                     61
Name: William Gosset, dtype: object


시리즈를 print()로 출력하면 첫 번째 열에 열 이름을, 두 번째 열에 값을 표시한다.

3. 시리즈 객체는 index, values와 같은 다양한 속성과 메서드를 제공한다.

In [5]:
print(first_row.index)

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')


In [6]:
print(first_row.values)

['Statistician' '1876-06-13' '1937-10-16' 61]


이 밖에도 다음 표와 같은 여러 가지 속성이 있다. 

| 시리즈 속성          | 설명                             |
|-----------------|--------------------------------|
| loc             | 열 이름으로 데이터 추출                  |
| iloc            | 열 위치로 데이터 추출                   |
| dtype or dtypes | 시리즈에 저장된 값의 자료형                |
| T               | 시리즈의 전치                        |
| shape           | 데이터의 차원                        |
| size            | 시리즈의 요소 개수                     |
| values          | 시리즈의 ndarray 또는 ndarray와 같은 형태 |


## 시리즈의 keys() 메서드
시리즈의 keys() 메서드는 index 속성과  같은 역할을 한다.

In [7]:
print(first_row.keys())

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')


속성은 객체의 특성이라 볼 수 있고 메서드는 객체를 대상으로 수행하는 계산이나 연산이라 할 수 있다. 속성 구문을 사용할 때는 소괄호가 아닌  대괄호를 사용한다. 예를 들어 loc와 iloc 구문은 모두 속성이므로 대괄호를 사용했다. keys() 는 메서드이므로 첫 번째 키를 추출하고 싶다면 메서드를 호출한 후에 대활호를 사용한다.

In [8]:
print(first_row.index[0])

Occupation


속성 뒤에 바로 대괄호를 사용하여 인덱스를 추출했다. 이와 달리 keys() 메서드를 사용하여 첫 번째 인덱스를 추출하는 방법은 다음과 같다.

In [9]:
print(first_row.keys()[0])

Occupation


메서드를 호출 뒤에 대괄호를 사용하여 첫 번째 인덱스를 추출했다.

## 시리즈와 ndarray

판다스의 시리즈 자료구조는 넘파이의 ndarray(numpy.ndarray)와 매우 닮았다. ndarray에서 사용할 수 있는 대부분의 메서드와 함수는 시리즈에도 사용할 수 있다. 한 특성에 대한 여러 가지 값이므로 시리즈를 벡터라고도 한다.

### 시리즈의 메서드 사용하기

1. 먼저 scientists 데이터프레임에서 age 열 시리즈를 추출한다.

In [10]:
ages = scientists["Age"]
print(ages)

Rosaline Franklin    37
William Gosset       61
Name: Age, dtype: int64


2. 넘파이는 숫자 벡터를 다루는 유명한 과학 계산 라이브러리이다. 시리즈는 넘파이의 ndarray를 확장한 개념으로 생각할 수 있고, 많은 속성과 메서드를 그대로 사용할 수 있다. 숫자 벡터에 적용할 수 있는 몇 가지 연산을 살펴보면 다음과 같다.

In [11]:
# 평균
print(ages.mean())

49.0


In [12]:
# 최솟값
print(ages.min())

37


In [13]:
# 최대값
print(ages.max())

61


In [14]:
# 표준편차
print(ages.std())

16.97056274847714


mean(), min(), max(), std() 메서드는 넘파이의 ndarray 의 메서드이기도 하다. 다음은 시리즈에 사용할 수 있는 메서드를 정리한 표이다.

| 시리즈 메서드           | 설명                           |
|-------------------|------------------------------|
| append()          | 2개 이상의 시리즈 연결                |
| corr()            | 다른 시리즈와의 상관관계 계산             |
| cov()             | 다른 시리즈와의 공분산 계산              |
| describe()        | 요약 통계량 계산                    |
| drop_duplicates() | 중복값이 없는 시리즈 반환               |
| equals()          | 시리즈에 주어진 값을 가진 요소가 있는지 확인    |
| get_values()      | 시리즈 값 구하기(values 속성과 같음)     |
| hist()            | 히스토그램 그리기                    |
| isin()            | 주어진 값이 시리즈에 포함되어 있는지 확인      |
| min()             | 최솟값 반환                       |
| max()             | 최대값 반환                       |
| mean()            | 산술 평균 반환                     |
| median()          | 중앙값 반환                       |
| mode()            | 최빈값 반환                       |
| quantile()        | 사분위수로 값을 반환                  |
| replace()         | 시리즈의 특정 값을 변환                |
| sample()          | 시리즈에서 임의의 값을 반환              |
| sort_values()     | 값 정렬                         |
| to_frame()        | 시리즈를 데이터프레임으로 변환             |
| transpose()       | 시리즈의 전치 반환                   |
| unique()          | 고윳값만으로 이루어진 numpy.ndarray 반환 |

## 시리즈와 불리언
02장에서 특정 인덱스를 사용하여 데이터를 추출하는 방법을 살펴봤다. 그러나 추출할 데이터의 정확한 행 또는 열 인덱스를 아는 경우는 많지 않다. 일반적으로 데이터를 다룰 때는 특정 계산 또는 조건을 만족하거나 그렇지 않은 값으로 데이터르 구분할 때가 흔하다. 이번 예제에서는 과학자 데이터셋 파일을 사용한다. 

In [15]:
scientists = pd.read_csv("../../../data/scientists.csv")

앞서 mean(), min() 등 시리즈로 기본적인 기술 통계를 계산하는 방법을 소개했다. 이와 함께 describe() 메서드르 호출하면 다양한 기술 통계량을 한 번에 계산할 수 있다.

### 기술 통계량 계산하기

1. 먼저 scientists 데이터프레임에서 Age 열을 추출하고 ages에 저장한다.

In [16]:
ages = scientists["Age"]
print(ages)

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


2. 그런 다음 ages 시리즈를 대상으로 describe() 메서드를 호출하면 다음과 같이 다양한 기술 통계량을 계산할 수 있다.

In [17]:
print(ages.describe())

count     8.000000
mean     59.125000
std      18.325918
min      37.000000
25%      44.000000
50%      58.500000
75%      68.750000
max      90.000000
Name: Age, dtype: float64


3. mean() 으로 구한 산술 평균값과 describe()의 mean 값을 비교하면 값이 같다는 점을 알 수 있다.

In [18]:
print(ages.mean())

59.125


4. 평균 나이보다 나이가 많은 과학자만 추출하려면 어떻게 해야 할까? 다음과 같이 대괄호 구문에 조건을 삽입하면 조건에 맞는 데이터만 추출할 수 있다.

In [19]:
print(ages[ages > ages.mean()])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64


5. 조건으로 삽입한 ages > ages.mean() 이 무엇을 반환하는지 살펴보자

In [20]:
ages > ages.mean()

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool

type() 함수로 해당 조건이 반환하는 자료형을 살펴보면 다음과 같다.

In [21]:
print(type(ages > ages.mean()))

<class 'pandas.core.series.Series'>


이 조건문은 dtype이 bool인 시리즈를 반환한다. 출력된 부릴언 시리즈를 살펴보면 행별로  True, False를 출력하는데, 여기서는  1, 2, 3, 7행이 True 이다. 이것을 통해 행 이름과 행 위치뿐만 아니라 불리언값으로 구성된 시리즈로도 데이터를 추출할 수 있다는 점을 알 수 있다.

6. 불리언 시리즈를 직접 지정하여 데이터를 추출할 수도 있다. 예를 들어 행 번호가 0, 1, 4, 5, 7인 데이터는 다음과 같이 추출할 수 있다.

In [22]:
manual_bool_values = [
    True,
    True,
    False,
    False,
    True,
    True,
    False,
    True
]
print(ages[manual_bool_values])

0    37
1    61
4    56
5    45
7    77
Name: Age, dtype: int64


파이썬에서는 다양한 함수와 메서드가 있다. 구현 방법에 따라 행 이름, 행 위치 또는 불리언을 반환하는 구문을 얼마든지 다양하게 만들 수 있다. 새로운 구현 방법을 공부할 때마다 다양하게 시도해보자.


## 시리즈와 브로드캐스팅

프로그래밍에 익숙한 독자라면 for루프 없이 age > age.mean()이라는 조건문 하나로 해당하는 모든 데이터를 반환한다는 점이 이상해 보일 수도 있다. 이는 시리즈와 데이터프레임을 대상으로 사용하는 많은 메서드는 모든 데이터를 대상으로 연산, 즉 브로드캐스팅하기 때문이다. 이 방법을 사용하면 코드의 가독성을 높일 수 있고 일반적으로 계산 속도를 높이는 최적화 효과도 얻을 수 있다.

### 벡터와 벡터, 벡터와 스칼라 계산하기

1. 길이가 같은 두 개의 시리즈를 대상으로 연산을 수행하면 시리즈의 각 요소가 서로 대응하여 계산되며, 결과는 요소별 연산 결과를 포함한다.

In [23]:
print(ages + ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


In [24]:
print(ages * ages)

0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64


2. 스칼라와 벡터를 연산하면 같은 스칼라값이 벡터의 모든 요소에 적용된다.

스칼라란 하나의 정수로 표현한 값을 말한다.

In [25]:
print(ages + 100)

0    137
1    161
2    190
3    166
4    156
5    145
6    141
7    177
Name: Age, dtype: int64


In [26]:
print(ages * 2)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


### 길이가 서로 다른 벡터 연산하기

1. 길이가 서로 다른 벡터로 연산할 때는 벡터의 type()에 따라 결과가 달라진다. 길이가 서로 다른 벡터를 연산할 때는 인덱스가 같은 요소끼리 연산을 수행한다. 결과벡터에서 나머지를 결측값으로 채우고 숫자가 아님을 나타내는 NaN으로 표시한다. 예를 들어 길이가 8인 ages 시리즈와 길이가 2인 새로운 시리즈를 더하면 결과는 다음과 같다.

In [27]:
print(ages + pd.Series([1, 100]))

0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


결과를 보면 인덱스가 일치하는 0, 1 행만 계산했다는 것을 알 수 있다. 나머지 인덱스는 계산할 수 없으므로 결측값으로 처리한다.

2. 언어마다 브로드캐스팅 방식이 다르다. 판다스의 브로드캐스팅은 모양이 서로 다른 배열 사이에 연산이 수행되는 방식을 따른다. 단, 서로 다른 type()의 벡터를 연산할 때는 반드시 길이가 같아야 한다. 예를 들어 다음과 같이 길이가 서로 다른 시리즈와 넘파이 array를 연산하려고 하면 오류가 발생한다.

In [28]:
import numpy as np

In [29]:
print(ages + np.array([1, 100]))

ValueError: operands could not be broadcast together with shapes (8,) (2,) 

### 인덱스가 같은 벡터 자동 정렬하기

1. 판다스는 대부분의 데이터를 자동으로 정렬하므로 편리하다. 즉, 어떤 작업을 수행할 때 시리즈나 데이터프레임은 가능한 한 인덱스를 기준으로 데이터를 정렬한다. 다음은 ages 시리즈이다.

In [30]:
print(ages)

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


2. 매개변수 ascending에 False를 지정하여 sort_index() 메서드를 호출하면 ages 시리즈가 다음과 같이 내림차순으로 정렬된다.

In [31]:
rev_ages = ages.sort_index(ascending=False)
print(rev_ages)

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64


3. ages와 rev_ages를 연산하면 요소별로 연산을 수행하기 전에 벡터를 먼저 정렬한다. 인덱스 레이블이 어떤 순서로 정렬되는지 ages와 스칼라 연산을 먼저 살펴보자.

In [32]:
print(ages * 2)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


결과를 살펴보면 인덱스가 0부터 7까지 오름차순으로 정렬된 것을 확인할 수 있다.

4. 이번에는 ages와 rev_ages를 더한 결과를 살펴보자.

In [33]:
print(ages + rev_ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


마찬가지로 결과의 인덱스가 오름차순으로 정렬된 것을 볼 수 있다. rev_ages의 인덱스가 내림차순으로 정렬된 상태였음에도 연산이 완료된 결과는 이렇게 오름차순으로 자동으로 정렬된다.