# 직접 해보세요!
## 시리즈와 불린 추출 사용하기(59쪽)

- 앞에서는 원하는 데이터를 추출할 때 특정 인덱스를 지정하여 추출했습니다. 하지만 보통은 추출할 데이터의 정확한 인덱스를 모르는 경우가 더 많다.
- 이런 경우에 사용하는 방법이 불린 추출이다. 불린 추출은 특정 조건을 만족하는 값만 추출할 수 있다.

In [5]:
scientists = pd.read_csv('../data/scientists.csv')

- 앞에서 mean, min, max, std 메서드를 호출하여 통계 수치를 계산했던 것을 기억하는가?
- 통계 수치의 결과값을 이용하여 불린 추출을 진행해 보겠다. 다음은 Age열을 추출하여 max, mean메서드를 사용한 것이다.

In [6]:
ages = scientists['Age'] 

print(ages.max())

90


In [7]:
print(ages.mean())

59.125


- 이제 불린 추출을 사용할 차례이다. 예를 들어 평균 나이보다 나이가 많은 사람의 데이터를 추출하려면 어떻게 해야 할까? 다음 코드를 실행하면 평균 나이보다 나이가 많은 사람의 데이터만 출력된다.

In [8]:
print(ages[ages > ages.mean()])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64


- 먼저 ages > ages.mean()의 결과를 출력해보자.
- 그러면 1,2,3,7 인덱스의 데이터가 참(True)이라는 것을 알 수 있다. 즉 조건식을 만족한 값만 출력된 것이다.

In [9]:
print(ages > ages.mean())

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool


In [10]:
print(type(ages > ages.mean()))

<class 'pandas.core.series.Series'>


- 위의 과정을 다 합친 코드는 다음과 같다. 즉, 리스트 형태로 참이나 거짓을 담아 시리즈에 전달하면 참인 인덱스의 데이터만 추출할 수 있다.
- 바로 이것을 불린 추출이라고 한다.

In [11]:
manual_bool_values = [True, True, False, False, True, True, False, True] 
print(ages[manual_bool_values])

0    37
1    61
4    56
5    45
7    77
Name: Age, dtype: int64


# 직접 해보세요!
## 벡터와 스칼라로 브로드캐스팅 수행하기(61쪽)

- 다음은 같은 길이의 벡터로 더하기 연산과 곱하기 연산을 수행한 것이다.
- 결과값으로 같은 길이의 벡터가 출력된다.

In [12]:
print(ages + ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


In [13]:
print(ages * ages)

0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64


- 만약 벡터에 스칼라를 연산하면 어떻게 될까?
- 다음은 벡터의 모든 값에 스칼라를 적용하여 브로드캐스팅한 결과다.

In [14]:
print(ages + 100)

0    137
1    161
2    190
3    166
4    156
5    145
6    141
7    177
Name: Age, dtype: int64


In [15]:
print(ages * 2)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


- 길이가 서로 다른 벡터를 연산하면 어떻게 될까? 시리즈와 시리즈를 연산하는 경우 같은 인덱스의 값만 계산한다.
- 다음은 데이터의 개수가 2개인 시리즈와 8개인 시리즈를 더한 것이다. 결과값을 살펴보면 인덱스가 일치한 0, 1만 계산했다는 것을 알 수 있다.
- 나머지 인덱스 (2~7)는 계산을 할 수 없기 때문에 누락값(NaN)으로 처리한다.

In [16]:
print(pd.Series([1, 100]))

0      1
1    100
dtype: int64


In [17]:
print(ages + pd.Series([1, 100]))


0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


- 다음은 sort_index 메서드를 사용한 것이다. 이때 ascending인자로 False를 전달하여 인덱스 역순으로 데이터를 정렬했다.

In [18]:
rev_ages = ages.sort_index(ascending=False) 
print(rev_ages)

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64


- 그러면 인덱스 순서대로 정렬된 ages와 인덱스 역순으로 정렬된 rev_age를 연산하면 어떻게 될까?
- ages의 데이터와 rev_ages의 데이터를 순서대로 더할 것 같지만 그렇지 않다.
- 다음은 ages * 2와 ages + rev_ages의 결과값을 출력한 것이다. 어떤가? ages * 2와 ages + rev_ages의 결과값이 동일하다.
- ages의 인덱스(0~7)와 rev_ages의 인덱스(0~7)가 일치하는 값끼리 연산했기 때문이다.
- 벡터와 벡터의 연산은 일치하는 인덱스의 값까리 수행한다는 것을 잊으면 안된다.

In [19]:
print(ages * 2)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


In [20]:
print(ages + rev_ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64
