In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

g = np.random.default_rng(0)
s = Series(g.integers(0, 10000, 10))
#0부터 10000까지의 (0~9999) 정수 중에서 10개를 뽑아 시리즈 객체로 생성
s

0    8506
1    6369
2    5111
3    2697
4    3078
5     409
6     752
7     165
8    1752
9    8132
dtype: int64

# Beyond 1

What if the range were from 0 - 10,000? How would that change your strategy, if at all?

만약 범위가 0에서 10,000까지라면 어떻게 될까요? 그게 전략에 어떤 변화를 줄까요, 아니면 그대로일까요?

In [3]:
# Our string strategy will work just fine here! If none of the numbers
# are <10, then we can even remove the call to "fillna", but I think that 
# it's wiser to keep that around.

s.astype(str).str.get(-2).fillna('0').astype(np.int8)
#Exercise 3에서 배운 방법으로 2번째 자리 수 구하기.


0    0
1    6
2    1
3    9
4    7
5    0
6    5
7    6
8    5
9    3
dtype: int8

# Beyond 2

Given a range from 0 to 10,000, what's the smallest `dtype` we could use for our integers?

범위가 0에서 10,000까지라고 할 때, 정수를 저장하기 위해 사용할 수 있는 가장 작은 dtype은 무엇일까요?

In [4]:
# Let's find the min and max values for our series:

print(s.min(), s.max())
#s시리즈의 값들 중 최소값과 최대값을 출력.

165 8506


In [5]:
# What happens if we use int8?
s.astype(np.int8)
#s시리즈의 값을 int8로 변환. (값이 127을 넘어서 오버플로우 발생)

0     58
1    -31
2     -9
3   -119
4      6
5   -103
6    -16
7    -91
8    -40
9    -60
dtype: int8

In [6]:
# What happens if we use uint8?
s.astype(np.uint8)

#s시리즈의 값을 uint8로 변환. (값이 255를 넘어서 오버플로우 발생)
#uint 는 unsigned int의 약자, 음수가 없음

0     58
1    225
2    247
3    137
4      6
5    153
6    240
7    165
8    216
9    196
dtype: uint8

In [7]:
# So it seems we really need to use either np.int16 or np.uint16 to avoid problems!
s.astype(np.int16)
#s시리즈의 값을 int16로 변환. (값이 32767을 넘지 않으므로 오버플로우 없음)
#2의 16승 -1 = 32767 으로 int16의 범위인 -32768 ~ 32767 사이의 값들 표현 가능
#uint16은 0~65535 사이의 값들 표현 가능
#8비트는 1바이트, 비트는 이진법에서 한 칸을 의미

0    8506
1    6369
2    5111
3    2697
4    3078
5     409
6     752
7     165
8    1752
9    8132
dtype: int16

# Beyond 3

Create a new series, with 10 floating-point values between 0 and 1,000. Find the numbers whose integer component (i.e., ignoring any fractional part) are even.

0에서 1,000 사이의 부동소수점 값 10개로 이루어진 새로운 시리즈를 만드세요. 그리고 정수 부분(즉, 소수점을 제외한 부분)이 짝수인 숫자들을 찾으세요.

In [8]:
# First, create the series
s = Series(np.random.rand(10) * 1000) # np.random.rand(n) -> 0~1 사이의 균등분포 난수 n개를 부동소수형으로 생성
# 위에서 g = np.random.default_rng(0)
# s = Series(g.integers(0, 10000, 10)) 는 g를 사용하여 0~9999 사이의 균등분포 난수 10개를 정수형으로 생성
s

0    395.634740
1    824.844002
2    955.784275
3    769.038340
4    846.343295
5    342.647868
6    733.680553
7    739.814786
8    275.467846
9    673.896375
dtype: float64

In [9]:
# Get the modulus (dividing by 2) of the int version of the numbers
# Check which results are 0, and use that as a mask index on s

s[s.astype(np.int64) % 2 == 0] # 770.626319 , 350.933598 , 342.256113
# s[s.astype(np.int8) % 2 == 0]  #값이 동일함. 이때 int64를 사용한 이유는 ? 
# int8을 하였을 때도 값이 동일한 이유는 s시리즈의 값 중 2의8승, 즉 256을 넘는 값이 존재하지만 numpy에서 자동으로 modulo 연산이 되어 오버플로우 처리되지만, 이때 짝수 홀수는 변하지 않기 때문.
#하지만, int64로 계산하는 것이 pandas가 내부적으로 처리하는 방식과 일치하여 더 안전함.


1    824.844002
4    846.343295
5    342.647868
dtype: float64