# 생능출판사 "따라하며 배우는 파이썬과 데이터과학" 코드 10장
## chapter 10
### 넘파이로 수치 데이터를 처리해보자

### 10.1 리스트보다 넘파이의 배열이 훨~씬~ 빠르다

In [1]:
scores = [10, 20, 30, 40, 50, 60]

#### 리스트와 넘파이 배열은 무엇이 다른가

In [2]:
mid_scores = [10, 20, 30]    # 파이썬 리스트 mid_scores
final_scores = [70, 80, 90]  # 파이썬 리스트 final_scores

In [3]:
total = mid_scores + final_scores    # 원소간의 합이 아닌 리스트를 연결함
total

[10, 20, 30, 70, 80, 90]

### 10.2 넘파이의 별칭 만들기, 그리고 간단한 배열 연산하기

In [4]:
import numpy as np   # 앞으로 numpy의 별명을 np로 한다

In [5]:
mid_scores  = np.array([10, 20, 30])    # 넘파이 ndarray 객체를 생성
final_scores = np.array([60, 70, 80])   # 넘파이 ndarray 객체를 생성

In [6]:
total = mid_scores + final_scores
print('시험성적의 합계 :', total)    # 각 요소별 합계가 나타난다
print('시험성적의 평균 :', total/2)  # 평균을 얻기위해 모든 요소를 2로 나눈다.

시험성적의 합계 : [ 70  90 110]
시험성적의 평균 : [35. 45. 55.]


#### 넘파이의 핵심 다차원 배열을 알아보자

In [11]:
a = np.array([1, 2, 3])      # 넘파이 ndarray 객체의 생성
a.shape                      # a 객체의 형태(shape)

(3,)

In [12]:
a.ndim                      # a 객체의 차원

1

In [13]:
a.dtype                     # a 객체 내부 자료형

dtype('int64')

In [14]:
a.itemsize                  # a 객체 내부 자료형이 차지하는 메모리 크기(byte)

8

In [15]:
a.size                      # a 객체의 전체 크기(항목의 수)

3

### 10.3 강력한 넘파이 배열의 연산을 알아보자

In [16]:
import numpy as np

salary = np.array([220, 250, 230])

In [17]:
salary = salary + 100 
print(salary)

[320 350 330]


In [18]:
salary = np.array([220, 250, 230]) 
salary = salary * 2
print(salary)

[440 500 460]


In [19]:
salary = np.array([220, 250, 230]) 
salary = salary * 2.1
print(salary)

[462. 525. 483.]


#### 넘파이의 계산은 왜 빠를까?

In [20]:
lst = [ 100, 'test', 3.0, False]    # 리스트는 다양한 자료형의 데이터를 가질 수 있다
tangled = np.array([ 100, 'test', 3.0, False])
print(tangled)                      # 넘파이는 다양한 자료형의 데이터를 하나의 자료형으로 만들어 저장한다

['100' 'test' '3.0' 'False']


#### 강력한 벡터화 연산을 적극 활용하자

In [24]:
import time

start = time.time()                  # 시작 시간을 저장 
# 벡터화 연산 대신 반복문을 사용하자.
total = 0
for i in np.arange(100000):
    total = i + total
end = time.time()                     # 종료 시간을 저장

print('total =', total)
print("{:.5f} sec".format(end-start)) # 수행시간 출력

total = 4999950000
0.01055 sec


In [38]:
start = time.time()                   # 시작 시간을 저장 
# 넘파이의 벡터화 연산을 사용하자
total = np.sum(np.arange(100000))
end = time.time()                     # 종료 시간을 저장 
print('total =', total)
print("{:.5f} sec".format(end-start)) # 수행시간 출력

total = 4999950000
0.00044 sec


### LAB 10-1 ndarray 객체 생성하고 속성 알아 보기

In [39]:
import numpy as np

# 실습 1
array_a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print('실습 1 : array_a =', array_a)

# 실습 2
array_b = np.array(range(10))
print('실습 2 : array_b =', array_b)

# 실습 3
array_c = np.array(range(0,10,2))
print('실습 3 : array_c =', array_c)

# 실습 4
print('실습 4: ')
print('array_c의 shape :', array_c.shape)
print('array_c의 ndim :', array_c.ndim)
print('array_c의 ctype :', array_c.dtype)
print('array_c의 size :', array_c.size)
print('array_c의 itemsize :',array_c.itemsize)

실습 1 : array_a = [0 1 2 3 4 5 6 7 8 9]
실습 2 : array_b = [0 1 2 3 4 5 6 7 8 9]
실습 3 : array_c = [0 2 4 6 8]
실습 4: 
array_c의 shape : (5,)
array_c의 ndim : 1
array_c의 ctype : int64
array_c의 size : 5
array_c의 itemsize : 8


### LAB 10-2 여러 사람의 BMI를 빠르고 간편하게 계산하기

In [40]:
import numpy as np

heights = [ 1.83, 1.76, 1.69, 1.86, 1.77, 1.73 ]
weights = [ 86, 74, 59, 95, 80, 68  ]

np_heights = np.array(heights)
np_weights = np.array(weights)

bmi = np_weights/(np_heights**2)
print('대상자들의 키:', np_heights) 
print('대상자들의 몸무게:', np_weights) 
print('대상자들의 BMI')
print(bmi)

대상자들의 키: [1.83 1.76 1.69 1.86 1.77 1.73]
대상자들의 몸무게: [86 74 59 95 80 68]
대상자들의 BMI
[25.68007405 23.88946281 20.65754    27.45982194 25.53544639 22.72043837]


### 10.4 인덱싱과 슬라이싱을 넘파이에서도 할 수 있다

In [41]:
scores = np.array([88, 72, 93, 94, 89, 78, 99]) 

In [42]:
scores[2]

93

In [43]:
scores[-1]

99

In [44]:
# 첫 번째, ... 세 번째 항목 슬라이싱
scores[0:3]

array([88, 72, 93])

In [45]:
# 두 번째, ... 네 번째 항목 슬라이싱  
scores[1:4]

array([72, 93, 94])

In [47]:
scores[:3]      # 첫 인덱스를 생략하면 디폴트 값은 0임

array([88, 72, 93])

In [48]:
scores[3:]      # 마지막 인덱스를 생략하면 디폴트 값은 -1임

array([94, 89, 78, 99])

In [50]:
scores[4:-1]    # 마지막 인덱스로 -1을 사용할 경우 -1의 앞에 있는 78까지 슬라이싱함

array([89, 78])

#### 논리적인 인덱싱과 이차원 배열의 인덱싱

In [51]:
ages = np.array([18, 19, 25, 30, 28])

In [52]:
y = ages > 20
y

array([False, False,  True,  True,  True])

In [53]:
ages[ ages > 20 ]

array([25, 30, 28])

### 10.5 2차원 배열의 인덱싱

In [54]:
import numpy as np 
y = [[1,2,3], [4,5,6], [7,8,9]]     # 2차원 배열(리스트 자료형)
y 

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [55]:
np_array = np.array(y)              # 2차원 배열(넘파이 다차원 배열)
np_array

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [56]:
np_array[0][2]

3

#### 넘파이는 넘파이 스타일로 인덱싱할 수 있다

In [57]:
np_array = np.array([[1,2,3], [4,5,6], [7,8,9]]) 
np_array[0, 2]          # np_array[0][2]과 동일한 결과

3

In [58]:
np_array[0, 0]

1

In [59]:
np_array[2, -1]

9

In [60]:
np_array[0, 0] = 12     # ndarray의 첫 요소를 변경함
np_array

array([[12,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9]])

In [61]:
np_array[2, 2] = 1.234  # 마지막 요소의 값을 실수로 변경하려고 하면 실패
np_array

array([[12,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  1]])

### 10.6 넘파이 스타일의 2차원 배열 슬라이싱

In [62]:
np_array = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]])
np_array[0:2, 2:4]

array([[3, 4],
       [7, 8]])

In [63]:
np_array[0]

array([1, 2, 3, 4])

In [64]:
np_array[1, 1:3]

array([6, 7])

#### 2차원 배열에서 논리적인 인덱싱을 해 보자

In [65]:
np_array = np.array([[1,2,3], [4,5,6], [7,8,9]]) 
np_array > 5

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

In [66]:
np_array[ np_array > 5 ]

array([6, 7, 8, 9])

In [None]:
np_array[:, 2]

array([3, 6, 9])

In [67]:
np_array[:, 2] > 5

array([False,  True,  True])

In [68]:
np_array[:] % 2 == 0

array([[False,  True, False],
       [ True, False,  True],
       [False,  True, False]])

In [69]:
np_array[ np_array % 2 == 0 ]

array([2, 4, 6, 8])

### LAB 10-3 2차원 배열 연습하기

In [70]:
x = np.array([['a', 'b', 'c', 'd'],
              ['c', 'c', 'g', 'h']])

In [71]:
mat_a = np.array( [[10, 20, 30], [10, 20, 30]]) 
mat_b = np.array( [[2, 2, 2], [1, 2, 3]])

In [73]:
print(x[x=='c'])        #'c'원소만있는부분을추출함
print(mat_a - mat_b)    # 배열 mat_a의 모든 원소에서 mat_b의 모든 원소를 뺀다

['c' 'c' 'c']
[[ 8 18 28]
 [ 9 18 27]]


### LAB 10-4 넘파이 배열의 형태를 알아내고 슬라이싱하여 연산하기

In [74]:
import numpy as np 
 
x = np.array([[ 1.83, 1.76, 1.69, 1.86, 1.77, 1.73 ], 
              [ 86.0, 74.0, 59.0, 95.0, 80.0, 68.0 ]]) 
y = x[0:2, 1:3] 
z = x[0:2][1:3]

print('x shape :', x.shape)
print('y shape :', y.shape)
print('z shape :', z.shape)
print('z values = :', z)

bmi = x[1] / x[0]**2
print('BMI data')
print(bmi)

x shape : (2, 6)
y shape : (2, 2)
z shape : (1, 6)
z values = : [[86. 74. 59. 95. 80. 68.]]
BMI data
[25.68007405 23.88946281 20.65754    27.45982194 25.53544639 22.72043837]


###  10.7 arange()  함수와 range() 함수의 비교

In [79]:
import numpy as np 
np.arange(5)            # 넘파이의 arange로 연속적인 정수를 생성하자

array([0, 1, 2, 3, 4])

In [80]:
np.arange(1, 6)         # 1부터 시작되는 연속적인 정수를 생성하자  

array([1, 2, 3, 4, 5])

In [81]:
np.arange(1, 10, 2)     # arange로 2씩 증가하는 숫자열을 생성하자

array([1, 3, 5, 7, 9])

In [82]:
np.arange(1, 10, 2.5)   # 넘파이의 arange는 실수값 step이 가능하다

array([1. , 3.5, 6. , 8.5])

In [83]:
range(5)

range(0, 5)

In [84]:
list(range(5))

[0, 1, 2, 3, 4]

In [85]:
np.array(range(5))      # range() 함수로 넘파이 다차원 배열을 생성

array([0, 1, 2, 3, 4])

### LAB 10-5 2차원 배열에서 특정 조건을 만족하는 행만 추출하기

In [86]:
import numpy as np 

players = [[170, 76.4], 
           [183, 86.2], 
           [181, 78.5], 
           [176, 80.1]] 

np_players = np.array(players) 

print('몸무게가 80 이상인 선수 정보');
print(np_players[ np_players[:, 1] >= 80.0 ])

print('키가 180 이상인 선수 정보');
print(np_players[ np_players[:, 0] >= 180.0 ])

몸무게가 80 이상인 선수 정보
[[183.   86.2]
 [176.   80.1]]
키가 180 이상인 선수 정보
[[183.   86.2]
 [181.   78.5]]


### 10.8 linspace() 함수와 logspace() 함수

In [87]:
np.linspace(0, 10, 100)

array([ 0.        ,  0.1010101 ,  0.2020202 ,  0.3030303 ,  0.4040404 ,
        0.50505051,  0.60606061,  0.70707071,  0.80808081,  0.90909091,
        1.01010101,  1.11111111,  1.21212121,  1.31313131,  1.41414141,
        1.51515152,  1.61616162,  1.71717172,  1.81818182,  1.91919192,
        2.02020202,  2.12121212,  2.22222222,  2.32323232,  2.42424242,
        2.52525253,  2.62626263,  2.72727273,  2.82828283,  2.92929293,
        3.03030303,  3.13131313,  3.23232323,  3.33333333,  3.43434343,
        3.53535354,  3.63636364,  3.73737374,  3.83838384,  3.93939394,
        4.04040404,  4.14141414,  4.24242424,  4.34343434,  4.44444444,
        4.54545455,  4.64646465,  4.74747475,  4.84848485,  4.94949495,
        5.05050505,  5.15151515,  5.25252525,  5.35353535,  5.45454545,
        5.55555556,  5.65656566,  5.75757576,  5.85858586,  5.95959596,
        6.06060606,  6.16161616,  6.26262626,  6.36363636,  6.46464646,
        6.56565657,  6.66666667,  6.76767677,  6.86868687,  6.96

In [88]:
np.logspace(0, 5, 10)

array([1.00000000e+00, 3.59381366e+00, 1.29154967e+01, 4.64158883e+01,
       1.66810054e+02, 5.99484250e+02, 2.15443469e+03, 7.74263683e+03,
       2.78255940e+04, 1.00000000e+05])

#### 배열의 형태를 바꾸는 reshape() 메소드와 flatten() 메소드

In [89]:
y = np.arange(12) 
y

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [90]:
y.reshape(3, 4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [91]:
y.reshape(6, -1)

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

In [92]:
y.reshape(7, 2)

ValueError: cannot reshape array of size 12 into shape (7,2)

In [93]:
y.flatten()     # 2차원 배열을 1차원 배열로 만들어 준다

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

### 10.9 난수를 생성해보자

#### 시드와 난수 생성하기

In [94]:
np.random.seed(100)     # 난수를 만들기 위한 초기값

In [95]:
np.random.rand(5)

array([0.54340494, 0.27836939, 0.42451759, 0.84477613, 0.00471886])

In [96]:
np.random.rand(5, 3)

array([[0.12156912, 0.67074908, 0.82585276],
       [0.13670659, 0.57509333, 0.89132195],
       [0.20920212, 0.18532822, 0.10837689],
       [0.21969749, 0.97862378, 0.81168315],
       [0.17194101, 0.81622475, 0.27407375]])

In [97]:
a = 10
b = 20 
(b - a) * np.random.rand(5) + a

array([14.31704184, 19.4002982 , 18.17649379, 13.3611195 , 11.75410454])

In [98]:
np.random.randint(1, 7, size=10)

array([4, 1, 3, 2, 2, 4, 3, 6, 4, 1])

In [99]:
np.random.randint(1, 11, size=(4, 7))

array([[ 2,  1,  8,  7,  3,  1,  9],
       [ 3,  6,  2,  9,  2,  6,  5],
       [ 3,  9,  4,  6,  1, 10,  4],
       [ 7,  4,  5,  8,  7,  4, 10]])

### 10.10 정규 분포 난수 생성

In [100]:
np.random.randn(5)

array([-1.02933685, -0.51099219, -2.36027053,  0.10359513,  1.73881773])

In [101]:
np.random.randn(5, 4)

array([[ 1.24187584,  0.13241276,  0.57779396, -1.57590571],
       [-1.29279424, -0.65991979, -0.87400478, -0.68955061],
       [-0.53547985,  1.52795302,  0.64720579, -0.67733661],
       [-0.2650188 ,  0.74610644, -3.13078483,  0.05962178],
       [-0.87521111,  1.06487833, -0.57315265, -0.80327849]])

In [102]:
mu = 10
sigma = 2
randoms = mu + sigma * np.random.randn(5, 4)
randoms

array([[12.18594325, 11.30255516, 14.32104958,  8.72173986],
       [ 9.33262494,  9.12479628,  6.18841024,  7.54196134],
       [11.58979772,  7.67898372, 11.09211104, 12.32651667],
       [11.31775404, 11.04737852, 12.65431215, 12.22504894],
       [ 7.85074079, 10.68683233, 11.97087508, 11.47300336]])

#### 평균과 중앙값 계산하기

In [103]:
m = 175 
sigma = 10 
heights = m + sigma * np.random.randn(10000)
heights

array([154.19537366, 172.0141403 , 157.70789077, ..., 168.27903126,
       164.92114975, 173.12062171])

In [104]:
np.mean(heights)

174.9972570108985

In [105]:
np.median(heights)

174.90487455543172

In [107]:
a = np.array([ 3, 7, 1, 2, 21])     # 21은 전체 데이터 중에서 비정상적으로 큰 값이다
np.mean(a)

6.8

In [108]:
np.median(a)                        # [3, 7, 1, 2, 21]들 중 가운데 항목을 구한다

3.0

### LAB 10-6 배열의 형태를 바꾸어 보자

In [109]:
import numpy as np 

a = np.arange(1, 37)
print('a :\n', a)

b = a.reshape(3, 12)
print('b :\n', b)

c = a.reshape(4, 9)
print('c :\n', c)

d = a.reshape(3, 2, 6) 
print('d :\n', d)

a :
 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36]
b :
 [[ 1  2  3  4  5  6  7  8  9 10 11 12]
 [13 14 15 16 17 18 19 20 21 22 23 24]
 [25 26 27 28 29 30 31 32 33 34 35 36]]
c :
 [[ 1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18]
 [19 20 21 22 23 24 25 26 27]
 [28 29 30 31 32 33 34 35 36]]
d :
 [[[ 1  2  3  4  5  6]
  [ 7  8  9 10 11 12]]

 [[13 14 15 16 17 18]
  [19 20 21 22 23 24]]

 [[25 26 27 28 29 30]
  [31 32 33 34 35 36]]]


### LAB 10-7 평균과 중앙값 계산 연습

In [110]:
import numpy as np 
 
players = np.zeros((100, 3)) 
players[:, 0] = 10 * np.random.randn(100) + 175 
players[:, 1] = 10 * np.random.randn(100) + 70
players[:, 2] = np.floor(10 * np.random.randn(100)) + 22

heights = players[:, 0] 
print('신장 평균값:', np.mean(heights))
print('신장 중앙값:', np.median(heights))

weights = players[:, 1] 
print('체중 평균값:', np.mean(weights))
print('체중 중앙값:', np.median(weights))

ages = players[:, 2] 
print('나이 평균값:', np.mean(ages))
print('나이 중앙값:', np.median(ages))

신장 평균값: 172.7170127299261
신장 중앙값: 171.48115582605044
체중 평균값: 69.57509276978816
체중 중앙값: 70.55243586196354
나이 평균값: 22.29
나이 중앙값: 23.0


### 10.11 상관관계 계산하기

In [111]:
x = [ 1, 2, 3, 4, ..., 97, 98, 99 ]
y = [ 1, 4, 9, 16, ..., 9409, 9604, 9801]

In [112]:
import numpy as np 

x = [ i for i in range(100) ]           # 0에서 99까지의 값을 요소로 하는 리스트
y = [ i ** 2 for i in range(100) ]      # 0에서 99까지의 값의 제곱을 요소로 하는 리스트

result = np.corrcoef(x, y)
print(result)

[[1.         0.96764439]
 [0.96764439 1.        ]]


In [113]:
x = [ i for i in range(100) ]
y = [ i ** 2 for i in range(100) ]
z = [ 100 * np.sin(3.14*i/100) for i in range(100) ]

In [114]:
result = np.corrcoef([x, y, z])
print(result)

[[ 1.          0.96764439  0.03763255]
 [ 0.96764439  1.         -0.21532645]
 [ 0.03763255 -0.21532645  1.        ]]
