# Chapter10 넘파이로 수치 데이터를 처리해보자

## 10.1 리스트보다 넘파이의 배열이 훨씬 빠르다

리스트는 여러 개의 값들을 저장할 수 있는 자료구조로서 강력하고 활용도가 높다. 리스트는 다양한 자료형의 데이터를 여러 개 저장할 수 있으며 데이터를 변경하거나 추가, 제거할 수 있다.

In [1]:
scores = [10, 20, 30, 40, 50, 60]

데이터를 처리할 때는 리스트와 리스트 간의 다양한 연산이 필요한데, 리스트는 기능이 부족하여 연산 속도도 빠르지 않다. 따라서 데이터 과학자들은 리스트 대신 넘파이를 선호한다. 넘파이는 리스트에 비하여 처리속도가 매우 빠르다.

넘파이는 대용량의 배열과 행렬연산을 빠르게 수행하며, 고차원적인 수학 연산자와 함수를 포함하고 있는 파이썬 라이브러리이다. 넘파이는 데이터 분석을 위한 패키지인 판다스나 기계학습을 위한 scikitlearn을 사용한다.

넘파이의 핵심적인 객체는 다차원 배열이다. 배열의 각 요소는 인덱스 라고 불리는 정수들로 참조된다. 넘파이에서 차원은 축이라고도 불린다.

## 10.2 리스트와 넘파이 배열은 무엇이 다른가

배열은 동일한 자료형을 가진 데이터를 연속으로 저장한다. 파이썬의 리스트는 동일하지 않은 자료형을 가진 항목들을 담을 수 있다.

In [2]:
mid_scores = [10, 20, 30] # 파이썬 리스트 mid_scores
final_scores = [70, 80, 90] # 파이썬 리스트 final_scores

파이썬 리스트 더하기 연산자는 두 리스트를 연결하므로 2개의 스트를 연결한 리스트가 만들어 진다.

In [3]:
total = mid_scores + final_scores # 원소간의 합이 아닌 리스트를 연결함
total

[10, 20, 30, 70, 80, 90]

## 10.3 넘파이의 별칭 만들기, 그리고 간단한 배열 연산하기

넘파이를 사용하려면 넘파이 패키지를 불러와야 한다. 보통 numpy의 별칭으로 np를 사용한다. 넘파이 사용 프로그램에서 코드의 호출은 필수이다.

In [4]:
import numpy as np

넘파이 배열을 만들려면 넘파이가 제공하는 array() 함수를 이용한다. array() 함수에 파이썬 리스트를 입력하면 넘파이 배열이 생성된다.

In [5]:
mid_scores = np.array([10, 20, 30])
final_scores = np.array([60, 70, 80])

In [6]:
total = mid_scores + final_scores
print("시험성적의 합계 :", total) # 각 요소별 합계가 나타난다
print("시험성적의 평균 :", total/2) # 모든 요소를 2로 나눈다

시험성적의 합계 : [ 70  90 110]
시험성적의 평균 : [35. 45. 55.]


넘파이는 배열 요소별로 지정된 연산을 수행할 수 있다.

### 도전문제 10.1

In [7]:
a = np.array(range(1, 11))
b = np.array(range(10, 101, 10))
a + b, a-b, a * b, a / b

(array([ 11,  22,  33,  44,  55,  66,  77,  88,  99, 110]),
 array([ -9, -18, -27, -36, -45, -54, -63, -72, -81, -90]),
 array([  10,   40,   90,  160,  250,  360,  490,  640,  810, 1000]),
 array([0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]))

## 10.4 넘파이의 핵심 다차원배열을 알아보자

넘파이의 핵심이 되는 다차원배열(ndarray)은 다음과 같은 속성을 이용하여 프로그램의 오류를 찾거나 배열의 상세한 정보를 손쉽게 조회할 수 있다.

In [8]:
a = np.array([1, 2, 3]) # 넘파이 ndarray 객체의 생성
a.shape # a 객체의 형태(shape)

(3,)

In [9]:
a.ndim # a 객체의 차원

1

In [10]:
a.dtype # a 객체 내부 자료형

dtype('int32')

In [11]:
a.itemsize # a객체 내부 자료형이 차지하는 메모리 크기(byte)

4

In [12]:
a.size # a 객체의 전체 크기(항목의 수)

3

- ndim : 배열 축 혹은 차원의 개수
- shape : 배열의 차원으로 (m, n) 형식의 튜플 형이다. 이때 m과 n은 각 차원의 원소의 크기를 알려주는 정수
- size : 배열 원소의 개수이다. 이 개수는 shape내의 원소의 크기의 곱과 같다. 즉 (m, n) 형태 배열의 size는 m*n 이다. 
- dtype : 배열내의 원소의 형을 기술하는 객체
- itemsize : 배열내의 원소의크기를 바이트 단위로 기술
- data : 배열의 실제 원소를 포함하고 있는 버퍼
- stride : 배열 각 차원별로 다음 요소로 점프하는 데에 필요한 거리를 바이트로 표시한 값을 모은 튜플

### 도전문제 10.2

In [13]:
a = np.array(range(1, 11)) + np.array(range(10, 101, 10))
a.shape

(10,)

In [14]:
a.size

10

## LAB 10-1 ndarray 객체를 생성하고 속성을 알아보자

In [18]:
import numpy as np

# 실습 1
array_a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print("실습 1 : array_a =", array_a)

# 실습 2
array_b = np.array(range(10))
print("실습 2 : array_b =", array_b)

# 실습 3
array_c = np.array(range(0, 10, 2))
print("실습 3 : array_c =", array_c)

# 실습 4
print("실습 4 : ")
print('array_c의 shape :', array_c.shape)
print('array_c의 ndim :', array_c.ndim)
print('array_c의 ctype :', array_c.dtype)
print('array_c의 size :', array_c.size)
print('array_c의 itemsize :', array_c.itemsize)

실습 1 : array_a = [0 1 2 3 4 5 6 7 8 9]
실습 2 : array_b = [0 1 2 3 4 5 6 7 8 9]
실습 3 : array_c = [0 2 4 6 8]
실습 4 : 
array_c의 shape : (5,)
array_c의 ndim : 1
array_c의 ctype : int32
array_c의 size : 5
array_c의 itemsize : 4


## 10.5 강력한 넘파이 배열의 연산을 알아보자

넘파이 배열에는 + 연산자나 * 연산자와 같은 수학적인 연산자를 얼마든지 적용할 수 있다.

In [19]:
import numpy as np
salary = np.array([220, 250, 230])

넘파이 배열에 저장된 모든 값이 100을 더하려면 배열에 스칼라 값 100을 더하면 된다.

In [20]:
salary = salary + 100
print(salary)

[320 350 330]


In [21]:
salary = np.array([220, 250, 230])
salary = salary * 2.1
print(salary)

[462. 525. 483.]


리스트에는 리스트와 리스트 간의 연산이 정의되어 있지 않다. 하지만 넘파이의 다차원 배열은 배열과 배열 간의 연산이 정의되어 있다.

넘파이의 계산은 왜 빠를까?

넘파이의 배열 안에는 동일한 데이터만 저장할 수 있다. 파이썬의 리스트처럼 여러 가지 타입을 섞어서 저장할 수는 없다. 여러 가지 타입을 섞어서 넘파이의 배열에 전달하면 넘파이는 전부 문자열로 변경한다. 동일한 자료형으로만 데이터를 저장하면 각각의 데이터 항목에 필요한 저장공간이 일정하다. 원하는 위치에 접근하여 데이터를 읽고 쓰는 일을 임의 접근이라고 한다. 임의 접근이 가능하기 때문에 기억장치가 회전하면서 원하는 위치의 데이터를 읽는 하드디스크보다 빠르다.

In [22]:
tangled = np.array([100, 'test', 3.0, False])
print(tangled)

['100' 'test' '3.0' 'False']


## LAB 10-2 여러 사람의 BMI를 빠르고 간편하게 계산하기

In [25]:
import numpy as np

heights = [1.83, 1.76, 1.69, 1.86, 1.77, 1.73]
weights = [86, 74, 59, 95, 80, 68]

np_heights = np.array(heights)
np_weights = np.array(weights)

bmi = np_weights / (np_heights**2)
print("대상자들의 키 :", np_heights)
print("대상자들의 몸무게 :", np_weights)
print("대상자들의 BMI")
print(bmi)

대상자들의 키 : [1.83 1.76 1.69 1.86 1.77 1.73]
대상자들의 몸무게 : [86 74 59 95 80 68]
대상자들의 BMI
[25.68007405 23.88946281 20.65754    27.45982194 25.53544639 22.72043837]


## 10.6 인덱싱과 슬라이싱을 넘파이에서도 할 수 있다

In [26]:
scores = np.array([88, 72, 93, 94, 89, 78, 99])

넘파이 배열에서 특정한 요소를 추출하려면 인덱스를 사용한다. 파이썬 리스트와 마찬가지로 인덱스는 0부터 시작한다.

In [27]:
scores[2]

93

마지막 요소에 접근하려면 리스트와 마찬가지로 인덱스로 -1을 주면 된다.

In [28]:
scores[-1]

99

넘파이 배열에서는 슬라이싱도 가능하다.

In [29]:
scores[1:4] # 두 번째, 세 번째, 네 번째 항목을 슬라이싱 함

array([72, 93, 94])

시작 인덱스나 종료 인덱스는 생량이 가능하다.

In [30]:
scores[3:] # 마지막 인덱스를 생략하면 디폴트 값은 -1임

array([94, 89, 78, 99])

In [31]:
scores[4:-1] # 마지막 인덱스로 -1을 사용할 경우 -1의 앞에 있는 값까지 슬라이싱함

array([89, 78])

## 10.7 논리적인 인덱싱을 통해 값을 추려내자

논리적인 인덱싱이란 어떤 조건을 주어서 배열에서 원하는 값을 추려내는 것이다.

In [32]:
ages = np.array([18, 19, 25, 30, 28])

결과는 부울형의 넘파이 배열이 된다.

In [33]:
y = ages > 20
y

array([False, False,  True,  True,  True])

In [34]:
ages[ ages > 20 ]

array([25, 30, 28])

BMI가 25가 넘는 사람만 추출해 보자

In [35]:
bmi = np_weights / (np_heights**2)
print(bmi[bmi > 25]) # BMI가 25 넘는 사람의 BMI만을 출력

[25.68007405 27.45982194 25.53544639]


## 10.8 2차원 배열 인덱싱도 해 보자

넘파이를 사용하면 2차원 배열도 쉽게 만들 수 있다. 2차원 배열은 숫자들이 2차원 형태로 나열된 것이다. 수학에서의 행렬과는 비슷하지만 리스트는 행렬 연산을 지워하지 않는다.

In [2]:
import numpy as np
y = [[1, 2, 3], [4, 5, 6], [7, 8, 9]] # 2차원 배열(리스트 자료형)
y

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

넘파이 2차원 배열은 np.array()를 호출하여 생성할 수 있다. 넘파이의 2차원 배열은 수학에서의 행렬과 같이 다룰 수 있다. 따라서 역행렬이나 행렬식을 구하는 등의 행렬 연산자들이 넘파이 배열에 쉽게 적용될 수 있도록 구현되어 있다.

In [3]:
np_array = np.array(y) # 2차원 배열(넘파이 다차원 배열)
np_array

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

2차원 배열도 인덱스를 사용한다. 다만 2차원이기 때문에 인덱스가 2개 필요하다. 첫 번째 인덱스는 행의 번호이고, 두 번째 인덱스는 열의 번호이다.

In [4]:
np_array[0][2]

3

## 10.9 넘파이는 넘파이 스타일로 인덱싱할 수 있다

넘파이의 2차원 배열에서 np_array[0][2]와 같은 형태로도 특정한 요소를 꺼낼 수 있다. 하지만 넘파이에서는 콤마를 사용하여 np_array[0, 2]로 많이 사용한다. 콤마 앞에 값은 행을 나타내고, 콤마 뒤의 값은 열을 나타낸다.

In [5]:
np_array = np.array([[1,2,3], [4,5,6], [7,8,9]])
np_array[0, 2]

3

[row, col] 인덱스를 사용하면 row 행을 가져온 뒤에 거기서 col 번째 항목을 찾는 것이 아니라 특정 항목에 접근하게 된다.

In [6]:
np_array[0, 0]

1

In [7]:
np_array[2, -1]

9

리스트와 유사하게 인덱스 표기법을 사용하여 배열의 요소를 변경할 수도 있다.

In [8]:
np_array[0, 0] = 12 # ndarray의 첫 요소를 변경함
np_array

array([[12,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9]])

파이썬 리스트와 달리, 넘파이 배열은 모든 항목이 동일한 자료형을 가진다는 것을 명심하여야 한다. 정수 배열에 부동 소수점 값을 삽입하려고 하면 소수점 이하값은 자동으로 사라진다.

In [10]:
np_array[2, 2] = 1.234 # 마지막 요소의 값을 실수로 변경하려고 하면 실패
np_array

array([[12,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  1]])

## 10.10 넘파이 스타일의 2차원 배열 잘라내기

넘파이에서 슬라이싱은 큰 행렬에서 작은 행렬을 끄집어내는 것으로 이해하면 된다.

In [11]:
np_array = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12], [13,14,15,16]])
np_array[0:2, 2:4]

array([[3, 4],
       [7, 8]])

In [12]:
np_array[0]

array([1, 2, 3, 4])

In [13]:
np_array[1, 1:3]

array([6, 7])

파이썬 리스트 슬라이싱과 넘파이 슬라이싱의 차이

In [14]:
np_array = np.array([[1, 2, 3, 4],
                     [5, 6, 7, 8], 
                     [9, 10, 11, 12],
                     [13, 14, 15, 16]])

In [15]:
print(np_array[::2][::2]) # 첫 슬라이싱 : 0형, 2행 선택 / 두 번쨰 슬라이싱 : 그 중 0행 선택

[[1 2 3 4]]


In [16]:
print(np_array[::2, ::2]) # 행 슬라이싱 : 0행, 2행 선택 / 열 슬라이싱 : 0열, 2열 선택

[[ 1  3]
 [ 9 11]]


## 10.11 2차원 배열에서 논리적인 인덱싱을 해 보자

2차원 배열에서도 어떤 조건을 주어서 조건에 맞는 값들만 추려낼 수 있다.

In [17]:
np_array = np.array([[1,2,3], [4,5,6], [7,8,9]])
np_array > 5

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

2차열 배열에 대해서 비교연산자를 사용하면 True, False로 이루어진 배열이 반환되는데, 이것을 이용하여 특정한 값들을 뽑아낼 수도 있다.

In [18]:
np_array[np_array > 5]

array([6, 7, 8, 9])

In [19]:
np_array[:, 2]

array([3, 6, 9])

In [20]:
np_array[:, 2] > 5

array([False,  True,  True])

크기 비교 연산자를 수정하여 짝수 구하기 연산자를 적용할 수 있다.

In [21]:
np_array[:] % 2 == 0

array([[False,  True, False],
       [ True, False,  True],
       [False,  True, False]])

값이 True인 원소만을 추출하면 1차원 배열을 얻을 수 있다. 이를 응용하면 특정수의 배수를 추출하는 증의 필터링 작업을 할 수 있다.

In [22]:
np_array[np_array % 2 == 0]

array([2, 4, 6, 8])

## LAB 10-3 2차원 배열 연습하기

In [23]:
x = np.array( [['a', 'b', 'c', 'd'], ['c', 'c', 'g', 'h']] )

mat_a = np.array( [[10, 20, 30], [10, 20, 30]] )
mat_b = np.array( [[2, 2, 2], [1, 2, 3]])

In [24]:
print(x [ x == 'c' ])

['c' 'c' 'c']


In [25]:
print(mat_a - mat_b)

[[ 8 18 28]
 [ 9 18 27]]


## LAB 10-4 넘파이 배열의 형태 알아내고 슬라이싱하여 연산하기

In [28]:
import numpy as np

x = np.array([[1.83, 1.76, 1.69, 1.86, 1.77, 1.73], [86.0, 74.0, 59.0, 95.0, 80.0, 68.0]])
y = x[0:2, 1:3]
z = x[0:2][1:3]

In [30]:
print('x shape :', x.shape)
print('y shape :', y.shape)
print('z shape :', z.shape)
print('z values :', z)

x shape : (2, 6)
y shape : (2, 2)
z shape : (1, 6)
z values : [[86. 74. 59. 95. 80. 68.]]


In [31]:
bmi = x[1] / x[0]**2
print('BMI data')
print(bmi)

BMI data
[25.68007405 23.88946281 20.65754    27.45982194 25.53544639 22.72043837]


## LAB 10-5 2차원 배열에서 특정 조건을 만족하는 행만 추출하기

In [32]:
import numpy as np

players = [[170, 76.4],
           [183, 86.2],
           [181, 78.5],
           [176, 80.1]]

np_players = np.array(players)

print('몸무게가 80 이상인 선수 정보')
print(np_players[np_players[:, 1] >= 80.0])

print('키가 180 이상인 선수 정보')
print(np_players[np_players[:, 0] >= 180.0])

몸무게가 80 이상인 선수 정보
[[183.   86.2]
 [176.   80.1]]
키가 180 이상인 선수 정보
[[183.   86.2]
 [181.   78.5]]


## 10.12 arange() 함수와 range() 함수의 비교

arange() 함수를 사용하면 특정한 범위의 정수를 가지는 넘파이 배열을 쉽게 만들 수 있다.

numpy.arange([start], stop, [step])
- start : 데이터 생성을 시작할 값(생략시 0으로 처리됨)
- stop : 데이터 생성을 멈출 값으로 생략할 수 없음 데이터는 stop-1 까지 생성된다
- step : 데이터 생성 간격(생략시 1로 처리됨)

In [34]:
import numpy as np
np.arange(5)

array([0, 1, 2, 3, 4])

In [35]:
np.arange(1, 6)

array([1, 2, 3, 4, 5])

In [36]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

우리가 for 반복문을 위해 사용했던 range() 함수와 비슷하다. range()를 통해 생성된 것은 반복 가능 객체이고 이것으로 리스트를 만들수 있다.

In [38]:
range(5)

range(0, 5)

In [39]:
range(0, 5, 2)

range(0, 5, 2)

In [40]:
list(range(5))

[0, 1, 2, 3, 4]

따라서 range()를 써서 arange()와 같이 넘파이 배열을 만들고 싶다면 다음과 같이 수행하면 된다.

In [41]:
np.array(range(5))

array([0, 1, 2, 3, 4])

## 10.13 linspace() 함수와 logspace() 함수

inspace()는 시작값부터 끝값까지 균일한 간격으로 지정된 개수만큼의 배열을 생성한다.

In [42]:
np.linspace(0, 10, 100) # 0에서 10까지 총 100개의 수들이 생성

array([ 0.        ,  0.1010101 ,  0.2020202 ,  0.3030303 ,  0.4040404 ,
        0.50505051,  0.60606061,  0.70707071,  0.80808081,  0.90909091,
        1.01010101,  1.11111111,  1.21212121,  1.31313131,  1.41414141,
        1.51515152,  1.61616162,  1.71717172,  1.81818182,  1.91919192,
        2.02020202,  2.12121212,  2.22222222,  2.32323232,  2.42424242,
        2.52525253,  2.62626263,  2.72727273,  2.82828283,  2.92929293,
        3.03030303,  3.13131313,  3.23232323,  3.33333333,  3.43434343,
        3.53535354,  3.63636364,  3.73737374,  3.83838384,  3.93939394,
        4.04040404,  4.14141414,  4.24242424,  4.34343434,  4.44444444,
        4.54545455,  4.64646465,  4.74747475,  4.84848485,  4.94949495,
        5.05050505,  5.15151515,  5.25252525,  5.35353535,  5.45454545,
        5.55555556,  5.65656566,  5.75757576,  5.85858586,  5.95959596,
        6.06060606,  6.16161616,  6.26262626,  6.36363636,  6.46464646,
        6.56565657,  6.66666667,  6.76767677,  6.86868687,  6.96

비슷한 함수로 logspace() 함수가 있다. 이것은 로그 스케일로 수들을 생성한다. 형식은 logspace(x, y, n)이며, 생성되는 수의 시작은 10^x 부터 10^y까지가 되며, n개의 수가 생성된다. 수들 사이의 간격은 로그 스케일로 결정된다.

In [43]:
np.logspace(0, 5, 10)

array([1.00000000e+00, 3.59381366e+00, 1.29154967e+01, 4.64158883e+01,
       1.66810054e+02, 5.99484250e+02, 2.15443469e+03, 7.74263683e+03,
       2.78255940e+04, 1.00000000e+05])

## 10.14 배열의 형태를 바꾸는 reshape() 함수와 flatten() 함수

reshape() 함수는 데이터의 개수는 유지한 채로 배열의 차원과 형태를 변경한다.

In [2]:
import numpy as np
y = np.arange(12)
y

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [3]:
y.reshape(3, 4) # 1차원 배열이 3행 4열의 2차원 배열로 바뀜

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

만약 인수로 -1을 전달하면 데이터의 개수에 맞춰서 자동으로 배열의 형태가 결정된다.

In [4]:
y.reshape(6, -1)

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

원래 배열과 reshape()에 의해 생성될 배열의 형태가 호환되지 않는 경우에는 오류가 생긴다.

In [5]:
y.reshape(7, 2)

ValueError: cannot reshape array of size 12 into shape (7,2)

flatten()은 평탄화 함수로 2차원 이상의 고차원 배열을 1차원 배열로 만들어 준다.

In [6]:
y.flatten() # 2차원 배열을 1차원 배열로 만들어 준다

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## 10.15 난수를 생성해보자

데이터가 저장되면 제일 먼저 해야 하는 것은 데이터를 분석(파악)하는 것이다. 상업적인 데이터는 상당히 크며, 몇 십만 개 이상의 데이터를 다루어야 하는 경우도 많다.

난수란?

난수는 무작위성의 특징을 가지고 출현하는 수를 의미한다. 무작위성이라는 것은 특정한 패턴이 존재하지 않아 다음에 어떤 수가 나타날지 예측할 수 없다는 것이다.

## 10.16 난수 생성하기

넘파이에서 난수의 시드를 설정하는 문장은 다음과 같다. 시드는 컴퓨터로 만드는 난수의 초기 입력값으로 사용된다. 규칙성이 전혀 없는 난수의 열은 컴퓨터로 생성하는 것이 불가능하므로 임의의 초기 값을 바탕으로 해시함수를 통해서 난수를 생성한다.

In [49]:
np.random.seed(100)

시드를 설정하면 해당 시트가 생성하는 난수표에 따라 차례로 난수가 발생하게 된다. 따라서 늘 같은 난수가 나오게 하려면 같은 시드를 설정하고 난수를 발생시키면 된다. 이 난수는 컴퓨터가 규칙을 가지고 생성한 수로 정확한 의미의 난수는 아니지만 난수에 가까운 수로 '의사난수'라고 부른다.

In [50]:
np.random.rand(5) # 5개의 난수 생성

array([0.54340494, 0.27836939, 0.42451759, 0.84477613, 0.00471886])

난수로 이루어진 2차원 배열을 생성

In [51]:
np.random.rand(5, 3)

array([[0.12156912, 0.67074908, 0.82585276],
       [0.13670659, 0.57509333, 0.89132195],
       [0.20920212, 0.18532822, 0.10837689],
       [0.21969749, 0.97862378, 0.81168315],
       [0.17194101, 0.81622475, 0.27407375]])

범위에 있는 난수를 생성

In [52]:
a = 10
b = 20
(b - a) * np.random.rand(5) + a # 10에서 20 사이에 있는 난수 5개를 생성

array([14.31704184, 19.4002982 , 18.17649379, 13.3611195 , 11.75410454])

정수 난수가 필요하다면 randint()를 사용한다. randint(a, b)는 정수 a와 정수 b 사이의 난수를 생성하여 반환한다.

In [53]:
np.random.randint(1, 7, size=10) # 주사위 던지기 10번 시뮬레이션

array([4, 1, 3, 2, 2, 4, 3, 6, 4, 1])

In [54]:
np.random.randint(1, 11, size=(4, 7)) # 크기가 4*7인 2차원 배열을 1부터 10사이의 정수 난수

array([[ 2,  1,  8,  7,  3,  1,  9],
       [ 3,  6,  2,  9,  2,  6,  5],
       [ 3,  9,  4,  6,  1, 10,  4],
       [ 7,  4,  5,  8,  7,  4, 10]])

## 10.17 정규 분포 난수 생성

난수는 균일한 확률 분포로 생성된다. 특정한 구간에서 난수를 생성하면, 해당 구간 전체에서 골고루 데이터가 나타나게 된다. 하지만 많은 사건들은 발생의 확률이 정규 분포를 띈다.

정규분포란 확률 분포 함수이다. 각각의 분포는 평균과 표준편자가 주어진다. 확률분포는 평균값에서 가장 높고 평균값에서 멀수록 발생확률이 낮아진다. 낮아지는 정도는 표준편차와 관계가 있다. 표준편차가 크면 클수록 데이터의 흩어짐이 크기 때문에 발생 확률이 평평하게 펴진 상태에 접근하게 된다.

In [55]:
np.random.randn(5)

array([-1.02933685, -0.51099219, -2.36027053,  0.10359513,  1.73881773])

랜덤 함수를 통해 2차원 배열 형태의 난수를 생성하려면 배열의 형태를 인자로 주면 된다.

In [56]:
np.random.randn(5, 4) # 5행 4열의 난수를 생성

array([[ 1.24187584,  0.13241276,  0.57779396, -1.57590571],
       [-1.29279424, -0.65991979, -0.87400478, -0.68955061],
       [-0.53547985,  1.52795302,  0.64720579, -0.67733661],
       [-0.2650188 ,  0.74610644, -3.13078483,  0.05962178],
       [-0.87521111,  1.06487833, -0.57315265, -0.80327849]])

정규분포는 평균값이 0이고 표준편차가 1이다. 만약 평균값을 mu로 하고, 표준편차를 sigma로 설정하여 이에 맞는 정규분포를 생성하고 싶다면 다음과 같이 하면 된다.

In [57]:
# 평균이 10이고 표준편차 값이 2인 정규분포를 가지는 난수
mu = 10
sigma = 2
randoms = mu + sigma * np.random.randn(5, 4)
randoms

array([[12.18594325, 11.30255516, 14.32104958,  8.72173986],
       [ 9.33262494,  9.12479628,  6.18841024,  7.54196134],
       [11.58979772,  7.67898372, 11.09211104, 12.32651667],
       [11.31775404, 11.04737852, 12.65431215, 12.22504894],
       [ 7.85074079, 10.68683233, 11.97087508, 11.47300336]])

## 10.18 평균값과 중앙값 계산하기

넘파이는 데이터를 요약하는 함수를 많이 가지고 있다.

In [58]:
# 10000명의 키를 난수로 생성 / 평균은 175cm이고, 표준편차는 10인 정규분포를 따름
m = 175
sigma = 10
heights = m + sigma * np.random.randn(10000)
heights

array([154.19537366, 172.0141403 , 157.70789077, ..., 168.27903126,
       164.92114975, 173.12062171])

mean() 함수는 넘파이 패키지가 가지고 있는 평균을 계산하는 함수이다.

In [59]:
np.mean(heights)

174.9972570108985

중앙값이란 리스트의 중앙에 있는 항목이다.

In [60]:
np.median(heights)

174.90487455543172

중앙값과 평균의 차이를 조금더 명확히 확인하기 위해 같은 배열의 평균과 중앙값을 계산해 보자. 중앙값은 비정상적으로 큰 이상치 값으로 인해 전체의 평균값이 전체의 대표성을 가지지 못하는 경우를 막기 위해서 사용된다.

In [62]:
a = np.array([9, 7, 1, 2, 21]) # 21은 전체 데이터 중에서 비정상적으로 큰 값이다
np.mean(a)

8.0

In [63]:
np.median(a) # [3, 7, 1, 2, 21]들 중 가운데 항목을 구한다

7.0

## LAB 10-6 평균과 중앙값 계산하기

In [64]:
import numpy as np

players = np.zeros((100, 3))
players[:, 0] = 10 * np.random.randn(100) + 175
players[:, 1] = 10 * np.random.randn(100) + 70
players[:, 2] = np.floor(10 * np.random.randn(100)) + 22

heights = players[:, 0]
print('신장 평균값 :', np.mean(heights))
print('신장 중앙값 :', np.median(heights))

weights = players[:, 1]
print('체중 평균값 :', np.mean(weights))
print('체중 중앙값 :', np.median(weights))

ages = players[:, 2]
print('나이 평균값 :', np.mean(ages))
print('나이 중앙값 :', np.median(ages))

신장 평균값 : 172.7170127299261
신장 중앙값 : 171.48115582605044
체중 평균값 : 69.57509276978816
체중 중앙값 : 70.55243586196354
나이 평균값 : 22.29
나이 중앙값 : 23.0


## 10.19 상관관계 계산하기

키와 몸무게, 재력과 자동차의 가격은 상호 의존성이 있는 관계에 있다고 볼 수 있다. 이러한 의존성의 정도가 상관관계이다.

corrcoef(x, y) 함수는 요소들의 상관관계를 계산한다. 이때 x와 y는 데이터를 담고 있는 리스트나 배열이 될 수 있다.

완전한 음의 상관관계일 경우 -1, 상관관계가 전혀 없을 때 0, 완전한 양의 상관관계를 가질 때 1이 된다. 자기 자신과의 상관관계는 1이므로 이 행렬의 대각선은 언제나 1이다. 그리고 x와 y의 상관관계와 y와 x의 상관관계는 같은 것으로 대칭행렬이 된다.

In [65]:
x = [1, 2, 3, 4, ..., 97, 98, 99]
y = [1, 4, 9, 16, ..., 9409, 9604, 9801]

x의 값이 증가하면 y의 값도 증가하므로 둘 사이의 상관관계는 매우 높다고 할 것이다.

In [67]:
import numpy as np

x = [i for i in range(100)] # 0에서 99까지의 값을 요소로 하는 리스트
y = [i**2 for i in range(100)] # 0에서 99까지의 값의 제곱을 요소로 하는 리스트

result = np.corrcoef(x, y)
print(result)

[[1.         0.96764439]
 [0.96764439 1.        ]]


corrcoef() 함수가 계산하는 상관관계의 수학적 정의

넘파이의 corrceof() 함수는 수학적으로 피어슨 상관 계수를 계산하는 함수이다. 피어슨 상관 계수는 통계학에서 사용하는 상관계수로 두 변량의 공분산을 각각의 표준편차를 서로 곱한 값으로 나눈 것이다.

## 10.20 다수 변수들 사이의 상관관계 계산하기

앞에서는 두 개의 변수를 사용하여 서로의 상관관계를 계산했다. 이보다 많은 수의 변수를 사용하여 상관관계를 계산할 수도 있다.

In [68]:
x = [i for i in range(100)]
y = [i**2 for i in range(100)]
z = [100 * np.sin(3.14*i/100) for i in range(100)]

사인함수는 주기함수 이므로 선형, 비선형으로 증가하는 리스트와는 상관관계가 없다.

corrcoef(x, y, z)를 실행하면 앞의 두 변수들 사이의 상관관계만 구할 것이다. 제대로 된 방법은 리스트들을 리스트로 묶어서 호출하는 것이다.

In [69]:
result = np.corrcoef([x, y, z])
print(result)

[[ 1.          0.96764439  0.03763255]
 [ 0.96764439  1.         -0.21532645]
 [ 0.03763255 -0.21532645  1.        ]]


### 핵심정리

- 넘파이는 리스트가 아니라 배열로 다차원 데이터를 다룬다
- 배열은 동일한 자료형을 연속해서 가진 데이터 구조로 읽고 쓰는 일을 빠르게 할 수 있다
- 리스트와 달리 넘파이 배열들을 서로 연산하면 벡터와 행렬처럼 다루어진다
- 넘파이 배열도 리스트와 다른 반복가능 객체처럼 슬라이싱을 적용할 수 있다
- 넘파이는 넘파이만의 스타일로 슬라이싱을 할 수 있으며, 리스트 등과 다른 방식의 결과가 나온다
- 슬라이싱과 별개로 논리적 조건을 부여하여 항목을 가져오는 일도 가능하다