## Numpy

- numpy (Numeric Python)
  - 다차원 배열을 쉽게 처리하고 효율적으로 사용할 수 있도록 지원하는 파이썬 패키지
  - 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공
  - 데이터 분석에서 Pandas와 함께 자주 사용하는 도구
  - 실제로 데이터 분석을 수행하기 위한 전제 조건은 컴퓨터가 이해할 수 있도록 데이터를 숫자 형식으로 변환하는 것
  - 파이썬의 list 자료형은 데이터의 크기가 클 수록 저장 및 가공에 효율성을 보장하지 못함
  - 이러한 단점을 보완하기 위한 패키지이기 때문에 Data Science에서 핵심적인 도구로 인식되고 있음

- 패키지 참조

In [1]:
import numpy as np

- Numpy가 제공하는 데이터 타입
  - 리스트의 업그레이드 버전인 **배열(array)** 이라는 데이터 타입을 제공

- list 타입 : 서로 다른 타입의 원소를 허용 ([1, 'hello', True])
- array (ndarray) 타입 : 반드시 모든 원소의 데이터 타입이 동일해야 한다.

- Numpy 배열의 생성과 기본 활용
  - 리스트와 기본 특성은 동일
    - 인덱스 번호와 길이의 존재
    - 반복문을 통한 원소의 탐색
    - 인덱싱, 슬라이싱

- 리스트를 통한 1차원(=1행으로 구성) 배열 만들기

In [2]:
arr = np.array([1, 3, 5, 7, 9])
print(type(arr))
arr

<class 'numpy.ndarray'>


array([1, 3, 5, 7, 9])

- 배열의 크기와 각 원소에 접근하지
  - 기본 특성은 list와 동일

In [3]:
size = len(arr)
print(f'배열의 원소는 {size}개 입니다.')

배열의 원소는 5개 입니다.


- 배열의 원소
  - 인덱스와 마찬가지로 인덱스 번호가 존재

In [4]:
print(arr[0])
print(arr[1])
print(arr[3])

1
3
7


- 반복문을 통한 활용
  - 리스트와 동일하게 사용할 수 있음

In [5]:
for i, v in enumerate(arr):
    print(f"{i}번째 원소 >> {v}")

0번째 원소 >> 1
1번째 원소 >> 3
2번째 원소 >> 5
3번째 원소 >> 7
4번째 원소 >> 9


- Numpy 배열의 특성
  - list 타입
    - 서로 다른 타입의 원소를 허용

In [6]:
arr2 = [100, 3.14, True]
arr2

[100, 3.14, True]

- Numpy 배열의 경우
  - 'arr2'를 배열로 변환할 경우 원소의 타입이 서로 다른 것을 허용하지 않으므로 가장 포괄적인 형태의 자료형으로 통일함
  - 'arr2'의 경우 실수의 포괄범위가 더 크므로 모든 원소가 실수형으로 변환됨

In [7]:
arr3 = np.array(arr2)
arr3

array([100.  ,   3.14,   1.  ])

- 강제 형 변환
  - 'np.array()' 메서드에 'dtype' 파라미터로 특정 타입을 강제 지정할 수 있음
  - 실수를 정수로 바꿀 경우 소수점 이하는 반올림이 아닌 버림 처리

In [8]:
arr4 = np.array(arr2, dtype = 'int')
arr4

array([100,   3,   1])

- 문자열이 포함된 경우
  - 모든 프로그래밍 언어에서 가장 표현범위가 넓은 타입은 문자열이다.
  - 그러므로 문자열이 포함된 리스트를 배열로 변환할 경우 모든 원소가 문자열이 됨

In [9]:
arr5 = np.array([1.2, 3, True, '4'])
print(arr5)

['1.2' '3' 'True' '4']


In [10]:
print([1.2, 3, True, '4'])

[1.2, 3, True, '4']


- print 함수로 리스트와 배열을 출력하면 리스트는 원소간 쉼표가 있고 넘파이 배열은 없음
  - 구분하는 가장 좋은 방법은 type함수를 쓰는 것

- list 타입으로 역변환
  - 서로 호환 가능

In [11]:
mylist = list(arr5)
print(type(mylist))
mylist

<class 'list'>


['1.2', '3', 'True', '4']

- 기초통계량 산출(최대, 최소, 합계, 평균)

| 기호 | LaTeX | 의미 |
|---|---|---|
| $\Omega$ | `\Omega` | 모집단 |
| $\mu$ | `\mu` | 모평균(모집단의 평균, 모수) |
| $\sigma^2$ | `\sigma^2` | 모분산(모집단의 분산) |
| $\sigma$ | `\sigma` | 모표준편차(모집단의 표준편차) |
| $\bar{X}$ | `\bar{X}` | 표본평균(표본집단의 평균) |
| $s^2$ | `s^2` | 표본분산(표본집단의 분산) |
| $s$ | `s` | 표본표준편차(표본집단의 표준편차) |
| $n$ | `n` | 표본크기(표본집단의 데이터 수) |
| $\sum$ | `\sum` | 합계 |

- 1차원 데이터의 경우
  - 샘플 데이터

In [12]:
myarr = np.array([98, 72, 80, 64])
myarr

array([98, 72, 80, 64])

- 최대, 최소, 합계, 평균값

In [13]:
print("최대값 :", np.max(myarr))
print("최소값 :", np.min(myarr))
print("합계 :", np.sum(myarr))
print("평균 :", np.average(myarr))

최대값 : 98
최소값 : 64
합계 : 314
평균 : 78.5


- 분산, 표준편차
  - $편차(d) = 관측값 - 평균$
  - $d = y - \bar{y}$

| 구분 | 설명 |
|---|---|
| 편차 | 관측값($y$)(=실제값, 조사된 값)에서 평균($\bar{y}$)을 뺀 값 |
| 분산 | 편차 제곱의 평균 ($\sigma^2 = \bar{d^2}$) |
| 표준편차 | 분산의 제곱근 ($\sigma = \sqrt{\bar{d^2}}$) |

- 수학식을 표현하는 마크다운의 LaTeX 식 참조

In [14]:
print("분산 :", np.var(myarr))
print("표준편차 :", np.std(myarr))

분산 : 158.75
표준편차 : 12.599603168354152


- 연산기능
  - 연산자를 사용한 Numpy 배열끼리의 연산
    - 위치가 동일한 원소끼리 연산 수행

In [15]:
arr1 = np.array([10, 15, 20, 25, 30])
arr2 = np.array([2, 3, 4, 5, 6])
print(arr1)
print(arr2)

[10 15 20 25 30]
[2 3 4 5 6]


In [16]:
a = arr1 + arr2
a

array([12, 18, 24, 30, 36])

In [17]:
b = arr1 - arr2
b

array([ 8, 12, 16, 20, 24])

In [18]:
c = arr1 * arr2
c

array([ 20,  45,  80, 125, 180])

In [19]:
d = arr1 / arr2
d

array([5., 5., 5., 5., 5.])

- 함수를 사용한 Numpy 배열의 연산

In [20]:
arr1 = np.array([10, 15, 20, 25, 30])
arr2 = np.array([2, 3, 4, 5, 6])
print(arr1)
print(arr2)

[10 15 20 25 30]
[2 3 4 5 6]


In [21]:
a = np.add(arr1, arr2)
a

array([12, 18, 24, 30, 36])

In [22]:
b = np.subtract(arr1, arr2)
b

array([ 8, 12, 16, 20, 24])

In [23]:
c = np.multiply(arr1, arr2)
c

array([ 20,  45,  80, 125, 180])

In [24]:
d = np.divide(arr1, arr2)
d

array([5., 5., 5., 5., 5.])

- 조건에 맞는 값 추출하기
  - 원하는 위치의 값 추출

In [25]:
# 철수의 1학년부터 4학년까지의 평균 점수
grade = np.array([82, 77, 91, 88])

In [26]:
# 추출하고자 하는 원본과 같은 사이즈의 배열을 생성
# 추출할 값은 True, 그렇지 않으면 False
bool_array = np.array([True, False, True, False])
bool_array

array([ True, False,  True, False])

In [27]:
# 조건에 맞는 항목만 1차 배열로 추출
result1 = grade[bool_array]
result1

array([82, 91])

- 조건에 맞는 원소 추출
  - 80이상인 원소를 추출
    - 조건을 명시하기 위해 배열의 이름이 조건식에 명시됨

In [28]:
result2 = grade[grade >= 80]
result2

array([82, 91, 88])

- 80점 이상이고 90점 이하인 데이터만 추려냄

In [29]:
result3 = grade[np.logical_and(grade >= 80, grade <= 90)]
result3

array([82, 88])

- 80점 미만이거나 90점 초과인 데이터만 추려냄

In [30]:
result4 = grade[np.logical_or(grade < 80, grade > 90)]
result4

array([77, 91])

- Numpy 도수분포
  - 도수 : 특정한 구간 또는 범주에 속하는 자료의 개수
    - ex) 시험 점수에서 각 점수 대역에 속하는 학생의 수를 센것이 도수
  - 도수분포표 : 도수들을 정리하여 구간별 도수를 표로 나타낸 것
    - 평균, 중앙값, 최빈값 같은 중심경향성 통계량을 계산하거나 자료의 분산과 퍼짐 정도를 파악하는데 사용

In [31]:
point = np.array([100, 91, 89, 86, 84, 79, 78, 77, 74, 71, 69, 66, 65, 60, 58, 57, 55])
point

array([100,  91,  89,  86,  84,  79,  78,  77,  74,  71,  69,  66,  65,
        60,  58,  57,  55])

- Numpy의 histogram : 도수분포도
  - input : 데이터, 나눌 구간의 수(or 나눌 구간을 직접 정의)
  - output : 구간별 데이터 수, 구간 경계
    - 5개의 구간으로 나누기

In [32]:
hist, bins = np.histogram(point, 5)
print("구간별 데이터 수 :", hist)
print("구간 경계:", bins)

구간별 데이터 수 : [4 4 4 3 2]
구간 경계: [ 55.  64.  73.  82.  91. 100.]


- 도수분포표 구성

In [33]:
s = len(hist)
for i in range(0, s):
    if i + 1 < s:
        tpl = "%d 이상 %d 미만 : %d개"
    else:
        tpl = "%d 이상 %d 이하 : %d개"
    print(tpl % (bins[i], bins[i+1], hist[i]))

55 이상 64 미만 : 4개
64 이상 73 미만 : 4개
73 이상 82 미만 : 4개
82 이상 91 미만 : 3개
91 이상 100 이하 : 2개


- 데이터 구간을 직접 정의하기

In [34]:
hist, bins = np.histogram(point, [50, 60, 70, 80, 90, 100])
print("구간별 데이터 수 :", hist)
print("구간 경계:", bins)

구간별 데이터 수 : [3 4 5 3 2]
구간 경계: [ 50  60  70  80  90 100]


- 절대도수 : 어떠한 변수에 대한 실제 빈도수
  - np.histogram()의 hist 값이 절대도수
- 상대도수 : 절대도수를 백분율로 환산한 값
  - 각 도수를 도수의 총 합으로 나눈 값

In [35]:
relative_freq = hist / np.sum(hist)
relative_freq

array([0.17647059, 0.23529412, 0.29411765, 0.17647059, 0.11764706])

- 누적도수 : 절대도수에서 자기 앞 도수를 모두 다 더한 값

In [36]:
cum_freq = []
previous = 0
for i in hist:
    previous += i
    cum_freq.append(previous)

cum_freq

[3, 7, 12, 15, 17]

- 2차원 배열의 생성

In [37]:
# 철수의 학년 - 과목별 점수
grade = np.array([
    [98, 72, 80, 64],
    [88, 90, 80, 72],
    [92, 88, 82, 76]
])

grade

array([[98, 72, 80, 64],
       [88, 90, 80, 72],
       [92, 88, 82, 76]])

- 2차원 배열의 크기
  - 차원 크기

In [38]:
grade.ndim

2

- 각 차원별 원소 수

In [39]:
grade.shape

(3, 4)

- 원소의 데이터 타입

In [40]:
grade.dtype

dtype('int32')

- 2차원 배열의 기초통계량
  - 각 열끼리 (axis = 0)
  - 각 행끼리 (axis = 1)

In [41]:
s1 = np.max(grade, axis = 0)
print(type(s1))
s1

<class 'numpy.ndarray'>


array([98, 90, 82, 76])

In [42]:
s1 = np.var(grade, axis = 1)
print(type(s1))
s1

<class 'numpy.ndarray'>


array([158.75,  50.75,  36.75])

- 조건검색
  - boolean 타입으로 인덱싱
  - 조건에 맞는 데이터를 1차원 배열로 출력

In [43]:
bool_array = np.array([
    [True, False, True, False],
    [True, True, True, False],
    [True, True, True, False]
])

In [44]:
result1 = grade[bool_array]
result1

array([98, 80, 88, 90, 80, 92, 88, 82])

In [45]:
result2 = grade[grade >= 80]
result2

array([98, 80, 88, 90, 80, 92, 88, 82])

- AND 검색

In [46]:
result3 = grade[np.logical_and(grade >= 80, grade <= 90)]
result3

array([80, 88, 90, 80, 88, 82])

- OR 검색

In [47]:
result4 = grade[np.logical_or(grade < 80, grade > 90)]
result4

array([98, 72, 64, 72, 92, 76])

- 정형화된 배열 생성
  - 모든 원소가 0인 배열

In [48]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

- 모든 원소가 1인 배열

In [49]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

- 모든 원소가 특정 값인 배열

In [50]:
np.full((3, 4), 10)

array([[10, 10, 10, 10],
       [10, 10, 10, 10],
       [10, 10, 10, 10]])

- 단위행렬
  - 대각선으로 1이고 나머지 원소는 0인 배열

In [51]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

- 랜덤 배열
  - 0부터 1의 범위에서 균등하게 추출하여 N차원 배열을 생성

In [52]:
np.random.rand(10)

array([0.73910033, 0.82479406, 0.30445557, 0.71960344, 0.42566052,
       0.62167656, 0.29522426, 0.84261891, 0.7281073 , 0.74805542])

- 4행, 3열인 2차원 배열

In [53]:
np.random.rand(4, 3)

array([[0.85877881, 0.6595899 , 0.73830984],
       [0.82485437, 0.44027855, 0.64017253],
       [0.6183108 , 0.65071664, 0.01096643],
       [0.84090207, 0.92125402, 0.88812819]])

- 주어진 범위 안에서 정수값을 갖는 랜덤 배열
  - 0부터 9 사이의 랜덤값 10개의 원소를 갖는 1차원 배열

In [54]:
np.random.randint(0, 9, 10)

array([1, 6, 4, 0, 4, 8, 5, 4, 1, 0])

- 0부터 9사이의 랜덤값을 갖는 3행 4열 2차원 배열

In [55]:
np.random.randint(0, 9, (3, 4))

array([[0, 6, 6, 7],
       [8, 8, 0, 5],
       [4, 4, 7, 2]])

- 표준정규분포를 따르는 임의의 수
  - 1차원 배열

In [115]:
np.random.randn(10)

array([-0.18505367, -0.80764849, -1.4465347 ,  0.80029795, -0.30911444,
       -0.23346666,  1.73272119,  0.68450111,  0.370825  ,  0.14206181])

- 2차원 배열

In [110]:
np.random.randn(4, 3)

array([[-1.84306955, -0.477974  , -0.47965581],
       [ 0.6203583 ,  0.69845715,  0.00377089],
       [ 0.93184837,  0.33996498, -0.01568211],
       [ 0.16092817, -0.19065349, -0.39484951]])

- 정규분포를 직접 설정
  - 1차원 배열
  - 평균은 0, 표준편차 1의 정규분포에서 10개의 수를 추출

In [101]:
np.random.normal(0, 1, 10)

array([ 0.52106488, -0.57578797,  0.14195316, -0.31932842,  0.69153875,
        0.69474914, -0.72559738, -1.38336396, -1.5829384 ,  0.61037938])

- 2차원 배열

In [93]:
np.random.normal(0, 1, (4, 3))

array([[ 1.18802979,  0.31694261,  0.92085882],
       [ 0.31872765,  0.85683061, -0.65102559],
       [-1.03424284,  0.68159452, -0.80340966],
       [-0.68954978, -0.4555325 ,  0.01747916]])

- 랜덤값 고정
  - 랜덤이란 사전에 잘 섞여 있는 숫자 셋을 순차적으로 꺼내는 것을 의미
  - 랜덤시드는 몇 번째 숫자 셋인지를 의미하는 값
  - 이 값을 고정하면 특정 숫자 셋만 사용하라는 의미

In [79]:
np.random.seed(0)
np.random.normal(0, 1, (4, 3))

array([[ 1.76405235,  0.40015721,  0.97873798],
       [ 2.2408932 ,  1.86755799, -0.97727788],
       [ 0.95008842, -0.15135721, -0.10321885],
       [ 0.4105985 ,  0.14404357,  1.45427351]])