# NumPy 패키지 Numeric Python)

### 1. 개요
- 다차원 배열을 쉽게 처리하고 효율적으로 사용할 수 있도록 지원하는 파이썬 패키지
- 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능 제공
- 데이터 분석에서 Pandas와 함께 자주 사용하는 도구

#### 1) 역할
- 실제로 데이터 분석을 수행하기 위한 전체 조건은 컴퓨터가 이해할 수 있도록 데이터를 숫자 형식으로 변환하는 것임
- 파이썬의 list 자료형의 경우 데이터의 크기가 커질수록 저장 및 가공에 효율성을 보장하지 못함
- 이러한 단점을 보완하기 위한 패키지이기에 Data Science에서 핵심적인 도구로 인식

#### 2) 설치하기
$ pip3 install --upgrade numpy

#### 3) 패키지 가져오기

In [4]:
import numpy as np

### 2. Numpy 패키지 사용하기

#### 1) Numpy 배열(array) 생성과 기본 활용

In [9]:
# 리스트를 통한 1차원(=1행으로 구성) 배열 만들기
arr = np.array([1, 3, 5, 7, 9])
print(arr)

# 배열의 크기와 각 원소에 접근하기
# -> 내장함수 len()은 모든 연속성 데이터 (문자열, 리스트, 튜플 등)에 사용 가능
size = len(arr)
print("배열의 원소는 %d개 입니다." % size)

# 배열의 원소에 접근하기
# -> 리스트와 마찬가지로 각 원소에 인덱스 번호로 접근 가능
print(arr[0], arr[1])

# 인덱스가 있기에 반복문을 통해 제어할 각 원소에 접근 가능
for i, v in enumerate(arr):
    print('%d번째 원소 >> %d' % (i, v))

[1 3 5 7 9]
배열의 원소는 5개 입니다.
1 3
0번째 원소 >> 1
1번째 원소 >> 3
2번째 원소 >> 5
3번째 원소 >> 7
4번째 원소 >> 9


#### 2) Numpy array의 특성
- list와 다르게 numpy 배열(array)는 원소의 타입이 서로 다른 것을 불허용
- 가장 포괄적인 형태의 자료형으로 `통일`함: 
    - int, flt -> flt
    - int, flt, str -> str

In [19]:
# 서로 다른 타입의 원소를 갖는 list 만들기
# -> 파이썬의 리스트는 서로 다른 타입 허용
arr2 = [1, 2, 3, '4']
print(arr2)

# 정수와 실수가 섞인 리스트를 배열로 변환시
# -> 여기서는 실수가 범위가 더 크므로 모든 원소가 실수형으로 변환됨
arr3 = np.array([1, 2.4, 3, 4.6])
print(arr3)

# 정수, 실수, 문자열이 포함된 리스트를 배열로 변환시
# -> 모든 타입이 문자열로 변환되어 있음
arr4 = np.array([1, 2, 3, '4'])
print(arr4)

# 모든 원소의 타입을 강제로 int(정수)로 지정
# -> 소수점 아래 값들은 모두 버려짐
arr5 = np.array([1, 2.4, 3, 4.7, '5'], dtype = 'int') 
            # '9.9'(float으로 된 string)는 int()해도 int로 변환 안 됨!
print(arr5)

[1, 2, 3, '4']
[1.  2.4 3.  4.6]
['1' '2' '3' '4']
[1 2 3 4 5]


#### 3) Numpy array의 기초 통계값
- numpy.sum()
- numpy.average()
- numpy.max()
- numpy.min()

In [20]:
# 예제를 위한 배열 구성
grade = np.array([82, 77, 91, 88])

# 모든 원소의 합
s1 = np.sum(grade)
print('총점: %d' % s1)

# 모든 원소의 평균
s2 = np.average(grade)
print('평균: %d' % s2)

# 최대, 최소값
s3 = np.max(grade)
s4 = np.min(grade)
print('가장 높은 점수: %d, 가장 낮은 점수: %d' % (s3, s4), "\n참 열심히 했어요. 수고했어요.")

총점: 338
평균: 84
가장 높은 점수: 91, 가장 낮은 점수: 77 
참 열심히 했어요. 수고했어요.


#### 4) Numpy array의 각 원소에 대한 연산
- 더하기, 빼기, 곱하기, 나누기, 제곱, 몫, 나머지 다 가능

In [21]:
grade = np.array([82, 77, 91, 88])

new1 = grade + 2
new2 = grade - 5
new3 = grade * 2
new4 = grade / 2
new5 = grade ** 2
new6 = grade // 2
new7 = grade % 2
new7

array([0, 1, 1, 0])

#### 5) Numpy array끼리의 연산
- 연산자를 사용한 배열간의 연산 => `위치가 동일`한 각 원소끼리 수행됨
- numpy모듈의 `함수`를 사용한 배열간의 연산 => 연산자와 동일한 결과

In [24]:
arr1 = np.array([10, 15, 20, 25, 30])
arr2 = np.array([2, 3, 4, 5, 6])
# print(arr1) >> [10 15 20 25 30]
# print(arr2) >> [2 3 4 5 6]

# 연산자를 사용한 배열간의 연산
a = arr1 + arr2
# a >> array([12, 18, 24, 30, 36])
# print(a) >> [12 18 24 30 36]
# 빼기, 곱하기, 나누기, 제곱, 몫, 나머지 다 됨
a

# 함수를 사용한 배열간의 연산
# 더하기
a = np.add(arr1, arr2)
# 빼기
b = np.subtract(arr1, arr2)
# 곱하기
c = np.multiply(arr1, arr2)
# 나누기
d = np.divide(arr1, arr2)
d

array([5., 5., 5., 5., 5.])

#### 6) Numpy array의 기본 인덱싱, 슬라이싱

In [25]:
# 철수의 1학년 - 4학년 까지의 평균 점수
grade = np.array([82, 77, 91, 88])

# 인덱싱
grade[2]

# 슬라이싱
grade[1:3] # 1열부터 3열 전까지 범위 추출
grade[:2] # 처음부터 2열 전까지 범위 추출
grade[1:] # 1열부터 끝까지 범위 추출

array([77, 91, 88])

#### 7) 조건에 맞는 값 추출하기
- `numpy.logical_and()`
- `numpy.logical_or()`

In [29]:
# -> 추출하고자 하는 원본과 같은 사이즈의 배열 생성
# -> 추출할 값은 True, 그렇지 않으면 False
bool_array = np.array([True, False, True, False])
bool_array

# -> 조건에 맞는 항목만 1차 배열로 추출
# [82, 77, 91, 88]
result1 = grade[bool_array]
result1

# 80점 이상인지 판별된 조건에 맞는 데이터만 추출
result2 = grade[grade >= 80]
result2

# logical_and() 함수를 사용하여 80점 이상이고 90점 이하인 데이터만 추출
result3 = grade[np.logical_and(grade>=80, grade<=90)]
result3

# logical_or() 함수를 사용하여 80점 미만이거나 90점 초과인 데이터만 추출
result4 = grade[np.logical_or(grade<80, grade>90)]
result4

array([77, 91])

### 3. 2차 배열

#### 1) Numpy 2차 배열 생성 및 기본 정보 조회

In [35]:
# 철수의 학년-과목별 점수
grade = np.array([
    # 열 ->   0   1   2   3
            [98, 72, 80, 64],   # 0행 - kor
            [88, 90, 80, 72],   # 1행 - eng
            [92, 88, 82, 76]    # 2행 - math
])
grade

array([[98, 72, 80, 64],
       [88, 90, 80, 72],
       [92, 88, 82, 76]])

In [36]:
# 차원 크기 (dimension)
grade.ndim # >> 2

# 각 차원의 원소수
grade.shape # >> (3, 4)

# # 각 원소의 타입
grade.dtype # >> dtype('int64')

dtype('int64')

#### 2) 기본 인덱싱과 슬라이싱

In [39]:
print(grade)
# 정수형 인덱싱 => 1행 2열의 데이터 접근
# 방법 1)
print(grade [1, 2])
# 방법 2)
print(grade [1][2])

# 슬라이싱 [행, 열]
grade[1:3, 1:4] # -> 1~3행 전까지,1~4열 전까지 범위를 추출
grade[:2, :3]   # -> 0~2행 전까지, 0~3열 전까지 범위를 추출
grade[1:, 2:]   # -> 1~끝행, 2~끝열 범위를 추출

[[98 72 80 64]
 [88 90 80 72]
 [92 88 82 76]]
80
80


array([[80, 72],
       [82, 76]])

#### 3) 기초 통계 산출 (max, min, sum, average)
- numpy.sum(배열, axis = n)
    - 열끼리 (세로) -> axis = 0
    - 행끼리 (가로) -> axis = 1

In [41]:
# 각 열끼리 더함 (세로로 덧셈) -> 결과 타입은 numpy의 1차 배열
s1 = np.sum(grade, axis = 0)
print(type(s1))
s1

# 각 행끼리 더함 (가로로 덧셈) -> 결과 타입은 numpy의 1차 배열
s2 = np.sum(grade, axis = 1)
print(type(s2))
s2

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


array([314, 330, 338])

#### 4) 조건에 맞는 값 추출하기

In [46]:
print(grade)
# bool 형 인덱싱
# -> 추출하고자 하는 원본과 같은 사이즈의 배열
# -> 추출할 값은 True, 그렇지 않으면 False
bool_array = np.array([
            [True, False, True, False],
            [True, True, True, True],
            [True, True, True, False]
])

# 조건에 맞는 항목만 1차 배열로 추출
result1 = grade[bool_array]
result1

# 80점 이상만 추출
# -> 추출된 결과는 1차 배열
result2 = grade[grade >= 80]
result2

# logical_and()를 사용하여 80점 이상, 90점 이하만 추출
result3 = grade[np.logical_and(grade >= 80, grade <= 90)]
result3

# logical_or()를 사용하여 80점 미만 또는 90점 초과만 추출
result4 = grade[np.logical_or(grade < 80, grade > 90)]
result4

[[98 72 80 64]
 [88 90 80 72]
 [92 88 82 76]]


array([98, 72, 64, 72, 92, 76])