NumPy\
여기서는 numpy의 공식이 아닌 사용 시 접근할 수 있는 연속성 자료형에 집중

개요
1) 다차원 배열을 쉽게 처리하고 효율적으로 사용할 수 있도록 지원하는 파이썬 패키지
1) 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공
1) 데이터 분석에서 Pandas와 함께 자주 사용하는 도구
1) 파이썬을 빠른 속도로 사용하기 위한 명령어
1) 수치연산에 적절한 명령어(수학, 과학 공식)

역할
1) 실제로 데이터 분석을 수행하기 위한 전제 조건은 컴퓨터가 이해할 수 있도록 데이터를 숫자 형식으로 변환하는 것
1) 파이썬의 list 자료형의 경우 데이터의 크기가 커질수록 저장 및 가공에 효율성을 보장하지 못함
1) 이러한 단점을 보완하기 위한 패키지이기 때문에 Data Science에서 핵심적인 도구로 인식되고 있음

* NumPy 설치

In [2]:
# ! pip install --upgrade numpy

* NumPy 패키지 가져오기

In [3]:
import numpy

#02. Numpy 패키지 사용

* numpy 배열 생성과 기본 활용

** 리스트를 통한 1차원(=1행으로 구성) 배열 생성

In [4]:
arr = numpy.array([1,3,5,7,9])
arr

array([1, 3, 5, 7, 9])

** 배열의 크기와 각 원소에 접근

In [5]:
# 내장함수 len()은 모든 연속성 데이터(문자열,리스트,튜플 등)에 사용 가능
size = len(arr)
print("배열의 원소는 %d개" % size)

배열의 원소는 5개


** 배열의 원소에 접근

In [6]:
# 리스트와 마찬가지로 각 원소에 인덱스 번호로 접근
print(arr[0])
print(arr[1])
print(arr[2])

1
3
5


** 인덱스가 있기 때문에 반복문을 통해서 제어할 각 원소에 접근 가능

In [7]:
for i, v in enumerate(arr):
    print("%d번째 원소 >> %d" %(i,v))

0번째 원소 >> 1
1번째 원소 >> 3
2번째 원소 >> 5
3번째 원소 >> 7
4번째 원소 >> 9


* numpy 배열의 특성, 파이썬과 차이점

** 파이썬의 리스트는 서로 다른 타입 허용

In [8]:
# 서로 다른 타입의 원소를 갖는 list 생성
arr2 = [1.2, 3, '4']
arr2

[1.2, 3, '4']

** NumPy 배열은 원소의 타입이 서로 다른것을 허용하지 않음

** 정수와 실수가 섞인 리스트를 배열로 변환

In [9]:
# 
# 가장 포괄적인 형태의 자료형으로 통일함
# 여기서는 실수가 범위가 더 크므로 모든 원소가 실수형으로 변환됨
arr3 = numpy.array([1, 2.4, 3, 4,6])
arr3

array([1. , 2.4, 3. , 4. , 6. ])

** 정수,실수,문자열이 포함된 리스트를 문자열 배열로 변환

In [11]:
arr4 = numpy.array([1.2, 3, '4'])
arr4

array(['1.2', '3', '4'], dtype='<U32')

** 강제로 원소 타입 지정 가능(dtype)

In [12]:
# 모든 원소의 타입을 강제로 int(정수)로 지정
# 소수점 아래 값들은 모두 버림
arr5 = numpy.array([1, 2.4, 3, 4.6], dtype='int')
arr5

array([1, 2, 3, 4])

* numpy 기초 통계 값

In [13]:
grade = numpy.array([82, 77, 91, 88])
grade

array([82, 77, 91, 88])

** 모든 원소 합

In [14]:
s1 = numpy.sum(grade)
print("총점 : %d" %s1)

총점 : 338


** 모든 원소 평균

In [15]:
s2 = numpy.average(grade)
print("평균 : %d" %s2)

평균 : 84


** 최대, 최소

In [16]:
s3 = numpy.max(grade)
s4 = numpy.min(grade)
print("최대 : %d, 최소 : %d "%(s3, s4))

최대 : 91, 최소 : 77 


* numpy 배열의 각 원소에 대한 연산

** 연산자를 사용한 배열간의 연산은 위치가 동일한 각 원소끼리 수행

In [21]:
arr1 = numpy.array([10, 15, 20, 25, 30])
arr2 = numpy.array([2,3,4,5,6])
print(arr1)
print(arr2)

[10 15 20 25 30]
[2 3 4 5 6]


In [22]:
a = arr1+arr2
# a = numpy.add(arr1, arr2)
a

array([12, 18, 24, 30, 36])

In [23]:
b = arr1 - arr2
# b = numpy.subtract(arr1, arr2)
b

array([ 8, 12, 16, 20, 24])

In [24]:
c = arr1 * arr2
# c = numpy.multiply(arr1, arr2)
c

array([ 20,  45,  80, 125, 180])

In [25]:
d = arr1 / arr2
# d = numpy.divide(arr1, arr2)
d

array([5., 5., 5., 5., 5.])

** numpy모듈의 함수를 사용한 배열간의 연산 => 연산자와 동일한 결과

In [27]:
arr1 = numpy.array([10,15,20,25,30])
arr2 = numpy.array([2,3,4,5,6])
print(arr1)
print(arr2)

[10 15 20 25 30]
[2 3 4 5 6]


In [28]:
a = numpy.add(arr1, arr2)
a

array([12, 18, 24, 30, 36])

In [29]:
b = numpy.subtract(arr1, arr2)
b

array([ 8, 12, 16, 20, 24])

In [30]:
c = numpy.multiply(arr1, arr2)
c

array([ 20,  45,  80, 125, 180])

In [31]:
d = numpy.divide(arr1, arr2)
d

array([5., 5., 5., 5., 5.])

* numpy 배열의 기본 인덱싱, 슬라이싱

In [32]:
grade = numpy.array([82, 77, 91, 88])
grade

array([82, 77, 91, 88])

** 인덱싱

In [33]:
# 2열(0부터 계산) 데이터 접근
grade[2]

91

In [34]:
# 슬라이싱
# 1열부터 3열 전까지 추출
grade[1:3]

array([77, 91])

In [35]:
# 처음부터 2열 전까지 추출
grade[:2]

array([82, 77])

In [36]:
# 1열~끝까지 추출
grade[1:]

array([77, 91, 88])

* 조건에 맞는 값 추출

grade = numpy.array([82, 77, 91, 88]) 사용

** 추출할 값은 True, 그렇지 않으면 False

In [37]:
# 추출하고자 하는 원본과 같은 사이즈의 배열을 생성
bool_array = numpy.array([True, False, True, False])
bool_array

array([ True, False,  True, False])

** 조건에 맞는 항목만 1차 배열로 추출

In [38]:
result1 = grade[bool_array]
result1

array([82, 91])

** 조건에 맞는 데이터만 추출

In [39]:
# 80점 시상 추출
result2 = grade[grade >= 80]
result2

array([82, 91, 88])

** logical_and 함수를 사용하여 80점 이상이고 90점 이하인 데이터만 추출

In [40]:
result3 = grade[numpy.logical_and(grade >= 80, grade <= 90)]
result3

array([82, 88])

** logical_or 함수를 사용하여 80점 미만이거나 90점 초과인 데이터만 

In [41]:
result4 = grade[numpy.logical_or(grade < 80, grade > 90)]
result4

array([77, 91])

#03. 2차 배열

*  numpy 2차 배열 생성 및 기본 정보 조회

In [42]:
# 철수의 학년-과목별 점수
grade = numpy.array([
    [98, 72, 80, 64],   #0행 - kor
    [88, 90, 80, 73],   #1행 - eng
    [92, 88, 82, 76],   #2행 - math
])
grade

array([[98, 72, 80, 64],
       [88, 90, 80, 73],
       [92, 88, 82, 76]])

** 차원 크기

In [43]:
grade.ndim

2

** 차원의 원소 수

In [44]:
grade.shape

(3, 4)

** 각 원소의 타입

In [46]:
grade.dtype

dtype('int32')

* 기본 인덱싱과 슬라이싱

** 정수형 인덱싱 -> 1행 2열의 데이터 접근 방법(1)

In [56]:
grade[1,2]

80

** 정수형 인덱싱 -> 1행 2열의 데이터 접근 방법(2)

In [57]:
grade[1][2]

80

** 슬라이싱 - 1~3행 전까지,1~4열 전까지 범위를 추출

In [58]:
grade[1:3, 1:4]

array([[90, 80, 73],
       [88, 82, 76]])

** 0~2행 전까지, 0~3열 전까지 범위를 추출

In [59]:
grade[:2, :3]

array([[98, 72, 80],
       [88, 90, 80]])

** 1~끝행, 2~끝열 범위를 추출

In [60]:
grade[1:, 2:]

array([[80, 73],
       [82, 76]])

* 기초 통계 산출 (max,min,sum,average)

** 각 열끼리 더함 (세로로 덧셈) -> 결과 타입은 numpy의 1차 배열

axis는 축 (0 : 세로, 1 : 가로)

In [61]:
s1 = numpy.sum(grade, axis = 0)
print(type(s1))
s1

<class 'numpy.ndarray'>


array([278, 250, 242, 213])

** 각 행끼리 더함 (가로로 덧셈)

In [62]:
s2 = numpy.sum(grade, axis=1)
print(type(s2))
s2

<class 'numpy.ndarray'>


array([314, 331, 338])

** 조건에 맞는 값 추출

In [63]:
# bool 형 인덱싱
# 추출하고자 하는 원본과 같은 사이즈의 배열
# 추출할 값은 True, 그렇지 않으면 False
bool_array = numpy.array([
    [True, False, True, False],
    [True, True, True, False],
    [True, True, True, False]
    ])
# 조건에 맞는 항목만 1차 배열로 추출
result1 = grade[bool_array]
result1

array([98, 80, 88, 90, 80, 92, 88, 82])

In [64]:
# 80점 이상인지 판별하여 조건에 맞는 데이터만 추출
# 추출 결과는 1차 배열
result2 = grade[grade >= 80]
result2

array([98, 80, 88, 90, 80, 92, 88, 82])

In [65]:
# logical_and 함수를 사용하여 80점 이상이고 90점 이하인 데이터만 추출
result3 = grade[numpy.logical_and(grade>=80, grade<=90)]
result3

array([80, 88, 90, 80, 88, 82])

In [66]:
# logical_or 함수를 사용하여 80점 미만이거나 90점 초과인 데이터만 추출
result4 = grade[numpy.logical_or(grade<80, grade >90)]
result4

array([98, 72, 64, 73, 92, 76])