In [3]:
import numpy

다차원 배열을 수비게 처리하고 효율적으로 사용할 수 있도록 지원하는 파이썬 패키지. 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공한다. 데이터 분석에서 Pandas와 함께 자주 사용하는 도구

실제로 데이터 분석을 수행하기 위한 전제 조건은 컴퓨터가 이해할 수 있도록 데이터를 숫자 형식으로 변환해야 한다. 파이썬의 list 자료형의 경우 데이터의 크기가 커질수록 저장 및 가공에 효율성을 보장하지 못함. 이러한 단점을 보완하기 위한 패키지이므로 data science에 핵심적인 도구로 인삭된다.

1) numpy의 역할

In [4]:
# 리스트를 통한 1차원 배열 만들기
arr = numpy.array([0,1,3,5,7,9])
arr

array([0, 1, 3, 5, 7, 9])

In [5]:
# 배열의 크기와 각 원소에 접근하기 
# 내자함수 (len())은 모든 연속성 데이터(문자열, 리스트, 튜플)에 사용 가능
size=len(arr)
print('배열위 원소는 %d' % size)

배열위 원소는 6


In [6]:
# 배열의 원소에 접근하기
# 리스트와 마찬가지로 각 원소에 인덱스 번호로 접근 가능
print(arr[0])
print(arr[1])


0
1


In [7]:
# 인덱스가 있기 때문에 반복문을 통ㅇ해서 제어할 각 원소에 접근 가능
for i, v in enumerate(arr) :
    print('%d번째 원소 >> %d' %(i,v))

0번째 원소 >> 0
1번째 원소 >> 1
2번째 원소 >> 3
3번째 원소 >> 5
4번째 원소 >> 7
5번째 원소 >> 9


2) 배열의 특성

In [8]:
# 서로 다른 타입의 원소를 갖는 list 만들기
# 파이썬의 리스트는 서로 다른 타입 허용
arr2 = [1.2,3,'4']


In [9]:
# 정수와 실수가 섞인 리스트를 배열롸 변환
# 배열은 원소의 타입이 서로 다른 것을 허용하지 않는다.
# 가장 포괄적인 형태의 자료형으로 통일함 (실수)
arr3 = numpy.array([1,2.4,3,4.5]) #1뒤에 0이 숲음 1.0임 
arr3

array([1. , 2.4, 3. , 4.5])

In [10]:
# 정수, 실수, 문자열이 포함된 리스트를 배열로 변환
# 모든 타입이 문자열로 변환되어 있음 
arr4 = numpy.array([1.2,3,'4'])
arr4

array(['1.2', '3', '4'], dtype='<U32')

In [11]:
# 모든 원소의 타입을 강제로 int()로 지정
# 소수점 아래 값들은 모두 버려진다
arr5 = numpy.array([1,2.4,3,4.6], dtype='int')
arr5

array([1, 2, 3, 4])

3) numpy 배열의 기초 통계값

In [12]:
# 예제를 통한 배열 구성
grade = numpy.array([82,77,91,88])
grade

array([82, 77, 91, 88])

In [13]:
# 모든 원소의 합
s1 = numpy.sum(grade)
print('총점: %d' % s1)

총점: 338


In [14]:
# 모든 원소의 평균
s2 = numpy.average(grade)
print('평균: %d' % s2)

평균: 84


In [15]:
# 최대, 최소값
s3 = numpy.max(grade)
s4 = numpy.min(grade)
print('최대값: %d, 최소값 %d' % (s3,s4))

최대값: 91, 최소값 77


4) numpy 배열의 각 원소에 대한 연산

In [16]:
# 모든 원소에 대한 사칙연산 수행
# 모든 원소에 대하여 2씩 더함
new1 = grade + 2
new1 

array([84, 79, 93, 90])

In [17]:
# 모든 원소에 대한 사칙연산 수행
# 모든 원소에 대하여 5씩 뺌
new2 = grade -5
new2 

array([77, 72, 86, 83])

5) numpy 배열끼리의 연산

In [18]:
# 연산자를 사용한 배열간의 연산 -> 위치가 동일한 각 원소끼리 수행된다
arr1 = numpy.array([10,15,20,25,30])
arr2 = numpy.array([2,3,4,5,6])
a = arr1 + arr2
a

array([12, 18, 24, 30, 36])

In [19]:
b = numpy.add(arr1,arr2)
b

array([12, 18, 24, 30, 36])

In [20]:
c = numpy.subtract(arr1,arr2)
c

array([ 8, 12, 16, 20, 24])

In [21]:
d = numpy.multiply(arr1,arr2)
d

array([ 20,  45,  80, 125, 180])

In [22]:
f = numpy.divide(arr1,arr2)
f

array([5., 5., 5., 5., 5.])

6) numpy 배열의 기본 인덱싱, 슬라이싱

In [23]:
# 철수의 1학년~4학년 까지의 평균 점수
grade = numpy.array([82,77,91,88])
grade

array([82, 77, 91, 88])

In [24]:
# 인덱싱 / 슬라이싱 모두 동일
grade[2]

91

7) 조건에 맞는 값 추출하기 

In [25]:
# 추출하고자 하는 원본과 같은 사이즈의 배열을 생성한다
# 추출할 값은 True, 그렇지 않으면 False
bool_array = numpy.array([True,False,True,False])
bool_array

array([ True, False,  True, False])

In [26]:
# 조건에 맞는 항목만 1차 배열로 추출
result1 = grade[bool_array]
result1 

array([82, 91])

In [27]:
# 80점 이상인ㅇ지 판별된 조건에 맞는 데이터만 추려내기
result2 = grade[grade >= 80]
result2 

array([82, 91, 88])

In [28]:
# logical_and 함수를 사용하여 80점 이상 90점 이하 데이터만 추려내기
result3 = grade[numpy.logical_and(grade >=80, grade <= 90)]
result3 

array([82, 88])

## 03. 2차 배열

1) numpy 2차 배열 생성 및 기본 정보 조회

In [29]:
# 철수의 학년-과목별 점수
grade = numpy.array([
    [98,72,80,64],
    [88,90,80,72],
    [92,88,82,76]
])
grade

array([[98, 72, 80, 64],
       [88, 90, 80, 72],
       [92, 88, 82, 76]])

In [30]:
# 차원 크기
grade.ndim

2

In [31]:
# 각 차원의 원소수 
grade.shape

(3, 4)

In [32]:
# 각 원소의 타입
grade.dtype

dtype('int32')

2) 기본 인덱싱과 슬라이싱

In [33]:
# 정수형 인덱싱 1행 2열의 데이터 접근 방법
print(grade[1,2])
print(grade[1][2])

80
80


In [34]:
# 슬라이싱 1~3행 전까지, 1~4열 전까지의 범위를 추출 
grade[1:3,1:4] 

array([[90, 80, 72],
       [88, 82, 76]])

03) 기초 통계 산출

In [35]:
# 각 열끼리 더함(세로로 덧셈) 결과 타입은 numpy의 1차 배열
s1 = numpy.sum(grade,axis=0)
print(type(s1))
s1

<class 'numpy.ndarray'>


array([278, 250, 242, 212])

In [36]:
# 각 행끼리 더함(가로로 덧셈) 
s2 = numpy.sum(grade,axis=1)
print(type(s2))
s2

<class 'numpy.ndarray'>


array([314, 330, 338])

4) 조건에 맞는 값 추출하기

In [37]:
# bool형 인덱싱
# 추출하고자 하는 원본과 같은 사이즈의 배열, 추출할 값은 True, 그렇지 않으면 False 
bool_array = numpy.array([
    [True,False,True,False],
    [True,False,False,False],
    [True,True,True,True],
])

# 조건에 맞는 항목만 1차 배열로 추출
resutl1 = grade[bool_array]
resutl1

array([98, 80, 88, 92, 88, 82, 76])

In [38]:
# 80점 이상인지 판별하여 조건에 맞는 데이터만 추려냄/ 추출된 결과는 1차 배열
result2 = grade[grade >=80]
result2

array([98, 80, 88, 90, 80, 92, 88, 82])

In [39]:
# logical_and 함수를 사용하여 80점 이상이고 90점 이하인 데이터만 추려냄
result3 = grade[numpy.logical_and(grade >= 80,grade <= 90)]
result3

array([80, 88, 90, 80, 88, 82])

In [40]:
# logical_and 함수를 사용하여 80점 미만이거나 90점 초과인 데이터만 추려냄
result4 = grade[numpy.logical_and(grade < 80,grade > 90)]
result4

array([], dtype=int32)