In [1]:
import numpy as np

# numpy 

## 1 넘파이 특징
- 고성능 과학 계산용 패키디, 강력한 N차원 배열 객체
- 파이썬 기본 자료형 리스트와 비슷하지만 더 빠르고 메모리를 효율적으로 관리
- 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리
- 데이터 과학 도구에 대한 생테게 핵심을 이루고 있음
- 유용한 선형대수학, 푸리에 변환 및 난수 가능
- 범용적 데이터 처리에 사용 가능한 다차원 컨테이너

## 2 배열 생성하기

### 시퀀스 데이터로부터 배열 생성하기 - array()

In [2]:
# 정수 리스트로 배열 생성
data1 = [0,1,2,3,4,5]
data1

[0, 1, 2, 3, 4, 5]

In [3]:
arr1 = np.array(data1)
arr1

array([0, 1, 2, 3, 4, 5])

In [4]:
arr1.dtype

dtype('int32')

In [5]:
# 정수와 실수가 혼합된 경우
data2 = [0.1,5,4,12,0.5]
arr2 = np.array(data2)
arr2

array([ 0.1,  5. ,  4. , 12. ,  0.5])

In [6]:
arr2.dtype # 정수와 실수가 혼합되어 있으면 모두 실수로 변환

dtype('float64')

In [7]:
# 숫자와 문자가 혼합된 경우
data3 = [0.1,5,4,12,'test']
arr3 = np.array(data3)
arr3

array(['0.1', '5', '4', '12', 'test'], dtype='<U32')

In [8]:
arr3.dtype # 혼합된 배열은 문자열로, <U32 : 길이가 32인 유니코드 문자열 

dtype('<U32')

In [9]:
# array()에 직접 리스트를 넣어서 배열 객체로 생성
arr4 = np.array([0.5,2,0.01,8])
arr4

array([0.5 , 2.  , 0.01, 8.  ])

In [10]:
# 다차원 배열
arr5 = np.array([[1,2,3],
                 [4,5,6],
                 [7,8,9]
                 ])
arr5

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### 범위를 지정해 배열 생성 - arange()

In [11]:
a1 = np.arange(0, 10, 2)
a1

array([0, 2, 4, 6, 8])

In [12]:
a2 = np.arange(1,10) # 1씩 증가는 생략 가능
a2

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [13]:
a3 = np.arange(5) # 시작인 0인 경우 생략 가능
a3

array([0, 1, 2, 3, 4])

In [14]:
a4 = np.arange(12).reshape(4,3) # 4행 3열
a4

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [15]:
a4.shape # 배열의 형태도 알려준다

(4, 3)

In [16]:
a1.shape # 1차원 배열은 (n,)로 표시

(5,)

### 범위를 지정해 배열 생성 - linspace()

In [17]:
# 범위의 시작과 끝을 지정하고 데이터 개수를 지정해 배열을 생성
a1 = np.linspace(1,10,10)
a1

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [18]:
a2 = np.linspace(1,10,4)
a2 # 간격은 3

array([ 1.,  4.,  7., 10.])

In [19]:
# 0부터 파이까지 동일한 간격으로 20개를 나눈 배열 생성
a3 = np.linspace(0,np.pi,20)
a3

array([0.        , 0.16534698, 0.33069396, 0.49604095, 0.66138793,
       0.82673491, 0.99208189, 1.15742887, 1.32277585, 1.48812284,
       1.65346982, 1.8188168 , 1.98416378, 2.14951076, 2.31485774,
       2.48020473, 2.64555171, 2.81089869, 2.97624567, 3.14159265])

### 특별한 형태의 배열 생성

In [20]:
# 모든 원소가 0이고 개수가 10개인 1차원 배열 생성
a1 = np.zeros(10)
a1

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [21]:
# 3*4의 2차원 배열 생성
a2 = np.zeros((3,4))
a2

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [22]:
# 모든 원소가 1인 개수가 5개인 1차원 배열 생성
a3 = np.ones(5)
a3

array([1., 1., 1., 1., 1.])

In [23]:
# 3행 5열 2차원 배열
a4 = np.ones((3,5))
a4

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [24]:
# 단위 행렬 n*n 정사각형 행렬에서 주 대각선이 모두 1이고 나머지는 0인 행렬
a5 = np.eye(3) # 3*3 단위 행렬
a5

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## 3 배열의 데이터 타입 변환

In [25]:
# 실수가 입력된 문자열을 원소로 갖는 배열을 실수 타입으로 변환
str_a1 = np.array(['1.567','0.123','5.123','9','8'])
num_a1 = str_a1.astype('float')
print(num_a1, num_a1.dtype)
print(str_a1, str_a1.dtype)

[1.567 0.123 5.123 9.    8.   ] float64
['1.567' '0.123' '5.123' '9' '8'] <U5


In [26]:
# 문자열을 원소로 갖는 배열을 정수로 변환
str_a2 = np.array(['1','3','5','7','9'])
num_a2 = str_a2.astype('int')
print(num_a2, num_a2.dtype)
print(str_a2, str_a2.dtype)

[1 3 5 7 9] int32
['1' '3' '5' '7' '9'] <U1


In [27]:
# 실수를 원소로 갖는 배열을 정수로 변환
num_f1 = np.array([10,21,0.264,4.789,5.98])
num_i1 = num_f1.astype('int')
print(num_i1)
print(num_f1.dtype)
print(num_i1.dtype)

[10 21  0  4  5]
float64
int32


## 4 난수 배열의 생성

In [28]:
a1 =np.random.rand(2,3)
a1

array([[0.36488948, 0.61095697, 0.17648321],
       [0.70610102, 0.63801595, 0.37249441]])

In [29]:
a2 = np.random.rand()
a2

0.5877880132170956

In [30]:
a3 = np.random.rand(2,3,4)
a3

array([[[0.74514261, 0.87530814, 0.71789309, 0.11388429],
        [0.77107676, 0.38874212, 0.62351559, 0.31269871],
        [0.17029452, 0.17943614, 0.28589538, 0.03280464]],

       [[0.1590677 , 0.88619248, 0.95673633, 0.39448508],
        [0.71403886, 0.88382408, 0.0487627 , 0.64923051],
        [0.80487594, 0.62990397, 0.5348766 , 0.28486244]]])

In [31]:
a4 = np.random.randint(10,size=(3,4)) # 배열 크기가 3행4열
a4

array([[6, 3, 5, 6],
       [2, 4, 6, 3],
       [7, 0, 2, 7]])

In [32]:
a5 = np.random.randint(1,30)
a5

2

In [33]:
a6 = np.random.randint(1,30,3)
a6

array([19, 21, 23])

## 5 배열의 연산

### 기본 연산
- 배열의 형태 shape가 같다면 덧셈, 뺼셈, 곱셈, 나눗셈 연산을 할 수 있다.

In [34]:
arr1 = np.array([10,20,30,40])
arr2 = np.array([1,2,3,4])
print(arr1+arr2) # 배열의 같은 위치끼리 더하기

[11 22 33 44]


In [35]:
print(arr1-arr2) # 배열의 같은 위치끼리 빼기

[ 9 18 27 36]


In [36]:
print(arr1*2) # 각 원소에 상수를 각각 곱한다.

[20 40 60 80]


In [37]:
print(arr1**2) # 각 원소에 상수를 각각 거듭제곱.

[ 100  400  900 1600]


In [38]:
list1 = [10,20,30,40]
print(list1*2)

[10, 20, 30, 40, 10, 20, 30, 40]


In [39]:
print(arr1*arr2) # 배열의 같은 위치끼리 곱하기

[ 10  40  90 160]


In [40]:
print(arr1/arr2) # 배열의 같은 위치끼리 나누기

[10. 10. 10. 10.]


In [41]:
print(arr1/(arr2**2)) # 복합 연산도 가능함

[10.          5.          3.33333333  2.5       ]


In [42]:
print(arr1 >20) # 비교 연산 가능(원소별로 검사)

[False False  True  True]


## 6 통계를 위한 연산

In [43]:
arr = np.arange(5)
arr

array([0, 1, 2, 3, 4])

In [44]:
print(arr.sum()) # 합계
print(arr.mean()) # 평균
print(arr.std()) # 표준편차
print(arr.var()) # 분산
print(arr.min()) # 최소값
print(arr.max()) # 최대값

10
2.0
1.4142135623730951
2.0
0
4


In [45]:
arr2 = np.arange(1,5)
arr2

array([1, 2, 3, 4])

In [46]:
# 누적 합
print(arr2.cumsum())

[ 1  3  6 10]


In [47]:
# 누적 곱
print(arr2.cumprod())

[ 1  2  6 24]


## 7 배열의 인덱싱

In [48]:
a1 = np.array([0,10,20,30,40,50])
print(a1)

[ 0 10 20 30 40 50]


In [49]:
print(a1[0]) # 0부터 시작한다
print(a1[4])

0
40


In [50]:
# 음수 인덱스도 가능
print(a1[-1])
print(a1[-2])

50
40


In [51]:
# 배열의 값을 변경
a1[1] = 70
a1

array([ 0, 70, 20, 30, 40, 50])

In [52]:
# 배열명[위치1,위치2,...,위치n]
print(a1[[1,3,4]]) # 인덱스 번호 1,3,4번의 값을 추출

[70 30 40]


In [53]:
# 2차원 배열
# 배열명[행 위치, 열 위치]
a2 = np.arange(10,100,10).reshape(3,3)
print(a2)

[[10 20 30]
 [40 50 60]
 [70 80 90]]


In [54]:
print(a2[0,2]) # 행이 0, 열이 2

30


In [55]:
print(a2[0][2])

30


In [56]:
# 2차원 배열 값 변경
a2[2,2] = 95
a2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 95]])

In [57]:
print(a2[1]) # 행 전체를 가지고 온다(1번행)

[40 50 60]


In [58]:
a2[1] = np.array([45,55,65])
a2

array([[10, 20, 30],
       [45, 55, 65],
       [70, 80, 95]])

In [59]:
a2[1] = [100,200,300]
a2

array([[ 10,  20,  30],
       [100, 200, 300],
       [ 70,  80,  95]])

In [60]:
# 2차원 배열
# 배열명 [[행_위치1,행_위치2,행_위치3,...,행_위치n],[열_위치1,열_위치2_열_위치3,...,열_위치n]]
print(a2[[0,2],[0,1]])

[10 80]


In [61]:
# 배열명[조건]
a3 = np.array([1,2,3,4,5,6])
a4 = np.array([5,2,6,4,8,9])
print(a3>3)
print(a3[a3>3]) # 해당 값을 보여준다.

[False False False  True  True  True]
[4 5 6]


In [62]:
# 짝수만 선택
print((a4%2)==0)
print((a4[a4%2==0]))

[False  True  True  True  True False]
[2 6 4 8]


## 8 배열의 슬라이싱

In [63]:
b1 = np.array([0,10,20,30,40,50])
print(b1[1:4])

[10 20 30]


In [64]:
print(b1[:3]) # 시작위치를 생략가능(0번부터 시작)

[ 0 10 20]


In [65]:
print(b1[2:]) # 끝 위치를 생략 가능(끝까지)

[20 30 40 50]


In [66]:
# 슬라이싱을 이용해 원소를 변경할 수 있다.
b1[2:5] = np.array([100,200,300]) # 2,3,4번 값 수정
b1

array([  0,  10, 100, 200, 300,  50])

In [67]:
# 같은 값으로 변경할 수 있다.
b1[3:6] = 10000
b1

array([    0,    10,   100, 10000, 10000, 10000])

In [68]:
# 2차원 배열
# 배열[행_시작위치:행_끝위치-1,열_시작위치:열_끝위치-1]
b2 = np.arange(10,100,10).reshape(3,3)
b2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [69]:
print(b2[1:3,1:3]) # 행1,2번, 열1,2번

[[50 60]
 [80 90]]


In [70]:
print(b2[:3,1:])

[[20 30]
 [50 60]
 [80 90]]


In [71]:
print(b2[1][0:2]) # 행을 지정하고 열을 슬라이싱

[40 50]


In [72]:
b2[0:2,1:3] = np.array([[25,35],[55,65]])
b2

array([[10, 25, 35],
       [40, 55, 65],
       [70, 80, 90]])

## numpy 과제

In [73]:
## 1)

# 넘파이 배열을 사용하여 1부터 20까지의 연속된 정수값을 가지는 1차원 배열을 생성하고 화면실행결과와 같이 출력해보자.
# [화면실행결과]
# 마지막 원소 : 20
# 모든 원소의 합 : 210
# 모든 원소의 평균 : 10.5
# [[ 1  2  3  4  5]
#  [ 6  7  8  9 10]
#  [11 12 13 14 15]
#  [16 17 18 19 20]]

In [74]:
arr1 = np.arange(1,21)
print(f'마지막 원소 : {arr1[-1]}')
print(f'모든 원소의 합 : {sum(arr1)}')
print(f'모든 원소의 평균 : {arr1.mean()}')
print(arr1.reshape(4,-1))

마지막 원소 : 20
모든 원소의 합 : 210
모든 원소의 평균 : 10.5
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]


In [75]:
## 2)

# 학생들의 근로 장학금이 넘파이 배열에 저장되어 있다.
# 이번 학기 학생들의 근로장학금을 1.5배 올려주려고 한다.
# 다음은 인상된 근로장학금을 출력하고 근로장학금이 평균 근로장학금보다 많은 학생들의 근로장학금을 출력하고
# 원소의 수를 출력하는 프로그램이다.
# 화면실행결과와 같이 출력해보자.
# salary = [200, 150, 180, 220, 250]
# [화면실행결과]
# 인상된 금액 : [300. 225. 270. 330. 375.] # 1.5배 인상된 배열 구하기
# 평균 금액 : 300.0  # 평균 금액 구하기
# 평균이상인 원소 : [300. 330. 375.] # 평균이상인 원소
# 평균이상인 원소의 개수 : 3 # 평균이상인 원소의 개수


In [76]:
salary = [200, 150, 180, 220, 250]
arr2 = np.array(salary)
arr2_up = arr2*1.5
print(f'인상된 금액 : {arr2_up}')
print(f'평균 금액: {arr2_up.mean()}')
print(f'평균이상인 원소 : {arr2_up[(arr2_up.mean())<=arr2_up]}')
print(f'평균이상인 원소의 개수 : {len(arr2_up[(arr2_up.mean())<=arr2_up])}')

인상된 금액 : [300. 225. 270. 330. 375.]
평균 금액: 300.0
평균이상인 원소 : [300. 330. 375.]
평균이상인 원소의 개수 : 3
