# 데이터분석 비본 - numpy


다음 토픽을 다룹니다.:    
- Numpy 기초
- Built-in methods and functions 
- shape, length and type of Numpy arrays
- Reshape 
- Minimum and maximum 
- Mathematical Operations
- Indexing and slicing 
- Selection 



# NUMPY BASICS
- NumPy는 다차원 배열을 처리할 수 있는 선형대수학(Linear Algebra) 라이브러리입니다. 
- 다음이 실행이 안되면 아나콘다프롬프트에서 conda install numpy 를 실행하여 설치합니다.

In [3]:
[{'이름': '홍길동', '나이': 33, '연봉': 30000}, {'이름': '김나나', '나이': 23, '연봉': 60000}, {'이름': '해피', '나이': 40, '연봉': 70000}]
# 연봉순 정렬
# 순수 파이썬으로는 데이터 분석하기 힘들다.
# 일반적으로 실제 데이터는 행과 열로 되어 있음.

# 메모장, 엑셀을 예시로 설명 (테블러 데이터)
# 이름, 나이, 이메일, 연봉
# 홍길동, 20, happy@gmail.com, 40000


# 데이터 분석은 일반적으로 파일 또는 DB의 데이터를 불러와서 분석을 함.

[{'이름': '홍길동', '나이': 33, '연봉': 30000},
 {'이름': '김나나', '나이': 23, '연봉': 60000},
 {'이름': '해피', '나이': 40, '연봉': 70000}]

In [None]:
# key: value, key: value
[{}, {}, {}]

# 3차원 데이터 -> 이미지 : 행렬이 3차원으로 되어 있음. RGB 

# 컴퓨터는 계산을 하려면 모두 숫자로 변환, vector화한다.
# (3,4)      2차원
# (1,3,4)    3차원
# (3,4,5,6)  4차원
# (1,2,3,3,4,5 ...... 1024)  1024차원
# 유사도를 계산하려면, 숫자로 변환 해야함. 

![image.png](attachment:image.png)

In [4]:
(4,)

(4,)

In [6]:
(2,3)

(2, 3)

In [7]:
(2,3,4)

(2, 3, 4)

- numpy 설치

In [8]:
%pip install numpy

Note: you may need to restart the kernel to use updated packages.


In [9]:
import numpy as np
np.__version__

'2.0.1'

- numpy 객체 생성

In [19]:
# list -> numpy 객체
a = [1,2,3,4,5]
arr = np.array(a)
arr

array([1, 2, 3, 4, 5])

In [18]:
# 튜플 -> numpy 객체
b = (1,2,3,4,5)
arr = np.array(b)
arr

array([1, 2, 3, 4, 5])

In [15]:
arr

array([1, 2, 3, 4, 5])

In [16]:
# 넘파이 1차원 배열 <- Vector(벡터)라고 함.

In [20]:
a

[1, 2, 3, 4, 5]

In [21]:
len(a)

5

In [24]:
len(arr)

5

In [26]:
# numpy 객체에 size 속성이 있음
arr.size

5

In [29]:
# arr은 넘파이 객체
arr

array([1, 2, 3, 4, 5])

In [30]:
type(a)

list

In [31]:
type(arr)

numpy.ndarray

In [33]:
# 넘파이 객체의 요소 데이터 타입
arr.dtype

dtype('int64')

In [38]:
# 1 차원
arr.shape

(5,)

# 2차원 데이터 만들기


In [39]:
a2d = [[1,2,3], [4,5,6], [7,8,9]]
a2d

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [40]:
type(a2d)

list

In [41]:
arr2d = np.array(a2d)
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [42]:
arr2d.size

9

In [43]:
arr2d.dtype

dtype('int64')

In [44]:
type(arr2d)

numpy.ndarray

In [45]:
arr2d.shape

(3, 3)

In [36]:
arr2 = np.array([1, 2, 'aa'])
arr2

array(['1', '2', 'aa'], dtype='<U21')

### Save and Load data

In [46]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
# 파일로 저장하기
np.save('my_array', arr2d)

[확인하기] my_array.npy 파일이 폴더에 생겼는지 확인하세요.

In [50]:
# 파일로 저장된것 불로오기
arr2d = np.load('my_array.npy')
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

# BUILT-IN METHODS AND FUNCTIONS

In [51]:
np.zeros(4)

array([0., 0., 0., 0.])

In [57]:
np.zeros((2,3,4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [None]:
# 1차원
np.ones((7,))

array([1., 1., 1., 1., 1., 1., 1.])

In [None]:
# 2차원
np.ones((4,7))

array([[1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1.]])

### 특정 값으로, 행렬 만들기

In [61]:
# np.full(shape, 특정값)
np.full((7,), 5)

array([5, 5, 5, 5, 5, 5, 5])

In [62]:
np.full((7,2), 5)

array([[5, 5],
       [5, 5],
       [5, 5],
       [5, 5],
       [5, 5],
       [5, 5],
       [5, 5]])

In [64]:
np.full((4,2,3), 5)

array([[[5, 5, 5],
        [5, 5, 5]],

       [[5, 5, 5],
        [5, 5, 5]],

       [[5, 5, 5],
        [5, 5, 5]],

       [[5, 5, 5],
        [5, 5, 5]]])

### 정수의 배열을 얻고자 할때

In [68]:
# [0, 1, 2, 3, 4, 5, 6, 6, 7, 8, 9]
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [69]:
# numpy로 표현하기
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [73]:
np.arange(5, 30+1)

array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,
       22, 23, 24, 25, 26, 27, 28, 29, 30])

#### np.arange(start,stop,step)

In [75]:
# np.arange(start, stop, step)
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

### 정수 말고 실수를 얻고자 할때

In [80]:
# lin -> liner : 실수 값
# np.linspace(start, end, 갯수)
np.linspace(0, 20, 15)

array([ 0.        ,  1.42857143,  2.85714286,  4.28571429,  5.71428571,
        7.14285714,  8.57142857, 10.        , 11.42857143, 12.85714286,
       14.28571429, 15.71428571, 17.14285714, 18.57142857, 20.        ])

In [None]:
# 1차원 배열 = 벡터 (Vector)
# 2차원 배열 = 행렬 (Matrix)

### 이렇게 1차원 배열을 얻은 후, 우리는 이것을 가지고 여러차원으로 만들 수 있다.
### reshape 을 이용

![reshpe.png](attachment:reshpe.png)

In [81]:
# reshape
arr = np.arange(1,21+1)

In [86]:
arr2d = arr.reshape(3, 7)
arr2d

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 20, 21]])

In [87]:
arr2d.shape

(3, 7)

In [88]:
arr2d = arr.reshape(7, 3)
arr2d

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12],
       [13, 14, 15],
       [16, 17, 18],
       [19, 20, 21]])

In [90]:
arr2d.shape

(7, 3)

In [96]:
arr1d = arr2d.reshape(21)
arr1d

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21])

In [98]:
arr2d =arr1d.reshape(-1, 3)
arr2d

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12],
       [13, 14, 15],
       [16, 17, 18],
       [19, 20, 21]])

In [95]:
arr2d.max()

np.int64(21)

In [99]:
arr2d.min()

np.int64(1)

In [100]:
arr2d.sum()

np.int64(231)

In [101]:
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21])

In [102]:
arr.sum()

np.int64(231)

In [None]:
# 평균
arr.mean()

np.float64(11.0)

In [109]:
# 표준편차 :  평균으로부터 데이터가 얼마나 떨어져있는가?를 의미함.
print(arr.std())

6.0553007081949835


In [108]:
arr.var()

np.float64(36.666666666666664)

### 여러단계를 거치지 말고, 한번에 원하는 다차원 배열로 만들 수 있다.

In [110]:
# 5부터 19까지 
a = np.arange(5, 20)
a.size

15

In [111]:
a.reshape(3,5)

array([[ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [113]:
# 5~19까지의 정수로 (3,5) 행렬을 만들고 싶다.
# chain 형식으로 표현
np.arange(5, 20).reshape(3, 5)

array([[ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

### 랜덤값으로 채워진 배열을 만들 수 있다.

In [114]:
import random

In [115]:
random.random()

0.8659848145295426

In [117]:
# 파이썬의 기본 랜덤 라이브러리는 다차원 배열이 안됨

In [123]:
# 랜덤으로 5개의 숫자를 만들고싶음.
np.random.random(5)

array([0.54859361, 0.79049519, 0.34569744, 0.57868059, 0.29015141])

In [122]:
np.random.random((5,))

array([0.60866181, 0.61645142, 0.66160482, 0.5268156 , 0.04680093])

- 랜덤 seed

In [126]:
# 0~1사이의 실수로 난수 발생
np.random.random((3,5))

array([[0.41729469, 0.51028363, 0.74540125, 0.84550823, 0.65973943],
       [0.98869833, 0.25276928, 0.55008161, 0.93191697, 0.11378677],
       [0.58257265, 0.62616908, 0.5994077 , 0.54851441, 0.42742218]])

In [167]:
random.seed(4)
random.random()

0.23604808973743452

In [160]:
# random.seed(3)
# 랜덤으로 뽑는 숫자가 나오는 패턴을 일치시키는 방법
# 첫번째 실행에 나온숫자, 두번째 실행에 나온숫자, ... => 패턴
# 하나의 셀에만 적용

In [168]:
random.random()

0.1031660342307158

In [267]:
# numpy의 seed 고정 방법, 순서대로 실행하는게 중요함.
np.random.seed(3)

In [268]:
np.random.random((3,5))

array([[0.5507979 , 0.70814782, 0.29090474, 0.51082761, 0.89294695],
       [0.89629309, 0.12558531, 0.20724288, 0.0514672 , 0.44080984],
       [0.02987621, 0.45683322, 0.64914405, 0.27848728, 0.6762549 ]])

In [269]:
np.random.random((3,5))

array([[0.59086282, 0.02398188, 0.55885409, 0.25925245, 0.4151012 ],
       [0.28352508, 0.69313792, 0.44045372, 0.15686774, 0.54464902],
       [0.78031476, 0.30636353, 0.22195788, 0.38797126, 0.93638365]])

### np.random.randint(start, stop, size = shape)
### 시작값과 끝값을 줄 수 있다.

In [292]:
np.random.seed(9)

In [293]:
# np.rnadom.seed(9) 실행하고, 한번만 적용
np.random.randint(1, 45, (7,))

array([29, 23,  2, 23, 41, 28, 34], dtype=int32)

In [294]:
np.random.randint(1, 45, (3,4))

array([[30, 29,  1, 25],
       [11, 30, 43, 13],
       [19, 23,  2, 36]], dtype=int32)

In [339]:
# 1~9+1
X = np.random.randint(1, 100, (3,4))

In [291]:
# 데이터 전체에서 최대값, 최소값, 전체합, 전체평균, 표준편차, 중앙값을 구하세요

In [313]:
X.max()

np.int32(91)

In [314]:
X.min()

np.int32(3)

In [315]:
X.mean()

np.float64(43.916666666666664)

In [316]:
X.std()

np.float64(26.79383739262113)

In [317]:
X.var()

np.float64(717.9097222222222)

In [336]:
a = np.array([3,4,5,6,7,8,9,10])
sorted(a.tolist())

[3, 4, 5, 6, 7, 8, 9, 10]

In [337]:
type(a)

numpy.ndarray

In [338]:
# 중앙값 => 데이터를 오름차순으로 정렬한 후, 중간에 있는 값
# 넘파이 객체에는 median이 없음
# 중앙 값이 두개인 경우는 두 값의 평균을 구함.

np.median(a)

np.float64(6.5)

In [352]:
np.random.seed(3)
X = np.random.randint(1, 100, (4,5))
X

array([[25,  4, 57, 73,  1],
       [22, 20, 75, 42, 11],
       [22, 39, 97, 21, 45],
       [94, 40, 15, 27, 82]], dtype=int32)

- axis = 0 : 행 인덱스가 증가하는 방향
- axis = 1 : 열 인덱스가 증가하는 방향

In [364]:
# 각 열별 최대 값을 구하고 싶다.
# [94, 40, 97, 73, 82]
# 가장 큰 값을 구해야 하는 경우

X.max(axis=0)

array([94, 40, 97, 73, 82], dtype=int32)

In [366]:
# 각 행별 최대 값을 구하고 싶다.
# [73, 75, 97, 94]
# 가장 큰 값을 구해야 하는 경우

X.max(axis=1)

array([73, 75, 97, 94], dtype=int32)

In [358]:
X

array([[25,  4, 57, 73,  1],
       [22, 20, 75, 42, 11],
       [22, 39, 97, 21, 45],
       [94, 40, 15, 27, 82]], dtype=int32)

- 비교

In [363]:
# 원하는 데이터의 갯수를 구하는 방법
# X에서 70보다 큰 데이터는 몇개?
X>70

array([[False, False, False,  True, False],
       [False, False,  True, False, False],
       [False, False,  True, False, False],
       [ True, False, False, False,  True]])

In [370]:
(X>70).sum()

np.int64(5)

In [373]:
# X에서 70보다 큰 데이터들만 가져와

In [374]:
X[X > 70]

array([73, 75, 97, 94, 82], dtype=int32)

In [375]:
X[X > 70].size

5

# [실습]
- 4 x 4 ndarray 만드세요.
- 단,  2 에서 32 까지의 순차적 짝수로 채워지도록 하세요.

In [377]:
import numpy as np
X = np.arange(2,32+1, 2).reshape(4,4)

In [378]:
X

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

# SHAPE, LENGTH AND TYPE OF NUMPY ARRAYS

In [379]:
X

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

In [380]:
X.shape

(4, 4)

In [381]:
X.size

16

In [382]:
X.dtype

dtype('int64')

# MAX AND MIN VALUES AND THEIR INDEX

In [384]:
X.max()

np.int64(32)

In [385]:
X.min()

np.int64(2)

In [390]:
X

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

In [422]:
np.random.seed(3)
X = np.random.randint(1, 100, (4,5))
X

array([[25,  4, 57, 73,  1],
       [22, 20, 75, 42, 11],
       [22, 39, 97, 21, 45],
       [94, 40, 15, 27, 82]], dtype=int32)

In [423]:
# 전체 최대 값이 있는 곳의 위치는?
X.max(axis=0)

array([94, 40, 97, 73, 82], dtype=int32)

In [424]:
X.argmax()

np.int64(12)

In [425]:
X.argmin()

np.int64(4)

In [426]:
X

array([[25,  4, 57, 73,  1],
       [22, 20, 75, 42, 11],
       [22, 39, 97, 21, 45],
       [94, 40, 15, 27, 82]], dtype=int32)

In [427]:
# 행별 최대값의 위치? 행이 증가하는 방향
X.argmax(axis=0)

array([3, 3, 2, 0, 3])

In [428]:
# 열별 최대값의 위치? 열이 증가하는 방향
X.argmax(axis=1)

array([3, 2, 2, 0])

# Accessing Elements Into ndarrays

In [429]:
x = np.random.randint(1,100,7)
x

array([91, 23, 67,  3, 64, 61,  2], dtype=int32)

In [430]:
x[2]

np.int32(67)

In [431]:
x[-1]

np.int32(2)

### 다차원배열의 인덱스 접근

In [432]:
X

array([[25,  4, 57, 73,  1],
       [22, 20, 75, 42, 11],
       [22, 39, 97, 21, 45],
       [94, 40, 15, 27, 82]], dtype=int32)

In [433]:
# 2행 3열 위치 데이터를 가져오시오.
X[1][2]

np.int32(75)

In [None]:
# numpy에서는 다음과 같이 표현할 수 있음
X[1, 2]

np.int32(75)

In [435]:
X[3,4]

np.int32(82)

# Slicing - 잘라서 가져오기

### 1. ndarray[start:end]
### 2. ndarray[start:]
### 3. ndarray[:end]

In [436]:
X

array([[25,  4, 57, 73,  1],
       [22, 20, 75, 42, 11],
       [22, 39, 97, 21, 45],
       [94, 40, 15, 27, 82]], dtype=int32)

In [439]:
# 슬라이싱 데이터 : [25,  4, 57]
X[0, :3]

array([25,  4, 57], dtype=int32)

In [440]:
# [[22, 39, 97], 
#  [94, 40, 15]]

X[2: , :2+1]

array([[22, 39, 97],
       [94, 40, 15]], dtype=int32)

In [None]:
# 데이터 억세스 기호는 대괄호 [, ] => 콤마의 왼쪽은 행자리, 오른쪽은 열자리.
# 행자리도 : 을 사용,
# 열자리도 : 을 사용할 수 있음

In [441]:
X

array([[25,  4, 57, 73,  1],
       [22, 20, 75, 42, 11],
       [22, 39, 97, 21, 45],
       [94, 40, 15, 27, 82]], dtype=int32)

In [443]:
# 20, 75
# 39, 97
# 40, 15
# 값 가져오기
X[1:3+1, 1:2+1]

array([[20, 75],
       [39, 97],
       [40, 15]], dtype=int32)

In [444]:
X

array([[25,  4, 57, 73,  1],
       [22, 20, 75, 42, 11],
       [22, 39, 97, 21, 45],
       [94, 40, 15, 27, 82]], dtype=int32)

In [445]:
# 57, 73, 1
# 75, 42, 11

X[:1+1, 2:]

array([[57, 73,  1],
       [75, 42, 11]], dtype=int32)

# 실습
- X =  5 x 5 ndarray 를 만드세요.정수 1 부터 25 까지 순차적으로 들어있습니다. 
- Y = Boolean indexing 을 이용해서 홀수만 뽑아서 배열로 만듭니다.


In [450]:
X = np.arange(1, 26).reshape(-1,5)
X

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [454]:
Y = X[X % 2 == 1]
Y

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19, 21, 23, 25])

# Arithmetic operations and Broadcasting

### 1차원 배열 연산

In [456]:
x

array([91, 23, 67,  3, 64, 61,  2], dtype=int32)

In [457]:
#  학생들 수학점수가 있다.
score_list = [77, 46, 55, 99, 87, 81]
score_list

[77, 46, 55, 99, 87, 81]

In [463]:
# 각 학생의 점수를 7점씩 빼야 한다.
new_score_list =[]
for score in score_list:
    new_score_list.append(score - 7)
new_score_list

[70, 39, 48, 92, 80, 74]

In [464]:
# numpy 방법, 브로드캐스팅
np.array(score_list) - 7 

array([70, 39, 48, 92, 80, 74])

In [468]:
x

array([91, 23, 67,  3, 64, 61,  2], dtype=int32)

In [470]:
x-10

array([81, 13, 57, -7, 54, 51, -8], dtype=int32)

In [472]:
x // 2

array([45, 11, 33,  1, 32, 30,  1], dtype=int32)

### 2차원 배열 연산 

In [473]:
X

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [474]:
X*2

array([[ 2,  4,  6,  8, 10],
       [12, 14, 16, 18, 20],
       [22, 24, 26, 28, 30],
       [32, 34, 36, 38, 40],
       [42, 44, 46, 48, 50]])

In [475]:
X+10

array([[11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25],
       [26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35]])

In [476]:
X // 2

array([[ 0,  1,  1,  2,  2],
       [ 3,  3,  4,  4,  5],
       [ 5,  6,  6,  7,  7],
       [ 8,  8,  9,  9, 10],
       [10, 11, 11, 12, 12]])

### 각 요소마다 연산이 수행됨, 브로드캐스팅

In [80]:
# 학생들 점수가 있습니다. [56, 75, 88, 92, 66]
# 이 학생들의 점수가 잘못 되어서, -5점씩 한 점수로 바꿔야 합니다.