### 다차원 배열 제공 - ndarray 클래스
- 배열의 특징
    - 동일한 자료형을 가지는 값들이 배열 형태로 존재
    - N차원의 형태로 구성이 가능
    - 데이터 접근을 최적화 하기 위해 색인(index)을 부여

### Numpy 데이터 타입(형태) 종류
![image.png](attachment:image.png)

### 배열 생성

#### 1차원 배열 생성

In [85]:
import numpy as np

In [86]:
arr = np.array([1,2,3,4,5]) # 리스트자료를 이용해서 1차원 배열로 생성
arr

array([1, 2, 3, 4, 5])

#### 2차원 배열 생성

In [87]:
arr2 = np.array([[1, 2, 3],[4, 5, 6]])
arr2

array([[1, 2, 3],
       [4, 5, 6]])

#### 타입을 지정하여 배열 생성

In [88]:
arr_type = np.array([1.2,2.3,3.4], dtype = np.int64)
arr_type

array([1, 2, 3], dtype=int64)

#### 타입 변경하기

In [89]:
arr_ftype = arr_type.astype(np.float64)
arr_ftype

array([1., 2., 3.])

In [90]:
arr_ftype.dtype

dtype('float64')

### 배열 변수 사용해보기
- 배열의 크기 확인 : shape
- 배열의 차원 확인 : ndim
- 배열 전체 요소의 개수 확인 : size
- 배열 데이터 타입 확인 ; dtype

In [91]:
# shape
print('배열의 크기 : ', arr.shape)
print('배열의 크기 : ', arr2.shape)

배열의 크기 :  (5,)
배열의 크기 :  (2, 3)


In [92]:
# ndim(number of dimension)
print('배열의 차원 : ', arr.ndim)
print('배열의 차원 : ', arr2.ndim)

배열의 차원 :  1
배열의 차원 :  2


In [93]:
# size
print(arr)
print('전체 요소의 갯수 : ', arr.size)
print(arr2)
print('전체 요소의 갯수 : ', arr2.size)

[1 2 3 4 5]
전체 요소의 갯수 :  5
[[1 2 3]
 [4 5 6]]
전체 요소의 갯수 :  6


In [94]:
# dtype
print(arr)
print('배열의 타입 : ', arr.dtype)
print(arr2)
print('배열의 타입 : ', arr2.dtype)

[1 2 3 4 5]
배열의 타입 :  int32
[[1 2 3]
 [4 5 6]]
배열의 타입 :  int32


In [95]:
# 1 ~ 50 숫자가 담긴 배열 만들기
# arange(시작, 끝, 증감값) --> 1차원으로만 생성
arr3 = np.arange(1,51)
arr3

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [96]:
# 1 ~ 50을 담은 배열을 2차원으로 변경(생성)
range1 = arr3.reshape(5, 10)
range1

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

### 랜덤값을 활용한 배열 생성

In [97]:
np.random.rand(1, 3)

array([[0.15898916, 0.6582596 , 0.8169055 ]])

In [98]:
np.random.randint(1, 10)

4

In [99]:
arr_ran1 = np.random.randint(2, 20, size = (2, 3))
arr_ran1

array([[17, 10, 16],
       [19,  4,  7]])

### 배열의 연산

#### 배열 요소별 연산

In [115]:
arr3 = np.arange(2, 10, 2)
print(arr3)
print(arr3 / 2)

[2 4 6 8]
[1. 2. 3. 4.]


In [101]:
# list였을 때
[2, 4, 6, 8] + [2]

[2, 4, 6, 8, 2]

In [102]:
arr3 + 2

array([ 4,  6,  8, 10])

In [103]:
# 2 ~ 10 담은 1차원 배열 생성
arr_n = np.arange(2, 10)
arr_n + 2 # 차원이 다른 연산이 가능하도록 하는 기능 --> Broadcasting

array([ 4,  5,  6,  7,  8,  9, 10, 11])

#### 배열 간 연산

In [104]:
arr = np.array([1, 2, 3])

# 배열 끼리 더하기
arr2 = arr + arr # 새로운 배열 (데이터) -> 특성공학

In [105]:
display(arr)
display(arr2)

array([1, 2, 3])

array([2, 4, 6])

In [106]:
# 곱하기
arr2 * arr
# 배열의 크기가 다를 경우에 연산을 실행하면 큰쪽으로 배열의 모양을 맞춤
# 브로드캐스팅

# 나누기
arr2 / arr


array([2., 2., 2.])

### 데이터 접근
- 인덱싱 & 슬라이싱

In [107]:
arr1 = np.arange(1, 11)
arr1
# 배열[인덱스번호]
arr1[1]
arr1[-1]

10

In [108]:
# 1차원 슬라이싱
arr1[3:7]

array([4, 5, 6, 7])

In [109]:
# 2차원 인덱싱
arange_arr = np.arange(0,50).reshape(5,10)
# 1번째 행에 접근
arange_arr[1][1]
# numpy에서 2차원배열 인덱싱하는 방법
# 배열[행, 열]
arange_arr[1,1]

11

In [110]:
# 2차원 배열 슬라이싱
# 배열[행, 열]
arange_arr[:3,:4]

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23]])

In [111]:
# 슬라이싱, 인덱싱 혼용
# 열의 자리에 여러개의 인덱스 번호 입력 >> [] 씌우기
arange_arr[:3,[0,1,2,3]]

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23]])

In [112]:
ex_arr = np.arange(0,18).reshape(3, 6) # reshape(3, -1) < 열의 갯수는 알아서 조절
ex_arr[1:,[1,3,5]]

array([[ 7,  9, 11],
       [13, 15, 17]])

In [113]:
ex_arr[1:,1::2]

array([[ 7,  9, 11],
       [13, 15, 17]])

- 사람의 키,몸무게 데이터를 활용해서 bmi지수를 구해보자 !
- numpy 인덱싱, 슬라이싱/배열 연산

![image.png](attachment:image.png)

In [158]:
# 데이터를 구분하는 기호 설정 -> delimiter
data = np.loadtxt('./data/height_weight.txt', delimiter = ',')
data

array([[175.2, 180.3, 175. , 169.2, 185.2, 188. , 177.6, 178.2, 177. ,
        179. ],
       [ 65.6,  88. ,  79.2,  69.3,  55. ,  71.2,  73. ,  68.9,  74. ,
         82. ]])

In [159]:
# 데이터 크기 확인
print('데이터의 크기 :',data.shape)
# 데이터 타입
print('데이터의 타입 :', data.dtype)
# 배열의 차원
print('배열의 차원 :', data.ndim)

데이터의 크기 : (2, 10)
데이터의 타입 : float64
배열의 차원 : 2


In [160]:
# 1. height 키 데이터 1차원 배열로 담기(cm)
height = data[0]
# 2. weigth 몸무게 데이터 1차원 배열로 담기(kg)
weigth = data[1]
# 3. 공식 맞춰 데이터의 단위 확인하여 변경하기
div_height = height / 100
# 4. bmi공식 대입해서 결과 배열 출력하기
bmi = weigth / (div_height ** 2)
bmi

array([21.37153104, 27.07018468, 25.86122449, 24.20652885, 16.03543423,
       20.14486193, 23.14392095, 21.69720651, 23.62028791, 25.59220998])

### 불리언 인덱싱

In [167]:
# 데이터의 위치를 명확하게 파악하기 어려울 때
# 특정 논리 값을 기준으로 True에 해당하는 데이터 접근하는 방법

# 예시 배열
score = np.random.randint(50, 100, size = 8)
display(score)

array([93, 86, 85, 61, 76, 73, 61, 64])

In [169]:
# 80이상인 성적 출력해보기
score[score >= 80]

array([93, 86, 85])

In [181]:
# 예시 배열2
name_score = np.array([[1,2,3,4,5],[80,95,96,75,65]])
display(name_score)
display(name_score[1] >= 90)
# 90이상인 사람의 번호는 ?
name_score[0][name_score[1] >= 90]

array([[ 1,  2,  3,  4,  5],
       [80, 95, 96, 75, 65]])

array([False,  True,  True, False, False])

array([2, 3])

In [202]:
# 1. 과체중 + 비만인 bmi 출력해보기
over = bmi[bmi >= 23]
display(over)
# 2. 몇 명인지 확인해보기
display(over.size)
# 과제충 bmi 접근
over1 = bmi[(bmi >= 23) & (bmi < 25)]
display(over1)
# 몇 명인지 확인해보기
display(over1.size)

array([27.07018468, 25.86122449, 24.20652885, 23.14392095, 23.62028791,
       25.59220998])

6

array([24.20652885, 23.14392095, 23.62028791])

3

In [None]:
# 인덱싱 정리
# 1. 2차원 배열 -> 행방향, 열방향
# 배열[행, 열]
# 배열[행:행, 열] , 배열[[행1,행4], 열]
# 배열[행, 열:열] , 배열[행, [열1,열4]]
# 2. 불리언 인덱싱
# 위치 파악X, 많은 데이터에 대해 위치 파악이 어려울 경우
# 논리 연산자를 통해 True, False 출력 -> 실제 데이터에 덮는다(마스킹)
# True에 해당하는 데이터만 접근하게 하는 인덱싱 기법

### Numpy 함수

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [206]:
lst = [1,2,3] # 일반 리스트
np.sum(lst)
#lst.sum()
# 일반 파이썬 함수 sum() -> sum(lst)

6

In [205]:
# sum() : 총합 구하는 기능
print(arr.sum()) # numpy 데이터타입에는 .sum() 적용가능
print(np.sum(arr))

6
6


In [209]:
# mean() : 평균 구하는 기능
arr.mean()
np.mean(arr)

2.0

In [211]:
# sqrt() : 제곱근 구하는 기능 -> 머신러닝, 딥러닝
np.sqrt(arr)

array([1.        , 1.41421356, 1.73205081])

In [213]:
# abs() : 절댓값 구하는 기능
arr_abs = np.array([-1,2,-3,4,-5])
arr_abs
np.abs(arr_abs)

array([1, 2, 3, 4, 5])

### 영화 평점 데이터를 분석해보자
- 최종 목표 : 각 사용자별 평점 평균 구해보자 !

- 데이터 불러오기

In [None]:
# data 변수에 담기
# np.loadtxt() 사용하기
# 구분자, 데이터타입 np.int64로 지정해서 불러오기

In [220]:
movie_data = np.loadtxt('./data/ratings.dat', delimiter = '::', dtype = np.int64)
movie_data

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]], dtype=int64)

In [222]:
# 데이터 크기 확인
print('데이터의 크기 :',movie_data.shape)
# 데이터 타입
print('데이터의 타입 :', movie_data.dtype)

데이터의 크기 : (1000209, 4)
데이터의 타입 : int64


- 전체 평점 평균 구하기

In [240]:
np.mean(movie_data[:,2])

3.581564453029317