### 다차원 배열 제공 - ndarray 클래스 
- 배열의 특징
    - 동일한 자료형을 가지는 값들이 배열 형태로 존재
    - N차원의 형태로 구성이 가능
    - 데이터 접근을 최적화 하기위해 색인(index)을 부여

### Numpy 데이터 타입(형태) 종류

![image.png](attachment:image.png)

### 배열 생성

#### 1차원 배열 생성

In [1]:
import numpy as np

In [2]:
arr = np.array([1,2,3,4,5]) # 리스트 자료를 이용하여 1차원 배열로 생성
arr # 배열

array([1, 2, 3, 4, 5])

#### 2차원 배열 생성

In [3]:
arr2 = np.array([[1,2,3],[4,5,6]])
arr2

array([[1, 2, 3],
       [4, 5, 6]])

#### 타입을 지정하여 배열 생성

In [4]:
arr_type = np.array([1.2,2.3,3.4], dtype = np.int64)
arr_type

array([1, 2, 3], dtype=int64)

#### 타입 변경하기

In [5]:
arr_ftype=arr_type.astype(np.float64)
arr_ftype

array([1., 2., 3.])

In [6]:
arr_ftype.dtype # 데이터 타입 확인하기

dtype('float64')

### 배열 변수 사용해보기
- 배열의 크기(모양) 확인 : shape
- 배열의 차원 : ndim
- 배열의 전체 요소의 개수 확인 : size
- 배열의  데이터 타입 확인 : dtype

In [7]:
#shape
print('배열의 크기 : ',arr.shape)
print('배열의 크기 : ',arr2.shape)

배열의 크기 :  (5,)
배열의 크기 :  (2, 3)


In [8]:
# ndim(number of dimension)
print('배열의 차원 : ',arr.ndim)
print('배열의 차원 : ',arr2.ndim)

배열의 차원 :  1
배열의 차원 :  2


In [9]:
#size
print(arr)
print('전체 요소의 개수 : ',arr.size)
print(arr2)
print('전체 요소의 개수 : ',arr2.size)

[1 2 3 4 5]
전체 요소의 개수 :  5
[[1 2 3]
 [4 5 6]]
전체 요소의 개수 :  6


In [10]:
# dtype
print(arr)
print('배열의 타입 : ',arr.dtype)
print(arr2)
print('배열의 타입 : ',arr2.dtype)

[1 2 3 4 5]
배열의 타입 :  int32
[[1 2 3]
 [4 5 6]]
배열의 타입 :  int32


In [11]:
# 1~50 숫자가 담긴 배열 만들기
# arange(시작, 끝, 증감값) ==> 1차원으로 만 생성
range1 = np.arange(1,51)
range1

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [12]:
# 1~50울 담은 배열을 2차원으로 변경(생성)
range2 = range1.reshape(5,10)
range2

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

### 랜덤값을 활용한 배열 생성

In [13]:
np.random.rand(1,3) # 3개의 숫자 생성

array([[0.18870534, 0.2433328 , 0.77608485]])

In [14]:
np.random.randint(1,10) # 1부터 9까지 숫자 하나

9

In [15]:
arr_ran1 = np.random.randint(2,20,size=(2,3)) # size 2행의 3열로
arr_ran1

array([[ 5, 13, 12],
       [10, 10, 15]])

### 배열의 연산
#### 배열 요소별 연산

In [16]:
arr3 = np.arange(2,10,2)
print(arr3)
print(arr3/2)

[2 4 6 8]
[1. 2. 3. 4.]


In [17]:
# list였을 때
[2, 4, 6, 8] + [2]

[2, 4, 6, 8, 2]

In [18]:
arr3+2

array([ 4,  6,  8, 10])

In [19]:
# 2~10 담은 1차원 배열 생성
arr_n = np.arange(2,10)
arr_n + 2 # 차원이 다른 연산이 가능하도록 하는 기능 ==> Broadcasting

array([ 4,  5,  6,  7,  8,  9, 10, 11])

#### 배열 간 연산

In [20]:
arr = np.array([1,2,3])

# 배열끼리 더하기
arr2 = arr + arr # 새로운 배열 (데이터) => 특성공학

In [21]:
display(arr)
display(arr2) # print 비슷한 기능, 데이터의 형식 그대로 출력

array([1, 2, 3])

array([2, 4, 6])

In [22]:
# 곱하기
arr2 *arr 

# 배열의 크기가 다를 경우에 연산을 실행하면 큰 쪽으로 배열의 모양을 맞춤
# 브로드캐스팅
# 나누기 => 결과 데이터 타입이 실수로 변형(int -> float)
arr2/arr

array([2., 2., 2.])

### 데이터 접근
- 인덱싱 & 슬라이싱

In [23]:
arr1 = np.arange(1,11)
arr1
# 리스트[인덱스번호]
# 배열[인덱스번호]

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [24]:
arr1[1]
arr1[-1]

10

In [25]:
# 1차원 슬라이싱
arr1[3:7] 

array([4, 5, 6, 7])

In [26]:
# 2차원 인덱싱
# reshape
arange_arr=np.arange(0,50).reshape(5,10)
arange_arr

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [27]:
#1번째 행에 접근
arange_arr[1][1] 
# 단계가 끊어져서 접근

# 넘파이 2차원 배열 인덱싱하는 방법
# (1,1)-> 더 빨리 접근 
# arr[행, 열] -> 더 지향하는 방법
arange_arr[1,1] 

11

In [28]:
# 2차원 배열 슬라이싱
# 배열[행, 열]
arange_arr[:3,:4]

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23]])

In [29]:
# 슬라이싱, 인덱싱 혼용
# 열의 자리에 여러개의 인덱스 번호 입력 -> [] 씌우기
# 인덱스 번호 0부터 슬라이싱 -> 생략 가능
arange_arr[:3,[0,1,2,3]]
arange_arr[:3,[0,3]] # 0번째, 3번째 열

array([[ 0,  3],
       [10, 13],
       [20, 23]])

![image.png](attachment:image.png)

In [30]:
array=np.arange(0,18).reshape(3,-1) #reshape(3,6)
array

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [31]:
array[1:,[1,3,5]]

# 리스트[시작인덱스:끝인덱스:증감값]
array[1:,1::2] # 데이터 확인하는 위치가 규칙적일 때 증감값 활용

array([[ 7,  9, 11],
       [13, 15, 17]])

- 사람의 키, 몸무게 데이터를 활용해서 bmi지수를 구해보자
- 넘파이 인덱싱, 슬라이싱/배열 연산

In [32]:
# 데이터를 구분하는 기호 설정 => delimiter
# 상대 경로 및 파일명
data = np.loadtxt('./data/height_weight.txt', delimiter=',')
data

array([[175.2, 180.3, 175. , 169.2, 185.2, 188. , 177.6, 178.2, 177. ,
        179. ],
       [ 65.6,  88. ,  79.2,  69.3,  55. ,  71.2,  73. ,  68.9,  74. ,
         82. ]])

In [33]:
# 데이터 크기 확인
# 데이터 타입
# 배열의 차원
print('배열 크기 : ',data.shape)
print('데이터 타입 : ',data.dtype)
print('배열의 차원 크기 : ',data.ndim)

배열 크기 :  (2, 10)
데이터 타입 :  float64
배열의 차원 크기 :  2


![image.png](attachment:image.png)![image-2.png](attachment:image-2.png)

In [34]:
# 1. height 키 데이터 1차원 배열로 담기 cm
# 2. weight 몸무게 데이터 1차원 배열로 담기 kg
height = data[0] #cm
weight = data[1] #kg
display(height)

# 3. 공식에 맞춰 데이터의 단위 확인하여 맞춰주기
height_m = height/100 # 요소 연산
height_m

array([175.2, 180.3, 175. , 169.2, 185.2, 188. , 177.6, 178.2, 177. ,
       179. ])

array([1.752, 1.803, 1.75 , 1.692, 1.852, 1.88 , 1.776, 1.782, 1.77 ,
       1.79 ])

In [35]:
# 4. bmi공식 대입해서 결과 배열 출력하기
# 분자/분모
# 몸무게/키 제곱 (키x키)
bmi_result = weight / (height_m**2)

In [36]:
# 1. 과체중 이상인 bmi 출력해보기 # 과체중 + 비만
display(bmi_result[bmi_result>=23])

# 2. 몇 명인지 확인해보기
bmi_result[bmi_result>=23].size

array([27.07018468, 25.86122449, 24.20652885, 23.14392095, 23.62028791,
       25.59220998])

6

In [37]:
# 1. 과체중인 bmi 출력해보기
display(bmi_result[(bmi_result>=23)&(bmi_result<25)])

# 2. 몇 명인지 확인해보기
bmi_result[(bmi_result>=23)&(bmi_result<25)].size

array([24.20652885, 23.14392095, 23.62028791])

3

#### 불리언 인덱싱

In [38]:
# 데이터의 위치를 명확하게 파악하기 어려울 때
# 특정 논리 값을 기준으로 True에 해당하는 데이터 접근하는 방법
# 예시 배열 
score = np.random.randint(50,100,size=8)
display(score)

# 80 이상인 성적 출력해보기
score >= 80 

array([90, 58, 87, 58, 62, 91, 56, 80])

array([ True, False,  True, False, False,  True, False,  True])

In [39]:
# 80 이상인 성적 출력해보기 
score[score >= 80 ]

array([90, 87, 91, 80])

In [147]:
# 예시 배열 2
name_score = np.array([[1,2,3,4,5],[80,95,96,75,65]])
display(name_score)
# 성적이 90 이상인 사람의 번호는?
display(name_score[1]>90)
name_score[0][name_score[1]>90]

array([[ 1,  2,  3,  4,  5],
       [80, 95, 96, 75, 65]])

array([False,  True,  True, False, False])

array([2, 3])

In [41]:
# 인덱싱 정리
# 2차원 배열 -> 행방향, 열방향
# 배열[행, 열]
# 배열[행:행,열], 배열[[행1,행4],열] 대괄호 열어서 명시해주기
# 배열[행,열:열], 배열[행,[열1, 열2]]

# 2. 불리언 인덱싱
# 위치 파악x, 많은 데이터에 대해 위치 파악이 어려울 경우
# 논리 연산자를 통해 True, False 출력 -> 실제 데이터에 덮는다! (마스킹)
# True에 해당하는 데이터만 접근하게 하는 인덱싱 기법

### Numpy 함수

In [42]:
#sum() : 총합 구하는 기능
arr = np.array([1,2,3])
arr.sum() # 넘파이데이터 타입에는 .sum() 적용 가능
print(np.sum(arr))

6


In [43]:
lst = [1,2,3]
np.sum(lst)
# lst.sum()
# 일반 파이썬 함수 .sum() -> sum(list)
sum(lst)

6

In [44]:
# mean() : 평균 구하는 기능
arr.mean()
np.mean(arr)

2.0

In [45]:
# sqrt() : 제곱근 구하는 기능 => 머신러닝, 딥러닝
np.sqrt(arr) 

array([1.        , 1.41421356, 1.73205081])

In [46]:
# abs() : 절댓값 구하는 기능
arr_abs = np.array([-1,2,-3,4,-5])
arr_abs
np.abs(arr_abs)

array([1, 2, 3, 4, 5])

![image.png](attachment:image.png)

![image.png](attachment:image.png)

### 영화 평점 데이터를 분석해보자
- 최종 목표 : 각 사용자 별 평점 평균 구해보자!

![image.png](attachment:image.png)

- 데이터 불러오기

In [47]:
# data 변수에 담기
# np.loadtxt() 사용하기
# 구분자, 데이터 타입 np.int64로 지정해서 불러오기
data=np.loadtxt('./data/ratings.dat', delimiter='::',dtype=np.int64)

In [48]:
# 크기 확인
# 데이터 타입
# 차원
display(data)
display(data.shape)
display(data.dtype)

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]], dtype=int64)

(1000209, 4)

dtype('int64')

- 전체 평점 평균 구하기

In [52]:
#1. 평점 열에 접근 #2. 평균함수 연결
rating_all_mean = np.mean(data[:,2])
rating_all_mean

3.581564453029317

In [50]:
# 사용자별 평점 평균
# 각 사용자별 아이디에 접근해서 평점의 평균 구하기

In [55]:
# data 안에 있는 모든 사용자 데이터
display(data[:,0])
# 1번 사용자 데이터 접근
data[:,0]==1

array([   1,    1,    1, ..., 6040, 6040, 6040], dtype=int64)

array([ True,  True,  True, ..., False, False, False])

In [62]:
data[data[:,0]==1] # 마스킹해서 id가 1인 데이터만 접근
data[data[:,0]==1].size

212

In [66]:
# 사용자 아이디가 1인 데이터의 평점의 평균 
# 아이디가 1인 데이터를 불리언인덱싱으로 행 값에 넣기
user1 = np.mean(data[data[:,0]==1,2])
user1

4.188679245283019

![image.png](attachment:image.png)

In [72]:
# 영화 아이디 10번의 평점 평균 구해보기
item10 = data[data[:,1]==10]
item10

array([[       13,        10,         3, 978201884],
       [       18,        10,         5, 978153344],
       [       19,        10,         5, 978147137],
       ...,
       [     6016,        10,         4, 956777700],
       [     6019,        10,         3, 956761104],
       [     6027,        10,         5, 956726620]], dtype=int64)

In [73]:
np.mean(item10[:,2])

3.5405405405405403

![image.png](attachment:image.png)

In [None]:
# 불리언 인덱싱은 행 인덱싱 느낌으로 활용 가능

### 중복 없이 사용자 아이디 확인하기 : unique()

In [79]:
user_id = np.unique(data[:,0]) # id 1~6040 중복 없이 
user_id.size

6040

In [81]:
user_id

array([   1,    2,    3, ..., 6038, 6039, 6040], dtype=int64)

![image.png](attachment:image.png)

In [105]:
# 1. 저장을 위한 빈 리스트
user_id_mean = []
# 2. 각 사용자 아이디를 반복시키기
for user in user_id:
    # 3. for 내부에서 평점의 평균을 구하기
    user_mean = data [data[:,0]==user,2].mean() #user과 아이디가 같은 데이터의 평균
    
    # 4. for 내부에서 [사용자 아이디, 평점 평균] 형태로 저장 -> append로 리스트에 추가
    user_id_mean.append([user,user_mean])
user_id_mean

[[1, 4.188679245283019],
 [2, 3.7131782945736433],
 [3, 3.9019607843137254],
 [4, 4.190476190476191],
 [5, 3.1464646464646466],
 [6, 3.9014084507042255],
 [7, 4.32258064516129],
 [8, 3.884892086330935],
 [9, 3.7358490566037736],
 [10, 4.114713216957606],
 [11, 3.2773722627737225],
 [12, 3.8260869565217392],
 [13, 3.388888888888889],
 [14, 3.32],
 [15, 3.3233830845771144],
 [16, 3.0285714285714285],
 [17, 4.075829383886256],
 [18, 3.6491803278688524],
 [19, 3.5725490196078433],
 [20, 4.083333333333333],
 [21, 2.909090909090909],
 [22, 3.0673400673400675],
 [23, 3.3157894736842106],
 [24, 3.948529411764706],
 [25, 3.7411764705882353],
 [26, 2.96],
 [27, 4.171428571428572],
 [28, 3.7570093457943927],
 [29, 3.5833333333333335],
 [30, 3.488372093023256],
 [31, 3.73109243697479],
 [32, 3.625],
 [33, 3.498721227621483],
 [34, 3.8658536585365852],
 [35, 3.54040404040404],
 [36, 4.199430199430199],
 [37, 3.69811320754717],
 [38, 3.58],
 [39, 3.564516129032258],
 [40, 3.4479166666666665],
 [41, 

In [111]:
# 각 사용자별 평점 평균이 4점 이상인 아이디 구하기
# 불리언 인덱싱을 하기 위해 리스트 자료를 배열로 변환이 필요
user_id_mean2 = np.array(user_id_mean, dtype=np.int64)
user_id_mean2

array([[   1,    4],
       [   2,    3],
       [   3,    3],
       ...,
       [6038,    3],
       [6039,    3],
       [6040,    3]], dtype=int64)

In [130]:
user_id_mean2[user_id_mean2[:,1]>=4]

array([[   1,    4],
       [   4,    4],
       [   7,    4],
       ...,
       [6027,    4],
       [6032,    4],
       [6034,    4]], dtype=int64)

In [145]:
display(user_id_mean2[user_id_mean2[:,1]>=4].shape) # 1544x2 형태 배열
user_id_mean2[user_id_mean2[:,1]>=4,0].size

#ex)
# 사용자 아이디가 1인 데이터의 평점의 평균 
# 아이디가 1인 데이터를 불리언인덱싱으로 행 값에 넣기
# user1 = np.mean(data[data[:,0]==1,2])

(1544, 2)

1544

In [139]:
user_id_mean2[user_id_mean2[:,1]>=4,0]

array([   1,    4,    7, ..., 6027, 6032, 6034], dtype=int64)

In [143]:
# csv 파일로 저장하기
np.savetxt('data/user_id_mean.csv',user_id_mean, delimiter = ',',fmt="%.3f")

In [None]:
# 넘파이 공식 사이트 : http:/numpy.org