## 특징

+ 벡터 및 행렬 연산과 관련된 편리한 기능을 제공(선형대수 관련)
+ 리스트에 비해 빠르고 메모리를 효율적으로 사용(배열)
+ 반복문 없이 데이터 배열에 대한 처리를 지원(인덱싱, 질의
+ http://www.numpy.org
+ 기본데이터타입: ndarray

In [None]:
import numpy as np

### 1차원 배열

In [None]:
a1 = [1, 2, 3, 4, 5, 10 , 20, "가", "나"]
print(a1)
type(a1)

In [None]:
a2 = np.array([1, 2, 3, 4, 5, 10 , 20, "가", "나"]) # 전부 str 처리
print(a2)
print(type(a2))
print(a2.shape) # 배열의 크기
print(a2.dtype)

In [None]:
a3 = np.array([1, 2, 3, 4, 5, 10 , 20, "30", "40"], float) # type 인자를 통해 type수정가능
print(a3)
print(a3.dtype)

In [None]:
a4 = np.dtype('>i4') 
print(a4.name)

In [None]:
# 백터화 연산
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
print(data * 2) # list는 집합연산 

In [None]:
data2= np.array(data)
print(data2 * 2) # 직접 반복하여 모든 데이터에 연산
print(data2 + 2)
print(data2 - 2)

In [None]:
# 인덱스접근
print(data2[0], data2[1])

### 2차원배열

In [None]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr)
print(arr.shape)

# 접근
print(arr[0]) # 행렬접근
print(arr[0][0]) # 행렬접근 -> 데이터 접근
print(len(arr)) # 행의 길이
print(len(arr[0])) # 행렬 n번째행의 데이터 길이

### 3차원배열

In [None]:
arr = np.array([[[1, 2, 3, 4], [5, 6, 7, 8]], 
               [[9, 10, 11, 12], [13, 14, 15, 16]]]) 
print(arr)
print('------------')

print(arr[0])
print('------------')

print(arr[0][0])
print('------------')

print(arr[0][0][3])
print('------------')

print(arr.shape)
print(arr.ndim)
print(len(arr), len(arr[0]), len(arr[0][0]))

In [None]:
arr = np.array([[[1]]])
print(arr)
print(arr.dtype)
print(arr.shape)
print(arr.ndim)
print(len(arr))

### 배열의 인덱싱
+ 배열에 저장되어 있는 데이터를 접근하는 방법

In [None]:
arr = np.array([0, 1, 2, 3, 4])
print(arr[2], arr[4], arr[-1], arr[-3])

In [None]:
arr2 = np.array([[0, 1, 2], 
                 [3, 4, 5]])

print(arr2[0][2], arr2[0, 2], arr2[-1, -1])

In [None]:
# fancy indexing

arr3 = np.array([i for i in range(10)])
arr3
idx = np.array([True, False, True, False, True, 
                False, True, False, True, False])
print(arr3[idx])
print(arr3%2)

print(arr3 % 2 == 0)
print(arr3[arr3 % 2 == 0]) # boolean 행렬이 없어도 2의 배수


# arr3에서 3의 배수를 찾아라
print(arr3[arr3 % 3 == 0])

# arr3에서 4로 나누면 1이 남는 수를 찾아라
print(arr3[arr3 % 4 == 1])

# arr3에서 3으로 나누면 나눠지고 , 4로 나누면 1이 남는 수를 찾아라
print(arr3[(arr3 % 3 == 0) & (arr3 % 4 == 1)])


### 배열의 슬라이싱

In [None]:
arr = np.array([[0, 1, 2, 3], 
                [4, 5, 6, 7], 
                [8, 9, 10, 11]])

print(arr[0, 0:3])
print("==========")
print(arr[1:3, 0:2])
print("==========")
print(arr[0, :])
print("==========")

# [[0,1]], [4,5]] 출력
print(arr[0:2, 0:2])
print(arr[:2, :2])
print("==========")
print(arr[[2, 1, 0], :]) # 행의 위치를 바꿔 출력
print("==========")
print(arr[ :, [1,2]])


### numpy 자료형

+ b : 불리언(논리값)
+ i : 정수(i8)
+ u : 부호없는 정수
+ f : 실수(부동소수점)
+ c : 복소수
+ O : 객체
+ S : 바이트 문자열(S24)
+ U : 유니코드 문자열

In [None]:
arr = np.array([1, 2, 3], dtype="f") # 실수형
print(arr)
print(arr.dtype)
print(arr[0] + arr[1])

In [None]:
arr = np.array([1, 2, 3], dtype="S") # 한글자를 1바이트
print(arr)
print(arr.dtype)
print(arr[0] + arr[2])
print("==============")
arr = np.array([1, 2, 3], dtype="U") # 한글자를 2바이트
print(arr)
print(arr.dtype)
print(arr[0] + arr[1])

In [None]:
dt= np.dtype([('name', np.unicode_, 5),("grades", np.float64, (2,))])

print(dt["name"])
print(dt["grades"])

print("---------------------------")

arr = np.array(["홍길동", "임꺽정", "신돌석", "김수한무 거북이와두루미"], dtype = dt["name"])
print(arr)
print(arr.dtype)

print("---------------------------")

arr = np.array([("홍길동", (5.0, 7.0)), ("임꺽정", (8.0, 9.0))], dtype=dt)
print(arr)

### 배열 생성

In [None]:
arr = np.zeros(5)
print(arr)
print(arr.dtype)
print(type(arr))

print("-------------")

arr = np.zeros(5, dtype="i")
print(arr)
print(arr.dtype)
print(type(arr))

print("-------------")

arr = np.zeros(5, dtype="U4")
print(arr)
print(arr.dtype)
print(type(arr))
arr[0]="abc"
arr[1]="abcd"
arr[2]="abcde"
print(arr)

print("-------------")

arr = np.zeros((2,3))
print(arr)

In [None]:
arr = np.ones((2, 3, 4))
print(arr)

print("-------------")

arr1 = np.zeros((2,3))
arr2 = np.ones_like(arr1)
print(arr2)       # 0행렬을 단위행렬로 바뀜(리턴값은 배열)

print("-------------")

arr = np.empty((4,3)) # 메모리값 리턴(성능 향상, 0 이나 1 아닌 다른값으로 초기화 하기 위해 사용)
print(arr)

arr = np.arange(10) # range 와 다른점 : type= array, range 의 type = list
print(arr)

print("-------------")

arr = np.linspace(0, 100, 5) # 간격을 정해줌, 그래프 작성시 많이 사용
print(arr) 

### 전치 연산(Transpose)

In [None]:
arr_1 = np.array([[1, 2, 3], [4, 5, 6]])
print(arr_1)
print(arr_1.T) # 행->렬

### 배열의 크기 변형 : reshape(), flatten(), ravel() 

+ flatten() , ravel() -> 다차원의 array를 1차원으로 변환

In [None]:
arr = np.arange(12)
print(arr)
print(arr.shape)

In [None]:
arr1 = arr.reshape(3, 4)
print(arr1)
print(arr1.shape)

print("---------------------")

arr1 = arr.reshape(3, -1)  # -1 -> 자동으로 열의 갯수를 출력해줌
print(arr1)
print(arr1.shape)


print("---------------------")

arr1 = arr.reshape(-1, 4) 
print(arr1)
print(arr1.shape)

In [None]:
arr2 = arr.reshape(2, 2, 3)
print(arr2)
print(arr2.shape)

print("-------------------")

arr2 = arr.reshape(2, 2, -1)
print(arr2)
print(arr2.shape)

print("-------------------")

arr2 = arr.reshape(2, -1, 3)
print(arr2)
print(arr2.shape)

print("-------------------")

arr2 = arr.reshape(-1, 2, 3)
print(arr2)
print(arr2.shape)

In [None]:
print(arr1.flatten())
print(arr1.ravel())

print("--------------")

print(arr2.flatten())
print(arr2.ravel())

In [None]:
arr = np.arange(5)
print(arr)

print("--------------")

print(arr.reshape(1, 5))
print(arr.reshape(5, 1))

print("--------------")

print(arr.reshape(1, 5).T)
print(arr.reshape(5, 1).T)

print("--------------")

print(arr[:, np.newaxis]) # np.newaxis -> 차원을 하나씩 증가


### 배열 연결(병합)
+ stack
+ hstack
+ vstack
+ dstack
+ tile

In [None]:
# hstack, vstack

arr1 = np.ones((2,3))
print(arr1)

arr2 = np.zeros((2,3))
print(arr2)

print('-------------------')

arr3 = np.hstack([arr1, arr2])
print(arr3)

#arr4 = np.vstack([arr1, arr2])  # 열이 맞지 않아 연산 불가
#print(arr4)

arr4 = np.random.randint(4, size=(6,3))
print(arr4)

arr5 = np.random.randint(4, size=(4,3))
print(arr5)

print('-------------------------------')

arr6 = np.vstack([arr4, arr5])
print(arr6)


In [None]:
# dstack (Depth Stack) -> 차원을 증가 시킴(행과 열이 같아야함)

# 3 * 4 * 2 -> 차원/행/열

arr1 = np.random.randint(10, size=(3,4))
print(arr1)

print("------------------")

arr2 = np.random.randint(10, size=(3,4))
print(arr2)

print("------------------")

arr3 = np.dstack([arr1, arr2]) # 3차원
print(arr3)
print(arr3.shape)

In [None]:
# stack : 한 차원 증가 시킨 reshape를 한뒤 axis기준으로 병합

arr1 = np.random.randint(10, size=(3,4))
print(arr1)



arr2 = np.random.randint(10, size=(3,4))
print(arr2)

print("------------------")

arr3 = np.stack([arr1, arr2])
print(arr3)
print(arr3.shape)

print("------------------")

arr4 = np.stack([arr1, arr2], axis=0)  # axis: 축 옵션(depth) 0->x축(row)  1 -> y축(colum) 2 -> z축(depth)
print(arr4)
print(arr4.shape)

print("------------------")

arr5 = np.stack([arr1, arr2], axis=1)  # 3 x 2 x 4
print(arr5)
print(arr5.shape)

print("------------------")

arr4 = np.stack([arr1, arr2], axis=2)  # 3 X 4 X 2
print(arr4)
print(arr4.shape)


In [None]:
# tile

arr = np.array([[0, 1, 2], [4, 5, 6]])
print(np.tile(arr, 2))

print('---------------')

print(np.tile(arr, (3, 2))) 

### 2차원 그리드 포인트 생성: meshgrid()

In [None]:
x = np.arange(3)
x

In [None]:
y = np.arange(5)
y

In [None]:
X, Y = np.meshgrid(x, y) 

print(X)
print("---------------")
print(Y)

In [None]:
z = [list(zip(x, y)) for x, y in zip(X, Y)]
print(z)

In [None]:
import matplotlib.pylab as plt
plt.scatter(X, Y)

### 브로드 캐스팅(BroadCasting)

+ 크기가 서로 다른 행렬(백터)끼리 연산을 가능하게 하는 것
+ 브로드 캐스팅: 불특정 다수 통신
+ 멀티 캐스팅:  일 대 다 통신
+ 유니 캐스팅 : 일 대 일 통신

In [None]:
print(np.vstack([range(7)]))
x = np.vstack([range(7)[i:i+3] for i in range(5)])
y = np.arange(5)[:, np.newaxis]  

print(x + y)

print("---------------------")
y = np.arange(3)
print(x + y)   

# 차원과 크기가 다르지만 연산이 가능 -> BroadCasting

### 차원축소(Dimension Reduction) 연산

+ 최대값/최소값: min, max, argmax, argmin
+ 대표값: sum, mean, median, std, var
+ 불리언: all, any
---
정의: 행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의<br> 
      평균을 구하면 각 행에 대해 하나의 숫자가 나오게 된다.<br>
      이러한 연산을 차원축소 연산이라고 한다.

In [None]:
import numpy as np

In [None]:
x = np.array([1, 3, 2, -3])
result = np.argmin(x)
print(result)

print("-------------")

result = np.argmax(x)
print(result)

# armin, armax -> 최소값, 최대값의 위치를 출력

In [None]:
x = np.array([[1, 1], [2, 2]])
print(x)
print(x.sum())
print("열합계: ", x.sum(axis=0))
print("행의 합계: ", x.sum(axis=1))

### 기술통계

+ len()
+ sum(), mean()
+ var(), std()
+ max(), min()
+ median()
+ 사분위수: percentile

In [None]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

print("최소값: ", np.percentile(x, 0))
print("최대값: ", np.percentile(x, 100))
print("1사분위: ", np.percentile(x, 25))
print("2사분위: ", np.percentile(x, 50))
print("3사분위: ", np.percentile(x, 75))

In [None]:
# 다양한 통계량을 보여주는 scipy.stats
from scipy.stats import describe

describe(x)

# 정규분포 그래프
# skewness : 왜도(좌우 비대칭)
# kurtosis : 첨도(위 아래 뾰족한 정도, 이상치 확인용도)

### 정렬

In [None]:
arr = np.array([[4, 3, 5, 7], 
                [1,12,11,9], 
                [2,15,1,14]])

print(np.sort(arr)) # 오름차순정렬 , axis 기본값은 행정렬
print("----------------------")
print(np.sort(arr, axis=1)) 
print("----------------------")
print(np.sort(arr, axis=0)) # 열기준 정렬
print(arr)

In [None]:
# 원본에 정렬 적용
arr = np.sort(arr)

arr.sort() # in-place

In [None]:
# argsort
arr1 = np.array([42, 38, 12, 25])
idx = np.argsort(arr1) # 정렬된 값을 직접적으로 보여주는 것이 아니라 정렬된 값을 인덱스로 출력
print(arr1[idx])

In [None]:
# 내림차순

print(np.sort(arr1)[::-1])

print(arr1[np.argsort(-arr1)])


In [None]:
# 슬라이스: arr[시작:끝:간격] # 1차원 
ex = range(10)
print(list(ex[::2]))
print(list(ex[1::2]))
print(list(ex[::-1]))
print(list(ex[::-2]))

### 난수
+ rand() : 0 ~ 1 사이의 균일분포
+ randn() : 가우시안 표준 정규분포
+ randint() : 균일분포의 정수난수

In [None]:
print(np.random.rand(10))
print("-------------------")
print(np.random.randn(3, 5))

In [None]:
print(np.random.randint(10)) # randint(num, size): 0 ~ num-1 사이에 난수 한개를 출력 , size 갯수 출력
print("--------------------------------------")
print(np.random.randint(11, 20))
print("--------------------------------------")
print(np.random.randint(11, 20, size=100)) 
print("--------------------------------------")
print(np.random.randint(11, 20, size=(3, 4))) 

In [None]:
# 재현성(난수 고정)

np.random.seed(10)
print(np.random.rand(2))

In [None]:
# 데이터의 순서바꾸기
 
x = np.arange(10)
print(x)

np.random.shuffle(x)
print(x)

In [None]:
# 샘플링: 복원(default), 비복원: replace = T or F

print(np.random.choice(5, 5)) # 0 ~ 4 까지 숫자 중 5번 추출(복원)
print(np.random.choice(5, 3))
print("---------------------------------")
print(np.random.choice(5, 5, replace=False))
print("---------------------------------")
print(np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])) # p=[float, ....]: 값이 나올 확률을 정해주는 옵션

### 정수형 데이터 카운팅: unique, bincount

In [None]:
arr = np.array(['a', 'b', 'b', 'c', 'a'])

print(len(arr))
print(np.unique(arr))

print("-----------------------")

idx, cnt = np.unique(arr, return_counts=True)
print(idx)
print(cnt)

In [None]:
# bincount : 발생하지 않은 사건에 대해서도 카운팅

arr = np.array([1,1,2,2,2,3])
print(np.bincount(arr, minlength=6)) 

### 실습

+ data: https://grouplens.org


In [1]:
data = np.loadtxt("data/ml-1m/ratings.dat", delimiter="::", dtype=np.int64)

In [None]:
print(data)
print(data.shape)

In [None]:
# 1행부터 20행까지 출력
data[:21, :]

In [None]:
# 20행부터 30행까지 userid와 movieid 만
data[20:31, 0:2]

In [None]:
# 전체 평점의 평균
x = data[::, 2]
print(round(np.mean(x), 2))

print(data[:, 2].mean())
print(np.mean(data[:, 2]))

In [3]:
# 사용자별로 평점 평균(10명만 출력)
ids = np.unique(data[:, 1])
ids 

array([   1,    2,    3, ..., 3950, 3951, 3952], dtype=int64)

In [None]:
movie_id = np.unique(data[:,1])
movie_id

In [4]:
score = []
for i in ids :
    user_score = data[data[:, 0] == i][:,2].mean()
    score.append([i, user_score])

In [8]:
score[0:10]

[[1, 4.188679245283019],
 [2, 3.7131782945736433],
 [3, 3.9019607843137254],
 [4, 4.190476190476191],
 [5, 3.1464646464646466],
 [6, 3.9014084507042255],
 [7, 4.32258064516129],
 [8, 3.884892086330935],
 [9, 3.7358490566037736],
 [10, 4.114713216957606]]

In [None]:
# 다른 코드

#user_id = np.unique(data[:, 0])
#print(user_id.shape)


#mean_values = []
#for id in ids:
    #data_for_user = data[data[:,0] == id, :]
    #value = data_for_user[:, 2].mean()
    #mean_values.append(id, value)


In [24]:
# 최고 평점 구하기

# 사용자별 평점 list -> array 변환
arr_score = np.array(score)
#print(arr_score)

print("<sort 사용>\n")
print(np.argsort(arr_score[:, 1])[::-1])
print(arr_score[282])

print(arr_score[np.argsort(arr_score[:, 1])[::-1][0]])

print("\n===============================================\n")
print("<argmax사용>\n")

print(np.argmax(arr_score[:, 1]))
print(score[282],"\n")
print("최고 평점:", np.max(arr_score[:, 1]))

<sort 사용>

[ 276 2146 3098 ... 2989 2539 3358]
[291.          4.1372549]
[283.           4.96296296]


<argmax사용>

276
[291, 4.137254901960785] 

최고 평점: 4.962962962962963


In [11]:
print(np.argmax(arr_score[:,1]))

276


In [1]:
# 결과값을 파일로 저장하고 싶을 때
np.savetxt("data/ml-1m/id_rations.csv", arr_score, delimiter=",", 
          fmt="%.1f")

NameError: name 'arr_score' is not defined

NameError: name 'df' is not defined