# Numpy

##  Numpy 설치
* 설치 : !pip install numpy (anaconda 기본 설치 되어 있음)
* api : https://numpy.org/doc/stable/reference/index.html#reference
* 넘파이 300제 : https://wikidocs.net/125545

In [2]:
import numpy as np

## 배열 초기화

### List 초기화
* 1차원 배열
* 2차원 배열

In [6]:
my_list=[1, 2, 3]
my_arr=np.array(my_list)
print("배열 출력:", my_arr)
print("배열의 크기:", my_arr.size)
print("배열의 차원의 크기:", my_arr.shape)     # my_array.ndim 배열의 차원 수 
print("배열의 원소타입:", my_arr.dtype)
print("배열의 인덱스:", my_arr[2])

배열 출력: [1 2 3]
배열의 크기: 3
배열의 차원의 크기: (3,)
배열의 원소타입: int32
배열의 인덱스: 3


In [10]:
arr=np.array([[5, 9, 10, 3, 1],
              [8, 3, 4, 2, 5]])
print("배열 출력:\n", arr)
print("배열의 크기:", arr.size)
print("배열의 차원의 크기:", arr.shape)  
print("배열의 원소 타입:", arr.dtype)
print("배열의 인덱스:", arr[1][2])

배열 출력:
 [[ 5  9 10  3  1]
 [ 8  3  4  2  5]]
배열의 크기: 10
배열의 차원의 크기: (2, 5)
배열의 원소 타입: int32
배열의 인덱스: 4


### 자주 사용하는 함수

In [15]:
num=np.array([1, 1, 2, 3, 3, 3, 1])
print("중복값 제거", np.unique(num))     # 원본 데이터 영향 안줌

copy_num=num.copy()
print("배열 복사:", copy_num)

num.sort()                              # 원본 데이터 영향  줌
print("오름 차순:", num)
print("내림 차순:", num[::-1])           # np.sort(num)[::-1]

중복값 제거 [1 2 3]
배열 복사: [1 1 2 3 3 3 1]
오름 차순: [1 1 1 2 3 3 3]
내림 차순: [3 3 3 2 1 1 1]


In [20]:
arr.sort(axis=1)                         # 행을 기준으로 동일한 인덱스 요소, 즉 열
print("행기준 정렬:\n", arr)

arr.sort(axis=0)
print("열기준 정렬:\n", arr)

행기준 정렬:
 [[ 1  2  3  4  5]
 [ 3  5  8  9 10]]
열기준 정렬:
 [[ 1  2  3  4  5]
 [ 3  5  8  9 10]]


### numpy 함수를 활용한 초기화

In [5]:
print("0~3 출력:", np.arange(4))             
print("0~10 step2:", np.arange(1, 10, 2))  

0~3 출력: [0 1 2 3]
0~10 step2: [1 3 5 7 9]


In [6]:
# 다양한 형태의 초기화
print("0으로 초기화 \n", np.zeros((4, 4), dtype=int))   # defulat float
print("1로 초기화 \n", np.ones((3, 3), dtype=str))
print("특정 숫자(5)로 초기화 \n", np.full((2, 3), 5))
print("대각선 1, 그외 0인 2차원 배열 \n", np.eye(3))

0으로 초기화 
 [[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]
1로 초기화 
 [['1' '1' '1']
 ['1' '1' '1']
 ['1' '1' '1']]
특정 숫자(5)로 초기화 
 [[5 5 5]
 [5 5 5]]
대각선 1, 그외 0인 2차원 배열 
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [24]:
# 랜덤 초기화
print("5개의 랜덤:", np.random.random(5))
print("3*2 랜덤: \n", np.random.random((3, 2)))

print("0~9 랜덤:", np.random.randint(0, 10, size=(10,)))        # size=(2, 5)
print("0~1 균일한 값으로 랜덤 5개:", np.random.rand(5))         # linspace 동일하지만, 랜덤값으로
print("0~1 균등 분포 5개:", np.linspace(0, 10, 5))              

5개의 랜덤: [0.11669371 0.69717763 0.64127835 0.38720657 0.83710261]
3*2 랜덤: 
 [[0.97567604 0.5025073 ]
 [0.61895091 0.08041064]
 [0.41829819 0.79115214]]
0~9 랜덤: [8 9 8 3 8 8 1 1 0 0]
0~1 균일한 값으로 랜덤 5개: [ 0.   2.5  5.   7.5 10. ]
0~1 균등 분포: [0.68354651 0.00648355 0.5229894  0.45638174 0.53554276]


## Indexing & Slicing

### indexing

In [14]:
a=np.array([1, 2, 3, 4])
a[0], a[3], a[-1]

(1, 4, 4)

In [9]:
b=np.array([[1, 2, 3, 4, 5], 
            [6, 7, 8, 9, 10]])
b[1, 3]

9

### Slicing

In [73]:
array=np.array([1, 2, 3, 4, 5])
print(array)
print(array[3:])
print(array[1:-1])
print(array[0:3:2])

[1 2 3 4 5]
[4 5]
[2 3 4]
[1 3]


In [10]:
num=np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])
print(num, "\n")
print(num[:, 1:], "\n")      # 전체행, 1열~~
print(num[0:1, 0:2])         # 0행~1행전, 0열~2열전  [[1 2]]

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

[[2 3]
 [5 6]
 [8 9]] 

[[1 2]]


In [77]:
value=np.array([[1, 2, 3, 4, 5],
                [6, 7, 8, 9, 10],
                [11, 12, 13, 14, 15]])
print(value, "\n")
print(value[::2, ::2])      # 행과 열 모두에서 2칸 간격

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]] 

[[ 1  3  5]
 [11 13 15]]


## 배열 결합 & 분할

### 배열 결합

In [12]:
# 배열 결합
n=np.array([1, 2, 3, 4])
m=np.array([5, 6, 7, 8])
k=np.concatenate([n, m])
k.shape, k

((8,), array([1, 2, 3, 4, 5, 6, 7, 8]))

In [5]:
# 2차원 배열을 결합시, 행열이 같아야 함
a=np.array([[1, 2, 3, 4],
            [5, 6, 7, 8]])

b=np.array([[33, 44, 55, 66],
            [77, 88, 99, 110]])

c=np.concatenate([a, b], axis=0)    # 4행 4열
print("행 기준: \n", c)

d=np.concatenate([a, b], axis=1)    # 2행 8열
print("열 기준: \n", d)

행 기준: 
 [[  1   2   3   4]
 [  5   6   7   8]
 [ 33  44  55  66]
 [ 77  88  99 110]]
열 기준: 
 [[  1   2   3   4  33  44  55  66]
 [  5   6   7   8  77  88  99 110]]


### 배열 분할

In [9]:
# 배열 분할
arr1=np.array([1, 2, 3, 4, 5, 6])
new_arr1=np.split(arr1, [2, 4])          # 각 분할 지점은 index2와 index4
print(new_arr1)

new_arr2=np.split(arr1, [3, 5])           # 각 분할 지점은 index3와 index5
print(new_arr2)

a, b, c=new_arr1
print(a)
print(b)
print(c)

[array([1, 2]), array([3, 4]), array([5, 6])]
[array([1, 2, 3]), array([4, 5]), array([6])]
[1 2]
[3 4]
[5 6]


In [14]:
# 2차원 행, 열, 축
arr3=np.array([[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]])
new_arr3=np.split(arr3, [2], axis=0)      # 2행을 기준으로 배열이 두개 만들어짐
print(new_arr3)

new_arr4=np.split(arr3, [2], axis=1)      # 2열을 기준으로 배열이 두개 만들어짐
print(new_arr4)

[array([[1, 2, 3, 4],
       [5, 6, 7, 8]]), array([[ 9, 10, 11, 12]])]
[array([[ 1,  2],
       [ 5,  6],
       [ 9, 10]]), array([[ 3,  4],
       [ 7,  8],
       [11, 12]])]


## 배열 형태 바꾸기

### 차원 변환

In [23]:
a=np.arange(1, 9)      
print(a)

b=a.reshape(2, 4)     # 또는 np.reshape(a,(2,4)), 원본 데이터 영향 안 받음
print(b)

c=a.reshape(4, 2)
print(c)

[1 2 3 4 5 6 7 8]
[[1 2 3 4]
 [5 6 7 8]]
[[1 2]
 [3 4]
 [5 6]
 [7 8]]


In [24]:
# 3차원 변환
d=a.reshape(2, 2, 2)
print(d)

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


### 자동 재배열
* reshape (-1) 의미

In [6]:
x=np.arange(12)
print(x)

x=x.reshape(3, 4)
x

[ 0  1  2  3  4  5  6  7  8  9 10 11]


array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [8]:
# 행의 위치에서 -1을 넣고 열의 수를 지정해주면 변환될 행은 알아서 자동으로 재배열
x=x.reshape(-1, 1)
print(x, "\n")

x=x.reshape(-1, 2)
print(x, "\n")

x=x.reshape(-1, 3)
print(x, "\n")

[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]] 

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]] 

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]] 



In [41]:
# 열의 위치에 -1을 넣고 행의 수를 지정해주면 열은 알아서 자동으로 재배열
x=x.reshape(1, -1)
print(x, "\n")

x=x.reshape(2, -1)
print(x, "\n")

x=x.reshape(3, -1)
print(x, "\n")

[[ 0  1  2  3  4  5  6  7  8  9 10 11]] 

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]] 

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] 



In [43]:
# reshape(-1) 경우는 1차원 배열 
arr=np.array([[1, 2, 3, 4, 5], 
              [6, 7, 8, 9, 10]])
arr=arr.reshape(-1)      # 1차원으로 변환, x.reshape(1 ,-1) 2차원 차이점 알아두기 
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [46]:
# 전치 (행과 열을 바꿈)
a=np.array([[1, 2],
            [33, 44]])
print(a)
print(a.T)

[[ 1  2]
 [33 44]]
[[ 1 33]
 [ 2 44]]


## 연산

### 사칙 연산

In [51]:
a=np.arange(1, 5)
print(a)

a=a.reshape(2, 2)
print(a)

mul=a*10
print(mul)

[1 2 3 4]
[[1 2]
 [3 4]]
[[10 20]
 [30 40]]


In [54]:
b=np.arange(1, 5).reshape(2, 2)
print(b)

c=np.arange(11, 15).reshape(2, 2)
print(c)

hap=b+c
print(hap)

[[1 2]
 [3 4]]
[[11 12]
 [13 14]]
[[12 14]
 [16 18]]


### Braodcasting 연산
* 서로 다른 형태의 배열 연산

In [58]:
# 행 연산
x=np.arange(4).reshape(2, 2)
y=np.arange(2)
x+y

array([[0, 2],
       [2, 4]])

In [57]:
# 열 연산
i=np.arange(0, 16).reshape(4, 4)
j=np.arange(10, 14).reshape(4, 1)
i+j

array([[10, 11, 12, 13],
       [15, 16, 17, 18],
       [20, 21, 22, 23],
       [25, 26, 27, 28]])

### masking 연산
* 특정 조건에 맞는 값을 추출, 이미지 처리에서 주로 활용, 반복문보다 속다 빠르고 간편

In [53]:
arr=np.arange(16).reshape(4, 4)
print(arr)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [55]:
# 10본다 큰 수 출력 (반복)
for row in arr:
    # print(row)
    for num in row:
        # print(num)
        if num > 10:
            print(num, end=' ')         

11 12 13 14 15 

In [57]:
# Ex1) 조건에 따라 배열의 특정 값만 변경하고 싶을때  
# 조건에 해당하는 마스킹를 생성 - TRUE, FALSE
masking=arr > 10
print(masking, "\n")

# 필터링된 배열 정보 출력
f=arr[masking]           # arr[arr > 10] 또는 arr[arr % 2==0]
f

[[False False False False]
 [False False False False]
 [False False False  True]
 [ True  True  True  True]] 



array([11, 12, 13, 14, 15])

In [59]:
# Ex2) TRUE을 100으로 바꾼다. 
masking=arr > 5
arr[masking]=100
arr

array([[  0,   1,   2,   3],
       [  4,   5, 100, 100],
       [100, 100, 100, 100],
       [100, 100, 100, 100]])

In [61]:
# Ex3) 결측치 처리
arr=np.array([1, 2, np.nan, 4, 5])
mask=~np.isnan(arr)
print(arr[mask])

[1. 2. 4. 5.]


### 집계 함수

In [20]:
num=np.arange(16).reshape(4, 4)
print(num, "\n")
print("최대값:", np.max(num))
print("최소값:", np.min(num))
print("합계:", np.sum(num))
print("평균:", np.mean(num))

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]] 

최대값: 15
최소값: 0
합계: 120
평균: 7.5


In [75]:
# ** 집계 함수 사용시 행열 주의 !!!!
# axis=None : 전체행열
# axis=0    : 행을 기준으로 동일한 인텍스 요소, 즉 열
# axis=1    : 열을 기준으로 각열의 요소를 그룹, 즉 행

print("행 합:", np.sum(num, axis=1))
print("열 합:", np.sum(num, axis=0))
print("행 최소값:", np.min(num, axis=1))

행 합: [ 6 22 38 54]
열 합: [24 28 32 36]
행 최소값: [ 0  4  8 12]


## 파일 읽고 & 저장
* 실습문제 - 영화 평점
* 파일 다운로드 : https://grouplens.org/datasets/movielens/  
* 사용자 id, 영화 id, 평점, 날짜 가져오기
* 전체 평점 평균 계산
* 사용자별 평점 평균
* 최고의 평점
* 엑셀 저장

In [68]:
# 파일 불러오기 (1000209, 4)
path='./Data/numpy/ratings.dat'
movie_data=np.genfromtxt(path, delimiter='::', dtype=np.int64)
movie_data.shape

(1000209, 4)

In [88]:
# 1) 사용자 id, 영화 id, 평점, 날짜
movie_data[:5, :]          # 데이터의 첫 5행만 확인 [행 start: end, 열 start:end] 

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       [        1,      3408,         4, 978300275],
       [        1,      2355,         5, 978824291]], dtype=int64)

In [91]:
# 2) 전체 평점 평균 계산
np.mean(movie_data[:, 2]).round(2)

3.58

In [96]:
# 3) 사용자별 평점 평균
user_id=np.unique(movie_data[:, 0])        # 중복 아이디를 제거 후 새로운 아이디 배열 생성  (6040,)
print(user_id.shape)

mean_value=[]
for idx in user_id:
    data_user=movie_data[movie_data[:, 0] == idx]     #  masking 
    value=data_user[:, 2].mean()                       # 해당 아이디 
    mean_value.append([idx, value])
    
mean_value[:10]

(6040,)


[[1, 4.188679245283019],
 [2, 3.7131782945736433],
 [3, 3.9019607843137254],
 [4, 4.190476190476191],
 [5, 3.1464646464646466],
 [6, 3.9014084507042255],
 [7, 4.32258064516129],
 [8, 3.884892086330935],
 [9, 3.7358490566037736],
 [10, 4.114713216957606]]

In [97]:
# 4) 최고의 평점
arr_mean_values=np.array(mean_value)    # list를 numpy 배열로 
np.max(arr_mean_values[:, 1])

4.962962962962963

In [99]:
# 사용자별로 다시 저장
fpath='./Data/numpy/id_ratings.csv'
np.savetxt(fpath, arr_mean_values, delimiter=',', fmt="%.1f")