### Numpy
- 복잡한 빅데이터의 수학적, 과학적 계산을 위해 만들어진 라이브러리
- 반복문 없이 전체 데이터 배열 연산이 가능한 표준 수학함수를 제공함
- 배열(array): 같은 자료형의 원소들이 연속적인 형태로 구성된 자료 구조로 다향의 데이터를 그룹으로 관리하기 위해 사용함

In [1]:
import numpy as np

In [2]:
list_ = [1, 2, 3, 4, 5]
list_

[1, 2, 3, 4, 5]

In [3]:
type(list_)

list

In [5]:
arr = np.array(list_)    # () 안쪽에 리스트를 넣어줘야 함
arr

array([1, 2, 3, 4, 5])

In [6]:
type(arr)
# n-dimension: 다차원

numpy.ndarray

In [7]:
# 배열은 사칙연산 가능(내부 모든 값에 직접 연산됨)
arr + 1

array([2, 3, 4, 5, 6])

In [8]:
arr - 10

array([-9, -8, -7, -6, -5])

In [9]:
arr * 2

array([ 2,  4,  6,  8, 10])

In [10]:
arr / 2     # 실수형태(float)로 출력

array([0.5, 1. , 1.5, 2. , 2.5])

In [12]:
# 2차원 배열
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
arr2

array([[1, 2, 3],
       [4, 5, 6]])

In [15]:
arr2 + 1
# 차원에 상관없이 내부 모든 값에 직접 연산됨

array([[2, 3, 4],
       [5, 6, 7]])

In [16]:
# 배열의 형태(행, 열)
arr2.shape

(2, 3)

In [17]:
# 배열의 요소 전체 개수(shape 내부의 수치들의 곱)
arr2.size

6

In [18]:
# 배열 내 데이터의 타입(자료형 확인)
arr2.dtype             

# 32 = 32bit(가장 작은 단위) -> 2의 32승(기계가 표현할 수 있는 범위)    +    8bit = 1byte

# int8 -> 2^8 = 258(-128 ~ 127)
# int32 -> 2^32(-2,147,483,648 ~ 2,147,483,647)

dtype('int32')

In [19]:
# 배열의 차원 확인
arr2.ndim

2

In [20]:
arr3 = np.array([[[1,2],[3,4]],[[5,6],[7,8]]])
arr3

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [25]:
print(arr3.ndim)
print(arr3.shape)      # 3차원
print(arr3.size)       # 안쪽에 들어 있는 배열의 개수, 배열 안쪽에 들어있는 행, 배열 안쪽에 들어있는 열

3
(2, 2, 2)
8


In [28]:
# 0으로 배열 생성
arr_zeros = np.zeros((3,4))
arr_zeros

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [29]:
# 1로 배열 생성
arr_ones = np.ones((2,4,3))
arr_ones

array([[[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]])

In [30]:
# 특정값으로 배열 생성하기
arr_full = np.full((5,5),2)            # 5행 5열의 배열을 2로 채워주세요
arr_full

array([[2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2]])

### 다차원 배열 생성에 유용한 함수
 - arange 함수: 연속된 수치로 배열 생성
 - reshape 함수: 생성된 배열의 shape를 재설정

In [33]:
list_ = []

for i in range(1, 51, 1):
    list_.append(i)
list_
np.array(list_)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [35]:
# 반복문 사용 없이 순서대로인 값을 배열로 생성(끝값은 미포함)
arr5 = np.arange(1, 51, 1)        # (시작, 끝, 증감량)
arr5

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [36]:
arr6 = np.arange(1, 51, 10)
arr6

array([ 1, 11, 21, 31, 41])

In [37]:
arr7 = np.arange(1, 51)              # 증감량 생략 가능
arr7 

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [39]:
# reshape: 배열의 행과 열(shape)을 재설정 -> 데이터 자체를 변경하는 게 아니라 보이는 것만 재설정
arr7.reshape(5, 10)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [40]:
arr7.reshape(5, 11)       # 값의 개수를 넘어서면 에러
# 전체 크기가 맞지 않는 경우에는 reshape를 활용할 수 없음
# 배열 내 전체 요소 개수와 reshape내의 값의 곱이 같아야 함

ValueError: cannot reshape array of size 50 into shape (5,11)

In [42]:
arr7.reshape(2, 25)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24, 25],
       [26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,
        42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [43]:
arr8 = np.array([1.2, 2.3, 3.7])
arr8

array([1.2, 2.3, 3.7])

In [45]:
# 데이터 타입 변경
arr8 = np.array([1.2, 2.3, 3.7],dtype = np.int64)   # 실수를 정수 형태로 변환
arr8

array([1, 2, 3], dtype=int64)

In [46]:
arr9 = np.array([1, 2, 3],dtype = np.float32)      # 정수를 실수 형태로 변환
arr9  

array([1., 2., 3.], dtype=float32)

In [47]:
# U : 유니코드 문자열
arr10 = np.array(['1', '2', '3'])
arr10.dtype

dtype('<U1')

In [48]:
arr10 = np.array(['1', '2', '3'],dtype = np.int32)
arr10.dtype

dtype('int32')

### 랜덤 값(난수) 생성

In [66]:
# 랜덤 값 배열 생성하기
# rand : 0~1  사이의 난수값 생성
arr10 = np.random.rand(2,3)           # 2행 3열의 array에 0~1 사이값을 랜덤하게 출력
arr10

array([[0.41554406, 0.86758319, 0.42824125],
       [0.98932721, 0.80260584, 0.81388312]])

In [80]:
# 랜덤한 정수값 배열 생성하기
arr11 = np.random.randint(10)            # 0~9까지의 10개의 숫자 중 랜덤하게 정수가 출력 
arr11

# 그냥 random라이브러리의 randint는 끝 값 포함이지만 numpy는 끝 값 미포함

9

In [88]:
# 0~4 사이의 값 중에서 랜덤으로 10개의 값을 1차원 array로 생성
arr12 = np.random.randint(5, size = 10)            
arr12

array([1, 3, 3, 4, 4, 2, 0, 1, 3, 1])

In [91]:
arr13 = np.random.randint(5, size = (2,3))            
arr13

array([[4, 4, 3],
       [4, 4, 4]])

#### 랜덤시드(random seed) 설정
- 과연 이 세상에 진정한 랜덤이 있을까?
- 컴퓨터는 완전한 랜덤이라는 난수를 구현하지 못함
- 유사 난수 개념을 사용(난수가 나오는 것을 흉내내는 복잡한 알고리즘으로 만들어진 숫자)

In [105]:
np.random.seed(2)
np.random.randint(5, size = (2,3))

array([[0, 0, 3],
       [2, 3, 0]])

## array 연산

In [106]:
arr14 = np.array([[1,2], [3,4]])
arr14

array([[1, 2],
       [3, 4]])

In [107]:
arr14 + arr14          # 같은 위치에 있는 값들끼리 연산

array([[2, 4],
       [6, 8]])

In [108]:
arr14 * arr14

array([[ 1,  4],
       [ 9, 16]])

In [109]:
arr14 / arr14

array([[1., 1.],
       [1., 1.]])

In [110]:
arr14 % arr14

array([[0, 0],
       [0, 0]])

### array의 접근은 어떻게 해야 할까?
- array는 파이썬 리스트와 마찬가지로 인덱싱, 슬라이싱을 지원함

In [111]:
# array 인덱싱
arr16 = np.array([[1,2,3], [4,5,6]])
arr16

array([[1, 2, 3],
       [4, 5, 6]])

In [113]:
arr16[0]

array([1, 2, 3])

In [112]:
arr16[0][1]

2

In [114]:
arr16[1][1]

5

In [115]:
# array 슬라이싱
arr17 = np.arange(10)
arr17

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [116]:
arr17[3:8]        # 끝 값은 포함 x

array([3, 4, 5, 6, 7])

In [118]:
arr17[3:8] = [10, 1, 4, 7, 9]
arr17

array([ 0,  1,  2, 10,  1,  4,  7,  9,  8,  9])

In [120]:
arr18 = np.arange(50).reshape(5,10)
arr18                                     # 행과 열은 각각 0부터 시작하는 인덱스를 가짐

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [121]:
# arr18[행의 범위, 열의 범위]
arr18[0:2, :]     

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]])

In [122]:
arr18[:, 0]    # 모든 행의 0번 인덱스 컬럼을 출력

array([ 0, 10, 20, 30, 40])

In [123]:
arr18[:, 0:2] 

array([[ 0,  1],
       [10, 11],
       [20, 21],
       [30, 31],
       [40, 41]])

In [124]:
arr19 = np.arange(18).reshape(3,6)
arr19

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [126]:
arr19[:2, 1:4]

array([[1, 2, 3],
       [7, 8, 9]])

In [133]:
list = []
arr19[1:, 1], arr19[1:, 3], arr19[1:, 5]

(array([ 7, 13]), array([ 9, 15]), array([11, 17]))

In [135]:
# 방법1
arr19[1:,[1,3,5]]

array([[ 7,  9, 11],
       [13, 15, 17]])

In [136]:
# 방법2
arr19[1: , 1::2]

array([[ 7,  9, 11],
       [13, 15, 17]])

In [137]:
arr19

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [138]:
# 전치(transposition): 배열의 행과 열을 바꿔줌특, 보여지는 것만 바꿔줌
arr19.T     # (3,6) -> (6,3)

array([[ 0,  6, 12],
       [ 1,  7, 13],
       [ 2,  8, 14],
       [ 3,  9, 15],
       [ 4, 10, 16],
       [ 5, 11, 17]])

In [141]:
arr19     

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

### numpy 불리언(Boolean) 인덱싱***
- 특정한 조건에 맞으면 True, 아니면 False값으로 배열을 만들어서 True인 값에 접급하는 인덱싱 방법

In [145]:
# 50~99까 8개 값을 가지는 1차원 배열을 생성
arr20 = np.array(np.random.randint(50,100, size = 8))
arr20

array([93, 89, 88, 92, 83, 53, 55, 74])

In [146]:
# Boolean: True(참) 또는 False(거짓)으로 출력되는 자료 형태
arr20 >= 70

array([ True,  True,  True,  True,  True, False, False,  True])

In [147]:
arr20 != 55

array([ True,  True,  True,  True,  True,  True, False,  True])

In [148]:
#arr20 배열에서 짝수인 값 판단
arr20 % 2 == 0

array([False, False,  True,  True, False, False, False,  True])

In [149]:
# True,False로의 출력이 아닌 True인 실제 값들을 보고 싶을 경우
# ★배열명[배열 내에서 찾고자 하는 조건식]★
arr20[arr20 % 2 == 0]    # 조건을 인덱싱 안에 넣어주면 True인 값이 출력

array([88, 92, 74])

In [151]:
arr = np.array([[6,9,6,8,7], [2,3,5,4,1]])
arr

array([[6, 9, 6, 8, 7],
       [2, 3, 5, 4, 1]])

In [154]:
# 위 array 배열에서 값이 짝수면 모두 0으로 변경하는 코드를 작성해보세요-!
arr[arr % 2 == 0] = 0
arr

array([[0, 9, 0, 0, 7],
       [0, 3, 5, 0, 1]])

In [None]:
# 예제1) BMI 지수 확인 및 인덱싱

In [157]:
# delimiter
data = np.loadtxt('data/height_weight.txt', delimiter = ',')
data
# 키는 cm
# 몸무게는 kg

array([[175.2, 180.3, 175. , 169.2, 185.2, 188. , 177.6, 178.2, 177. ,
        179. ],
       [ 65.6,  88. ,  79.2,  69.3,  55. ,  71.2,  73. ,  68.9,  74. ,
         82. ]])

In [160]:
print(data.shape)
print(data.size)
print(data.ndim)

(2, 10)
20
2


#### 배열 데이터에서 키와 몸무게 데이터들을 각각의 변수에 넣기

In [166]:
height = data[0, :]     # = data[0]
weight = data[1, :]     # = data[1]
print(height)
print(weight)

[175.2 180.3 175.  169.2 185.2 188.  177.6 178.2 177.  179. ]
[65.6 88.  79.2 69.3 55.  71.2 73.  68.9 74.  82. ]


![image.png](attachment:image.png)

In [171]:
height_m = height / 100
bmi = weight / (height_m * height_m)
bmi

array([21.37153104, 27.07018468, 25.86122449, 24.20652885, 16.03543423,
       20.14486193, 23.14392095, 21.69720651, 23.62028791, 25.59220998])

In [172]:
bmi[bmi >= 23]

array([27.07018468, 25.86122449, 24.20652885, 23.14392095, 23.62028791,
       25.59220998])

- 논리연산자(and, or, not) 사용 x
- 비트연산자(&, |, ~) 사용

In [181]:
len(bmi[(bmi >= 23) & (bmi <= 25)])

3

## numpy 배열 관련 유용한 함수들

In [1]:
import numpy as np
arr21 = np.random.randint(1, 10, size=(4,7))
arr21

array([[1, 9, 8, 6, 7, 2, 9],
       [4, 8, 7, 8, 7, 7, 4],
       [2, 8, 4, 3, 2, 6, 3],
       [3, 9, 3, 3, 2, 6, 7]])

In [5]:
# sum함수
print(np.sum(arr21))
print(arr21.sum())

148
148


In [6]:
# mean 함수
print(np.mean(arr21))
print(arr21.mean())

5.285714285714286
5.285714285714286


In [7]:
arr22 = np.arange(1, 10, 3)
arr22

array([1, 4, 7])

In [8]:
# median 함수
np.median(arr22)

4.0

In [9]:
# sqrt 함수
np.sqrt(arr22)

array([1.        , 2.        , 2.64575131])

In [10]:
arr23 = np.array([-1, 2, -3, 4, -5])
arr23

array([-1,  2, -3,  4, -5])

In [11]:
# abs 함수
np.abs(arr23)

array([1, 2, 3, 4, 5])

### 예제2) 어떤 영화가 좋은 평점을 받았는지 분석해보자!

#### 1. 데이터 로드

In [13]:
movie = np.genfromtxt('ratings.dat', delimiter='::', dtype=np.int64)
movie

# 열
# 사용자아이디, 영화아이디, 영화평점(1-5점), 입력시간

#### 2. 데이터 속성 확인
- 배열 형태
- 배열 차원수
- 배열 전체 요소 수

In [22]:
print(movie.shape)
print(movie.ndim)
print(movie.size)

(1000209, 4)
2
4000836


#### 3. 전체 영화 평점의 평균 구하기

In [25]:
ratings = movie[:, 2]
np.mean(ratings)

3.581564453029317

#### 4. 1번 사용자가 매긴 평점의 평균 구하기
- 사용자 아이디의 유일한 값 (유니크 값) 확인
- 사용자 아이디의 유니크 값 개수
- 1번 사용자의 데이터 접근
- 1번 사용자가 매긴 평점에 접근
- 평점의 평균 구하기

In [37]:
user_id = np.unique(movie[:, 0])
print(user_id)
print(len(user_id))

[   1    2    3 ... 6038 6039 6040]
6040


In [38]:
arr1 = movie[movie[:, 0]==1][:, 2]
print(len(arr1))
print(arr1)
print(np.mean(arr1))

53
[5 3 3 4 5 3 5 5 4 4 5 4 4 4 5 4 3 4 5 4 3 3 5 5 3 5 4 4 4 3 4 4 4 4 4 4 5
 5 4 5 5 5 4 4 4 5 5 4 5 4 4 4 4]
4.188679245283019


#### 5. 각 사용자가 매긴 평점들의 평균 구하기

In [40]:
user_mean_list = []

for user in user_id:
    user_mean = movie[movie[:, 0]==user][:, 2].mean()
    user_mean_list.append([user, user_mean])

print(user_mean_list)   

[[1, 4.188679245283019], [2, 3.7131782945736433], [3, 3.9019607843137254], [4, 4.190476190476191], [5, 3.1464646464646466], [6, 3.9014084507042255], [7, 4.32258064516129], [8, 3.884892086330935], [9, 3.7358490566037736], [10, 4.114713216957606], [11, 3.2773722627737225], [12, 3.8260869565217392], [13, 3.388888888888889], [14, 3.32], [15, 3.3233830845771144], [16, 3.0285714285714285], [17, 4.075829383886256], [18, 3.6491803278688524], [19, 3.5725490196078433], [20, 4.083333333333333], [21, 2.909090909090909], [22, 3.0673400673400675], [23, 3.3157894736842106], [24, 3.948529411764706], [25, 3.7411764705882353], [26, 2.96], [27, 4.171428571428572], [28, 3.7570093457943927], [29, 3.5833333333333335], [30, 3.488372093023256], [31, 3.73109243697479], [32, 3.625], [33, 3.498721227621483], [34, 3.8658536585365852], [35, 3.54040404040404], [36, 4.199430199430199], [37, 3.69811320754717], [38, 3.58], [39, 3.564516129032258], [40, 3.4479166666666665], [41, 3.48], [42, 3.74025974025974], [43, 4.12

#### 6. 위에서 구한 각 사용자 별 평점 평균이 4점 이상인 사용자만 구해보자

In [56]:
user_mean_arr = np.array(user_mean_list)
user_mean_arr[user_mean_arr[:,1] >= 4][:, 0].astype(np.int64)

array([   1,    4,    7, ..., 6027, 6032, 6034], dtype=int64)

In [57]:
len(user_mean_arr[user_mean_arr[:,1] >= 4])

1544

### 과제
- 10번 영화의 평점 평균 구하기
- 모든 영화가 받은 평점의 평균 구하기(2차원 리스트로 뽑기)

In [62]:
np.mean(movie[movie[:, 1]==10][:,2])

3.5405405405405403

In [65]:
movie_list = np.unique(movie[:, 1])
movie_list

array([   1,    2,    3, ..., 3950, 3951, 3952], dtype=int64)

In [69]:
movie

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]], dtype=int64)

In [70]:
movie_avg = []

for i in movie_list:
    movie_mean = np.mean(movie[movie[:, 1]==i][:, 2])
    movie_avg.append([i, movie_mean])

movie_avg
    

[[1, 4.146846413095811],
 [2, 3.20114122681883],
 [3, 3.01673640167364],
 [4, 2.7294117647058824],
 [5, 3.0067567567567566],
 [6, 3.8787234042553194],
 [7, 3.410480349344978],
 [8, 3.014705882352941],
 [9, 2.656862745098039],
 [10, 3.5405405405405403],
 [11, 3.7938044530493706],
 [12, 2.3625],
 [13, 3.2626262626262625],
 [14, 3.542483660130719],
 [15, 2.458904109589041],
 [16, 3.7932551319648096],
 [17, 4.027544910179641],
 [18, 3.337579617834395],
 [19, 2.480719794344473],
 [20, 2.5375],
 [21, 3.6238938053097347],
 [22, 3.3492063492063493],
 [23, 2.857142857142857],
 [24, 3.1794871794871793],
 [25, 3.6510204081632653],
 [26, 3.53],
 [27, 2.9344262295081966],
 [28, 4.055865921787709],
 [29, 4.062034739454094],
 [30, 3.6486486486486487],
 [31, 3.1134751773049647],
 [32, 3.945731303772336],
 [33, 3.0],
 [34, 3.8914905768132497],
 [35, 3.3142857142857145],
 [36, 3.9579741379310347],
 [37, 3.5],
 [38, 2.8214285714285716],
 [39, 3.6233480176211454],
 [40, 3.933333333333333],
 [41, 3.9586776