- Numpy : 고성능 수학, 과학계산을 위한 데이터 분석 라이브러리
- Pandas : 행과 열로 구성된 표 형식의 데이터 처리를 지원하는 라이브러리
- Matplotlib : 2D, 3D 그래프로 시각화가 가능한 라이브러리

### Numpy의 주요 기능
 - 빠르고 효율적인 데이터 산술연산을 제공하는 다차원배열 제공
  (ndarray클래스)  
  ※ 배열(array):같은 자료형의 데이터들이 연속된 형태로 구성된 자료 구조로 다량의 데이터를  
  그룹으로 관리하며 손쉽게 계산하기 위해 사용
- 반복문 없이 전체 데이터 배열 연산이 가능한 표준 수학 함수 제공
  (mean(), sqrt(), std() 등)
  ※sqrt :어레이의 요소 단위로 음이 아닌 제곱근을 반환합니다.
  ※std :지정된 축을 따라 어레이 요소의 표준편차를 계산합니다.

![image.png](attachment:image.png)

### Numpy 라이브러리
- 빅데이터의 수학적, 과학적 계산을 위해 만들어진 라이브러리
- 반복문 없이 전체 데이터의 연산이 가능한 표준 수학 함수들을 제공
- ※ 배열(array):같은 자료형의 값들이 연속된 형태로 구성된 자료 구조로 대량의 데이터를  
  그룹으로 관리하며 계산하기 위해 사용!

In [1]:
# numpy 라이브러리를 불러와서 np로 지칭하겠다!
import numpy as np

In [2]:
list1 = [1,2,3,4,5]
list1

[1, 2, 3, 4, 5]

In [3]:
type(list1)

list

In [4]:
arr = np.array(list1)
arr

array([1, 2, 3, 4, 5])

In [5]:
type(arr)

numpy.ndarray

#### 1차원 배열

In [6]:
arr = np.array([1,2,"야호!"])
arr

array(['1', '2', '야호!'], dtype='<U11')

#### 2차원 배열

In [7]:
arr2 = np.array([[1,2,3],[4,5,6]])
arr2

array([[1, 2, 3],
       [4, 5, 6]])

In [8]:
# 배열의 형태 확인(행,열)
arr2.shape

(2, 3)

In [9]:
# 배열의 요소 전체 개수
arr2.size

6

In [10]:
# 배열의 데이터 타입(자료형 확인)
arr2.dtype

# 32는 bit를 뜻함(기계가 표현할 수 있는 범위) → 2^32
# int8 => 1비트당 2개의 숫자를 표현핧 수 있음 2^8 = 256개 표현 가능(-128 ~ 127)
# int32 => -2,147,483,648 ~ 2,147,483,647

dtype('int32')

In [11]:
# 배열의 차원 확인
arr2.ndim

2

In [12]:
# 예제
arr3 = np.array([[[1,2],[3,4]],[[5,6],[7,8]]])
arr3

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [13]:
print("arr3 배열의 형태 :",arr3.shape) # 2행2열의 배열이 2개 (개수, 행수, 열수)
print("arr3 배열의 차원 :",arr3.ndim)
print("arr3 배열의 전체요소개수 :",arr3.size)

arr3 배열의 형태 : (2, 2, 2)
arr3 배열의 차원 : 3
arr3 배열의 전체요소개수 : 8


In [14]:
# 0으로 배열 생성
arr_zeros = np.zeros((2,3,4))
arr_zeros

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [15]:
# 1로 배열 생성
arr_ones = np.ones((2,4,3))
arr_ones

array([[[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]])

In [16]:
# 특정값으로 배열 생성하기
arr_full = np.full((3,5,5), 2)
arr_full

array([[[2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2]],

       [[2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2]],

       [[2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2]]])

#### 다차원배열 생성에 유용한 함수
- range 함수로 배열을 생성하고 reshape함수로 배열의 형태를 바꿔보자!

In [17]:
# 1부터 50까지 1씩 증가하는 값들로 리스트를 만들어주세요~!
list1 = []
for i in range(1,51):
    list1.append(i)
print(list1)

# 만든 리스트로 배열 생성
np.array(list1)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50]


array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [18]:
arr5 = np.arange(1,51,1)
arr5

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

 - arange함수를 사용하여 1부터 51까지 중에서 1,11,21,31,41로 배열을 생성해보세요~!

In [19]:
arr6 = np.arange(1,51,10)
arr6

array([ 1, 11, 21, 31, 41])

In [20]:
arr7 = np.arange(1,51,1)
arr7

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [21]:
# reshape : 배열의 행과 열을 변경시켜주는 명령
arr7 = arr7.reshape(5,10)

In [22]:
arr7

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [23]:
# 실수값을 가지는 배열 생성
arr8 = np.array([1.2, 2.3, 3.4])
arr8

array([1.2, 2.3, 3.4])

In [24]:
# 배열의 자료형을 정수형으로 변경해서 출력
arr8 = np.array([1.2, 2.3, 3.4], dtype=np.int64)
arr8

array([1, 2, 3], dtype=int64)

In [25]:
arr9 = np.array(['1', '2', '3'], dtype=np.int64)
arr9

array([1, 2, 3], dtype=int64)

#### 랜덤(난수) 값 생성

In [26]:
# 랜덤한 값으로 배열 생성하기!
arr10 = np.random.rand(2,3) # 6개(2행x3열) 값을 랜덤으로 생성(0~1)
arr10

array([[0.08729114, 0.40721517, 0.18232049],
       [0.23696632, 0.33525052, 0.54478591]])

In [27]:
# 랜덤 정수 값 출력하기!
arr11 = np.random.randint(10) # 0~9까지의 10개 숫자 중에서 랜덤으로 정수를 생성
arr11

9

In [28]:
# 랜덤값 정수형 배열 생성하기
np.random.randint(5, size = 10)

array([4, 2, 0, 4, 4, 4, 2, 0, 3, 2])

In [29]:
np.random.randint(5, size = (2,4,3))

array([[[0, 2, 3],
        [4, 4, 4],
        [1, 0, 3],
        [2, 0, 0]],

       [[3, 4, 2],
        [1, 1, 4],
        [1, 0, 3],
        [3, 3, 1]]])

### array 연산

In [30]:
arr14 =np.array([[1,2],[3,4]])
arr14

array([[1, 2],
       [3, 4]])

In [31]:
arr14+arr14

array([[2, 4],
       [6, 8]])

In [32]:
list14 = [[1,2],[3,4]]
list14

[[1, 2], [3, 4]]

In [33]:
list14+list14

[[1, 2], [3, 4], [1, 2], [3, 4]]

In [34]:
arr14*arr14

array([[ 1,  4],
       [ 9, 16]])

In [35]:
arr14/arr14

array([[1., 1.],
       [1., 1.]])

In [36]:
arr14%arr14

array([[0, 0],
       [0, 0]], dtype=int32)

In [37]:
arr14//arr14

array([[1, 1],
       [1, 1]], dtype=int32)

In [38]:
arr14-arr14

array([[0, 0],
       [0, 0]])

In [39]:
arr14*3

array([[ 3,  6],
       [ 9, 12]])

### numpy 배열의 접근은 어떻게 할까?
- 리스트와 마찬가지로 인덱싱, 슬라있싱을 지원함!

#### numpy 배열 인덱싱
- 배열 중 하나의 인덱스값에 있는 데이터를 가져오는 것

In [40]:
arr16 = np.array([[1,2,3], [4,5,6]])
arr16

array([[1, 2, 3],
       [4, 5, 6]])

In [41]:
arr16[0][1]

2

In [42]:
arr16[1][1]

5

#### numpy 슬라이싱
- 배열의 범위를 지정하여 여러개의 데이터를 가져오는것

In [43]:
arr17 = np.arange(10)
arr17

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [44]:
arr17[3:8]

array([3, 4, 5, 6, 7])

In [45]:
arr18=np.arange(50).reshape(5,10)
arr18

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [46]:
# 0번, 1번 인섹스 행의 모든 열을 출력(arr18[행의 범위, 열의 범위])
print(arr18[0:2][:])
print(arr18[0:2, :])

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]]
[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]]


In [47]:
# 모든 행의 0번 인덱스를 출력
print(arr18[:,0])


[ 0 10 20 30 40]


In [48]:
print(arr18[:,0:2])

[[ 0  1]
 [10 11]
 [20 21]
 [30 31]
 [40 41]]


In [49]:
print(arr18[:4,:5])

[[ 0  1  2  3  4]
 [10 11 12 13 14]
 [20 21 22 23 24]
 [30 31 32 33 34]]


In [50]:
arr19 = np.arange(18).reshape(3,6)
arr19

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [51]:
arr19[1:,[1,3,5]]

array([[ 7,  9, 11],
       [13, 15, 17]])

In [52]:
arr19[1: ,1: :2]

array([[ 7,  9, 11],
       [13, 15, 17]])

In [53]:
arr19

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [54]:
# 전치(transposition) : 배열의 행과 열을 바꿔주는 것
arr19.T

array([[ 0,  6, 12],
       [ 1,  7, 13],
       [ 2,  8, 14],
       [ 3,  9, 15],
       [ 4, 10, 16],
       [ 5, 11, 17]])

In [55]:
arr19

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

#### numpy 불리언 인덱싱
- 특정 조건에 맞으면 True, 아니면 False 값으로 배열을 만들어 조건에 맞는 값에 접근하는 방법

In [56]:
arr20 = np.array(np.random.randint(50,100, size=8))
arr20

array([69, 90, 73, 97, 68, 51, 94, 78])

In [57]:
# boolean(불리언) : True(참) 또는 False(거짓)으로 출력되는 자료형태
arr20 > 60

array([ True,  True,  True,  True,  True, False,  True,  True])

In [58]:
# 짝수인 값들을 True로 출력시켜보세요~!
arr20%2==0

array([False,  True, False, False,  True, False,  True,  True])

In [59]:
# True, False 값이 아닌 실제값을 보고 싶을 경우
# 배열명[배열 내에서 찾고자 하는 조건]
arr20[arr20%2==0]

array([90, 68, 94, 78])

In [60]:
arr = np.array([[6,9,6,8,7],
                [2,3,5,4,1]
               ])

In [61]:
# arr 에서 값이 홀수면 0으로 변경하는 코드를 작성해보세요~!
arr[arr%2!=0] = 0
arr

array([[6, 0, 6, 8, 0],
       [2, 0, 0, 4, 0]])

### 예제)BMI지수 및 과체중 BMI값 확인

#### 데이터 로드

In [62]:
data = np.loadtxt('data/height_weight.txt', delimiter=',')
data
# 키는 cm, 몸무게는 kg

array([[175.2, 180.3, 175. , 169.2, 185.2, 188. , 177.6, 178.2, 177. ,
        179. ],
       [ 65.6,  88. ,  79.2,  69.3,  55. ,  71.2,  73. ,  68.9,  74. ,
         82. ]])

#### 데이터의 속성확인
- 배열 형태
- 배열 차원수
- 배열 전체요소 개수

In [63]:
print("배열 형태 :",data.shape)
print("배열 차원수 :",data.ndim)
print("배열 전체요소개수 :",data.size)

배열 형태 : (2, 10)
배열 차원수 : 2
배열 전체요소개수 : 20


#### 데이터에서 키와 몸뭄게 데이터들을 각각 변수에 담기

In [64]:
# 키
height = data[0]
print(height)
# 몸무게
weight = data[1]
print(weight)

[175.2 180.3 175.  169.2 185.2 188.  177.6 178.2 177.  179. ]
[65.6 88.  79.2 69.3 55.  71.2 73.  68.9 74.  82. ]


In [65]:
bmi = weight/(height/100)**2
bmi

array([21.37153104, 27.07018468, 25.86122449, 24.20652885, 16.03543423,
       20.14486193, 23.14392095, 21.69720651, 23.62028791, 25.59220998])

#### BMI지수가 23이상 25이하인 사람은 몇 명일까요?
- 불리언 인덱싱에서는 and →&,or→|,not→~ 를 쓴다.

In [66]:
bmi_=bmi[(bmi>=23)&(bmi<25)]
len(bmi_)

3

#### numpy 배열 관련 유용한 함수들

In [67]:
arr21 = np.random.randint(1,10, size=(4,7))
arr21

array([[6, 4, 5, 9, 5, 7, 2],
       [7, 8, 6, 7, 3, 4, 8],
       [6, 5, 7, 3, 2, 4, 6],
       [4, 1, 8, 6, 7, 8, 8]])

In [68]:
# sum 함수
print(np.sum(arr21))
print(arr21.sum())

156
156


In [69]:
#mean함수
print(np.mean(arr21))
print(arr21.mean())

5.571428571428571
5.571428571428571


In [70]:
arr22 = np.arange(1,11,1)
arr22

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [71]:
# median함수(중앙값)
np.median(arr22)

5.5

In [72]:
# sqrt함수(제곱근)
np.sqrt(arr22)

array([1.        , 1.41421356, 1.73205081, 2.        , 2.23606798,
       2.44948974, 2.64575131, 2.82842712, 3.        , 3.16227766])

In [73]:
arr23 = np.array([-1,2,-3,4,-5])
arr23

array([-1,  2, -3,  4, -5])

In [74]:
# abs함수(모두 양수로 변경, 절대값 출력)
np.abs(arr23)

array([1, 2, 3, 4, 5])

### 예제) 영화 리뷰 평점 분석하기!

In [75]:
movie = np.loadtxt('data/ratings.dat', delimiter='::', dtype=np.int64)
movie
# 사용자번호(user_id), 영화번호(item_id), 영화평점(ratings), 입력시간(time)

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]], dtype=int64)

#### 데이터 속성 확인
- 배열 형태
- 배열 차원수
- 배열 전체 요소 개수

In [78]:
print('배열형태',movie.shape)
print('배열차원수',movie.ndim)
print('배열전체요소개수',movie.size)

배열형태 (1000209, 4)
배열차원수 2
배열전체요소개수 4000836


#### 전체 영화의 평점 평균 구하기

In [84]:
# 3번째 열에 접근하기
ratings = movie[:,2]
ratings

array([5, 3, 3, ..., 5, 4, 4], dtype=int64)

In [86]:
# mean함수 사용하기
np.mean(ratings)
# 전체 영화의 평점 평균

3.581564453029317

#### 1번 사용자가 매긴 평점의 평균 구하기
- 사용자 번호의 유일한 값(유니크 값) 확인
- 사용자 번호의 유니크 값 개수 확인
- 1번 사용자의 데이터에 접근(불리언 인덱싱)
- 1번 사용자가 매긴 평점들의 평균 구하기

In [88]:
# 평점을 매긴 사용자가 몇 명인지 알아보자!
user_id = np.unique(movie[:,0])
user_id

array([   1,    2,    3, ..., 6038, 6039, 6040], dtype=int64)

In [89]:
# 사용자는 총 6040명
np.size(user_id)

6040

In [91]:
# 사용자의 번호가 1번인 데이터만 출력
a = movie[movie[:,0] == 1]
a

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       [        1,      3408,         4, 978300275],
       [        1,      2355,         5, 978824291],
       [        1,      1197,         3, 978302268],
       [        1,      1287,         5, 978302039],
       [        1,      2804,         5, 978300719],
       [        1,       594,         4, 978302268],
       [        1,       919,         4, 978301368],
       [        1,       595,         5, 978824268],
       [        1,       938,         4, 978301752],
       [        1,      2398,         4, 978302281],
       [        1,      2918,         4, 978302124],
       [        1,      1035,         5, 978301753],
       [        1,      2791,         4, 978302188],
       [        1,      2687,         3, 978824268],
       [        1,      2018,         4, 978301777],
       [        1,      3105,         5, 97830

In [94]:
# 1번 사용자가 매긴 평점들
array=a[:,2]
array

array([5, 3, 3, 4, 5, 3, 5, 5, 4, 4, 5, 4, 4, 4, 5, 4, 3, 4, 5, 4, 3, 3,
       5, 5, 3, 5, 4, 4, 4, 3, 4, 4, 4, 4, 4, 4, 5, 5, 4, 5, 5, 5, 4, 4,
       4, 5, 5, 4, 5, 4, 4, 4, 4], dtype=int64)

In [92]:
# 1번 사용자가 매긴 평점 평균
np.mean(a[:,2])

4.188679245283019

- 1번 사용자는 전체 영ㅇ화의 평점 평균보다 후하게 평점을 줬구나~!

#### 각 사용자가 매긴 평점들의 평균 구하기!

In [101]:
user_mean_list = []
for i in user_id:
    # 1번 6040번 사용자가 매긴  평점들의 평균을 구해주는 코드
    # 빈 리스트에 사용자 번화와 그 사람이 매긴 평점의 평균을 리스트로 저장
    user_mean_list.append([i,movie[movie[:,0]==i][:,2].mean()])
    


In [105]:
# 불리언 인덱싱 적용을 위해 리스트를 배열로 변환
user_mean_arr = np.array(user_mean_list, dtype=np.int64)
user_mean_arr

array([[   1,    4],
       [   2,    3],
       [   3,    3],
       ...,
       [6038,    3],
       [6039,    3],
       [6040,    3]], dtype=int64)

#### 위에서 구한 각 사용자별 평점 평균이 4점 이상인 사용자만 구해보세요~!
- 사용자 번호와 명수를 구해봅시다!

In [117]:
user_mean_arr[user_mean_arr[:,1] >= 4][:,0]

array([   1,    4,    7, ..., 6027, 6032, 6034], dtype=int64)

In [118]:
user_mean_arr[user_mean_arr[:,1] >= 4][:,0].size

1544

- 사용자가 매신 평점의 평균이 4점 이상인 사람들은 총 1544명

#### 10번 영화의 평균 구하기!
- 직접 해보세요^-^

In [121]:
a= movie[movie[:,1]==10]
a

array([[       13,        10,         3, 978201884],
       [       18,        10,         5, 978153344],
       [       19,        10,         5, 978147137],
       ...,
       [     6016,        10,         4, 956777700],
       [     6019,        10,         3, 956761104],
       [     6027,        10,         5, 956726620]], dtype=int64)

In [122]:
a[:,2].mean()

3.5405405405405403

In [123]:
item_id=np.unique(movie[:,1])
item_id

array([   1,    2,    3, ..., 3950, 3951, 3952], dtype=int64)

#### 각 영화가 받은 평점의 평균 구하기

In [125]:
item_id_mean=[]
for i in item_id:
    item_id_mean.append([i,movie[movie[:,1]==i][:,2].mean()])
item_id_mean

[[1, 4.146846413095811],
 [2, 3.20114122681883],
 [3, 3.01673640167364],
 [4, 2.7294117647058824],
 [5, 3.0067567567567566],
 [6, 3.8787234042553194],
 [7, 3.410480349344978],
 [8, 3.014705882352941],
 [9, 2.656862745098039],
 [10, 3.5405405405405403],
 [11, 3.7938044530493706],
 [12, 2.3625],
 [13, 3.2626262626262625],
 [14, 3.542483660130719],
 [15, 2.458904109589041],
 [16, 3.7932551319648096],
 [17, 4.027544910179641],
 [18, 3.337579617834395],
 [19, 2.480719794344473],
 [20, 2.5375],
 [21, 3.6238938053097347],
 [22, 3.3492063492063493],
 [23, 2.857142857142857],
 [24, 3.1794871794871793],
 [25, 3.6510204081632653],
 [26, 3.53],
 [27, 2.9344262295081966],
 [28, 4.055865921787709],
 [29, 4.062034739454094],
 [30, 3.6486486486486487],
 [31, 3.1134751773049647],
 [32, 3.945731303772336],
 [33, 3.0],
 [34, 3.8914905768132497],
 [35, 3.3142857142857145],
 [36, 3.9579741379310347],
 [37, 3.5],
 [38, 2.8214285714285716],
 [39, 3.6233480176211454],
 [40, 3.933333333333333],
 [41, 3.9586776

In [126]:
itme_mean_arr = np.array(item_id_mean, dtype=np.int64)
itme_mean_arr[itme_mean_arr[:,1] >= 4][:,0].size

430