## NumPy 라이브러리
- Numerical Python
- 수치게산을 위한 라이브러리
- 행, 열 계산에 최적화 된 패키지를 제공 (2차원)
- ndarray(N-dimensional array) 클래스 지원

In [1]:
# Numpy 호출
import numpy as np

### ndarray(N-dimensional array)
- 1. 다양한 수학 함수 지원
- 2. 빠른 연산 속도
- 3. 브로드 캐스팅 (차원을 동일시 하는 기능)
- 4. 다차원 배열 지원
<br></br>
- 중요: **요소들은 동일한 자료형만 가질 수 있음**
- 각 요소들은 index가 부여되어있다 (인덱싱, 슬라이싱 가능


### 1. ndarray 생성
- np.array(리스트,튜플) //형변환함수

In [7]:
# 첫번째 방법 : 형변환
list1 = [1,2,3,4,5]
arr = np.array(list1)
arr
#type(arr)

array([1, 2, 3, 4, 5])

In [8]:
# 두번째 방법 : 직접 array화 시켜주기
arr2 = np.array([2,4,6,8,10])
arr2

array([ 2,  4,  6,  8, 10])

In [14]:
# 2차원 array 생성
arr3 = np.array([[1,2,3], [4,5,6]])
arr3
# ndarray 가 list와 다른점 : 출력시 개행을 시켜줌 -> 컴퓨터가 차원수를 인식함

array([[1, 2, 3],
       [4, 5, 6]])

### 2. ndarray 확인하기 -> 속성!(함수아님)

In [19]:
# array 차원 수 확인하기
print(arr2.ndim)
print(arr3.ndim)

1
2


In [20]:
# array 모양(크기) 확인하기
print(arr2.shape) # 1차원의 경우 (행, )
print(arr3.shape) # 2차원의 경우 (행, 열)

(5,)
(2, 3)


In [24]:
# array 전체 요소 개수 확인하기
print(len(arr2)) # len() : 자료 구조의 첫번째 차원의 길이를 반환
print(arr2.size) # .size : array의 모든 요소의 개수를 반환

print(len(arr3))
print(arr3.size)

5
5
2
6


In [33]:
# array 요소 타입 확인하기
print(arr.dtype)
print(arr3.dtype)

dtype('int32')

##### 2.1 ndarray dtype 및 shape 변경

In [37]:
# 데이터 타입을 직접 지정하여 array 생성

list3 = [[1.7, 4.2, 3.6], [4.1, 2.9, 5.8]]
arr4 = np.array(list3, dtype=np.int64)
arr4

array([[1, 4, 3],
       [4, 2, 5]], dtype=int64)

In [38]:
# 데이터 타입 변경
arr4.astype(np.float64)

array([[1., 4., 3.],
       [4., 2., 5.]])

In [44]:
# 모양 바꿔주기
# 바꿔주기 전과 바꾸려고 하는 요소의 전체개수(행 * 열)가 같아야함
#.shape 으로 (2,3) 이 나왔다면 행 * 열이 꼭 6이 되어야함
arr3.reshape(3, 2)

array([[1, 2],
       [3, 4],
       [5, 6]])

### 3. ndarray 연산 
- 요소별 연산 특화!
- 브로드 캐스팅( 차원을 동일시 하는 기능) 지원

In [47]:
# 리스트의 연산방식 -> 이어붙이기
list1 = [1,2,3]
list2 = [4,5,6]

# + 기호를 사용한다면 두 리스트의 합이 담긴 리스트가 아니라
# 그냥 두개를 이어붙인 형태로 반환
print(list1 + list2)

# 각각 값을 도출해야지만 연산가능
# ex)
list1[0] + list2[0]

[1, 2, 3, 4, 5, 6]


5

In [48]:
# array 연산방식 -> 요소별 연산
arr1 = np.array(list1)
arr2 = np.array(list2)

# array의 요소들끼리 더함
# 요소들의 개수가 일치해야 연산 가능
print(arr1 + arr2)

[5 7 9]


In [49]:
# 2차원 array 연산
arr3 = np.array([[1,2,3],[4,5,6]])
arr4 = np.array([[7,8,9],[10,11,12]])
print(arr3 + arr4)

[[ 8 10 12]
 [14 16 18]]


In [52]:
# 브로드 캐스팅 : 차원수를 동일시 하는 기능
print(arr1.ndim) # 1차원 array
print(arr3.ndim) # 2차원 array

print(arr1)
print(arr3)
arr1 + arr3

1
2
[1 2 3]
[[1 2 3]
 [4 5 6]]


array([[2, 4, 6],
       [5, 7, 9]])

In [55]:
# 브로드 캐스팅을 통해 각 요소들 제곱도 가능함
arr3 ** 2 #2차원과 0차원을 계산하려한다면 0차원을 2차원으로 변형시켜줌

array([[ 1,  4,  9],
       [16, 25, 36]])

In [56]:
arr7 = np.array([1,2])
arr8 = np.array([[1,2,3],[4,5,6]])

arr7 + arr8

#arr7 을 아무리 변환시켜도 2 *3 을 만족하게 변환이 안되기 때문에 오류가 남

ValueError: operands could not be broadcast together with shapes (2,) (2,3) 

In [58]:
# 그럴때는 T (transpose : array의 행과 열을 바꿔줌)를 사용해서 더하면 행이 일치하기때문에 연산 가능하게 변함
# array '전치' 라고 표현함
arr7 + arr8.T

array([[2, 6],
       [3, 7],
       [4, 8]])

### NumPy 인덱싱 & 슬라이싱
- 인덱스(index) : 데이터의 순서(방 번호)
- 인덱싱(indexing) : 무엇인가(보통 인덱스 번호)를 '가리킨다'는 의미
- 슬라이싱(slicing) : 무엇인가(보통 인덱스 번호)를 잘라낸다

인덱싱

In [59]:
# 1차원 array 인덱싱
arr1 = np.array([1,2,3,4,5])
arr1
# 숫자 2 인덱싱
arr1[1]

array([1, 2, 3, 4, 5])

In [69]:
# 2차원 array 인덱싱
arr2 = np.array([[1,2,3],[4,5,6]])
# 숫자2 가져오기
# 1. 배열[행][열]
arr2[0][1]
# 2. 배열[0,1]
arr2[0,1]

2

In [5]:
# 실습 데이터 생성
arr3 = np.array([[1,2,3,4,5],[6,7,8,9,10]])
arr3[1][3]
arr3[1,3]
arr3[0:2,4] # 0-2행까지의 4번째 인덱스값을 가져온다

array([ 5, 10])

In [8]:
arr1 = np.array([[1, 2, 3, 4],[11, 12, 13, 14]])
arr2 = np.array([[5, 6, 7, 8],[15, 16, 17, 18]])
np.concatenate((arr1, arr2), axis = 0)
#np.concatenate((arr1, arr2), axis = 1)

array([[ 1,  2,  3,  4],
       [11, 12, 13, 14],
       [ 5,  6,  7,  8],
       [15, 16, 17, 18]])

슬라이싱

In [10]:
# 0 ~ 10 범위를 가진 1차원 배열 생성 (arrange() 함수 사용)
arr4= np.arange(11) # 0-10가지 순차적으로 들어있는 1차원 배열 생성해줌
# arr4 에서 2~5까지 슬라이싱 하기
arr4[2:6]

# 5~9 가져오기 (-사용한 슬라이싱)
arr4[-6:-1]

# 특정 인덱스부터(시작값) 끝까지 가져오고 싶을 때
arr4[5:]
arr4[-11:-1]
arr4[:]

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [16]:
# 슬라이싱 해온 자리(범위)를 새로운 데이터로 바꿔주기
# 3~8 슬라이싱 -> 4
arr4[3:5] = 4,5
arr4

array([ 0,  1,  2,  4,  5,  4,  4,  4,  4,  9, 10])

In [18]:
# 2차원 배열 슬라이싱
arr5 = np.arange(1,51).reshape(5,10) #reshape(행, 열)
arr5


array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [20]:
# 15,16,17 슬라이싱
print(arr5[1,4:7])
print(arr5[1][4:7])

# 전체행에서 0번째 열만 출력
arr5[:,0]
# 2번째 행에서 전체 열 출력
arr5[1,:]
# 전체 행의 0열부터 2열까지 출력
arr5[:, 0:3]
# 숫자 36 가져오기
arr5[3][5]
arr5[3,5]

# 숫자 22, 33 데이터 가져오기
# arr5[[행,행],[열,열]]
arr5[[2,3],[1,2]]
#arr5[[2행,3행], [1열,2열]]
# 2행1열 , 3행2열

# 숫자 12,37,49 데이터 가져오기
arr5[[1,3,4],[1,6,-2]]
arr5[[1,3,4],[1,6,8]]


[15 16 17]
[15 16 17]


array([12, 37, 49])

### BMI지수 구하기 실습

In [151]:
# 1. 사용할 라이브러리 불러오기
import numpy as np
# 2. 데이터 읽어오기 (.txt파일 확장자 읽어오기)
data = np.loadtxt('height_weight(p).txt', delimiter = ",")
#                  '텍스트 파일명 ', delimiter : 구분기호 = 쉼표를 기준으로 구분하라
data

array([[175.2   , 180.3   , 175.    , 169.2   , 185.2   , 188.    ,
        177.6   , 178.2   , 177.    , 179.    ],
       [144.5824, 193.952 , 174.5568, 152.7372, 121.22  , 156.9248,
        160.892 , 151.8556, 163.096 , 180.728 ]])

![image.png](attachment:image.png)
#### 데이터 설명

- 0행은 키 정보의 (cm) 데이터 
- 1행은 몸무게 정보 (lb) 데이터
- BMI 지수를 구하기 위해서는 cm를 m로, lb를 kg으로 변환해주어야한다

In [153]:
# print(data.shape)
# print(data.ndim)

array([1.752, 1.803, 1.75 , 1.692, 1.852, 1.88 , 1.776, 1.782, 1.77 ,
       1.79 ])

In [165]:
# 1. 키 데이터만 인덱싱해서 변수 h에 담기
h = data[0]
# 2. 몸무게 데이터만 인덱싱해서 변수w에 담기
w = data[1]
# cm * 0.01 = m
h = h*0.01
h = h**h
# lb / 2.204 = kg
w = w/2.204
# bmi = 몸무게(kg)/키(m) * 키(m)
arrBmi = w/h
arrBmi

array([24.56021097, 30.40341565, 29.74463174, 28.46294461, 17.56675686,
       21.73017566, 26.32159246, 24.60943829, 26.93512766, 28.92057524])

### NumPy 불리언 인덱싱(색인)
- 필터링의 기능을 담당
- 조건에 해당하는 (True)값들만 출력할 때 사용
- 조건에 해당하는 값이 존재하는지 모를 때 사용




In [170]:
# 숫자형
score = np.array([80,75,62,37,90])
result = score > 70
result
#논리연산
#array[조건식] = 조건식에 맞는 데이터만 출력 (if True -> 출력)
score[score>70]

array([80, 75, 90])

In [173]:
# 문자형
name = np.array(['민수', '철수', '영희', '수지'])
name
# 결과 : array(['민수', '철수', '영희', '수지'], dtype='<U2')
# '<U2' : Unicode 문자형이다 라는 뜻

# 찾고자 하는 이름이 있는지 찾아보기
name == '민수'

# boolean 인덱싱
# - boolean indexing을 할때는 각 데이터의 개수가 같아야함
bol = np.array([False, True, True, False])
name[bol] #True인 값만 출력해줌

array([False,  True,  True, False])

In [177]:
score2 = np.array([[80,90],[70,90], [90,95], [100,80]])


array([ True, False, False, False])

In [178]:
#내가 찾고자하는 이름(민수)의 점수를 가져오는게 가능하다
score2[name=='민수']

array([[80, 90]])

### Universally (범용함수)
- NumPy에서 제공해주는 함수
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

In [192]:
#1~10까지 순차적인 배열 생성 # reshape (2행 5열)
arr1 = np.arange(1,11).reshape(2,5)
arr1

#1~10까지 랜덤한 수로 배열 생성 # size (2행 5열)
arr = np.random.randint(1,10,size=(2,5))
arr

array([[9, 5, 8, 1, 9],
       [3, 7, 2, 9, 9]])

In [188]:
#파이썬 기본 sum()함수
print(arr.sum())
#NumPy에서 제공하는 sum()함수
print(np.sum(arr))

56
56


In [193]:
# mean() : 전체 요소값에 대한 평균을 구해주는 함수
# 변수명.mean() -> 파이썬 기본함수
# np.mean(변수명) ->NumPy함수

print(arr.mean())
print(np.mean(arr))

6.2
6.2


In [195]:
# sqrt() : 제곱근을 구해주는 함수 sqaureroot (파이썬에서는 제공 X)
# np.sqrt(변수명)
print(np.sqrt(arr1))

[[1.         1.41421356 1.73205081 2.         2.23606798]
 [2.44948974 2.64575131 2.82842712 3.         3.16227766]]


In [199]:
# abs() : 절대값을 구해주는 함수(음수 -> 양수) (파이썬에서는 제공 X)
# np.abs(변수명)
arr3 = np.array([-1,-2,-3,-4,-5])
print(np.abs(arr3))


[1 2 3 4 5]


### 넘파이 최종 실습
- 영화 리뷰 평점 데이터 분석

In [21]:
import numpy as np

#txt load
m_data = np.genfromtxt('ratings.txt', delimiter = '::', dtype = 'int64')
m_data

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]], dtype=int64)

### 컬럼명 (열 이름)
#### 사용자ID // 영화ID //영화평점 // 리뷰를 입력한 시간

#### 데이터 속성 확인
- 배열의 크기, 개수, 타입, 차원

In [15]:
print("배열의 크기: ", m_data.shape)
print("배열의 전체 요소 개수: ", m_data.size)
print("배열의 타입: ", m_data.dtype)
print("배열의 차원: ", m_data.ndim)

배열의 크기:  (1000209, 4)
배열의 전체 요소 개수:  4000836
배열의 타입:  int64
배열의 차원:  2


##### 전체 영화의 평점 평균 구하기
- 1. 전체 데이터에서 평점은 어디에 있는지? 찾아서 불러오기(변수에 저장해서 보관)
- 2. 평균은 어떻게 구하는지?

In [23]:
rating_avg = m_data[:,2]
np.mean(rating_avg)

3.581564453029317

##### 1번 사용자가 매긴 평점의 평균 구해보기
- 1. 전체 데이터에서 사용자는 어디에 있는지?
- 2. 1번 사용자만 보려면 어떻게 해야하나요? (boolean 자료형)
- 3. 전체 데이터에서 1번 사용자만 존재하는 데이터로 출력(boolean 인덱싱)
- 4. 1번 사용자가 매긴 평점의 평균 구하기

In [29]:
user_data = m_data[:, 0]
user1_data = user_data== 1
print(user1_data)
#boolean indexing
# np.mean(m_data[user1_data][:,2])
# m_data[user1_data][:,2].mean()
m_data[user1_data]


[ True  True  True ... False False False]


array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       [        1,      3408,         4, 978300275],
       [        1,      2355,         5, 978824291],
       [        1,      1197,         3, 978302268],
       [        1,      1287,         5, 978302039],
       [        1,      2804,         5, 978300719],
       [        1,       594,         4, 978302268],
       [        1,       919,         4, 978301368],
       [        1,       595,         5, 978824268],
       [        1,       938,         4, 978301752],
       [        1,      2398,         4, 978302281],
       [        1,      2918,         4, 978302124],
       [        1,      1035,         5, 978301753],
       [        1,      2791,         4, 978302188],
       [        1,      2687,         3, 978824268],
       [        1,      2018,         4, 978301777],
       [        1,      3105,         5, 97830

##### 총 몇명의 사용자가 평점을 매겼는지 알아보자
- 1. 사용자 아이디의 유일한 값 구하기(중복제거)
- 2. 개수 확인

In [85]:
# unique() : 중복을 제거해주는 함수
user_id = np.unique(m_data[:, 0])
#user_id = np.unique(m_data[:, 0], return_counts = True) 각 데이터의 갯수 반환
user_id.size #array의 크기 반환
# np.count_nonzero(a)


6040

##### 각 사용자가 매긴 평점의 평균을 구해보자

In [77]:
c = m_data[m_data[:,0] == 1, 2].mean()
c

4.188679245283019

In [80]:
# 각 사용자가 매긴 평점의 평균을 집어넣을 공간 필요
user_mean_list = []
for i in user_id:
    #사용자가 1번부터 6040번 까지 반복되면서 2번 인덱스 열 값의 평균을 구함
    c = m_data[m_data[:,0] == i, 2].mean()#[행 불리언 인덱싱, 열 인덱싱]
    user_mean_list.append([i, c]) #user_mean_list 에 배열형태로 저장 [[i, c], [i+1, c]]
user_mean_list

[[1, 4.188679245283019],
 [2, 3.7131782945736433],
 [3, 3.9019607843137254],
 [4, 4.190476190476191],
 [5, 3.1464646464646466],
 [6, 3.9014084507042255],
 [7, 4.32258064516129],
 [8, 3.884892086330935],
 [9, 3.7358490566037736],
 [10, 4.114713216957606],
 [11, 3.2773722627737225],
 [12, 3.8260869565217392],
 [13, 3.388888888888889],
 [14, 3.32],
 [15, 3.3233830845771144],
 [16, 3.0285714285714285],
 [17, 4.075829383886256],
 [18, 3.6491803278688524],
 [19, 3.5725490196078433],
 [20, 4.083333333333333],
 [21, 2.909090909090909],
 [22, 3.0673400673400675],
 [23, 3.3157894736842106],
 [24, 3.948529411764706],
 [25, 3.7411764705882353],
 [26, 2.96],
 [27, 4.171428571428572],
 [28, 3.7570093457943927],
 [29, 3.5833333333333335],
 [30, 3.488372093023256],
 [31, 3.73109243697479],
 [32, 3.625],
 [33, 3.498721227621483],
 [34, 3.8658536585365852],
 [35, 3.54040404040404],
 [36, 4.199430199430199],
 [37, 3.69811320754717],
 [38, 3.58],
 [39, 3.564516129032258],
 [40, 3.4479166666666665],
 [41, 

##### 각 사용자들의 평점 평균 중 4점 이상의 평점만 구해보자

In [98]:
#리스트에서는 배열의 요소간 연산이 불가능
#배열의 요소간 연산이 가능하도록 리스트를 array로 변환해야함

user_mean_array = np.array(user_mean_list)
#e+00 : 컴퓨터만의 지수표현 방식(실수형 데이터)
# 크키가 너무 크거나 작은 수를 표현해야 할 경우
user_mean_array

# 실수형 데이터를 정수형으로 형변환
# astype(): 데이터 타입 변환
user_mean_array = user_mean_array.astype(np.int64) #np의 int64형태로 형변환

# 1. 평점이 4점이 넘는 사람의 아이디에 접근
# 2. 그 사람들의 인원수를 계산
a = user_mean_array[user_mean_array[:,1] >= 4]
unique, counts = np.unique(a, return_counts = True)

##### 영화의 평점을 4점이상 매긴 사람들은 몇명인지 구해보자

In [99]:
# size를 사용하면 2차원 배열의 모든 요소 개수를 출력해주기 때문에 불필요한 평점 개수까지 포함해서 세어진다
user_mean_array[user_mean_array[:,1] >= 4].size
user_mean_array[user_mean_array[:,1] >= 4].shape #한 열의 요소갯수와 열의 갯수 출력해줌

(1544, 2)

##### 분석한 결과를 csv파일로 저장하기

In [100]:
# 파일명.확장자를 적어주는 것이 가장 중요하다
# np.savetxt(파일명.확장자, 실제데이터, 구분자, 데이터표현방식)
np.savetxt("user_mean_list.csv", user_mean_list, delimiter = ",", fmt = "%.3f") #fmt = formatting,  %.3f = 소숫점 3자리까지만 출력