### 구글드라이브 연동



In [None]:
# 구글드라이브 연동
from google.colab import drive
drive.mount('/gdrive', force_remount=True)

# 구글 드라이브 파일 확인
!ls '/gdrive/My Drive/temp/'

# 반복되는 드라이브 경로 변수화
drive_path = '/gdrive/My Drive/temp/'

### 파이썬 머신러닝을 위한 모듈(라이브러리)


* 머신러닝 라이브러리
 * 사이킷런(Scikit-Learn)
* 행렬/선형대수/통계 라이브러리
  * **넘파이(NumPy): 고성능 과학계산을 위한 데이터 분석**(행렬, 선형대수)
  * 사이파이(SciPy): 자연과학, 통계
* 데이터 핸들링
 * 판다스(Pandas): 행과 열로 구성된 표 형식의 데이터(2차원 데이터 처리)
* 시각화
 * 맷플롯립(Matplotlib): 2D 그래프로 시각화
 * 시본(Seaborn): 다양한 색상 테마로 시각화

# Numpy (Numerical Python)
- 벡터 및 행렬 연산에 있어서 매우 편리한 기능을 제공
- 빠르고 효율적인 벡터 산술연산을 제공하는 n 차원 배열 (ndarray)
- 반복문 없이 전체 데이터 배열 연산이 가능한 표준 수학 함수 (sum(), sqrt(), mean())
- 선형대수, 난수 생성, 푸리에 변환

## Numpy 기초


In [None]:
# Numpy 모듈(라이브러리)를 import하고 np 라는 이름으로 부르는 것이 관례
import numpy as np

In [None]:
np.__version__

'1.19.5'

**numpy.ndarray (N-dimensional array)**

- 동일한 자료형을 가지는 값들이 배열 형태로 존재함
- N 차원 형태로 구성이 가능하다.
- 각 값들은 양의 정수로 색인(index)가 부여되어 있다.
- Numpy에서 차원(Dimension)을 rank, axis라고 부르기도 한다.
- ndarray를 줄여서 array로 표현한다.

<br>

- 리스트와 비슷하지만, ndarray는 다차원 배열이다.
- Numpy의 array는 고정된 크기를 갖는다.
- array는 유형이 모두 동일하고 크기가 고정된 컨테이너이다.

In [None]:
list = [1, 2, 3]
array1 = np.array(list)
print(type(array1), array1.shape) # 1차원, 크기 3의 array

array2 = np.array([[1,2,3],
                   [4,5,6]])
print(type(array2), array2.shape) # 2차원, 2행 3열

array3 = np.array([[1,2,3]])
print(array3.shape) # 2차원, 1행 3열

<class 'numpy.ndarray'> (3,)
<class 'numpy.ndarray'> (2, 3)
(1, 3)


ndarray.shape

해당 array의 크기를 알 수 있다.

- ndarray의 차원과 크기를 튜플(tuple) 형태로 출력

- shape 을 확인함으로써 몇개의 데이터가 있는지, 몇 차원으로 존재하는지 등을 확인할 수 있다.

- 위에서 array1.shape의 결과는 (3,) 으로써, 1차원의 데이터이며 총 3이라는 크기를 갖고 있음을 알 수 있다.

- array2.shape의 결과는 (2,3) 으로써, 2차원의 데이터이며 2 * 3 크기를 갖고 있는 array 이다.


In [None]:
# array 차원(Dimension) 확인

array1.ndim, array2.ndim, array3.ndim

(1, 2, 2)

In [None]:
# array의 사이즈 확인

array1.size, array2.size, array3.size 
# array1 : 1차원, 크기 3
# array2 : 2차원, 2행 3열 (2 * 3 = 6)
# array3 : 2차원, 1행 3열 (1 * 3 = 3)

(3, 6, 3)

numpy에서 사용되는 자료형

- 부호가 있는 정수 int(8, 16, 32, 64)
- 부호가 없는 정수 uint(8 ,16, 32, 54)
- 실수 float(16, 32, 64, 128)
- 복소수 complex(64, 128, 256)
- 불리언 bool
- 문자열 string_
- 파이썬 오프젝트 object
- 유니코드 unicode_


In [None]:
# numpy에서 데이터의 종류는 한 가지 종류여야 한다.

list1 = [1, 2, 3]
print(type(list1))

array = np.array(list1)
array1.dtype # 데이터 타입 확인

<class 'list'>


dtype('int64')

In [None]:
list2 = [1, 2, 'test']
print(type(list2))

array2 = np.array(list2) # list2의 리스트가 전부 문자열로 바뀌게 됨
array2.dtype, array2 # 데이터 타입 확인

<class 'list'>


(dtype('<U21'), array(['1', '2', 'test'], dtype='<U21'))

In [None]:
list3 = [1, 2, 3.0]
print(type(list3))

array3 = np.array(list3)
print('array3', array3.dtype, array3)

<class 'list'>
array3 float64 [1. 2. 3.]


- 리스트와 다르게 ndarray는 같은 데이터 타입만 가능.
- 서로 다른 데이터 타입이 섞여 있을 경우 큰 데이터 타입으로 형 변환을 일괄 적용

In [None]:
array_int = np.array([1, 2, 3])
print(array_int, array_int.dtype)

array_float = array_int.astype('float64') # int type 변경
print(array_float, array_float.dtype)

[1 2 3] int64
[1. 2. 3.] float64


In [None]:
# 타입을 지정하여 생성
array_int = np.array([1.1, 2.1, 3.1] , dtype = np.int64)
print(array_int, array_int.dtype)

[1 2 3] int64


#### Numpy 예제 01
Numpy를 이용해 다음과 같은 3차원 배열을 만들고 배열의 크기, 차원, 전체 요소 개수을 확인해보자 
```
array([[[1,2],
        [3,4]],
        
       [[5,6],
        [7,8]]])
```
```
배열의 크기: (2, 2, 2)
배열의 차원: 3
배열의 개수: 8
```


In [None]:
array_t = np. array([[[1,2],
                      [3,4]],
                
                      [[5,6],
                       [7,8]]])

print("배열의 크기 :", array_t.shape)
print("배열의 차원 :", array_t.ndim)
print("배열의 개수 :", array_t.size)

배열의 크기 : (2, 2, 2)
배열의 차원 : 3
배열의 개수 : 8


### ndarray 생성

In [None]:
# 연속값으로 생성
seq_array = np.arange(10) # 연속된 값을 만들어준다
seq_array, seq_array.dtype, seq_array.shape

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), dtype('int64'), (10,))

In [None]:
# 초기화
zero_array = np.zeros((3,2), dtype = np.int32)
zero_array, zero_array.shape

(array([[0, 0],
        [0, 0],
        [0, 0]], dtype=int32), (3, 2))

In [None]:
one_array = np.ones( (3,2), dtype = np.int32 ) # np.ones() : 1로 채워줌
one_array

array([[1, 1],
       [1, 1],
       [1, 1]], dtype=int32)

In [None]:
# 특정 값으로 초기화

np.full((5, 5), 7)

array([[7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7]])

In [None]:
full_array = np.full((5, 5), 7) # 변수에 저장
full_array.shape

(5, 5)

In [None]:
# 랜덤 초기화 (seed 값을 한정함)

np.random.seed(10) 

In [None]:
# (2, 3)의 형태로 2와 10 사이의 int형 숫자 중 랜덤으로 값 생성

a = np.random.randint(2, 10, size = (2, 3)) # 2 * 3 의 행렬을 랜덤으로 값 생성
print(a, a.dtype)

[[2 9 9]
 [5 9 8]] int64


#### Numpy 예제 02
1,2,3,....,50 이 담긴 배열을 생성하시오.

In [None]:
ex2 = np.arange(1, 51)
ex2

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

### ndarray 차원과 크기 변경

In [None]:
array1 = np.arange(1, 13)
print(array1)

array2 = array1.reshape(3, 4) # 차원 변경
print(array2)

array3 = array1.reshape (2, 6) # size와 동일하지 않음
print(array3)

[ 1  2  3  4  5  6  7  8  9 10 11 12]
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]]


In [None]:
# 자동변환 
# 마이너스(-)를 자동으로 호환 가능하게 변경 (약수를 넣어주어야 한다)

array2 = array1.reshape(-1, 6)
print(array2)

array3 = array1.reshape(-1, 2)
print(array3)

[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]]
[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]
 [11 12]]


In [None]:
array1 = np.arange(8)
array3d = array1.reshape( (2, 2, 2) )
print(array3d.tolist()) # 리스트 타입으로 변환

# (8, 1)로 차원 변환
array5 = array3d.reshape(8, 1) # 모르겠을 때, (-1, 1)
print(array5)
print(array1.reshape(-1,1))

[[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]


### ndarray 인덱싱 & 슬라이싱
- 특정 데이터 추출
- 슬라이싱(Slicing) : 연속된 데이터 추출
- 팬시 인덱싱(Fancy Indexing) : 리스트 또는 ndarray 형태의 인덱싱 집합을 이용하여 여러 데이터를 추출
- 불린 인덱싱(Boolean Indexing) : True/False 값 인덱싱 집합을 이용하여 해당 인덱스 위치에 있는 데이터를 추출

In [None]:
array = np.arange(1, 10)
print(array)

[1 2 3 4 5 6 7 8 9]


In [None]:
array[-1], array[-2]

(9, 8)

In [None]:
array[0] = 10
array[7] = 0
array

array([10,  2,  3,  4,  5,  6,  7,  0,  9])

In [None]:
# 리스트 1차원 접근

array1d = np.arange(1, 10)
array2d = array1d.reshape(3, 3) # 2차원 형태로 변환
print(array2d)
print(array2d[0])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 2 3]


In [None]:
print(array2d[1][1])
print(array2d[1, 1])

print(array2d[0, 1]) # row = 0, column = 1

5
5
2


슬라이싱
- ':' 기호 앞에 시작 인덱스를 생략하면 맨 처음 인덱스인 0으로 간주
- ':' 기호 뒤에 종료 인덱스를 생략하면 맨 마지막 인덱스로 간주
- ':' 기호 앞/뒤에 시작/종료 인덱스를 생략하면 맨 처음/마지막 인덱스로 간주



In [None]:
arr = np.arange(1, 10)
print(arr)

print(arr[1:5])
print(arr[:3])
print(arr[3:])
print(arr[:]) # all

[1 2 3 4 5 6 7 8 9]
[2 3 4 5]
[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [None]:
# 2차원 슬라이싱

arr = np.arange(1,10).reshape(3, 3)
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [None]:
print(arr[:2, :2])  # print(arr[0:2, 0:2])

[[1 2]
 [4 5]]


In [None]:
print(arr[1: , :])

[[4 5 6]
 [7 8 9]]


In [None]:
print(arr[1: , 1:2])
print(arr[1: , 1])
print(arr[1: , 1:-1])

[[5]
 [8]]
[5 8]
[[5]
 [8]]


In [None]:
print(arr[:2 , 1:])

[[2 3]
 [5 6]]


#### 팬시 인덱싱

- 팬시 인덱싱(Fancy Indexing) : 리스트 또는 ndarray 형태의 인덱싱 집합을 이용하여 여러 데이터를 추출

In [None]:
# 1차원

arr = np.arange(1,10)
print(arr)
print(arr[[2, 4, 7]]) # 인덱스를 연속으로 제공

[1 2 3 4 5 6 7 8 9]
[3 5 8]


In [None]:
# 2차원

arr = np.arange(1, 10). reshape(3, 3)
print(arr)
print(arr[[0, 2], [2]])
print(arr[[0, 2], :2])
print(arr[[0, 2], [2,1]])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[3 9]
[[1 2]
 [7 8]]
[3 8]


In [None]:
arr = np.arange(1, 10). reshape(3, 3)
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [None]:
print(arr[[0,2], :])

[[1 2 3]
 [7 8 9]]


#### 불린 인덱싱(Boolean Indexing)

- 불린 인덱싱(Boolean Indexing) : True/False 값 인덱싱 집합을 이용하여 해당 인덱스 위치에 있는 데이터를 추출

In [None]:
# 1차원

arr = np.arange(1, 10)
print(arr)

[1 2 3 4 5 6 7 8 9]


In [None]:
print(arr[arr > 5])

[6 7 8 9]


In [None]:
print(arr > 5)

[False False False False False  True  True  True  True]


In [None]:
name = np.array(['홍길동', '박철수', '이혜수', '김영원', '을지문덕'])
name_score = np.array( [[60, 60], [70, 70], [80, 80], [90, 90], [100, 100]] )
print(name_score)

[[ 60  60]
 [ 70  70]
 [ 80  80]
 [ 90  90]
 [100 100]]


In [None]:
print(name == '홍길동')

[ True False False False False]


In [None]:
print(name_score[name == '홍길동'])

[[60 60]]


#### Numpy 예제 03 

BMI 구하기

10명에 대한 키와 몸무게가 들어있는 파일 ‘height_weight.txt’을 읽어 각 사람별 BMI 지수를 구하시오.
```
data = np.loadtxt(drive_path + "height_weight.txt", delimiter = ",") # delimiter : 구분자
data
```
  \\( BMI지수=\frac { 몸무게(kg) }{ 키(m) \times 키(m) } \\)
```
# 제곱 계산
# **2 or np.square()
```

In [None]:
# 구글드라이브 연동
from google.colab import drive
drive.mount('/gdrive', force_remount=True)

# 구글 드라이브 파일 확인
!ls '/gdrive/My Drive/temp/'

# 반복되는 드라이브 경로 변수화
drive_path = '/gdrive/My Drive/temp/'

Mounted at /gdrive
 매수종목1.txt		   lenna.png		   score.csv
 매수종목2.txt		   little-char.png	   sonar.csv
 adult.data		   ml_class.png		   stock-data.csv
 auto-mpg.csv		   pca_1.png		  'stock price.xlsx'
 bmi_500.csv		   pca_2.png		  'stock valuation.xlsx'
 citibike.csv		   pca_3.png		   test.db.db
 매수종목.csv		   Picture1.png		   test.txt
 data_mine.csv		   population_number.csv   ThoraricSurgery.csv
 data_population.csv	   ram_price.csv	   titanic.xls
 data_studentlist_en.csv   ratings_small.txt	   tmdb_5000_credits.csv
 demo.docx		   ratings_test.txt	   tmdb_5000_movies.csv
 diabetes.csv		   ratings_train.txt	   Traffic_Accident_2017.csv
 example.docx		   sample1.pdf		   train.csv
 height_weight.txt	   sample2.pdf		   user_id_mean.csv
'Hello World.xlsx'	   sample.docx		   wine.csv
 HelloWorld.xlsx	   sample_merge.pdf	   주가데이터.xlsx
 house_price.csv	   sample.xlsx		   남북한발전전력량.xlsx


In [None]:
data = np.loadtxt(drive_path + "height_weight.txt", delimiter = ",") # delimiter : 구분자
data

array([[175.2, 180.3, 175. , 169.2, 185.2, 188. , 177.6, 178.2, 177. ,
        179. ],
       [ 65.6,  88. ,  79.2,  69.3,  55. ,  71.2,  73. ,  68.9,  74. ,
         82. ]])

In [None]:
data.ndim

2

  \\( BMI지수=\frac { 몸무게(kg) }{ 키(m) \times 키(m) } \\)
```
# 제곱 계산
# **2 or np.square()
```

In [None]:
print(data[0])

[175.2 180.3 175.  169.2 185.2 188.  177.6 178.2 177.  179. ]


In [None]:
print(data[0,0])

175.2


In [None]:
# 1 / 리스트 방식
bmi = []
for i in range(0, 10) :
  bmi.append( data[1,i] / (data[0,i] / 100) **2 )

bmi

[21.371531035633122,
 27.070184683258837,
 25.86122448979592,
 24.206528846637497,
 16.035434227896758,
 20.144861928474423,
 23.143920947975,
 21.697206508280214,
 23.620287912158062,
 25.592209980961893]

In [None]:
# 2 / for문 축약형

bmi = [ data[1, i] / ((data[0, i] / 100)**2) for i in range(0, 10) ]
bmi

[21.371531035633122,
 27.070184683258837,
 25.86122448979592,
 24.206528846637497,
 16.035434227896758,
 20.144861928474423,
 23.143920947975,
 21.697206508280214,
 23.620287912158062,
 25.592209980961893]

In [None]:
# 3 /numpy 사용

height = data[0] / 100
weight = data[1]

BMI = weight / height ** 2
BMI

array([21.37153104, 27.07018468, 25.86122449, 24.20652885, 16.03543423,
       20.14486193, 23.14392095, 21.69720651, 23.62028791, 25.59220998])

In [None]:
BMI = data[1] / ((data[0] / 100 ) ** 2)
BMI

array([21.37153104, 27.07018468, 25.86122449, 24.20652885, 16.03543423,
       20.14486193, 23.14392095, 21.69720651, 23.62028791, 25.59220998])

### 행렬의 정렬
- sort() : 정렬
- argsort() : 정렬된 행렬의 원본 행렬 원소에 대한 인덱스를 반환

In [None]:
org_array = np.array( [3, 1, 8, 5])
sort_array = np.sort(org_array)
print(org_array)
print(sort_array)

[3 1 8 5]
[1 3 5 8]


In [None]:
sort_array = org_array.sort() # 원본이 바뀜
print(org_array)
print(sort_array)

[1 3 5 8]
None


In [None]:
org_array = np.array( [3, 1, 8, 5])
org_array[::-1] # 증감 연산자 역순 정렬 효과

array([5, 8, 1, 3])

In [None]:
# 2차원 정렬

array = np.array([[8, 12], 
                  [7, 1]])
print(array)

[[ 8 12]
 [ 7  1]]
[[ 8 12]
 [ 1  7]]


In [None]:
# axis : 축 / axis = 0 열 방향  axis = 1 횡 방향
np.sort(array, axis = 0)

array([[ 7,  1],
       [ 8, 12]])

In [None]:
org_array = np.array( [3, 1, 8, 5])
np.argsort(org_array) # 정렬 후의 인덱스 번호 출력

array([1, 0, 3, 2])

In [None]:
name = np.array(['홍길동', '박철수', '이혜수', '김영원', '을지문덕'])
name_score = np.array( [[78, 96, 84, 98, 88]] )

sort_index = np.argsort(name_score)[::-1]
print(sort_index)
print(name[sort_index])

[[0 2 4 1 3]]
[['홍길동' '이혜수' '을지문덕' '박철수' '김영원']]


### ndarray 연산
- 일반연산 : 산술연산, 비교연산 ...
- 선형대수 연산 : 행렬 내적과 전치 행렬

In [None]:
array = np.array([1, 2, 3])
array + 100

array([101, 102, 103])

In [None]:
array + array

array([2, 4, 6])

In [None]:
array * array # 요소들끼리 곱셈이 됨

array([1, 4, 9])

In [None]:
array - array

array([0, 0, 0])

In [None]:
np.subtract(array, array) # array - array 와 같다

array([0, 0, 0])

In [None]:
array == 1 # 불린

array([ True, False, False])

In [None]:
array == array

array([ True,  True,  True])

In [None]:
# numpy.dot(a, b)
# 두 입력 배열의 내적을 계산
# a와 b가 모두 0차원 (scalar)이면, 곱 연산과 같다.
# a와 b가 모두 1차원 array 면, 두 벡터의 내적 (Dot product)이 된다.
# a와 b가 모두 2차원 array 면, 행렬곱 (Matrix multiplication)이 된다. 하지만 numpy.matmul을 사용하는 것을 권장

np.dot(array, array) # 1*1 + 2*2 + 3*3 = 14

14

In [None]:
a = np.array([[1, 2, 3],
              [4, 5, 6]])
b = np.array([[7, 8],
              [9, 10],
              [11, 12]])
np.dot(a, b)

array([[ 58,  64],
       [139, 154]])

In [None]:
# 전치행렬 : 행과 열의 위치를 바꿔줌

np.transpose(a)

array([[1, 4],
       [2, 5],
       [3, 6]])

In [None]:
# 전치행렬 : 행과 열의 위치 교환

a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

### Universal 함수
- sin(), cos() 다양한 수학함수를 제공
- 스칼라값을 입력으로 하는 math 패키지와 달리 배열에 대해 요소별로 적용

In [None]:
# 합계 구하기 / sum()

array = np.arange(1, 11)
array.sum()

55

In [None]:
# 평균값 구하기

array.mean()

5.5

In [None]:
array = np.array( [-1, -2, 3, 4, -5] )
np.abs(array)

array([1, 2, 3, 4, 5])

#### Numpy 예제 04

영화평점 데이터 분석

In [None]:
data = np.loadtxt(drive_path + "ratings_small.txt", 
                  delimiter = "::", dtype = np.int64)
data

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     1779,      2502,         4, 998699749],
       [     1779,      3160,         5, 977032398],
       [     1779,      3168,         4, 977033232]])

##### 데이터 분석하기
```
print(data.ndim)
print(data.shape)
print(data.size)
```

In [None]:
print(data.ndim)
print(data.shape)
print(data.size)

2
(300001, 4)
1200004


##### 전체 평점 평균 구하기
1. 평점 데이터만 추출 (인덱싱, 슬라이싱)
2. 평균 구하기 (mean)

In [None]:
rating_all = data[:, 2]
rating_all.mean()

3.5613081289729034

In [None]:
np.mean( data[:, 2] )

3.5613081289729034

##### 각 사용자별 평점 평균 구하기
1번 사용자의 평균 평점 구하기
1. 1번 사용자의 데이터만 Boolean Indexing 추출
2. 1번 사용자의 데이터에서 평점만 추출 (인덱싱, 슬라이싱)
3. 평균 구하기

참고
```
# 중복된 성분을 제외한 array를 반환
np.unique( ndarray )
```

In [None]:
user1 = data[ data[:, 0] == 1 ]
user1

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       [        1,      3408,         4, 978300275],
       [        1,      2355,         5, 978824291],
       [        1,      1197,         3, 978302268],
       [        1,      1287,         5, 978302039],
       [        1,      2804,         5, 978300719],
       [        1,       594,         4, 978302268],
       [        1,       919,         4, 978301368],
       [        1,       595,         5, 978824268],
       [        1,       938,         4, 978301752],
       [        1,      2398,         4, 978302281],
       [        1,      2918,         4, 978302124],
       [        1,      1035,         5, 978301753],
       [        1,      2791,         4, 978302188],
       [        1,      2687,         3, 978824268],
       [        1,      2018,         4, 978301777],
       [        1,      3105,         5, 97830

In [None]:
user_id_all = np.unique( data[:, 0] )
user_id_all.shape

(1779,)

In [None]:
user1_rating = r1[:, 2]
user1_rating.mean()

4.188679245283019

In [None]:
np.mean( user1[:, 2])

4.188679245283019

In [None]:
data[ data[:, 0] == 1][:, 2].mean()

4.188679245283019

In [None]:
# 각 사용자별 평점 평균
rate = []
for i in range (1, 1780) :
  rate.append(data[ data[:, 0] == i][:, 2].mean())

rate

[4.188679245283019,
 3.7131782945736433,
 3.9019607843137254,
 4.190476190476191,
 3.1464646464646466,
 3.9014084507042255,
 4.32258064516129,
 3.884892086330935,
 3.7358490566037736,
 4.114713216957606,
 3.2773722627737225,
 3.8260869565217392,
 3.388888888888889,
 3.32,
 3.3233830845771144,
 3.0285714285714285,
 4.075829383886256,
 3.6491803278688524,
 3.5725490196078433,
 4.083333333333333,
 2.909090909090909,
 3.0673400673400675,
 3.3157894736842106,
 3.948529411764706,
 3.7411764705882353,
 2.96,
 4.171428571428572,
 3.7570093457943927,
 3.5833333333333335,
 3.488372093023256,
 3.73109243697479,
 3.625,
 3.498721227621483,
 3.8658536585365852,
 3.54040404040404,
 4.199430199430199,
 3.69811320754717,
 3.58,
 3.564516129032258,
 3.4479166666666665,
 3.48,
 3.74025974025974,
 4.125,
 3.6321243523316062,
 2.946127946127946,
 4.219512195121951,
 3.909090909090909,
 3.068561872909699,
 3.712962962962963,
 3.0697674418604652,
 3.825,
 3.5569620253164556,
 4.2368421052631575,
 4.025,
 4.

In [None]:
# 각 사용자별 평점 평균
score_mean = []
for i in user_id_all :
  score_mean.append( [i, data[ data[:, 0] == i][:, 2].mean()])

score_mean

[[1, 4.188679245283019],
 [2, 3.7131782945736433],
 [3, 3.9019607843137254],
 [4, 4.190476190476191],
 [5, 3.1464646464646466],
 [6, 3.9014084507042255],
 [7, 4.32258064516129],
 [8, 3.884892086330935],
 [9, 3.7358490566037736],
 [10, 4.114713216957606],
 [11, 3.2773722627737225],
 [12, 3.8260869565217392],
 [13, 3.388888888888889],
 [14, 3.32],
 [15, 3.3233830845771144],
 [16, 3.0285714285714285],
 [17, 4.075829383886256],
 [18, 3.6491803278688524],
 [19, 3.5725490196078433],
 [20, 4.083333333333333],
 [21, 2.909090909090909],
 [22, 3.0673400673400675],
 [23, 3.3157894736842106],
 [24, 3.948529411764706],
 [25, 3.7411764705882353],
 [26, 2.96],
 [27, 4.171428571428572],
 [28, 3.7570093457943927],
 [29, 3.5833333333333335],
 [30, 3.488372093023256],
 [31, 3.73109243697479],
 [32, 3.625],
 [33, 3.498721227621483],
 [34, 3.8658536585365852],
 [35, 3.54040404040404],
 [36, 4.199430199430199],
 [37, 3.69811320754717],
 [38, 3.58],
 [39, 3.564516129032258],
 [40, 3.4479166666666665],
 [41, 

In [None]:
score_array = np.array(score_mean)
user_4 = score_array[score_array[:, 1] >= 4]
mat = user_4[:, 0].astype('int')
mat

array([   1,    4,    7,   10,   17,   20,   27,   36,   43,   46,   53,
         54,   55,   64,   65,   67,   69,   74,   75,   76,   81,   82,
         86,   88,   91,   97,  101,  103,  105,  106,  109,  112,  121,
        124,  125,  126,  128,  129,  130,  138,  150,  152,  153,  156,
        158,  161,  162,  164,  171,  177,  183,  184,  186,  187,  189,
        196,  205,  210,  213,  215,  220,  222,  228,  230,  231,  233,
        234,  235,  239,  244,  246,  248,  252,  255,  257,  259,  265,
        266,  270,  274,  275,  283,  285,  288,  291,  297,  299,  300,
        307,  309,  311,  313,  316,  320,  322,  325,  330,  332,  336,
        339,  341,  343,  345,  346,  356,  366,  367,  372,  374,  375,
        376,  379,  381,  382,  399,  404,  408,  412,  413,  417,  420,
        421,  427,  434,  437,  444,  446,  447,  450,  451,  452,  455,
        466,  469,  472,  473,  485,  486,  494,  496,  502,  503,  505,
        514,  518,  521,  523,  525,  527,  529,  5

In [None]:
len(mat)

448

##### 각 사용자 별 평균 평점이 4점 이상인 사용자 구하기
- 리스트는 Boolean Indexing이 안되니 배열로 변환해야 인덱싱, 슬라이싱 가능

In [None]:
for j in range(user_id_all) :
  if   

array([[        1,      1193,         5, 978300760],
       [        1,      2355,         5, 978824291],
       [        1,      1287,         5, 978302039],
       ...,
       [     1779,      1374,         5, 977033172],
       [     1779,      2324,         5, 977033829],
       [     1779,      3160,         5, 977032398]])

###### 질문

평점 4점이 넘는 사용자만 구하려면,
user_rate_avg의 결과 값을 리스트로 모은 후 ndarray 형식으로 바꾸는 방법밖에 없나요?

TypeError: ignored

##### CSV 파일로 저장
- np.savetxt() 이용

In [None]:
np.savetxt(drive_path + 'user_id_mean.csv', score_mean, 
           delimiter = ', ', fmt = '%.3f') # delimiter : 구분자, fmt :소수점 3자리까지

## Numpy 요약

In [None]:
import numpy as np

## 보충 학습

#### np.newaxis

- 각 newaxis 객체는 지정된 위치에서 축을 하나 추가함으로써 차원을 확장하는 역
할을 한다.

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcSoMOs%2Fbtqt0a2Dc2y%2FQhkfwhiWqeUKvNfsM2H29K%2Fimg.png">