### Numpy
- Numerical Python의 약자이다.
- Python의 수치해석용 라이브러리이다. 

In [1]:
lst1 = [[1,2,3],[3,4,5]]
lst2 = [[2,3,4],[1,2,3]]
lst1 + lst2   # + : 연결연산

[[1, 2, 3], [3, 4, 5], [2, 3, 4], [1, 2, 3]]

#### numpy의 특징
- 파이썬 자료형 list와 형태가 비슷하다.
- 빠르고 효율적인 산술연산을 제공한다.
- 다차원 배열을 제공한다. (n차원)
- 반복문 없이 전체 데이터 배열 연산이 가능하다.

In [2]:
# numpy 라이브러리(모듈) 불러오기
import numpy as np  # as : alias --> numpy 라이브러리를 np라고 부르겠다. (별칭 사용)

#### 리스트와 넘파이의 차이
- 리스트
    - 여러가지 자료형을 가질 수 있다.
    - 메모리 용량이 크고 속도가 느리다.
- 넘파이
    - 동일한 자료형을 가지는 값들이 배열 형태로 존재한다.
    - 메모리 최적화, 계산 속도가 빠르다.
    - n차원 형태로 구성이 가능하다.
    - 각 값들은 양의 정수로 색인(index)이 부여되어 있다. (순서 존재)

In [4]:
# 1차원 array 생성
# array : numpy library에서 제공하는 자료형 (list와 비슷하게 생김)
# ndarray -> 줄여서 array (여기서 nd -> ndim의 줄임말)
# 리스트를 활용해서 1차원 array 생성
lst1 = [1,2,3,4,5]

In [6]:
# 리스트를 array화
# array() 안에 리스트 자료형을 넣어서 만든다! -> 형변환과 비슷한 형태
arr = np.array(lst1)
arr

array([1, 2, 3, 4, 5])

In [7]:
arr * 2

array([ 2,  4,  6,  8, 10])

In [8]:
arr1 = np.array([5, 4, 3, 2, 1])   # 리스트 직접 적어주기
arr1

array([5, 4, 3, 2, 1])

In [9]:
# 2차원 array 생성
arr2 = np.array([[1,2,3],
                [4,5,6]])
arr2

array([[1, 2, 3],
       [4, 5, 6]])

#### ndarray 클래스의 속성들을 활용해서 자료구조 파악하기
- 데이터가 많아질수록 눈으로 확인하기 어려워짐

In [12]:
# 배열의 크기(모양) 확인 : shape
# array명.shape

print(arr1.shape)   # 1차원 배열 ->  데이터의 개수
print(arr1) 
print(arr2.shape)   # 2차원 배열 ->  (행, 열)
print(arr2)    

(5,)
[5 4 3 2 1]
(2, 3)
[[1 2 3]
 [4 5 6]]


In [14]:
# 배열의 요소 개수 확인 : size
# array명.size 

print(arr1.size)   # 1차원 배열의 데이터 개수
print(arr2.size)   # 2차원 배열의 데이터 개수

# len() 함수와 헷갈리지 않도록 주의!!
# 2차원에서 len()는 리스트의 개수를 알려준다.
# 순수한 요소의 개수를 알려주는 size와 구분!!
print('-'*13)
print(len(arr2))    # 리스트의 개수를 출력

5
6
-------------
2


In [15]:
# 배열의 차원 확인 : ndim
# array명.ndim

print(arr1.ndim)   # 1차원
print(arr2.ndim)   # 2차원

1
2


In [17]:
# 배열의 타입 확인 : dtype  -> 배열 안에 있는 요소의 데이터 타입을 알려준다.
# array명.dtype

print(arr1.dtype)
print(arr2.dtype)

# type() 함수와 헷갈리지 않도록 주의!!

int32
int32


![image.png](attachment:image.png)

In [22]:
# 3차원 배열 생성
arr3 = np.array([[[1,2],
                  [3,4]],
      
                 [[5,6],
                  [7,8]]]) 
arr3

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [25]:
print(f'배열의 크기 : {arr3.shape}')
print(f'배열의 차원 : {arr3.ndim}')
print(f'배열의 개수 : {arr3.size}')

배열의 크기 : (2, 2, 2)
배열의 차원 : 3
배열의 개수 : 8


### 특정한 값으로 배열 생성하기
- 배열 안에 있는 모든 데이터를 특정한 값으로 채워서 생성

In [26]:
# 배열 안의 모든 데이터를 0으로 채워서 생성
# np.zeros(배열의 크기 -> 튜플)
np.zeros((2,3))   # (행, 열)

array([[0., 0., 0.],
       [0., 0., 0.]])

In [27]:
# 만약 하나의 값만 적으면 1차원 배열 생성 --> 숫자는 데이터의 개수를 의미
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [28]:
# 모든 데이터를 1로 채워서 배열 생성

np.ones((3, 4))  # 3행 4열

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [29]:
# 내가 원하는 값으로 초기화 하면서 배열 생성

np.full((2,3),7)
# 2행 3열의 배열을 -> 7이라는 특정 값으로 채우겠다

array([[7, 7, 7],
       [7, 7, 7]])

In [32]:
# 2행 2열의 배열 생성 -> 특정값 : 문자열 'a'
np.full((2,2), 'a')    # Unicode : 세계적으로 사용하는 문자

array([['a', 'a'],
       ['a', 'a']], dtype='<U1')

### 1 ~ 50 범위의 숫자 데이터가 담긴 배열 생성
- 빈 리스트 생성
- for문 사용
- range() 범위 생성
- append() 빈 리스트 맨 끝에 값을 하나씩 추가

In [36]:
# lst1 에 1 ~ 50 숫자 데이터 넣어주기

lst1 = [] # 빈 list 만들어주기

# 반복문(for문)을 사용해서 값을 집어넣어주기

for i in range(1,51) : 
    lst1.append(i)

print(lst1)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50]


In [37]:
# 위에서 만든 lst1을 활용해서 1 ~ 50이 담겨있는 1차원 array 배열 생성하기

np.array(lst1)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

### arange() 함수
- 범위 생성과 동시에 array 배열로 생성해주는 기능

In [66]:
# np.arange(시작 값, 끝 값 +1, 증감)
np.arange(1,51)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

### 랜덤값으로 array 배열 생성

In [67]:
# np.random.randint(시작 값, 끝 값(포함X))

np.random.randint(1, 11)   # 사이즈를 지정하지 않으면 1차원으로 생성, int 속성을 가진다.

6

In [83]:
np.random.randint(1, 11, size = (2,3))  # size = 2행 3열

array([[ 8, 10,  4],
       [ 9,  9,  3]])

### 배열 생성과 동시에 타입 지정

In [84]:
# 실수형(float) 데이터 array 배열 생성
f = np.array([1.1, 2.2, 3.3])
f.dtype

dtype('float64')

In [86]:
# 실수형 데이터 -> 정수형으로 생성과 동시에 타입 지정
f1 = np.array([1.1, 2.2, 3.7],dtype = np.int64)   # 반올림 되는게 아니고 정수만 잘라서 출력
f1

array([1, 2, 3], dtype=int64)

In [87]:
# 자료형 용량 -> 32비트, 64비트 차이
np.array([1]).dtype  # -> 기본값

dtype('int32')

In [3]:
np.array([12345678910]).dtype
# 32비트 자료형에서 제공하는 범위를 벗어났음을 의미
# 32비트 자료형에서 제공하는 범위 : 2,147,483,648 ~ 2,147,483,647  # 외울필요없음. 참고만.

dtype('int64')

### array 연산
- numpy는 기본적으로 array 요소 간 사칙연산을 지원한다.
- 행과 열(크기)이 같은 배열을 계산하면 같은 위치(인덱스)에 있는 값들이 연산된다.

In [4]:
import numpy as np   # numpy 라이브러리 불러오기
arr1= np.array([1, 2, 3, 4, 5])
arr1

array([1, 2, 3, 4, 5])

In [5]:
arr1 + arr1   # 각 요소별 덧셈

array([ 2,  4,  6,  8, 10])

In [6]:
arr2 = np.array([6, 7, 8, 9, 10])
arr2

array([ 6,  7,  8,  9, 10])

In [7]:
arr1 / arr2    # 각 요소별 나눗셈

array([0.16666667, 0.28571429, 0.375     , 0.44444444, 0.5       ])

In [8]:
arr3 = np.array([1, 2, 3])
arr3

array([1, 2, 3])

In [9]:
# 크기(shape)가 다른 배열의 연산이 가능할까?
arr1 + arr3
# broadcasting : 방송, 배포

ValueError: operands could not be broadcast together with shapes (5,) (3,) 

In [10]:
# 2차원 배열 연산
arr2_a = np.array([[1, 2, 3], [4, 5, 6]])
arr2_a

array([[1, 2, 3],
       [4, 5, 6]])

In [11]:
arr2_a + arr3   # arr2_a = (2, 3), arr3 = (3,)

# 연산을 할 때 배열 간의 shape가 다르면 연산이 불가능
# 단, 축에 해당하는 값이 같으면 broadcast(배열과 배열, array와 array 간)로 연산이 가능해진다.

array([[2, 4, 6],
       [5, 7, 9]])

In [12]:
# 배열 + 숫자(int)
arr2_a + 5

array([[ 6,  7,  8],
       [ 9, 10, 11]])

### 리스트의 연산과 넘파이 배열 연산의 차이점

In [13]:
lst1 = [1, 2, 3]
lst2 = [4, 5, 6]

In [14]:
lst1 +lst2   
# 연결연산을 수행! -> 문자열끼리의 연산과 비슷하게 진행

[1, 2, 3, 4, 5, 6]

### ★ numpy 인덱싱 & 슬라이싱
- 인덱스 : 데이터의 순서
- 인덱싱 : 무엇인가(인덱스 번호)를 '가리킨다'는 의미
- 슬라이싱 : 무엇인가(인덱스 범위)를 '잘라낸다'는 의미

#### 인덱싱

In [15]:
# 1차원 array 인덱싱
arr1 = np.array([1, 2, 3, 4, 5])
arr1

array([1, 2, 3, 4, 5])

In [16]:
# 숫자  2 인덱싱
arr1[1]

2

In [18]:
# 2차원 array 인덱싱
arr2 = np.array([[1,2,3],
                [4,5,6]])
arr2

array([[1, 2, 3],
       [4, 5, 6]])

In [19]:
arr2[0]

array([1, 2, 3])

In [22]:
#숫자 2 가져오는 방법 --> 2가지
# 첫번째 방법
temp = arr2[0]
temp

array([1, 2, 3])

In [23]:
# arr2[행][열]
arr2[0][1]  # = temp[1]

2

In [24]:
# 두번째 방법
# arr2[행, 열]
arr2[0, 1]

2

In [25]:
# 간단한 실습
arr3 = np.array([[1, 2, 3, 4, 5],
                [6, 7, 8, 9, 10]])
arr3

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [28]:
# 9 가져오기 ---> 2가지 방법 사용
# 9는 1행 3열
print(arr3[1][3])
print(arr3[1,3])

9
9


#### 슬라이싱

In [31]:
# 0 ~ 10 범위를 가진 1차원 배열 생성
arr4 = np.arange(11)
arr4

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [32]:
# 슬라이싱 방법
# 배열명 [시작인덱스 : 끝인덱스 +1]
# 2 ~ 5 가져오기
arr4[2:6]

array([2, 3, 4, 5])

In [33]:
# 5 ~ 9 가져오기
arr4[5:-1]

array([5, 6, 7, 8, 9])

In [34]:
# 특정 인덱스부터 (시작값) 끝까지 가져오고 싶을 때
arr4[5:]

array([ 5,  6,  7,  8,  9, 10])

In [35]:
# 특정 인덱스까지(끝값) 가져오고 싶을 때
# 처음부터 8까지
arr4[:9]

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [36]:
# 전체 데이터를 슬라이싱 하고 싶을 때
arr4[:]

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [37]:
# array -> 요소값 수정o
# 3 ~ 8 이라는 요소값을 4로 수정
arr4[3:9] = 4
arr4

array([ 0,  1,  2,  4,  4,  4,  4,  4,  4,  9, 10])

In [38]:
# 2차원 배열 슬라이싱
# 1 ~ 50 범위가 담긴 2차원 배열 생성
arr5 = np.arange(1, 51)  # 1차원
arr5

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [39]:
arr5_ = np.arange(1,51).reshape(5,10)   # (행, 열)
arr5_

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [40]:
# 15, 16, 17 슬라이싱
# 1행 4 ~ 6 열
arr5_[1][4:7]

array([15, 16, 17])

In [41]:
# [행, 열]
arr5_[1, 4:7]

array([15, 16, 17])

In [42]:
# 전체 행에서 0열만 출력
arr5_[:, 0]

array([ 1, 11, 21, 31, 41])

In [45]:
# 2행에서 전체 열 출력
arr5_[2, :]

array([21, 22, 23, 24, 25, 26, 27, 28, 29, 30])

In [47]:
# 전체 행의 0열부터 2열까지 출력
arr5_[:, 0:3]

array([[ 1,  2,  3],
       [11, 12, 13],
       [21, 22, 23],
       [31, 32, 33],
       [41, 42, 43]])

In [51]:
# 36 데이터 가져오기
print(arr5_[3, 5])
print(arr5_[3][5])  # --> int 형태

36
36
[36]


In [52]:
# 36 데이터 가져오기
# array 형태로 가져오기
#[[행], [열]]
arr5_[[3],[5]]

array([36])

In [57]:
# 22, 33 데이터 가져오기
arr5_[[2, 1],[3, 2]]   # 24, 13이라는 데이터가 출력 -> 원하는 데이터 X
arr5_[[2, 3],[1, 2]]   # [[행, 행], [열, 열]]

array([22, 33])

In [58]:
# 12, 37, 49 데이터 가져오기
arr5_[[1, 3, 4], [1, 6, 8]]

array([12, 37, 49])

#### BMI 지수 구하기 실습

![image.png](attachment:image.png)

In [60]:
# 메모장(txt)파일 로딩하는 방법
# loadtxt('텍스트 파일이 있는 경로',delimiter(구분자))
# delimiter -> 데이터가 어떤 기호를 기준으로 구분되어있는지 명시해주는 속성
data = np.loadtxt('height_weight(p).txt',delimiter = ',')
data

array([[175.2   , 180.3   , 175.    , 169.2   , 185.2   , 188.    ,
        177.6   , 178.2   , 177.    , 179.    ],
       [144.5824, 193.952 , 174.5568, 152.7372, 121.22  , 156.9248,
        160.892 , 151.8556, 163.096 , 180.728 ]])

#### 데이터 설명
- 0행은 키 정보의 데이터
- 키 데이터는 단위가 cm로 되어있다.  cm -> m 단위 변환
- 1행은 몸무게 정보의 데이터
- 몸무게 데이터는 pound 단위로 되어있다. pound -> kg 단위 변환
- BMI 지수 구하기 공식에서 요구하는 키(m)와 몸무게(kg)를 맞춰주기 위해 단위를 변환해줄 필요가 있다. 

In [61]:
# 데이터의 크기(모양), 차원 확인하기
print(data.shape)
print(data.ndim)

(2, 10)
2


In [None]:
# cm -> m
# cm * 0.01 = m
# pound -> kg
# pound / 2.204 = kg

In [66]:
meter = data[0, :] * 0.01
meter

array([1.752, 1.803, 1.75 , 1.692, 1.852, 1.88 , 1.776, 1.782, 1.77 ,
       1.79 ])

In [69]:
kg = data[1, :] / 2.204
kg

array([65.6, 88. , 79.2, 69.3, 55. , 71.2, 73. , 68.9, 74. , 82. ])

In [74]:
bmi_1 = kg[0]/(meter[0] **2)
print(bmi_1)
print(round(bmi_1, 3))

21.371531035633115
21.372


In [72]:
bmi = kg / (meter **2)
bmi

array([21.37153104, 27.07018468, 25.86122449, 24.20652885, 16.03543423,
       20.14486193, 23.14392095, 21.69720651, 23.62028791, 25.59220998])

In [None]:
# 힌트
# 1. 키 데이터만 가져오기(인덱싱)  --> h 변수에 담아주기
# 2. 몸무게 데이터만 가져오기 (인덱싱)  --> w 변수에 담아주기
# 3. 키 데이터 m로 변환
# 4. 몸무게 데이터 kg 변환
# 5. bmi 지수 구하기 (몸무게 / 키 * 키)

In [75]:
# 선생님 풀이
# 키 데이터 가져오기
h = data[0]
h  # cm

array([175.2, 180.3, 175. , 169.2, 185.2, 188. , 177.6, 178.2, 177. ,
       179. ])

In [76]:
# 몸무게 데이터 가져오기
w = data[1]
w  # pound

array([144.5824, 193.952 , 174.5568, 152.7372, 121.22  , 156.9248,
       160.892 , 151.8556, 163.096 , 180.728 ])

In [78]:
# 데이터 전처리
# 키, 몸무게 데이터 단위 변환
h_m = h * 0.01
print(h_m)

w_k = w / 2.204
print(w_k)

[1.752 1.803 1.75  1.692 1.852 1.88  1.776 1.782 1.77  1.79 ]
[65.6 88.  79.2 69.3 55.  71.2 73.  68.9 74.  82. ]


In [80]:
# BMI 지수 구하기
# 몸무게(kg) / (키(m) * 키(m))
bmi = w_k / (h_m ** 2)
bmi

array([21.37153104, 27.07018468, 25.86122449, 24.20652885, 16.03543423,
       20.14486193, 23.14392095, 21.69720651, 23.62028791, 25.59220998])

In [83]:
# 본인 BMI 지수 구하기
my_w = int(input('몸무게를 입력하세요 >> '))
my_h = float(input('키를 입력하세요 >> '))
bmi = my_w / (my_h ** 2)
print(f'당신의 BMI지수는 {bmi} 입니다.')

몸무게를 입력하세요 >> 59
키를 입력하세요 >> 1.62
당신의 BMI지수는 22.481329065691202 입니다.


### numpy 불리언 인덱싱
- 필터링의 기능을 담당
- 조건에 해당하는(True) 값들만 출력할 때 사용
- 조건에 해당하는 값이 존재하는지 아닌지 모를 때 사용

In [84]:
# 임의의 점수 데이터 생성
score = np.array([80, 75, 62, 37, 90])
score

array([80, 75, 62, 37, 90])

In [86]:
# 비교연산자를 통해 60점 이상인 값들을 찾아보자
score >= 60  # 요소별 연산 결과 출력

# 출력값이 단순한 논리연산 결과로 출력된다 -> boolean자료형
# boolean 인덱싱의 재료★

array([ True,  True,  True, False,  True])

In [88]:
# 논리 연산의 결과값이 참(True)인 값들만 출력해준다.
score[score >= 60]

# 인덱싱 하고 싶은 데이터 [boolean 인덱싱의 재료]

array([80, 75, 62, 90])

In [89]:
# score[[True,  True,  True, False,  True]]

array([80, 75, 62, 90])

In [91]:
name = np.array(['민수','보미','준용','경남'])
name

array(['민수', '보미', '준용', '경남'], dtype='<U2')

In [92]:
bol = np.array([True, False, True, True])
bol  # boolean 형태의 결과값 --> 인덱싱 재료

array([ True, False,  True,  True])

In [93]:
# 인덱싱 할 데이터(name)에서  bol(boolean형태의 재료형)을 재료로 넣어서
# 불리언 인덱싱을 할 수 있다.
name[bol]

array(['민수', '준용', '경남'], dtype='<U2')

In [94]:
# 내가 찾고자 하는 이름이 있는지 찾아보기!
name == '민수'   # 재료

array([ True, False, False, False])

In [95]:
name[name == '민수']

array(['민수'], dtype='<U2')

In [96]:
# 내가 찾고자 하는 이름이 없다면?
name == '짱구'   # 재료

array([False, False, False, False])

In [97]:
name[name == '짱구']

array([], dtype='<U2')

In [98]:
score2 = np.array([[90, 100], [80, 85],[70, 40],[60, 30]])
score2   # 2차원 4행 2열의 데이터

array([[ 90, 100],
       [ 80,  85],
       [ 70,  40],
       [ 60,  30]])

In [99]:
name

array(['민수', '보미', '준용', '경남'], dtype='<U2')

In [100]:
# 내가 찾고자 하는 사람의 점수를 가져와보자.
# 민수의 점수만 가져와보기
name == '민수' # 재료

array([ True, False, False, False])

In [101]:
score2[name == '민수']

array([[ 90, 100]])

In [104]:
# 불리언 인덱싱을 할 때는 각 데이터의 개수가 같아야 함
score[name == '민수']
# score는 5개 / name == '민수' 의 결과는 4개 이기 때문에 오류가 발생

IndexError: boolean index did not match indexed array along dimension 0; dimension is 5 but corresponding boolean dimension is 4

### Universally 함수 (범용 함수)
- 넘파이에서 제공해주는 함수

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

In [106]:
# arr 변수에 랜덤수(1~10)를 사용하여 크기가 2행 5열인 2차원 배열 데이터 생성하기
arr = np.random.randint(1,11, size = (2, 5))
arr

array([[ 7, 10,  6,  5,  6],
       [ 3, 10,  1,  2,  2]])

In [107]:
# sum( ) : 합계를 구해주는 함수
# 변수명. sum( )
# np.sum(변수명)

print(arr.sum())    # 파이썬에서 기본적으로 제공해주는 함수
print(np.sum(arr))  # 넘파이에서 제공해주는 함수

# 기능은 같다! 

52
52


In [108]:
# mean( ) : 전체 요소값에 대한 평균을 구해주는 함수
# 변수명.mean( )
# np.mean(변수명)

print(arr.mean())    # 파이썬
print(np.mean(arr))  # 넘파이

5.2
5.2


In [109]:
arr2 = np.arange(1, 6)
arr2

array([1, 2, 3, 4, 5])

In [110]:
# sqrt( ) : 제곱근을 구해주는 함수
# sqrt = square root의 약자
# 파이썬에서 제공X
# np.sqrt(변수명)

print(np.sqrt(arr2))   # 넘파이에서 제공

[1.         1.41421356 1.73205081 2.         2.23606798]


In [111]:
# 음수 데이터가 존재하는 1차원 배열 생성
arr3 = np.array([-1, -2, -3])
arr3

array([-1, -2, -3])

In [114]:
# abs() : 절대값을 구해주는 함수 (모두 양수로)
# 파이썬에서 제공X
# np.abs(변수명)
print(np.abs(arr3))   # 넘파이 제공

[1 2 3]


### 넘파이 최종 실습
- 영화 리뷰 평점 데이터 분석

In [10]:
# numpy 라이브러리 로딩
import numpy as np

# 데이터 불러오기 (txt파일 로딩)
m_data = np.loadtxt('ratings.txt', delimiter = ',',dtype = 'int64')
m_data

# 컬럼명(열 이름)
# 사용자 아이디 // 영화 아이디 // 해당 영화 평점 // 리뷰 입력 시간

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]], dtype=int64)

#### 데이터의 속성 확인
- 배열의 크기, 개수, 타입, 차원

In [11]:
print('배열의 크기 : ', m_data.shape)
print('배열의 전체 요소 개수 : ', m_data.size)  # 행 * 열
print('배열의 타입 : ', m_data.dtype)
print('배열의 차원 : ', m_data.ndim)

배열의 크기 :  (1000209, 4)
배열의 전체 요소 개수 :  4000836
배열의 타입 :  int64
배열의 차원 :  2


### 전체 영화의 평점 평균 구하기
1. 전체 데이터에서 평점은 어디에 있는지?
2. 평균은 어떻게 구하는지?

In [12]:
# 전체 영화에서 평점을 찾아서 평균 구해보기

# 전체 데이터에서 평점만 담겨져 있는 열 찾기
# 데이터[전체행, 2번 인덱스 열]
a = m_data[:, 2]
a

# 평균을 구해주는 함수? -> mean()
np.mean(a)

3.581564453029317

#### 1번 사용자가 매긴 평점의 평균 구해보기

In [13]:
id_ = m_data[:, 0]
id_

array([   1,    1,    1, ..., 6040, 6040, 6040], dtype=int64)

In [14]:
id1 = m_data[id_ == 1]
id1_avg = id1[:,2]
np.mean(id1_avg)

4.188679245283019

In [15]:
# 힌트!
# 1. 전체 데이터에서 사용자는 어떤 열에 있을까?
# 2. 그 중에서 1번 사용자만 모아보고 싶다면...? 데이터 분석의 꽃!
# 3. 전체 데이터에서 1번 사용자만 존재하는 데이터로 출력(재료 사용)
# 4. 1번 사용자가 매긴 평점의 평균 구하기!!!

In [16]:
# 선생님풀이
# 1. 전체 데이터에서 사용자 아이디만 가져오기
m_data[:, 0]   # 사용자 아이디만 모아놓은 배열

m_data[:, 0] == 1   # True, False 형태 --> boolean 인덱싱의 ★재료★

array([ True,  True,  True, ..., False, False, False])

In [17]:
a = m_data[m_data[:, 0] == 1]   # boolean 인덱싱!
a
# a라는 변수에 1번 사용자만 걸러서 나온 데이터가 저장되었으니, 
# 평점을 찾아 평균을 구해보자

a[:, 2]    # 1번 사용자가 매긴 평점만 가져온 데이터

np.mean(a[:, 2])   # 1번 사용자가 매긴 평점의 평균

4.188679245283019

#### 총 몇 명의 사용자가 평점을 매겼는지 알아보자
- 사용자 아이디의 유일한 값 구하기 (중복제거)
- 개수 확인 

In [18]:
# unique() : 유일한 값을 구해주는 함수 (중복 제거)
# 전체 데이터에서 사용자 아이디에 해당하는 열에 접근 -> 중복을 제거해보자.
m_data[:, 0]

# np.unique(중복을 제거할 데이터)
user_id = np.unique(m_data[:, 0])
user_id

array([   1,    2,    3, ..., 6038, 6039, 6040], dtype=int64)

In [19]:
# 요소 개수 확인 (몇 개 들어있는지)
user_id.size

6040

#### 각 사용자가 매긴 평점의 평균을 구해보자

In [20]:
id_ = m_data[:, 0]

for i in range(1,user_id.size+1) :
    id_i = m_data[id_ == i ]
    id1_avg = id_i[:, 2]
    idi_avg = np.mean(id1_avg)
    print(i,idi_avg)

1 4.188679245283019
2 3.7131782945736433
3 3.9019607843137254
4 4.190476190476191
5 3.1464646464646466
6 3.9014084507042255
7 4.32258064516129
8 3.884892086330935
9 3.7358490566037736
10 4.114713216957606
11 3.2773722627737225
12 3.8260869565217392
13 3.388888888888889
14 3.32
15 3.3233830845771144
16 3.0285714285714285
17 4.075829383886256
18 3.6491803278688524
19 3.5725490196078433
20 4.083333333333333
21 2.909090909090909
22 3.0673400673400675
23 3.3157894736842106
24 3.948529411764706
25 3.7411764705882353
26 2.96
27 4.171428571428572
28 3.7570093457943927
29 3.5833333333333335
30 3.488372093023256
31 3.73109243697479
32 3.625
33 3.498721227621483
34 3.8658536585365852
35 3.54040404040404
36 4.199430199430199
37 3.69811320754717
38 3.58
39 3.564516129032258
40 3.4479166666666665
41 3.48
42 3.74025974025974
43 4.125
44 3.6321243523316062
45 2.946127946127946
46 4.219512195121951
47 3.909090909090909
48 3.068561872909699
49 3.712962962962963
50 3.0697674418604652
51 3.825
52 3.556962

444 4.0
445 3.3181818181818183
446 4.8431372549019605
447 4.837837837837838
448 3.4347826086956523
449 3.7222222222222223
450 4.196078431372549
451 4.511961722488039
452 4.431818181818182
453 3.66497461928934
454 3.218045112781955
455 4.2
456 3.394904458598726
457 3.7130801687763713
458 3.5348837209302326
459 3.6875
460 3.3617021276595747
461 3.224609375
462 3.536723163841808
463 3.0
464 3.6097560975609757
465 3.5405405405405403
466 4.14070351758794
467 3.2028985507246377
468 3.730769230769231
469 4.326530612244898
470 3.8088235294117645
471 3.6285714285714286
472 4.022222222222222
473 4.163265306122449
474 3.380503144654088
475 3.8299595141700404
476 3.8375870069605567
477 3.5829383886255926
478 3.869565217391304
479 3.827956989247312
480 3.411214953271028
481 3.696969696969697
482 3.2606060606060607
483 2.9310344827586206
484 3.735294117647059
485 4.044444444444444
486 4.051282051282051
487 3.34
488 3.56
489 3.3333333333333335
490 3.7662337662337664
491 3.68
492 3.9375
493 3.84810126

877 3.308056872037915
878 4.142857142857143
879 4.025
880 3.4956521739130433
881 2.9354485776805253
882 4.0886075949367084
883 3.4166666666666665
884 4.01010101010101
885 4.140625
886 3.6285714285714286
887 3.5104166666666665
888 3.7777777777777777
889 2.8405797101449277
890 3.969298245614035
891 3.7443946188340806
892 3.911764705882353
893 3.2
894 4.442857142857143
895 3.953125
896 3.984375
897 3.5566502463054186
898 4.083333333333333
899 3.523219814241486
900 3.576923076923077
901 3.606060606060606
902 4.28
903 3.4594594594594597
904 3.3008130081300813
905 3.7886178861788617
906 3.5238095238095237
907 3.9523809523809526
908 3.3076923076923075
909 3.9014084507042255
910 3.6012269938650308
911 3.8685714285714288
912 3.7209302325581395
913 3.2888888888888888
914 4.278688524590164
915 2.831578947368421
916 3.9454545454545453
917 4.068965517241379
918 2.9583333333333335
919 3.9355828220858897
920 3.4615384615384617
921 3.6962025316455698
922 3.5830903790087465
923 3.608695652173913
924 3.

1257 3.36734693877551
1258 4.261904761904762
1259 3.9833333333333334
1260 3.787819253438114
1261 3.7487179487179487
1262 3.4240506329113924
1263 3.139784946236559
1264 3.586497890295359
1265 3.183673469387755
1266 3.3415977961432506
1267 3.6
1268 4.257425742574258
1269 4.25
1270 3.0344827586206895
1271 4.2823529411764705
1272 3.535211267605634
1273 3.9820359281437128
1274 3.8494077834179357
1275 4.466666666666667
1276 4.1558441558441555
1277 3.675675675675676
1278 4.0
1279 2.958448753462604
1280 3.72
1281 3.4791666666666665
1282 4.095238095238095
1283 3.347826086956522
1284 3.4220907297830374
1285 3.9064685314685317
1286 3.5
1287 3.9468085106382977
1288 3.75968992248062
1289 4.3076923076923075
1290 4.181818181818182
1291 3.802120141342756
1292 3.3958333333333335
1293 3.426470588235294
1294 3.9272030651340994
1295 3.575
1296 3.8958333333333335
1297 3.4455852156057496
1298 3.8273615635179152
1299 3.7905982905982905
1300 3.4819277108433737
1301 3.774410774410774
1302 4.266666666666667
130

1635 3.780580075662043
1636 2.8
1637 3.988235294117647
1638 4.205128205128205
1639 3.658802177858439
1640 2.472049689440994
1641 2.6810344827586206
1642 3.5
1643 4.28755364806867
1644 3.0625
1645 4.061302681992337
1646 3.064516129032258
1647 3.2301587301587302
1648 3.442953020134228
1649 3.8421052631578947
1650 3.647887323943662
1651 3.2
1652 3.3703703703703702
1653 3.92
1654 4.446808510638298
1655 3.8
1656 3.48
1657 3.888888888888889
1658 3.419597989949749
1659 2.7719298245614037
1660 3.967741935483871
1661 3.891891891891892
1662 3.64
1663 4.130434782608695
1664 3.4
1665 3.6825396825396823
1666 3.3425692695214106
1667 3.4128256513026054
1668 4.0
1669 3.7333333333333334
1670 4.714285714285714
1671 3.8620689655172415
1672 3.7435897435897436
1673 4.37037037037037
1674 3.727272727272727
1675 3.208849557522124
1676 3.492485549132948
1677 3.558139534883721
1678 3.4508196721311477
1679 3.926829268292683
1680 3.5556756756756758
1681 4.132231404958677
1682 4.407407407407407
1683 3.485714285714

2014 4.2592592592592595
2015 3.1273532668881505
2016 3.990990990990991
2017 3.899159663865546
2018 3.941834451901566
2019 3.5588235294117645
2020 3.5307855626326963
2021 3.8523489932885906
2022 3.829896907216495
2023 3.923076923076923
2024 3.375
2025 3.680672268907563
2026 3.541284403669725
2027 4.019047619047619
2028 3.6666666666666665
2029 3.1629955947136565
2030 3.984536082474227
2031 3.56
2032 3.6825396825396823
2033 2.607142857142857
2034 4.216216216216216
2035 3.5672514619883042
2036 3.9384615384615387
2037 3.45
2038 3.8204545454545453
2039 3.5785123966942147
2040 3.369565217391304
2041 3.5485611510791366
2042 3.1358490566037736
2043 2.5714285714285716
2044 4.12
2045 4.04
2046 3.5903614457831323
2047 3.588235294117647
2048 4.142857142857143
2049 4.114285714285714
2050 3.896153846153846
2051 3.432314410480349
2052 2.9
2053 3.4
2054 3.408955223880597
2055 4.173913043478261
2056 4.09765625
2057 3.8615384615384616
2058 3.3191489361702127
2059 3.549407114624506
2060 3.1187739463601534

2417 4.448275862068965
2418 3.087719298245614
2419 3.327651515151515
2420 4.23404255319149
2421 3.819672131147541
2422 4.142857142857143
2423 4.04
2424 3.292517006802721
2425 3.6206896551724137
2426 3.888888888888889
2427 3.884297520661157
2428 3.674698795180723
2429 3.936
2430 3.4047619047619047
2431 3.5
2432 3.857142857142857
2433 3.6470588235294117
2434 3.625
2435 3.752136752136752
2436 3.5901639344262297
2437 3.5952380952380953
2438 3.575
2439 2.8777777777777778
2440 3.4347826086956523
2441 4.074074074074074
2442 3.8620689655172415
2443 3.3846153846153846
2444 3.342857142857143
2445 3.5368852459016393
2446 3.869358669833729
2447 4.2105263157894735
2448 3.8767123287671232
2449 3.8076923076923075
2450 3.3333333333333335
2451 3.050314465408805
2452 4.096153846153846
2453 3.534181240063593
2454 3.4152823920265782
2455 2.6875
2456 3.1530054644808745
2457 3.1703406813627253
2458 3.496969696969697
2459 3.747967479674797
2460 4.117647058823529
2461 3.7403846153846154
2462 3.535433070866141

2803 3.7927927927927927
2804 3.888888888888889
2805 3.897727272727273
2806 3.3037974683544302
2807 3.391044776119403
2808 4.115107913669065
2809 4.339449541284404
2810 3.4688279301745637
2811 3.6666666666666665
2812 3.603305785123967
2813 3.0
2814 4.047058823529412
2815 3.690909090909091
2816 3.8181818181818183
2817 4.2073170731707314
2818 3.6109215017064846
2819 3.9
2820 2.9642058165548097
2821 3.6333333333333333
2822 3.725806451612903
2823 2.9148936170212765
2824 3.9274193548387095
2825 3.9592760180995477
2826 3.609848484848485
2827 3.242424242424242
2828 4.017241379310345
2829 2.9473684210526314
2830 3.388235294117647
2831 4.222222222222222
2832 4.0
2833 3.30188679245283
2834 4.181818181818182
2835 3.8684210526315788
2836 3.3636363636363638
2837 3.302127659574468
2838 4.512820512820513
2839 3.3142857142857145
2840 2.942857142857143
2841 4.170786516853933
2842 3.6292134831460676
2843 2.8461538461538463
2844 3.287037037037037
2845 3.9444444444444446
2846 3.3137254901960786
2847 2.7146

3238 4.46875
3239 3.554054054054054
3240 3.3701298701298703
3241 3.709090909090909
3242 3.5904761904761906
3243 3.816593886462882
3244 4.125
3245 2.607594936708861
3246 3.310344827586207
3247 3.896551724137931
3248 3.5476190476190474
3249 3.7384615384615385
3250 3.2419354838709675
3251 4.464285714285714
3252 2.8857142857142857
3253 3.856287425149701
3254 3.5217391304347827
3255 3.6222222222222222
3256 4.068965517241379
3257 4.2592592592592595
3258 3.85
3259 4.045569620253165
3260 3.9078947368421053
3261 3.2430426716141003
3262 3.3626373626373627
3263 3.9292035398230087
3264 2.75
3265 2.8484251968503935
3266 4.357615894039735
3267 3.857142857142857
3268 3.8656716417910446
3269 3.855421686746988
3270 3.6639344262295084
3271 3.8214285714285716
3272 3.77511961722488
3273 4.1
3274 3.242424242424242
3275 3.4761904761904763
3276 3.0689655172413794
3277 4.053333333333334
3278 3.869565217391304
3279 2.6857142857142855
3280 2.782742681047766
3281 4.031578947368421
3282 4.5
3283 3.597560975609756

3628 3.5161290322580645
3629 4.161290322580645
3630 3.298342541436464
3631 3.875
3632 3.3793103448275863
3633 4.0
3634 3.0869565217391304
3635 4.208588957055214
3636 3.6956521739130435
3637 2.984848484848485
3638 3.456
3639 2.988372093023256
3640 3.9452054794520546
3641 3.6371134020618556
3642 2.5714285714285716
3643 3.4909090909090907
3644 4.024390243902439
3645 3.8550724637681157
3646 4.139784946236559
3647 3.787878787878788
3648 3.017543859649123
3649 4.254901960784314
3650 3.5605095541401273
3651 3.952191235059761
3652 3.4290657439446366
3653 4.207207207207207
3654 3.3085106382978724
3655 3.78125
3656 3.0126582278481013
3657 4.157894736842105
3658 3.981203007518797
3659 4.21875
3660 3.7413793103448274
3661 3.92
3662 3.034090909090909
3663 3.4505494505494507
3664 3.029850746268657
3665 3.8564814814814814
3666 4.142857142857143
3667 3.9272727272727272
3668 3.973684210526316
3669 3.194954128440367
3670 3.573529411764706
3671 4.201923076923077
3672 3.3201970443349755
3673 3.89622641509

4014 3.7244444444444444
4015 3.6153846153846154
4016 3.010324483775811
4017 3.4615384615384617
4018 3.6758620689655173
4019 3.96
4020 3.4285714285714284
4021 3.8248366013071897
4022 3.0649038461538463
4023 3.1264367816091956
4024 3.1547619047619047
4025 3.9285714285714284
4026 3.3833333333333333
4027 4.352941176470588
4028 3.4990689013035383
4029 3.896103896103896
4030 3.467741935483871
4031 4.0588235294117645
4032 4.281045751633987
4033 3.7673716012084593
4034 4.324074074074074
4035 4.035087719298246
4036 3.4365079365079363
4037 3.811320754716981
4038 4.0
4039 3.9245283018867925
4040 3.0053763440860215
4041 3.3175355450236967
4042 3.3542600896860986
4043 3.6466165413533833
4044 4.225806451612903
4045 3.522727272727273
4046 3.5675675675675675
4047 4.288888888888889
4048 3.7544581618655695
4049 3.32
4050 4.2976190476190474
4051 2.91
4052 4.235294117647059
4053 3.47
4054 3.663961038961039
4055 2.8574938574938575
4056 2.3181818181818183
4057 3.526315789473684
4058 3.405566600397614
4059 3

4445 2.776
4446 3.1635071090047395
4447 3.0733197556008145
4448 4.176528599605523
4449 4.087628865979381
4450 2.802469135802469
4451 2.895306859205776
4452 3.682051282051282
4453 3.1454545454545455
4454 2.6
4455 3.74
4456 3.938650306748466
4457 4.297169811320755
4458 3.3333333333333335
4459 3.727272727272727
4460 3.372413793103448
4461 4.410256410256411
4462 3.176470588235294
4463 3.95
4464 3.380952380952381
4465 3.488372093023256
4466 3.80327868852459
4467 3.3944444444444444
4468 4.105882352941176
4469 4.03030303030303
4470 4.131147540983607
4471 3.6242774566473988
4472 3.4340770791075053
4473 3.3711583924349884
4474 4.138888888888889
4475 3.933333333333333
4476 3.586206896551724
4477 3.404109589041096
4478 3.309417040358744
4479 3.830508474576271
4480 3.154175588865096
4481 3.306451612903226
4482 3.8017902813299234
4483 3.1648936170212765
4484 4.0625
4485 3.3496503496503496
4486 1.0588235294117647
4487 3.5833333333333335
4488 2.7745664739884393
4489 3.9929245283018866
4490 3.51047120

4886 3.9901960784313726
4887 3.392857142857143
4888 4.344481605351171
4889 4.347328244274809
4890 3.4210526315789473
4891 3.7857142857142856
4892 3.175
4893 3.933333333333333
4894 3.902439024390244
4895 4.132352941176471
4896 3.073170731707317
4897 3.35
4898 4.167364016736402
4899 3.6653061224489796
4900 4.086956521739131
4901 3.816753926701571
4902 3.5481481481481483
4903 4.0181818181818185
4904 4.561881188118812
4905 3.39
4906 3.912863070539419
4907 3.4293478260869565
4908 3.9649122807017543
4909 3.760869565217391
4910 3.6
4911 3.382716049382716
4912 4.0
4913 3.8
4914 3.8461538461538463
4915 3.6261682242990654
4916 2.088235294117647
4917 3.495798319327731
4918 3.4219269102990033
4919 4.081081081081081
4920 4.06
4921 4.21256038647343
4922 3.7591623036649215
4923 3.75
4924 4.024390243902439
4925 4.761904761904762
4926 3.5217391304347827
4927 3.984126984126984
4928 3.2613981762917934
4929 4.214285714285714
4930 4.0
4931 4.2125
4932 3.8463855421686746
4933 3.622516556291391
4934 3.212290

5311 3.347826086956522
5312 3.8652777777777776
5313 4.125
5314 3.6
5315 4.0285714285714285
5316 3.8974358974358974
5317 4.047882136279926
5318 3.6262626262626263
5319 3.814432989690722
5320 2.652173913043478
5321 3.09375
5322 3.892156862745098
5323 3.6991869918699187
5324 3.9364161849710984
5325 3.375
5326 2.40625
5327 3.8282208588957056
5328 3.641509433962264
5329 4.130514705882353
5330 3.338709677419355
5331 3.3375
5332 4.397260273972603
5333 3.5530393325387366
5334 1.9272727272727272
5335 3.9683544303797467
5336 4.382978723404255
5337 4.214689265536723
5338 3.798076923076923
5339 3.7777777777777777
5340 3.616822429906542
5341 3.6587301587301586
5342 3.767857142857143
5343 4.638888888888889
5344 3.6142131979695433
5345 3.6426426426426426
5346 3.925925925925926
5347 3.129277566539924
5348 3.44
5349 4.058091286307054
5350 2.9269406392694064
5351 3.8846153846153846
5352 3.7135922330097086
5353 3.7966101694915255
5354 3.6739130434782608
5355 3.6187845303867405
5356 3.4878048780487805
535

5709 3.7580645161290325
5710 3.5454545454545454
5711 3.55
5712 3.602409638554217
5713 3.4838709677419355
5714 3.6666666666666665
5715 3.6904761904761907
5716 3.9245283018867925
5717 3.7447916666666665
5718 4.082901554404145
5719 3.076923076923077
5720 2.785310734463277
5721 3.75
5722 3.6430517711171664
5723 3.4356435643564356
5724 4.092783505154639
5725 3.45
5726 3.8175675675675675
5727 3.176470588235294
5728 3.4643962848297214
5729 4.225806451612903
5730 3.230769230769231
5731 4.233333333333333
5732 3.738095238095238
5733 4.125
5734 3.8509615384615383
5735 3.9565217391304346
5736 4.266666666666667
5737 3.541176470588235
5738 3.1520912547528517
5739 4.098039215686274
5740 2.486842105263158
5741 3.0851063829787235
5742 4.1063829787234045
5743 4.4
5744 3.8863636363636362
5745 3.7083333333333335
5746 3.5609756097560976
5747 3.2393617021276597
5748 4.037037037037037
5749 3.6265356265356266
5750 3.546218487394958
5751 3.588888888888889
5752 3.767741935483871
5753 4.240963855421687
5754 3.11

In [25]:
# 선생님 풀이
# 첫번째 방법 : easy
for i in user_id : 
    a = m_data[m_data[:, 0] == i]
    a[:,2]
    print(np.mean(a[:,2]))

4.188679245283019
3.7131782945736433
3.9019607843137254
4.190476190476191
3.1464646464646466
3.9014084507042255
4.32258064516129
3.884892086330935
3.7358490566037736
4.114713216957606
3.2773722627737225
3.8260869565217392
3.388888888888889
3.32
3.3233830845771144
3.0285714285714285
4.075829383886256
3.6491803278688524
3.5725490196078433
4.083333333333333
2.909090909090909
3.0673400673400675
3.3157894736842106
3.948529411764706
3.7411764705882353
2.96
4.171428571428572
3.7570093457943927
3.5833333333333335
3.488372093023256
3.73109243697479
3.625
3.498721227621483
3.8658536585365852
3.54040404040404
4.199430199430199
3.69811320754717
3.58
3.564516129032258
3.4479166666666665
3.48
3.74025974025974
4.125
3.6321243523316062
2.946127946127946
4.219512195121951
3.909090909090909
3.068561872909699
3.712962962962963
3.0697674418604652
3.825
3.5569620253164556
4.2368421052631575
4.025
4.12
3.970149253731343
2.90625
3.9725400457665905
3.4741784037558685
3.414285714285714
2.7777777777777777
3.566

4.06
3.608267716535433
4.025
3.896551724137931
4.08
3.3551724137931034
4.19672131147541
4.0
3.1591695501730106
3.86046511627907
3.3401015228426396
3.7475728155339807
3.5714285714285716
3.942857142857143
4.3061224489795915
4.458333333333333
3.9242424242424243
3.230769230769231
3.1894736842105265
3.764705882352941
4.078986587183309
3.7777777777777777
3.4827586206896552
3.231818181818182
3.858974358974359
3.093220338983051
3.7569444444444446
3.578076525336091
3.8201754385964914
3.7628865979381443
4.15625
3.511627906976744
3.8157894736842106
3.5
3.8793103448275863
3.6804123711340204
3.0
3.897810218978102
3.7222222222222223
3.7027027027027026
2.7023121387283235
4.0
3.44
2.6273408239700373
4.583333333333333
4.44
3.52
3.329113924050633
3.7054794520547945
3.05
3.9722222222222223
4.095238095238095
3.6564417177914113
3.6666666666666665
4.487341772151899
3.9642857142857144
3.8550724637681157
3.347826086956522
3.6666666666666665
4.282051282051282
4.040229885057471
4.2894736842105265
3.466216216216

4.484536082474227
4.18
3.70873786407767
3.715909090909091
3.5327868852459017
3.96875
3.7336683417085426
2.87192118226601
3.619047619047619
4.426573426573427
4.0476190476190474
4.146551724137931
3.4479166666666665
4.048780487804878
3.2439024390243905
4.019417475728155
3.984251968503937
3.5867768595041323
3.740740740740741
4.147058823529412
4.333333333333333
2.6923076923076925
3.15
3.7142857142857144
3.8621794871794872
3.7908163265306123
3.3375850340136055
4.0
3.3698630136986303
2.696969696969697
4.0588235294117645
3.3857142857142857
3.6219512195121952
4.0
2.58955223880597
3.4702380952380953
4.1875
3.5106382978723403
2.1988188976377954
3.324324324324324
2.259259259259259
3.533333333333333
3.8333333333333335
3.9316770186335406
3.78125
3.7051282051282053
4.113636363636363
3.0878048780487806
4.326530612244898
4.03030303030303
3.4418262150220915
3.9749216300940438
3.462686567164179
3.1743119266055047
3.8661971830985915
3.777188328912467
3.6666666666666665
3.787341772151899
3.764625850340136


4.588888888888889
3.5454545454545454
3.947712418300654
3.1777777777777776
3.689655172413793
3.5961538461538463
3.8703703703703702
3.875
4.104
4.161290322580645
3.4496732026143793
3.5405405405405403
3.2195121951219514
3.6363636363636362
3.730769230769231
3.3253796095444685
3.607142857142857
4.424096385542168
3.332129963898917
4.170212765957447
3.7777777777777777
4.0
4.340764331210191
3.6209150326797386
3.0388349514563107
3.727891156462585
4.045112781954887
3.5652173913043477
3.5565217391304347
3.494565217391304
3.3018181818181818
3.431472081218274
3.9073170731707316
4.1
3.842857142857143
4.166666666666667
3.3122406639004147
3.79126213592233
3.1847826086956523
2.0833333333333335
3.4206128133704734
3.9642857142857144
3.573741007194245
3.652173913043478
3.4264150943396228
3.3934426229508197
3.0476190476190474
3.1338582677165356
3.0833333333333335
4.208791208791209
4.03030303030303
3.9444444444444446
3.1363636363636362
3.730769230769231
4.214285714285714
3.005714285714286
3.3555555555555556

3.7473684210526317
3.7729257641921397
4.08843537414966
3.5665294924554183
3.482142857142857
4.056338028169014
3.36
4.181818181818182
3.293103448275862
3.2493297587131367
3.5277777777777777
3.707792207792208
3.3047619047619046
2.6452830188679246
3.865168539325843
3.0943396226415096
3.2224371373307545
2.2455555555555557
4.068965517241379
4.363636363636363
2.897196261682243
3.239819004524887
3.75
3.48
3.847826086956522
3.6733333333333333
3.8620689655172415
3.5550978372811533
4.260869565217392
4.505747126436781
3.539325842696629
3.451219512195122
3.670157068062827
3.6201923076923075
4.085714285714285
4.259554140127388
3.873362445414847
2.8
3.2083333333333335
3.75
3.2717086834733893
3.417910447761194
3.370716510903427
2.5652173913043477
3.25
3.593220338983051
3.730769230769231
3.91875
4.130434782608695
3.75
4.132075471698113
3.7864077669902914
4.2
3.5324675324675323
3.125
3.287128712871287
4.063926940639269
3.323529411764706
3.5833333333333335
3.9215686274509802
3.811320754716981
3.61764705

3.4107142857142856
3.103646833013436
3.878787878787879
3.8095238095238093
4.09748427672956
3.915492957746479
3.398678414096916
3.857142857142857
3.400709219858156
4.130434782608695
4.333333333333333
3.94392523364486
3.1488372093023256
3.7346938775510203
3.310344827586207
4.048780487804878
3.6206896551724137
4.08
3.1315789473684212
4.090909090909091
4.045454545454546
3.903225806451613
4.105590062111801
3.6808510638297873
3.6122448979591835
3.6904761904761907
3.6858974358974357
3.449591280653951
3.072463768115942
3.872340425531915
3.40625
3.4174311926605503
3.747826086956522
3.5531914893617023
3.217391304347826
3.6296296296296298
3.75
4.142857142857143
3.3181818181818183
4.170305676855895
3.710526315789474
3.9047619047619047
3.783625730994152
3.2850467289719627
3.632286995515695
2.7
4.36964980544747
3.5251141552511416
3.5969387755102042
2.8095238095238093
4.260869565217392
3.466666666666667
4.3861386138613865
4.217391304347826
4.4896265560165975
3.8208955223880596
3.8823529411764706
4.5


3.623762376237624
4.097560975609756
4.1
3.4313725490196076
3.3443396226415096
4.11864406779661
3.9009287925696596
4.114754098360656
4.074468085106383
3.3537735849056602
3.6857142857142855
3.72972972972973
3.7580645161290325
3.4834123222748814
3.696078431372549
4.111111111111111
3.883116883116883
4.122093023255814
3.0
3.6136363636363638
3.761904761904762
4.035294117647059
3.40625
3.559748427672956
3.918918918918919
4.033613445378151
4.04
4.140845070422535
2.8780487804878048
3.9324009324009324
3.5
3.7
3.925
4.031818181818182
3.3333333333333335
3.7674418604651163
3.904109589041096
4.181818181818182
3.5833333333333335
4.168421052631579
3.6436781609195403
4.091954022988506
3.380952380952381
4.180327868852459
2.75
3.2
2.86734693877551
4.36
3.0782747603833864
3.3513513513513513
3.8285714285714287
3.988888888888889
3.7837837837837838
4.333333333333333
4.238095238095238
3.182857142857143
3.9444444444444446
3.147783251231527
4.3
3.1473684210526316
3.735294117647059
3.5
3.232786885245902
3.323529

3.892857142857143
3.874251497005988
4.461538461538462
3.095076400679117
4.280575539568345
4.068403908794788
4.4
3.0785340314136125
4.457236842105263
2.9557522123893807
2.9301745635910224
3.665562913907285
3.9859154929577465
3.453020134228188
3.9622641509433962
3.9900662251655628
3.94
4.029411764705882
3.0
4.60655737704918
3.9696969696969697
3.75
3.7872340425531914
3.3
4.442922374429224
3.7045454545454546
4.115384615384615
3.823529411764706
3.857142857142857
3.2658610271903323
3.8260869565217392
4.193181818181818
3.5785714285714287
3.7450980392156863
3.1
3.7531645569620253
3.5714285714285716
3.769230769230769
3.6282527881040894
3.8055555555555554
3.4589371980676327
3.705426356589147
3.967741935483871
4.256410256410256
3.5283018867924527
3.6923076923076925
3.4705882352941178
3.2282608695652173
3.875
3.783295711060948
3.6206896551724137
2.752
3.3701923076923075
3.823529411764706
3.08
3.6411960132890364
3.568
3.9
4.53125
3.5454545454545454
4.276595744680851
3.611940298507463
3.712
3.5625
4

3.42
3.826923076923077
3.7611940298507465
3.8867924528301887
3.7698412698412698
4.098039215686274
3.869918699186992
3.4249084249084247
4.117647058823529
3.9393939393939394
4.051020408163265
3.8244274809160306
4.056338028169014
3.55
3.630434782608696
3.7777777777777777
3.1315789473684212
3.764705882352941
3.233009708737864
3.923547400611621
3.5670103092783507
3.257142857142857
3.4171597633136095
4.416666666666667
4.121951219512195
3.8518518518518516
3.2805755395683454
3.715
3.6666666666666665
3.1450617283950617
3.187725631768953
3.6578947368421053
3.6578947368421053
4.238095238095238
3.8564593301435406
3.246376811594203
3.3783783783783785
3.264516129032258
3.7709251101321586
3.4583333333333335
2.994296577946768
3.4601769911504423
4.666666666666667
2.8823529411764706
3.806451612903226
3.7804878048780486
4.134825014343087
3.9166666666666665
3.373469387755102
3.534090909090909
3.588235294117647
3.586206896551724
3.7868852459016393
2.7435897435897436
3.753875968992248
3.645
3.74402730375426

3.8170212765957445
3.888888888888889
4.054545454545455
3.6963503649635037
3.8846153846153846
4.093567251461988
4.0
3.3270440251572326
4.293577981651376
3.533333333333333
3.8411214953271027
3.980392156862745
4.409090909090909
3.4016064257028114
4.1
4.075757575757576
3.8737864077669903
3.53125
3.466666666666667
4.21763085399449
3.65
4.015748031496063
4.0
4.166666666666667
3.5714285714285716
3.6693548387096775
4.76
3.7037037037037037
4.154639175257732
3.76
3.877551020408163
3.754385964912281
3.4871794871794872
4.068493150684931
3.9473684210526314
4.125
4.052434456928839
3.5476190476190474
3.6382978723404253
4.166666666666667
3.353846153846154
3.6666666666666665
3.7582846003898633
4.12
4.145631067961165
4.283505154639175
3.4
4.4
3.972972972972973
4.25
4.197183098591549
4.1909090909090905
3.9767441860465116
3.700854700854701
3.709090909090909
4.034229828850855
4.018450184501845
3.8
3.066666666666667
3.363036303630363
3.4814814814814814
3.394179894179894
3.176
3.8
3.1560693641618496
4.294117

3.1633333333333336
3.508591065292096
3.767123287671233
3.8222222222222224
3.9285714285714284
3.6367924528301887
3.7209302325581395
3.9148936170212765
4.108108108108108
4.348484848484849
3.5161290322580645
3.84
3.967948717948718
3.6363636363636362
4.171428571428572
4.1
3.1186440677966103
2.8035714285714284
4.209219858156028
3.381294964028777
3.4705882352941178
3.9555555555555557
3.4571428571428573
3.8740740740740742
3.334920634920635
3.6666666666666665
3.55
3.9
3.9896907216494846
3.347826086956522
3.8652777777777776
4.125
3.6
4.0285714285714285
3.8974358974358974
4.047882136279926
3.6262626262626263
3.814432989690722
2.652173913043478
3.09375
3.892156862745098
3.6991869918699187
3.9364161849710984
3.375
2.40625
3.8282208588957056
3.641509433962264
4.130514705882353
3.338709677419355
3.3375
4.397260273972603
3.5530393325387366
1.9272727272727272
3.9683544303797467
4.382978723404255
4.214689265536723
3.798076923076923
3.7777777777777777
3.616822429906542
3.6587301587301586
3.7678571428571

4.051282051282051
3.9545454545454546
3.6
4.225806451612903
3.74
3.8951310861423223
3.8251121076233185
4.548387096774194
3.65531914893617
4.1437125748503
4.038461538461538
2.7104072398190047
3.8255813953488373
4.275555555555556
4.161290322580645
4.008426966292135
3.7114914425427874
3.977777777777778
1.8448275862068966
4.012345679012346
3.5210843373493974
3.4052287581699345
3.4365853658536585
4.03921568627451
3.65625
3.33
4.07
4.0
3.8987341772151898
3.770053475935829
4.6
3.9047619047619047
4.205128205128205
3.3300970873786406
3.875
3.6875
4.134328358208955
3.5789473684210527
3.9743589743589745
4.17
3.3688212927756656
4.242424242424242
3.5451505016722407
3.8333333333333335
3.8260869565217392
3.6818181818181817
3.632279534109817
3.7818181818181817
3.2085561497326203
3.567857142857143
3.7
3.3461538461538463
3.8846153846153846
4.082644628099174
3.2708757637474544
3.6463414634146343
3.1831442463533226
3.9076923076923076
3.911854103343465
3.6666666666666665
4.087719298245614
3.168918918918919


In [26]:
# 두번째 방법 : normal
# 빈 리스트를 만들어서 그 안에 2차원 형태의 데이터를 집어 넣는 방법
user_mean_lst = []

for i in user_id : 
    # 사용자가 1번부터 6040번가지 반복하며 평점의 평균을 구함
    user_mean = m_data[m_data[:, 0] == i,2].mean()  # [행은 불리언인덱싱, 열 인덱싱]
    # 빈 리스트에 사용자 번호와 그 사람이 매긴 평점의 평균이 순서대로 들어감
    user_mean_lst.append([i, user_mean])
    
# 각 사용자들의 평점 평균 데이터
user_mean_lst

[[1, 4.188679245283019],
 [2, 3.7131782945736433],
 [3, 3.9019607843137254],
 [4, 4.190476190476191],
 [5, 3.1464646464646466],
 [6, 3.9014084507042255],
 [7, 4.32258064516129],
 [8, 3.884892086330935],
 [9, 3.7358490566037736],
 [10, 4.114713216957606],
 [11, 3.2773722627737225],
 [12, 3.8260869565217392],
 [13, 3.388888888888889],
 [14, 3.32],
 [15, 3.3233830845771144],
 [16, 3.0285714285714285],
 [17, 4.075829383886256],
 [18, 3.6491803278688524],
 [19, 3.5725490196078433],
 [20, 4.083333333333333],
 [21, 2.909090909090909],
 [22, 3.0673400673400675],
 [23, 3.3157894736842106],
 [24, 3.948529411764706],
 [25, 3.7411764705882353],
 [26, 2.96],
 [27, 4.171428571428572],
 [28, 3.7570093457943927],
 [29, 3.5833333333333335],
 [30, 3.488372093023256],
 [31, 3.73109243697479],
 [32, 3.625],
 [33, 3.498721227621483],
 [34, 3.8658536585365852],
 [35, 3.54040404040404],
 [36, 4.199430199430199],
 [37, 3.69811320754717],
 [38, 3.58],
 [39, 3.564516129032258],
 [40, 3.4479166666666665],
 [41, 

In [27]:
m_data[m_data[:, 0] == 1, 2].mean()

4.188679245283019

#### 각 사용자들의 평점 평균 중 4점 이상의 평점만 구해보자

In [28]:
# user_mean_lst
# 리스트에서는 배열의 요소 간 연산이 불가능 -> ?

In [29]:
user_mean_arr = np.array(user_mean_lst)
b = user_mean_arr[:, 1]
user_mean_arr[b >= 4].size

3088

In [30]:
b

array([4.18867925, 3.71317829, 3.90196078, ..., 3.8       , 3.87804878,
       3.57771261])

In [31]:
user_mean_arr[b >= 4][:,1].size

1544

In [32]:
# 선생님 풀이
# user_mean_lst
# 리스트에서는 배열의 요소 간 연산이 불가능 -> ?
# 반복문을 써서 데이터에 일일이 접근해줘야 한다.

# 배열의 요소 간 연산이 가능하도록 array로 바꿔주자
user_mean_arr = np.array(user_mean_lst)
user_mean_arr

# e+00 : 컴퓨터만의 지수 표현 방식 (실수형 데이터)
# 실수가 매우 크거나 작은 수를 표현할 때

array([[1.00000000e+00, 4.18867925e+00],
       [2.00000000e+00, 3.71317829e+00],
       [3.00000000e+00, 3.90196078e+00],
       ...,
       [6.03800000e+03, 3.80000000e+00],
       [6.03900000e+03, 3.87804878e+00],
       [6.04000000e+03, 3.57771261e+00]])

In [33]:
# 실수 -> 정수로 형변환
# astype() : 데이터 타입 변환 함수
user_mean_arr = user_mean_arr.astype(np.int64)
user_mean_arr

array([[   1,    4],
       [   2,    3],
       [   3,    3],
       ...,
       [6038,    3],
       [6039,    3],
       [6040,    3]], dtype=int64)

#### 영화의 평점을 4점 이상 매긴 사람들은 몇 명인지 구해보자

In [34]:
user_mean_arr[:, 1] >= 4.0 # 재료

array([ True, False, False, ..., False, False, False])

In [35]:
user_mean_arr[user_mean_arr[:,1] >= 4.0].size  # 요소의 전체 개수를 구하는 식

3088

In [36]:
len(user_mean_arr[user_mean_arr[:,1] >= 4.0])  # 평균 4점 이상의 평점을 매긴 사용자 수

1544

#### 분석한 결과를 csv 파일로 저장하기

In [9]:
import numpy as np

In [37]:
# CSV = comma separated values
# np.savetxt(파일이름.csv , 실제 데이터, 구분자, 데이터표현방식(fmt) : 소수점 3자리까지 표현)
# 파일명.확장자 를 적어주는 것이 가장 중요하다.
np.savetxt("user_mean_lst.csv", user_mean_lst, delimiter = ',', fmt = '%.3f')