### Numpy 사용하기

In [1]:
import numpy as np
# numpy 모듈을 np라고 부르겠다

### Numpy 객체 이해하기
- 다차원 배열. 행렬 데이터 구조 제공
- 동일한 자료형을 가지는 값들이 배열의 형태로 존재
- n차원 형태로 구성이 가능
- 데이터에 접근을 최적화하기 위해 색인(index) 를 부여


![image.png](attachment:image.png)

### Numpy 배열 다루기

#### 1D array 생성

In [2]:
# 1차원 생성

list1 = [1,2,3,4,5] # 리스트
arr = np.array(list1) #np.array() : 배열을 생성하는 함수
arr

array([1, 2, 3, 4, 5])

#### 2D array 생성

In [3]:
arr2 = np.array([[1,2,3],[4,5,6]])
arr2

array([[1, 2, 3],
       [4, 5, 6]])

#### 배열 속성 확인하기

![image.png](attachment:image.png)

In [4]:
# 1. 배열의 크기 확인 
# .shape

print('행 : ', arr2.shape[0], '열 : ', arr2.shape[1])

# 2. 배열의 차원 수 확인 
# .ndim

print(arr.ndim)
print(arr2.ndim)

# 3. 배열의 전체 요소 개수 확인
#  .size

print(arr.size)
print(arr2.size)

# 4. 배열 데이터 타입 확인
#  .type

print(arr.dtype)    
print(arr2.dtype)    

행 :  2 열 :  3
1
2
5
6
int32
int32


#### 다양한 배열 생성 함수들 확인하기
- np.arange() : 사용자가 정의한 숫자만큼의 1차원 배열 생성
- np.arange(시작값, 끝, 증감값)  

In [5]:
# np.arange() 함수를 몰랐을경우
list1 = []
for i in range(1, 51) :
    list1.append(i)
np.array(list1)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [6]:
# np.arange() 함수를 알 경우
range_arr = np.arange(1, 51) 
range_arr


array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [7]:
# np.arange로 1~50 담은 5행 10열의 2차원 배열 생성
range_arr2 = np.arange(1, 51).reshape(5, 10) 
range_arr2
# 1~50까지 담은 1차원 배열 생성한 후 크기 조정 : reshape



array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

![image.png](attachment:image.png)

#### 랜덤 값 배열 생성


In [8]:
arr_ran = np.random.rand(2, 3)
arr_ran

array([[0.65198193, 0.57514147, 0.25403475],
       [0.82659906, 0.86501553, 0.06824678]])

In [9]:
# 1 ~ 5 수로 6개 뽑기
np.random.seed(1)
np.random.randint(1, 5, 6)

array([2, 4, 1, 1, 4, 2])

In [10]:
np.random.randint(2, 10, size =(2, 3))

array([[5, 7, 9],
       [2, 2, 3]])

In [11]:
!pip install opencv-python
import cv2
import matplotlib.pyplot as plt

img= cv2.imread("./data/dd.jpg   ", cv2.IMREAD_COLOR)
img = cv2.cvtColor(img, cv2.COLOR_RGB2GRAY)
plt.xticks([])
plt.yticks([])
plt.imshow(img, cmap='gray')



error: OpenCV(4.8.0) D:\a\opencv-python\opencv-python\opencv\modules\imgproc\src\color.cpp:182: error: (-215:Assertion failed) !_src.empty() in function 'cv::cvtColor'


![image.png](attachment:image.png)

In [None]:
img.shape
img.dtype
img.ndim
img[:309,:550]
#255 = 흰색


In [None]:
img.shape

### Numpy 데이터 접근 및 처리
- 인덱스 기반으로 접근 : 인덱싱, 슬라이싱
- 논리 연산자를 활용하여 True, False 결과를 출력
  True에 해당하는 데이터에 접근  ==>  불리언 인덱싱
- 불리언 인덱싱 : 특정 기준에 의한 데이터 접근방식 

![image.png](attachment:image.png)

#### 1차원 배열 요소 1개 접근하기(indexing)

In [None]:
arr3 = np.array([10,20,30,40,50,60]) # 1차원
arr3

In [None]:
arr3[3]

In [None]:
# 10, 30 데이터 접근
arr3[[0, 2]] # 여러 요소에 접근할 때는 대괄호를 한번 더 써주기

#### 1차원 배열 요소 여러 개 접근하기(slicing)

In [None]:
# 20 ~ 50 데이터 접근
arr3[1:5]

In [None]:
arr3[0:3]

#### 2차원 배열 요소 1개 접근(indexing)

In [None]:
arr4 = arr3.reshape(2,3)
arr4
# 1차원 배열 2차원으로 reshape()

In [None]:
# 2차원일때 
# 배열명[행][열]
# 배열명[행, 열]

In [None]:
# 30 데이터 접근
print(arr4[0,2])
print(arr4[0][2])


In [None]:
arr4[1,[0, 1]]  

In [None]:
arr4[1, :2]

![image.png](attachment:image.png)

In [None]:
arr5= np.arange(10,61,10).reshape(2, 3)
arr5

In [None]:
arr5[0:2, [0, 2]]

In [None]:
arr5[:, ::2]

#### 데이터 처리 (수정,  추가 , 병합)


In [None]:
# 특정 위치 데이터 수정하기
arr5

In [None]:
arr5[0] = 20
arr5

In [None]:
# 0행의 값을 20 -> 30으로 변경
arr5[0, :] = 30 
arr5

In [None]:
arr5[0, :] = [10,20,30]
arr5

In [None]:
# 데이터 추가하기

arr5=np.append(arr4, 30)
arr5

In [None]:
# 병합하기
ar1 = np.arange(1, 4)
ar2 = np.arange(4, 7)
print(ar1)
print(ar2)

In [None]:
#
np.concatenate([ar1, ar2])

#### 조건에 맞는 데이터 접근하기
- boolean indexing

In [None]:
# random.choice : 랜덤으로 하나의 요소를 획득
# random.sample : 랜덤으로 여러 요소를 취득, 중복없음
# random.choices : 랜덤으로 여러 요소를 취득, 중복있음

In [None]:
# 불리언 배열 생성
sample_arr = [True,False]

bool_arr = np.random.choice(sample_arr , size = 10)
display(bool_arr)

tmp_data = np.arange(10) # 0~ 9 까지 씩 증가하는 숫자 생성
display(tmp_data)

In [None]:
tmp_data[bool_arr]

In [None]:
# 성적 데이터 생성 후 조건에 맞는 데이터 접근하기

# 랜덤 값 고정 : 7
np.random.seed(7)
score = np.random.randint(50,100,size = 20)
score

In [None]:
# 논리연산자를 활용하여
score[score >= 80] 

In [None]:
# 70점 미만인 데이터는 몇 개일까?
score[score<70]

In [None]:
len(score[score<70])
score[score<70].size

In [None]:
std_num = np.arange(1, 21)
std_num

std_num[score>=60]


### 배열연산


#### 배열과 요소 연산

In [None]:
# 리스트일때
[2,3,4,5] + [2]


In [None]:
# 2 ~ 5 까지 담은 1차원 배열 생성
arr6 = np.arange(2, 6)
arr6

#### 배열 간 연산


In [None]:
arr6 + arr6

In [None]:
arr6 * arr6

![image.png](attachment:image.png)

In [16]:
# 데이터 불러오기
# delimiter = (구분자)
data = np.loadtxt("./data/height_weight.txt", delimiter = ",")
data

array([[175.2, 180.3, 175. , 169.2, 185.2, 188. , 177.6, 178.2, 177. ,
        179. ],
       [ 65.6,  88. ,  79.2,  69.3,  55. ,  71.2,  73. ,  68.9,  74. ,
         82. ]])

In [17]:
# 데이터 정보 확인하기(크기, 데이터타입, 차원)
print(data.shape)
print(data.dtype)
print(data.ndim)


(2, 10)
float64
2


![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [18]:
# 1. 키 변수에 키 데이터 담기
height = data[0, :]
height


array([175.2, 180.3, 175. , 169.2, 185.2, 188. , 177.6, 178.2, 177. ,
       179. ])

In [19]:
height = data[0]
height

array([175.2, 180.3, 175. , 169.2, 185.2, 188. , 177.6, 178.2, 177. ,
       179. ])

In [20]:
# 몸무게 변수에 몸무게 데이터 담기
weight = data[1,:]
weight

array([65.6, 88. , 79.2, 69.3, 55. , 71.2, 73. , 68.9, 74. , 82. ])

In [21]:
weight = data[1]
weight

array([65.6, 88. , 79.2, 69.3, 55. , 71.2, 73. , 68.9, 74. , 82. ])

In [22]:
# 키 데이터의 단위 변경 cm -> m 
height = height * 0.01


In [23]:
height

array([1.752, 1.803, 1.75 , 1.692, 1.852, 1.88 , 1.776, 1.782, 1.77 ,
       1.79 ])

In [24]:
# 배열간 연산을 통해 bmi 지수 구하기

result = weight/(height * height)
result

array([21.37153104, 27.07018468, 25.86122449, 24.20652885, 16.03543423,
       20.14486193, 23.14392095, 21.69720651, 23.62028791, 25.59220998])

In [25]:
a=result[:]>=23 
a

array([False,  True,  True,  True, False, False,  True, False,  True,
        True])

In [26]:
num=np.arange(1,11)

print('과체중, 비만 :', result[result>=23].size)


과체중, 비만 : 6


In [27]:
# & : 비트논리 연산자 and
# | : 비트논리 연산자 or    


In [28]:
a[True]

array([[False,  True,  True,  True, False, False,  True, False,  True,
         True]])

Numpy 
- 파이썬에서 다차원 배열, 행렬 데이터 구조를 제공하는 과학계산에 특화된 라이브러리(모듈)
- 동일한 자료형을 가지는 값들이 배열의 형태로 존재
- 데이터 접근을 최적화하기 위해 인덱스 부여
   ==> 인덱싱, 슬라이싱
- 배열 생성 
   1차원 : np.array(단일리스트) 
               np.arange(시작값, 끝값, 증감값) 
               --> 1차원으로만 생성
   2차원 : np.array(이중리스트)
               arange() 함수를 통해 만들어진 1차원 배열을 2차원으로 바꾸고자 할때.
               - .reshape(행, 열)
- 배열 속성 확인
   크기 : shape
   차원 : ndim
   요소 개수 : size
   타입 : dtype
- 데이터 접근 :
   - 인덱스 기반으로 접근 : 인덱싱, 슬라이싱
   - 특정 기준에 의해 접근 : 불리언 인덱싱
      논리연산자를 활용하여 True, False 결과 출력 후 True에 해당하는 데이터만 접근 (False 값은 출력하지 않음)
      두 가지 조건에 대해 비교할때 비트논리연산자
      : &(and), |(or)
- 여러 요소의 데이터에 접근할 때는 대괄호 []를 한 번 더 써줘야 함.
   ex) 1차원 : arr[[0, 2]]
          2차원 : arr2[행][열], arr2[행, 열]
                       arr2[시작행:끝행, 시작열:끝열],
                       arr2[행, [열1, 열2]]
- 연산 : 배열 요소의 위치적으로 대응된 배열 간 연산 수행

### Numpy 함수

#### sum() : 총합 함수

In [None]:

np.random.seed(1)
arr = np.random.randint(1, 10, size = (2, 2))
print(arr)

print(arr.sum()) # arr 객체가 가지고 있는 메서드
print(np.sum(arr)) # np 자체 함수

#### mean() : 평균 함수

In [None]:
arr
print(arr.mean())
print(np.mean(arr))

#### sqrt() : 제곱근 함수
- 제곱(square) 
- 제곱근(square root)

In [None]:
square_arr = np.array([4, 16])
print(square_arr)
#print(square_arr.sqrt()) #에러 : 메소드로 정의 되어있지 않음
print(np.sqrt(square_arr))


![image.png](attachment:image.png)

In [None]:
# sqrt() 함수를 이용
tree = (3, 0) # b(x2, y2)
tree_x, tree_y = tree[0], tree[1]
distance = np.sqrt((tree_x - 0) **2 + (tree_y -0)**2)
print(distance)

if distance == 2.0 :
    print('경계-on')
elif distance < 2.0 :
    print('내부-in')
else :
    print('외부-out')


#### abs(): 절대값 구하는 함수

In [None]:
num_arr = np.array([-1, -2, -3, -5, 6, -9])
np.abs(num_arr)

#### bincount() : 0~ 가장 큰 값까지 발생 빈도를 카운팅 횟수

In [None]:
np.random.seed(3)
arr = np.random.randint(1,5, size= 5)
arr

In [None]:
np.bincount(arr)


#### np.unique() : 중복없이 값 확인하는 함수

In [None]:
arr

In [51]:
print(np.unique(arr))
print(np.unique(arr, return_counts = True))

[1 2 3 4 5]
(array([1, 2, 3, 4, 5]), array([1, 1, 1, 1, 1], dtype=int64))


#### np.where() : 조건에 해당하는 값 찾고 처리(인덱스 번호)하는 함수

In [None]:
np.where(arr<2)
# 조건에 맞는 값의 인덱스 번호 반환

In [None]:
# np.where(조건, 참, 거짓)
# 조건에 맞는다면 참, 맞지않다면 거짓 값으로 대체 ==> 전처리에 많이 활용

np.where(arr < 2, 1 ,0)


In [29]:
# bmi_result에서 과체중과 비만인(23이상인 모든 값) 데이터 찾기
np.where(result >= 23) # 인덱스 번호 반환

(array([1, 2, 3, 6, 8, 9], dtype=int64),)

In [30]:
result[[1, 2, 3, 6, 8, 9]]

array([27.07018468, 25.86122449, 24.20652885, 23.14392095, 23.62028791,
       25.59220998])

In [38]:
np.where((result>=23) & (result<25))

(array([3, 6, 8], dtype=int64),)

### 영화 평점데이터 분석 - 각 사용자별 평점 평균 구하기

![image.png](attachment:image.png)

#### 데이터 불러오기
- data 변수에 담기
- np.loadtxt('경로', 구분자, 데이터타입)

In [60]:
data =np.loadtxt('./data/ratings.dat', delimiter='::', dtype= np.int64) # int64 = 2^64
data

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]], dtype=int64)

#### 데이터 정보 확인하기

In [61]:
# 차원
print(data.ndim)
# 크기
print(data.shape)
# 요소 개수
print(data.size)


2
(1000209, 4)
4000836


#### 전체 평점 평균 구하기

In [62]:
rating_all = data[:,2].mean()
rating_all

3.581564453029317

![image.png](attachment:image.png)

In [63]:
data[:,0]

array([   1,    1,    1, ..., 6040, 6040, 6040], dtype=int64)

In [66]:
user_id = data[:, 0]
user_id

array([   1,    1,    1, ..., 6040, 6040, 6040], dtype=int64)

In [69]:
# 2. 사용자 아이디를 중복없이 가져오기
user_id = np.unique(user_id)
user_id

array([   1,    2,    3, ..., 6038, 6039, 6040], dtype=int64)

In [70]:
# 사용자 아이디가 1인 평점의 평균 구하기
user_id1 = data[data[:, 0] == 1]
user_id1

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       [        1,      3408,         4, 978300275],
       [        1,      2355,         5, 978824291],
       [        1,      1197,         3, 978302268],
       [        1,      1287,         5, 978302039],
       [        1,      2804,         5, 978300719],
       [        1,       594,         4, 978302268],
       [        1,       919,         4, 978301368],
       [        1,       595,         5, 978824268],
       [        1,       938,         4, 978301752],
       [        1,      2398,         4, 978302281],
       [        1,      2918,         4, 978302124],
       [        1,      1035,         5, 978301753],
       [        1,      2791,         4, 978302188],
       [        1,      2687,         3, 978824268],
       [        1,      2018,         4, 978301777],
       [        1,      3105,         5, 97830

In [72]:
user_id1[:, 2].mean()

4.188679245283019

In [87]:
user_id1 = data[:, 0] == 1
user_id1

array([ True,  True,  True, ..., False, False, False])

In [89]:
data[data[:, 0] == 1]

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       [        1,      3408,         4, 978300275],
       [        1,      2355,         5, 978824291],
       [        1,      1197,         3, 978302268],
       [        1,      1287,         5, 978302039],
       [        1,      2804,         5, 978300719],
       [        1,       594,         4, 978302268],
       [        1,       919,         4, 978301368],
       [        1,       595,         5, 978824268],
       [        1,       938,         4, 978301752],
       [        1,      2398,         4, 978302281],
       [        1,      2918,         4, 978302124],
       [        1,      1035,         5, 978301753],
       [        1,      2791,         4, 978302188],
       [        1,      2687,         3, 978824268],
       [        1,      2018,         4, 978301777],
       [        1,      3105,         5, 97830

In [None]:
result = []
for i in user_id :
#    print(i)
    rating_mean = data[data[:, 0] == i][:, 2].mean()
    #data[data[:, 0] == i][:, 2].mean()
    result.append([i, rating_mean])
print(result)

In [95]:
result

[[1, 4.188679245283019],
 [2, 3.7131782945736433],
 [3, 3.9019607843137254],
 [4, 4.190476190476191],
 [5, 3.1464646464646466],
 [6, 3.9014084507042255],
 [7, 4.32258064516129],
 [8, 3.884892086330935],
 [9, 3.7358490566037736],
 [10, 4.114713216957606],
 [11, 3.2773722627737225],
 [12, 3.8260869565217392],
 [13, 3.388888888888889],
 [14, 3.32],
 [15, 3.3233830845771144],
 [16, 3.0285714285714285],
 [17, 4.075829383886256],
 [18, 3.6491803278688524],
 [19, 3.5725490196078433],
 [20, 4.083333333333333],
 [21, 2.909090909090909],
 [22, 3.0673400673400675],
 [23, 3.3157894736842106],
 [24, 3.948529411764706],
 [25, 3.7411764705882353],
 [26, 2.96],
 [27, 4.171428571428572],
 [28, 3.7570093457943927],
 [29, 3.5833333333333335],
 [30, 3.488372093023256],
 [31, 3.73109243697479],
 [32, 3.625],
 [33, 3.498721227621483],
 [34, 3.8658536585365852],
 [35, 3.54040404040404],
 [36, 4.199430199430199],
 [37, 3.69811320754717],
 [38, 3.58],
 [39, 3.564516129032258],
 [40, 3.4479166666666665],
 [41, 

In [114]:
# q1 = []
# # 평점의 평균이 4점 이상인 사용자 
# for i in range(1, len(result)):
#     q1=result[:,1] >=4
    # 평점의 평균이 4점 이상인 사용자는 몇 명인지?
user_rating_mean[user_rating_mean[:, 1] >= 4.0][:, 0].size
    
    
    cnt = 0
for i in user_id :
    if (data[data[:, 0] == i][:,2].mean() >= 4) :
        cnt += 1
print(cnt)

IndentationError: unexpected indent (3042988783.py, line 9)

In [109]:
[result[:,1] >=4]

TypeError: list indices must be integers or slices, not tuple

In [101]:
# csv 파일로 저장
np.savetxt('./data/user_rating_mean.csv', result, delimiter=',', fmt='%.3f')

In [103]:
# 저장한 파일 다시 불러오기
user_rating_mean = np.loadtxt('./data/user_rating_mean.csv',delimiter=',')
user_rating_mean

array([[1.0000e+00, 4.1890e+00],
       [2.0000e+00, 3.7130e+00],
       [3.0000e+00, 3.9020e+00],
       ...,
       [7.7202e+04,        nan],
       [7.7203e+04,        nan],
       [7.7204e+04,        nan]])

In [91]:

for i in range(1,data) :
     data[data[:, 0] == i]


TypeError: only integer scalar arrays can be converted to a scalar index