## NumPy 라이브러리
- Numerical Python 약자
- Python에서 수치계산을 위한 핵심 라이브러리
- ndarray(N-dimensional array)클래스 지원

In [71]:
import numpy as np

### ndarray(N-dimensional array)
1. 다양한 수학함수 지원
2. 빠른 연산속도
3. 브로드 캐스팅(차원을 동일시 하는 기능)
4. 다차원배열 지원
---
- 동일한 자료형을 가지는 값들이 배열 형태로 존재해야함(숫자는 숫자끼리, 자료형이 섞여 있으면 안됨)
- 각 값들 index가 부여 → 순서가 있음 → 인덱싱/슬라이싱 가능

### 1. ndarray 생성하기
- np.array(리스트 or 튜플)

In [72]:
# list 생성
list1=[1,2,3,4,5]
list1

arr1=np.array(list1)
type(arr1)

numpy.ndarray

In [73]:
# 직접 array화 가능!
np.array([6,7,8,9,10])

array([ 6,  7,  8,  9, 10])

In [74]:
# 2ckdnjs ndarray생성
arr2=np.array([[1,2,3],
              [4,5,6]])
arr2

array([[1, 2, 3],
       [4, 5, 6]])

In [75]:
list2=[[1,2,3],[4,5,6]]
list2

# 2차원 형태의 리스트와 ndarray 출력문은 차이가 있음
# ndarray는 다차원 배열 인식

[[1, 2, 3], [4, 5, 6]]

### 2. ndarray 확인하기("속성" 또는 "키워드", 함수 아님!)

In [76]:
# ndarray 차원 확인하기

print(arr1.ndim)
print(arr2.ndim)

1
2


In [77]:
#ndarray 모양(크기) 확인하기
print(arr1.shape) # 길이
print(arr2.shape) # 행,열

(5,)
(2, 3)


In [78]:
# ndarray 요소 개수 확인

# len() : 내장함수, 배열의 첫 번째 차원의 길이 반환
# size : array의 모든 요소의 총 수 반환
print(len(arr1))
print(arr1.size)
print()
print(len(arr2))
print(arr2.size)

5
5

2
6


In [79]:
# 배열 요소의 타입 확인
print(arr1.dtype)
print(arr2.dtype)
# int32 -> 데이터 타입,크기

int32
int32


#### 실습
![image.png](attachment:image.png)

In [80]:
array1=np.array([[1, 2],
         [3, 4]])
array2=np.array([[5, 6],
         [7, 8]])
array3=np.array([array1,array2])

print(array1)
print(array2)
print(f"배열의 모양(크기):{len(array1),len(array2),len(array3)}")
print(f"배열의 차원 : {array3.ndim}")
print(f"배열의 요소개수 : {array3.size}")

[[1 2]
 [3 4]]
[[5 6]
 [7 8]]
배열의 모양(크기):(2, 2, 2)
배열의 차원 : 3
배열의 요소개수 : 8


In [81]:
# 선생님 코드
arr3=np.array([[[1,2],
               [3,4]],
            [[5,6],
             [7,8]]])
print(arr3)
print(f"배열의 모양(크기):{arr3.shape}")
print(f"배열의 차원 : {arr3.ndim}")
print(f"배열의 요소개수 : {arr3.size}")

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]
배열의 모양(크기):(2, 2, 2)
배열의 차원 : 3
배열의 요소개수 : 8


#### 2.1 dtype 및 shape 변경

In [82]:
# 데이터 타입을 직접 지정해 배열 생성
list3 = [[1.7,4.2,3.6], [4.1,2.9,5.8]]

temp1 = np.array(list3)
temp2 = np.array(list3, dtype=np.int64)

print(temp1)
print(temp1.dtype)
print()
print(temp2)
print(temp2.dtype)


[[1.7 4.2 3.6]
 [4.1 2.9 5.8]]
float64

[[1 4 3]
 [4 2 5]]
int64


In [83]:
# 만들어진 ndarray의 요소 자료형 변경!
temp2=temp2.astype(np.float64) # 다시 담아줘야함
temp2.dtype

dtype('float64')

In [84]:
temp2

array([[1., 4., 3.],
       [4., 2., 5.]])

In [85]:
# 모양(크기) 바꿔주기
# 2차원 경우 행과 열의 값이 맞게 떨어져야함
temp2=temp2.reshape(3,2) # 다시 대입
temp2

array([[1., 4.],
       [3., 4.],
       [2., 5.]])

### 3. 특정한 값으로 ndarray 생성

In [86]:
# 모든 값 0으로 초기화
# np.zeros((행,열)) -> 2차원 이상의 모양인 경우 튜플로 감싸줘야함

np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [87]:
# 모든 값 1로 초기화
# np.ones((행,열)) -> 2차원 이상 모양인 경우 튜플로 감싸줘야함
np.ones((5,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [88]:
# 원하는 값으로 초기화(하나의 값만 적용)
# np.full((행,열), 원하는 값)
arr_full=np.full((5,5),10)
arr_full

array([[10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10]])

In [89]:
# 랜덤값으로 배열 생성
# np.random.randint(시작값, 끝값, size(행,열))
arr_randint=np.random.randint(1,10,size=(3,2))
arr_randint

array([[7, 6],
       [5, 9],
       [8, 6]])

![image.png](attachment:image.png)

In [90]:
# 1부터 50이 담긴 1차원 array 생성 ->리스트 활용
list_num=[]
for i in range(1,51):
    list_num.append(i)

print(np.array(list_num))

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50]


In [91]:
# list.append() 많이 쓰임
#리스트 컴프리헨션(리스트 내포, List comprehension)
list2 = [i for i in range(1,51)]
np.array(list2)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [92]:
# gpt 코드
arr_num = np.arange(1, 51)
print(arr_num)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50]


### 4. ndarray 연산
- 요소 별 연산에 특화

In [93]:
# list 연산 방식
list1 = [1,2,3]
list2 = [4,5,6]

list1 + list2

[1, 2, 3, 4, 5, 6]

In [94]:
# ndarray 연산 방식
arr1 = np.array(list1)
arr2 = np.array(list2)

# 요소별 연산
arr1+arr2

array([5, 7, 9])

In [95]:
# 2차원 ndarray 연산
arr_a = np.array([[1,2,3],[4,5,6]])
arr_b = np.array([[7,8,9],[10,11,12]])

print(arr_a, end='\n\n')
print(arr_b, end='\n\n')

arr_a + arr_b

[[1 2 3]
 [4 5 6]]

[[ 7  8  9]
 [10 11 12]]



array([[ 8, 10, 12],
       [14, 16, 18]])

In [96]:
print(arr_a,end='\n\n')
print(arr1,end='\n\n')
#2차원 + 1차원
arr_a + arr1

[[1 2 3]
 [4 5 6]]

[1 2 3]



array([[2, 4, 6],
       [5, 7, 9]])

In [97]:
arr_a **2
# 브로드 캐스팅: 차원의 수를 알아서 맞춰줌
# 주의사항: 어느 정도 규칙이 존재(ex요소의 개수가 같아야함)

array([[ 1,  4,  9],
       [16, 25, 36]])

### 5.ndarray 인덱싱&슬라이싱
- Indexing: 값을 가리키다 -> 자료 구조 내에서 "1개의 요소"에 접근하는 것
- Slicing: 값을  잘라오다 -> 자료 구조 내에서 "여러 개의 요소"에 접근하는 것

In [98]:
# 1차원 인덱싱
arr1= np.arange(0,10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [99]:
arr1[2]

2

In [100]:
# 1차원 슬라이싱
arr1[3:8]

array([3, 4, 5, 6, 7])

In [101]:
# 슬라이싱 이후 데이터 삽입

# 리스트 : 슬라이싱하고 값을 넣으면 범위 자체가 하나의 요소로 반환
list1 = [0,1,2,3,4,5,7,8,9]
list1[3:]=[10]
list1

[0, 1, 2, 10]

In [102]:
# array : 슬라이싱 된 요소들에 각각 하나씩 값을 넣는다!
arr1=np.arange(0,10)
arr1[3:]=10
arr1

array([ 0,  1,  2, 10, 10, 10, 10, 10, 10, 10])

In [103]:
# 2차원 array 인덱싱& 슬라이싱
# 인덱싱 : [행값, 열값]
# 슬라잉싱 : [행 시작값:행 끝값,열 시작값:열 끝값]

arr2 = np.arange(1,51).reshape(5,10)
arr2

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [104]:
# 2차원 인덱싱 - 튜플인덱싱
# 인덱싱 -> 기존 차원보다 낮은 차원의 요소 반환
arr2[1,1]

12

In [105]:
# 2차원 인덱싱 - 일반인덱싱
arr2[1][1]

12

In [106]:
# 2차원 슬라이싱
#슬라이싱 -> 동일한 차원을 반환
arr2[2:5,0:9]

array([[21, 22, 23, 24, 25, 26, 27, 28, 29],
       [31, 32, 33, 34, 35, 36, 37, 38, 39],
       [41, 42, 43, 44, 45, 46, 47, 48, 49]])

#### 실습
![image.png](attachment:image.png)

In [107]:
# 생성해서 만듬 ㅠㅠ
arr1= np.arange(1,21).reshape(2,10)
print(arr1)
print()

arr2= np.arange(1,42,10)
print(arr2)
print()

arr3=np.arange(1,41).reshape(4,10)
print(arr3[0:5,0:5])

[[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]]

[ 1 11 21 31 41]

[[ 1  2  3  4  5]
 [11 12 13 14 15]
 [21 22 23 24 25]
 [31 32 33 34 35]]


In [108]:
arr1=np.arange(1,51).reshape(5,10)
print(arr1)

print()
print(arr1[0:2])

print()
print(arr1[:,0])


print()
print(arr1[0:4,0:5])

[[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27 28 29 30]
 [31 32 33 34 35 36 37 38 39 40]
 [41 42 43 44 45 46 47 48 49 50]]

[[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]]

[ 1 11 21 31 41]

[[ 1  2  3  4  5]
 [11 12 13 14 15]
 [21 22 23 24 25]
 [31 32 33 34 35]]


In [109]:
# 여러 개의 요소 선택 - Fancy 인덱싱
# [[행1, 행2],[열1, 열2...]]
arr1[[2,3],[2,3]]

array([23, 34])

#### BMI지수 구하기
![image.png](attachment:image.png)

In [110]:
# 1. 데이터 읽어오기
# loadtxt("경로 및 파일명") : 읽어들일 파일을 ndarray 형태로 불러오는 도구
# delimiter = '구분자' : 요소를 구분짓기 위한 구분자 지정
data = np.loadtxt("./data/height_weight(p).txt",delimiter=',')
print(type(data))
print(data.dtype)
print(data.shape)

<class 'numpy.ndarray'>
float64
(2, 10)


In [111]:
# 0번째 행: 키
# 1번째 행: 몸무게(pound)
# kg =pound/2.204
data

array([[175.2   , 180.3   , 175.    , 169.2   , 185.2   , 188.    ,
        177.6   , 178.2   , 177.    , 179.    ],
       [144.5824, 193.952 , 174.5568, 152.7372, 121.22  , 156.9248,
        160.892 , 151.8556, 163.096 , 180.728 ]])

In [112]:
# 1. 키 데이터 가져오기
# 2. 몸무게 데이터 가져오기

print(data[0]) # 키
print(data[1]) # 몸무게

# 3. 단위 변경
print()
# pound=> kg 
kg=data[1]/2.204
print(kg)
# cm => m
m=data[0]/100
print(m)

# 4. BMI 측정
print()
data_bmi=kg/(m*m)
print(data_bmi)

[175.2 180.3 175.  169.2 185.2 188.  177.6 178.2 177.  179. ]
[144.5824 193.952  174.5568 152.7372 121.22   156.9248 160.892  151.8556
 163.096  180.728 ]

[65.6 88.  79.2 69.3 55.  71.2 73.  68.9 74.  82. ]
[1.752 1.803 1.75  1.692 1.852 1.88  1.776 1.782 1.77  1.79 ]

[21.37153104 27.07018468 25.86122449 24.20652885 16.03543423 20.14486193
 23.14392095 21.69720651 23.62028791 25.59220998]


In [113]:
# 불리안 인덱싱 활용 -> 과체중(23~25)인 사람은 누구인가
data_bmi[data_bmi >=23]

array([27.07018468, 25.86122449, 24.20652885, 23.14392095, 23.62028791,
       25.59220998])

In [114]:
data_bmi[data_bmi<=25]

array([21.37153104, 24.20652885, 16.03543423, 20.14486193, 23.14392095,
       21.69720651, 23.62028791])

In [115]:
# 다중 불리안 인덱싱 -> 비트 연산자
# and, or : 논리연산자(단일값 연산 시 활용)
# &, | : 비트연산자(다중값, ex.ndarray 연산 시 활용)

data_bmi >=23, data_bmi<=25
data_bmi[(data_bmi >=23)&(data_bmi<=25)]

array([24.20652885, 23.14392095, 23.62028791])

### 6. NumPy 수학적 함수

In [116]:
# 랜덤 array 생성
arr=np.random.randint(1,10,size=(2,5))
arr

array([[2, 9, 6, 2, 4],
       [1, 3, 7, 2, 4]])

In [117]:
# sum() : 합계
print(arr.sum())
print(np.sum(arr))

40
40


In [118]:
# mean(): 평균
print(arr.mean())
print(np.mean(arr))

4.0
4.0


In [119]:
# sqrt(): 제곱근
np.sqrt(arr)

array([[1.41421356, 3.        , 2.44948974, 1.41421356, 2.        ],
       [1.        , 1.73205081, 2.64575131, 1.41421356, 2.        ]])

In [120]:
# abs() : 절댓값
arr = np.array([-1,-2,-3,-4,-5])
print(arr)
np.abs(arr)

[-1 -2 -3 -4 -5]


array([1, 2, 3, 4, 5])

| 함수명 | 설명 | 인자 |
|--------|------|------|
| `np.add(x1, x2)` | 두 배열을 요소별로 더합니다. | `x1`, `x2`: 더할 배열 |
| `np.subtract(x1, x2)` | 첫 번째 배열에서 두 번째 배열의 요소를 요소별로 뺍니다. | `x1`, `x2`: 뺄셈을 할 배열 |
| `np.multiply(x1, x2)` | 두 배열의 요소별 곱을 계산합니다. | `x1`, `x2`: 곱할 배열 |
| `np.divide(x1, x2)` | 첫 번째 배열을 두 번째 배열로 요소별로 나눕니다. | `x1`, `x2`: 나눗셈을 할 배열 |
| `np.sqrt(x)` | 배열의 각 요소에 대해 제곱근을 계산합니다. | `x`: 제곱근을 구할 배열 |
| `np.sin(x)` | 배열의 각 요소에 대해 사인 함수 값을 계산합니다. | `x`: 사인 값을 구할 배열 |
| `np.cos(x)` | 배열의 각 요소에 대해 코사인 함수 값을 계산합니다. | `x`: 코사인 값을 구할 배열 |
| `np.tan(x)` | 배열의 각 요소에 대해 탄젠트 함수 값을 계산합니다. | `x`: 탄젠트 값을 구할 배열 |
| `np.log(x)` | 배열의 각 요소에 대해 자연 로그 값을 계산합니다. | `x`: 로그 값을 구할 배열 |
| `np.exp(x)` | 배열의 각 요소에 대해 지수 함수 값을 계산합니다. | `x`: 지수 값을 구할 배열 |
| `np.power(x1, x2)` | 첫 번째 배열의 요소를 두 번째 배열의 해당 요소만큼 거듭제곱합니다. | `x1`, `x2`: 거듭제곱을 할 배열 |
| `np.mod(x1, x2)` | 첫 번째 배열의 요소를 두 번째 배열의 요소로 나눈 나머지를 계산합니다. | `x1`, `x2`: 나머지 연산을 할 배열 |

### 7. Boolean 인덱싱
- 배열 안에서 조건을 충족하는 True인 값들만 추출해주는 인덱싱
- 필터링

In [121]:
score = np.array([80,75,55,96,30])
score

array([80, 75, 55, 96, 30])

In [122]:
# 1. mask(필터) 만들기
mask= score >=60
mask

array([ True,  True, False,  True, False])

In [123]:
# 2. mask 를 재료로 인덱싱
score[mask]

array([80, 75, 96])

### 실습! 영화데이터 분석
- 각각의 사용자가 매긴 평점의 평균 평점중 4점 이상인 평점만 구해서 파일로 저장

In [124]:
# 데이터 로드
movie=np.loadtxt("./data/new_ratings.dat",delimiter='|', dtype=np.int64)
movie

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]], dtype=int64)

| 사용자 ID | 영화 ID | 영화평점 | 입력시간(타임스태프)|
|---|---|---|---|
|1|1193|5|978300760|
|1|661|3|978302109|

In [125]:
# 데이터 속성확인
print(f"배열의 모양: {movie.shape}")
print(f"배열의 요소 총 개수: {movie.size}")
print(f"배열의 차원 수 : {movie.ndim}")

배열의 모양: (1000209, 4)
배열의 요소 총 개수: 4000836
배열의 차원 수 : 2


In [126]:
# 전체 영화의 평점
avg=movie[:,2]
avg

array([5, 3, 3, ..., 5, 4, 4], dtype=int64)

In [127]:
# 전체 영화의 평점 평균
avg.mean().round(2)

3.58

In [128]:
# 평점을 매긴 사용자가 총 몇명인지 알아보자
user_id=np.unique(movie[:,0]) # 중복값 제거
user_id

array([   1,    2,    3, ..., 6038, 6039, 6040], dtype=int64)

In [129]:
user_id.size # len 함수도 사용 가능!(일차원이라)

6040

#### 1번 사용자가 매긴 평점의 평균을 구해보자!

In [130]:
# 불리안 인덱싱 활용 > 사용자 ID가 1번인 데이터 추출
movie[:,0]==1

array([ True,  True,  True, ..., False, False, False])

In [131]:
user_id_1=movie[movie[:,0]==1]
user_id_1

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       [        1,      3408,         4, 978300275],
       [        1,      2355,         5, 978824291],
       [        1,      1197,         3, 978302268],
       [        1,      1287,         5, 978302039],
       [        1,      2804,         5, 978300719],
       [        1,       594,         4, 978302268],
       [        1,       919,         4, 978301368],
       [        1,       595,         5, 978824268],
       [        1,       938,         4, 978301752],
       [        1,      2398,         4, 978302281],
       [        1,      2918,         4, 978302124],
       [        1,      1035,         5, 978301753],
       [        1,      2791,         4, 978302188],
       [        1,      2687,         3, 978824268],
       [        1,      2018,         4, 978301777],
       [        1,      3105,         5, 97830

In [132]:
# 1번 사용자가 매긴 평점의 평균
user_id_1[:,2].mean().round(2)

4.19

In [133]:
# 2번 사용자가 매긴 평점 평균
user_id_2=movie[movie[:,0]==2]
user_id_2[:,2].mean().round(2)

3.71

#### 각각의 사용자가 매긴 평점 평균 모두 구해보자
-list와 for문 활용

![image.png](attachment:image.png)

In [138]:
ui_list=[] # 요소 [사용자 id, 평점 평균]
# 사용자 정보 모두 ui_list에 넣기
for i in user_id:
    rating_mean = movie[movie[:,0]==i][:,2].mean()
    ui_list.append([i,rating_mean])
ui_list


[[1, 4.188679245283019],
 [2, 3.7131782945736433],
 [3, 3.9019607843137254],
 [4, 4.190476190476191],
 [5, 3.1464646464646466],
 [6, 3.9014084507042255],
 [7, 4.32258064516129],
 [8, 3.884892086330935],
 [9, 3.7358490566037736],
 [10, 4.114713216957606],
 [11, 3.2773722627737225],
 [12, 3.8260869565217392],
 [13, 3.388888888888889],
 [14, 3.32],
 [15, 3.3233830845771144],
 [16, 3.0285714285714285],
 [17, 4.075829383886256],
 [18, 3.6491803278688524],
 [19, 3.5725490196078433],
 [20, 4.083333333333333],
 [21, 2.909090909090909],
 [22, 3.0673400673400675],
 [23, 3.3157894736842106],
 [24, 3.948529411764706],
 [25, 3.7411764705882353],
 [26, 2.96],
 [27, 4.171428571428572],
 [28, 3.7570093457943927],
 [29, 3.5833333333333335],
 [30, 3.488372093023256],
 [31, 3.73109243697479],
 [32, 3.625],
 [33, 3.498721227621483],
 [34, 3.8658536585365852],
 [35, 3.54040404040404],
 [36, 4.199430199430199],
 [37, 3.69811320754717],
 [38, 3.58],
 [39, 3.564516129032258],
 [40, 3.4479166666666665],
 [41, 

In [152]:
result_arr = np.array(ui_list)
result_arr
# 지수 표기법(과학적 표기법)
# 매우 큰 숫자나 매우 작은 숫자를 간결하게 표현할 대 사용하는 방법
# e는 10의 지수를 나타냄
# 1000000 ->1e+6     0.00001 -> 1e-6

# 결과 값에서 평점의 평균이 4 이상인 사람의 수는?
result_arr4[result_arr[:,1] >= 4.0][:,0].size

# 불리언 인덱싱 활용
# numpy 자료형 적용
# 1. list -> array
# 2. 불리언 인덱싱으로 조건에 해당하는 데이터 접근

1544

In [153]:
# csv 파일로 결과물 겨장
# result_arr
# np.savetxtx(data_uert+ratting_g, '저장데이테 변수', dkplimiter\''),
            
np_savatxt('./data/user_rattings_mean.csv', result_arr,delimiter=',',fmt='%.3f')

NameError: name 'np_savatxt' is not defined

In [None]:
#기억하기 어디가