# NumPy Library
- Numerical Python 약자
- Python에서 수치계산을 위한 핵심 라이브러리
- 'ndarry'(N-dimensional array)자료구조 지원

In [4]:
import numpy as np
# alias (as) : 별칭 부여
# import numpy 를 np로 별칭 지어주면
# numpy를 불러올때 편하다

## ndarray(N-dimensional array)
- 1. 다양한 수학함수 지원
- 2. 빠른 연산속도
- 3. 브로드 캐스팅(차원을 동일시 하는 기능)
- 4. 다차원의 배열지원

- "동일한 자료형"을 가지는 값들이 "배열"형태로 존재함
- 각 값들은 순서가 있다. → index가 부여되어 있다!

### 1. ndarray 생성하기
- np.array(리스트 or 튜플)

In [5]:
# ndarray 생성하기 : 1차원 (첫번째)
# 리스트 데이터를 array화로 형변환 하는 방법

# list 생성
list1 = [1,2,3,4,5]

# array 생성
arr1 = np.array(list1)
type(arr1)

numpy.ndarray

In [6]:
# ndarray 생성하기 : 1차원 (두번째)
# 직접 array화로 생성
arr2 = np.array([6,7,8,9,10])
arr2

array([ 6,  7,  8,  9, 10])

In [7]:
# ndarray 생성하기 : 2차원
arr3 = np.array([[1,2,3],[4,5,6]])
arr3

array([[1, 2, 3],
       [4, 5, 6]])

In [8]:
# 2차원 형태의 리스트 → ndarray와 차이가 있음
# list는 차원 수를 인식하지 못 함
# ndarray는 차원 수를 인식한다.
list2 =[[1,2,3],[4,5,6]]
list2

[[1, 2, 3], [4, 5, 6]]

In [9]:
np.array(list2)

array([[1, 2, 3],
       [4, 5, 6]])

### 2. ndarray 확인하기 → "속성"이나 "키워드"

In [10]:
# array 차원 수 확인하기
# array명.ndim

print(arr1.ndim)
print(arr3.ndim)

1
2


In [11]:
# array 모양(크기) 확인하기
# array명.shape
# (행, 열)

print(arr1.shape)
print(arr3.shape)

(5,)
(2, 3)


In [12]:
# array의 전체 요소 개수 확인하기
# array명.size

print(arr1.size)
print(len(arr1), end='\n\n')

print(arr3.size)
print(len(arr3))

5
5

6
2


In [13]:
# 모양이 균일해야한다. 행별로 열의 개수가 같아야 한다.
arr4 = [[1,2,3],[4,5],[6,7,8,9]]
np.array(arr4)
arr4

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (3,) + inhomogeneous part.

In [14]:
def array_info(array) :
    print(array)
    print("ndim(차원수) : ", array.ndim)
    print("shape(모양) : ", array.shape)
    print("dtype(데이터타입) : ", array.dtype)
    print("size(요소 전체 개수) : ", array.size)

In [15]:
array_info(arr3)

[[1 2 3]
 [4 5 6]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtype(데이터타입) :  int32
size(요소 전체 개수) :  6


#### 2.1 array dtype 및 shape 변경


In [16]:
list3 = [[1.7,4.2,4.6],[3.1,2.9,5.8]]
temp1 = np.array(list3)
temp2 = np.array(list3, dtype = np.int64)

array_info(temp1)
print()
array_info(temp2)

[[1.7 4.2 4.6]
 [3.1 2.9 5.8]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtype(데이터타입) :  float64
size(요소 전체 개수) :  6

[[1 4 4]
 [3 2 5]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtype(데이터타입) :  int64
size(요소 전체 개수) :  6


In [17]:
# 데이터 타입 변경하기 2
# .astype(np.데이터타입)

temp2 = temp2.astype(np.float64)
array_info(temp2)

[[1. 4. 4.]
 [3. 2. 5.]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtype(데이터타입) :  float64
size(요소 전체 개수) :  6


In [20]:
# ndarray 특정 크기 변환
# 2차원의 경우 행과 열의 값이 맞게 떨어져야 함
# array명.reshape(행, 열)

temp2 = temp2.reshape(3,2)
array_info(temp2)

[[1. 4.]
 [4. 3.]
 [2. 5.]]
ndim(차원수) :  2
shape(모양) :  (3, 2)
dtype(데이터타입) :  float64
size(요소 전체 개수) :  6


### 3. 특정한 값으로 ndarray 생성하기
- np.zeros((행,열))
- np.ones((행,열))
- np.full((행,열),값)
- np.arange(시작값, 끝값, 증감량)
- np.random.rand(행, 열)
- np.random.randint(시작값, 끝값,size=(행,열))

In [48]:
# np.zeros((행,열)) : 모든 값을 0으로 초기화
# 기본 데이터형 : float

arr_zeros = np.zeros((3,4))
arr_zeros

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [49]:
# np.ones((행,열)) : 모든 값을 1로 초기화
# 기본 데이터형 : float

arr_ones = np.ones((3,4))
arr_ones

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [50]:
# np.full((행,열),값) : 모든 값을 원하는 값으로 초기화

arr_full = np.full((3,4),2)
arr_full

array([[2, 2, 2, 2],
       [2, 2, 2, 2],
       [2, 2, 2, 2]])

In [21]:
arr_ran = np.random.rand(3,2)
arr_ran

array([[0.54108958, 0.25661919],
       [0.74775451, 0.29695505],
       [0.17324299, 0.36694669]])

In [51]:
# np.random.randint(시작값, 끝값,size=(행,열))
# 랜덤값으로 배열 생성(int형)
# 끝값 포함 X

arr_random = np.random.randint(1,11,size=(3,2))
arr_random

array([[ 8, 10],
       [ 4,  2],
       [ 7,  7]])

In [52]:
# 실습
# 1부터 50이 담긴 1차원 array생성(array 형변환으로 생성)
# list 사용해서 생성

list3 = [i for i in range(1,51)]
arr = np.array(list3)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [53]:
# np.arange(시작값, 끝값)
# range() 함수처럼 범위를 지정
# numpy에서 제공하는 함수


arr_arange = np.arange(1,51)
array_info(arr_arange)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50]
ndim(차원수) :  1
ndim(모양) :  (50,)
ndim(데이터타입) :  int32
ndim(요소 전체 개수) :  50


In [27]:
arr_zero = np.zeros((2,4))
arr_one = np.ones((2,4))
arr_full = np.full((2,4),5)
arr_arange = np.arange(1,5,1)
arr_ran = np.random.rand(2,4)
arr_random = np.random.randint(1,11,size=(2,4))

print('zeros',arr_zero,'\n')
print('ones',arr_one,'\n')
print('full',arr_full,'\n')
print('arange',arr_arange,'\n')
print('rand',arr_ran,'\n')
print('randint',arr_random,'\n')

zeros [[0. 0. 0. 0.]
 [0. 0. 0. 0.]] 

ones [[1. 1. 1. 1.]
 [1. 1. 1. 1.]] 

full [[5 5 5 5]
 [5 5 5 5]] 

arange [1 2 3 4] 

rand [[0.54843624 0.10652448 0.71794291 0.85937992]
 [0.73175937 0.80811508 0.19514755 0.08186131]] 

randint [[8 1 3 7]
 [7 3 8 4]] 



### 4. array 연산(요소별 연산)
- "요소별 연산"에 특화되어 있다!
- 브로드캐스팅 : 차원수를 자동으로 맞춰준다!

In [54]:
# list의 연산 방식 → array 연산과 차이점을 확인하기 위해
list1 = [1,2,3]
list2 = [4,5,6]

# 리스트끼리 더함
print(list1+list2)

# 리스트의 요소별 연산 → 각각 값을 도출(인덱싱)하여야 연산이 가능
print(list1[0]+list2[0])

[1, 2, 3, 4, 5, 6]
5


In [28]:
# np.array()의 연산
arr_a = np.array(list1)
arr_b = np.array(list2)

print(arr_a+arr_b)

ValueError: operands could not be broadcast together with shapes (5,) (2,3) 

In [29]:
list1,list2 = [1,2,3],[4,5,6]

arr_a,arr_b = np.array(list1),np.array(list2)

print(arr_a+arr_b)

[5 7 9]


In [56]:
arr2_a = np.array([[1,2,3],[4,5,6]])
arr2_b = np.array([[7,8,9],[10,11,12]])

print(arr2_a+arr2_b)

[[ 8 10 12]
 [14 16 18]]


In [57]:
# 자동으로 인덱싱
arr2_a * 3

array([[ 3,  6,  9],
       [12, 15, 18]])

### 5. array 인덱싱 & 슬라이싱
- 인덱싱(indexing) : 요소 하나를 가리키는 것
- 슬라이싱(slicing) : 요소들을 잘라오는 것
- 리스트 or 튜플 형과 같이 인덱싱, 슬라이싱 방법은 같음

In [58]:
arr2_a[0,1]

2

#### 5.1 2차원 array 인덱싱 & 슬라이싱
- 인덱싱 : [행값,열값]
- 슬라이싱 : [행의 시작값:행의 끝값, 열의 시작값:열의 끝값]

In [31]:
arr2 =np.arange(1,51).reshape(5,10)
arr2

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [60]:
# 인덱싱 : [행값, 열값]
# 튜플인덱싱
arr2[2,5]

# 인덱싱 : [행값, 열값]
# 두 번 연산 진행(일반인덱싱)
arr2[2][5]

26

In [61]:
arr2

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [32]:
print(arr2[2:5,0:9])
print(arr2[2:,:9])

[[21 22 23 24 25 26 27 28 29]
 [31 32 33 34 35 36 37 38 39]
 [41 42 43 44 45 46 47 48 49]]
[[21 22 23 24 25 26 27 28 29]
 [31 32 33 34 35 36 37 38 39]
 [41 42 43 44 45 46 47 48 49]]


In [63]:
# 1 행은 슬라이싱, 열은 인덱싱(복합사용 가능)
print(arr2[:, 0])

[ 1 11 21 31 41]


In [64]:
# 2
print(arr2[:4,:5])

[[ 1  2  3  4  5]
 [11 12 13 14 15]
 [21 22 23 24 25]
 [31 32 33 34 35]]


In [73]:
# Fancy 인덱싱(정수 배열 인덱싱)
# 앞 []은 행, 뒤[]는 열
arr2[[2,3],[2,3]]

array([23, 34])

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

##### 데이터 경로 지정
1. 절대경로
- /
    - 루트 디렉토리, 파일 시스템의 가장 상위 디렉토리
    - /로 시작하는 경로는 절대 경로로, 루트 디렉토리에서 시작하여 파일이나 디렉토리의 위치를 나타냄
    - ex) /Users/smhrd/봉봉/Python Library 수업 정리본/data/height_weight(p).txt
<br><br>
2. 상대경로
- ./
    - 현재 작업 디렉토리를 나타냄
    - Python에서 생략 시 defalt
- ../
    - 현재 디렉토리의 부모 디렉토리(즉, 한 단계 위 디렉토리)를 나타냄

In [80]:
# 데이터 읽어오기(.txt 파일 형식의 확장자 읽어오기)
# np.loadtxt('파일명 또는 경로', delimiter='구분자', dtype=데이터타입)
# delimiter='구분자' → 데이터들을 "특정 문자"로 구분 지을 때 사용

data=np.loadtxt('./data./height_weight(p).txt',delimiter=',')
data

array([[175.2   , 180.3   , 175.    , 169.2   , 185.2   , 188.    ,
        177.6   , 178.2   , 177.    , 179.    ],
       [144.5824, 193.952 , 174.5568, 152.7372, 121.22  , 156.9248,
        160.892 , 151.8556, 163.096 , 180.728 ]])

In [None]:
# BMI 지수 구하기
# 공식 : 몸무게(kg) / (키(m)*키(m))
# cm의 단위를 m로 바꿔야 한다.
# pound 단위를 kg로 바꿔야 한다 → kg = pound/2.204

# 1. 키 데이터 인덱싱 → h 변수에 담기
# 2. 몸무게 데이터 인덱싱 → w 변수에 담기
# 3. 키 데이터 단위변경 → m= cm*0.01
# 4. 몸무게 데이터 단위변경 → kg = pound/2.204
# 5. BMI지수 구하기

In [145]:
h = data[0:1]*0.01
w = data[1:2]/2.204

bmi = w/h**2
bmi

array([[21.37153104, 27.07018468, 25.86122449, 24.20652885, 16.03543423,
        20.14486193, 23.14392095, 21.69720651, 23.62028791, 25.59220998]])

In [153]:
# 과제중 데이터를 Boolean 인덱싱
# bmi 지수 : 23~25 → 과체중!
bmi[(23<= bmi) & (bmi<= 25)]
# and 논리연산자 : bmi는 'array'값이기 때문에 각 요소를 비교하지는 못함
# & 비트연산자 : 각 요소별

array([24.20652885, 23.14392095, 23.62028791])

## Boolean 인덱싱
- 배열 안에서 조건을 충족(특정 조건을 만족)하는 True인 값들만 추출하는 인덱싱
- 간단히 말하면 "필터링"

In [143]:
# array 생성!
score = np.array([80,75,55,96,30])
print(score)

# 80점 이상인 데이터만 추출 → boolean mask로 전환!
mask = score >= 80

[80 75 55 96 30]


In [135]:
score[mask]

array([80, 96])

### array 연산 함수
- numpy에서 제공하는 함수

In [155]:
arr = np.random.randint(1,10,size=(2,5))
arr

array([[5, 3, 8, 2, 3],
       [4, 7, 7, 7, 6]])

In [159]:
# sum() : 합계
print(sum(arr)) # 파이썬에서 제공하는 내장함수

print(np.sum(arr)) # numpy에서 제공하는 sum 함수
print(arr.sum())

[ 9 10 15  9  9]
52
52


In [161]:
# sqrt() : 제곱근(루트)
print(np.sqrt(arr))

[[2.23606798 1.73205081 2.82842712 1.41421356 1.73205081]
 [2.         2.64575131 2.64575131 2.64575131 2.44948974]]


## Universally 함수
- 다양한 수학적 함수

- 단일 배열에 사용하는 함수
|함수이름|설명|
|:------:|:---|
|abs, fabs|각 원소의 절대값을 구한다. 복소수가 아닌 경우에는 fabs로 빠르게 연산가능|
|sqrt|제곱근을 계산 arr**0.5와 동일|
|square|제곱을 계산 arr**2와 동일|
|Exp|각 원소에 지수 eₓ를 계산|
|Log, log10, log2, logp|각각 자연로그, 로그10, 로그2, 로그(1+x)|
|sign|각 원소의 부호를 계산|
|ceil|각 원소의 소수자리 올림|
|floor|각 원소의 소수자리 버림|
|rint|각 원소의 소수자리 반올림, dtype 유지|
|modf|원소의 몫과 나머지를 각각 배열로 반환|
|isnan|각 원소가 숫자인지 아닌지 NaN 나타내는 불리언 배열|
|isfinite, isinf|배열의 각 원소가 유한한지 무한한지 나타내는 불리언 배열|
|cos,cosh, sin, sinh, tan, tanh|일반 삼각함수와 쌍곡삼각 함수|
|logical_not|각 원소의 논리 부정(not) 값 계산, -arr와 동일|

- 서로 다른 배열간에 사용하는 함수
|함수이름|설명|
|:------:|:---|
|add|두 배열에서 같은 위치의 원소끼리 덧셈|
|subtract|	첫번째 배열 원소 - 두번째 배열 원소|
|multiply|	배열의 원소끼리 곱셈|
|divide|	첫번째 배열의 원소에서 두번째 배열의 원소를 나눗셈|
|power|	첫번째 배열의 원소에 두번째 배열의 원소만큼 제곱|
|maximum, fmax|	두 원소 중 큰 값을 반환. fmax는 NaN 무시|
|minimum, fmin|	두 원소 중 작은 값을 반환. fmin는 NaN 무시|
|mod|	첫번째 배열의 원소에 두번째 배열의 원소를 나눈 나머지|
|greater, greater_equal, less, less_equal, equal, not_equal| 	두 원소 간의 >,>=,<,<=,==,!= 비교연산 결과를 불리언 배열로 반환|
|logical_and, logical_or, logical_xor|	각각 두 원소 간의 논리연산. &,\|,\^ 결과를 반환|