![image.png](attachment:image.png)
- 파이썬 연산은 느리지만, NumPy는 C언어연산들로 이루어져있어서 복잡하지만 연산속도가 빠르다

# NumPy Library
- Numerical Python 의 약자(numpy)
- Python에서 수치계산을 위한 핵심 라이브러리
- 'ndarray' (N- dimensional array) 자료구조 지원

In [4]:
import numpy as np
# alias (as) : 별칭 부여
# import numpy 를 np로 별칭 지어주면
# numpy를 불러올때 편하다

## ndarray(N-dimensional array)
- 1. 다양한 수학함수 지원
- 2. 빠른 연산속도
- 3. 브로드 캐스팅(차원을 동일시 하는 기능)
- 4. 다차원의 배열지원(보통은 2차원까지만 사용함)

- "동일한 자료형" 을 가지는 값들이 "배열" 형태로 존재함
- 각 값들은 순서가 있다. → index가 부여되어 있다

### 1. ndarray 생성하기
- np.array(리스트 or 튜플)

In [4]:
# ndarray 생성하기 : 1차원 ( 첫번째 )
# 리스트 데이터를 array화로 형변환 하는 방법
# list → array
# list 방법
list1 = [1,2,3,4,5]

# array 생성
arr1 = np.array(list1)
arr1

array([1, 2, 3, 4, 5])

In [5]:
type(arr1)

numpy.ndarray

In [6]:
# ndarray 생성하기 : 1차원 ( 두번째 )
# 직접 array화로 생성
arr2 = np.array([6,7,8,9,10])
arr2

array([ 6,  7,  8,  9, 10])

In [7]:
# ndarray 생성하기 : 2차원
arr3 = np.array([[1,2,3],[4,5,6]])
arr3 # 2차원이라는 걸 결과창에서 개행으로 보여줌

array([[1, 2, 3],
       [4, 5, 6]])

In [8]:
# 2차원 형태의 리스트 → ndarray와 차이가 있음
# list 는 차원 수를 인식하지 못함
# ndarray 는 차원 수를 인식한다!
list2 = [[1,2,3],[4,5,6]]
list2

[[1, 2, 3], [4, 5, 6]]

### 2. ndarray 확인하기 → "속성" 이나 "키워드"라고 표현함

In [9]:
# array 차원 수 확인하기
# array명.ndim

print(arr1.ndim)
print(arr3.ndim)

1
2


In [11]:
# array 모양(크기) 확인하기
# array명.shape
# (행, 열)

print(arr1.shape) # (5,) -> 1차원이구나!
print(arr3.shape) # (2,3) -> 2행 3열 의 2차원이구나!

(5,)
(2, 3)


In [16]:
# array의 전체 요소 개수 확인하기
# array명.size

print(arr1)
print(arr1.size)
print(len(arr1))
print()
print(arr3)
print(arr3.size)
print(len(arr3))

[1 2 3 4 5]
5
5

[[1 2 3]
 [4 5 6]]
6
2


In [22]:
# 동일한 데이터 타입만 가능 ← 동일한 차원 수끼리만
arr4 = [[1,2,3],[4,5,6,7]]
np.array(arr4)

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (2,) + inhomogeneous part.

In [26]:
def array_info(array) :
    print(array)
    print("ndim(차원수) : ", array.ndim)
    print("shape(모양) : ", array.shape)
    print("dtype(데이터타입) : ", array.dtype)
    print("size(요소 전체 개수) : ", array.size)

In [27]:
array_info(arr3)

[[1 2 3]
 [4 5 6]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtype(데이터타입) :  int32
size(요소 전체 개수) :  6


#### 2.1 array dtype 및 shape 변경

In [32]:
list3 = [[1.7, 4.2 , 3.6],[4.1 ,2.9 ,5.8]]
temp1 = np.array(list3)
temp2 = np.array(list3, dtype = np.int64)

array_info(temp1)
print()
array_info(temp2)


[[1.7 4.2 3.6]
 [4.1 2.9 5.8]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtype(데이터타입) :  float64
size(요소 전체 개수) :  6

[[1 4 3]
 [4 2 5]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtype(데이터타입) :  int64
size(요소 전체 개수) :  6


### 정수 기본형 : int32 , 실수 기본형 : float64

numpy 자료형 정리
정수형 자료형
int8 => 1비트당 2개의 숫자를 표현할 수 있으므로 8비트면 2^8 = 256개의 정수를 표현할 수 있습니다. 즉 -128에서 127까지 표현가능합니다.

int16 => 2^16개의 정수표현 가능. -32,768에서 32,767까지.

int32 => 2^32개의 정수표현 가능. -2,147,483,648에서 2,147,483,647까지. 

int64 => 2^64개의 정수표현 가능. -9,223,372,036,854,775,808에서 9,223,372,036,854,775,807까지

자료형 선정의 중요성
적절한 자료형을 선택해주는 것이 왜 중요한가에 대한 예제를 하나 다루도록 하겠습니다. 위에서 보신 것처럼 int8은 0-255의 정수를 표현할 수 있는 자료형입니다. 만약에 int8형 변수에 300을 넣어준다면 어떻게 될까요? 아래 예제를 함께 보시죠. 

 

코드>>  a =np.unit(200) , b= np.unit(300)

 
 

실행결과>> 200, 44

 

200은 문제없이 int8이 표현해낼 수 있지만, 300은 감당할 수가 없습니다. 엉뚱한 숫자인 44가 b에 할당된 것을 보실 수 있습니다. 따라서 자료형 선정은 항상 신경을 써야하는 부분입니다. 잘못하면 의미있는 숫자들을 날려버릴 수도 있고, 아니면 완전 엉뚱한 결과가 할당되어 있을 수도 있기 때문입니다.

In [30]:
# 데이터 타입 변경하기 2
# .astype(np.데이터타입)

temp2 = temp2.astype(np.float64)
array_info(temp2)

[[1. 4. 3.]
 [4. 2. 5.]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtype(데이터타입) :  float64
size(요소 전체 개수) :  6


In [31]:
# ndarray 특정 크기 변환
# 2차원의 경우 행과 열의 값이 맞게 떨어져야 함
# array명.reshaple(행,열 )

temp2 = temp2.reshape(3,2)
array_info(temp2)

[[1. 4.]
 [3. 4.]
 [2. 5.]]
ndim(차원수) :  2
shape(모양) :  (3, 2)
dtype(데이터타입) :  float64
size(요소 전체 개수) :  6


### 3. 특정한 값으로 ndarray 생성하기
- np.zeros((행,열))
- np.ones((행,열))
- np.full((행,열), 값)
- np.arange(시작값, 끝값, 증감량)
- np.random.rand(행,열)
- np.random.randint(시작값, 끝값, size = (행, 열))

In [35]:
# np.zeros((행,열)) : 모든 값을 0으로 초기화
# 반환되는 기본 데이터 형 : float

arr_zeros = np.zeros((3,4))
arr_zeros

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [36]:
# np.ones((행,열)) : 모든 값을 1으로 초기화
# 반환되는 기본 데이터 형 : float

arr_ones = np.ones((3,4))
arr_ones

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [39]:
# np.full((행,열), 값) : 모든 값을 원하는 값으로 초기화

arr_full = np.full((3,4),10)
print(arr_full)

arr_full2 = np.full((3,4),'하하하')
print(arr_full2)

[[10 10 10 10]
 [10 10 10 10]
 [10 10 10 10]]
[['하하하' '하하하' '하하하' '하하하']
 ['하하하' '하하하' '하하하' '하하하']
 ['하하하' '하하하' '하하하' '하하하']]


In [70]:
# np.random.randint(시작값, 끝값, size = (행, 열)) ,'size =; 는 생략가능 → 기본값 : 1차원 ,1차원은 size = (행) ,
# 랜덤값으로 배열 생성(int형)
# 끝값 포함X
arr_randit = np.random.randint(1,10, size=(3,2))
arr_randit

array([[5, 2],
       [5, 7],
       [2, 2]])

In [73]:
# 실습
# 1부터 50이 담긴 1차원 array생성 ( array 형변환으로 생성)
# list 사용해서 생성

list1 = []

for i in range(1,51) :
    list1.append(i)
    
arr = np.array(list1)
arr


array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [74]:
# 실습
# 1부터 50이 담긴 1차원 array생성 ( array 형변환으로 생성)
# list 사용해서 생성

list1 = [i for i in range(1,51)]
    
arr = np.array(list1)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [75]:
# np.arange(시작값, 끝값, 증감량(기본:1))
# range(시작값, 끝값 증감량(기본:1)) 함수처럼 범위를 지정
# numpy 에서 만 제공하는 함수
arr2 = np.arange(1,51)
array_info(arr2)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50]
ndim(차원수) :  1
shape(모양) :  (50,)
dtype(데이터타입) :  int32
size(요소 전체 개수) :  50


![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

### array 연산(요소별 연산)
- "요소별 연산'에 특화되어 있다.
- 브로드 캐스팅 : 차원 수를 자동으로 맞춰준다

In [77]:
# list의 연산 방식 → array 연산과 차이점을 확인하기 위해..
list1 = [1,2,3]
list2 = [4,5,6]

# 리스트끼리 더함 : 뒤 쪽에 요소가 추가됨
print(list1 + list2)

# 리스트의 요소별 연산 → 각각 값을 도출(인덱싱)하여야 연산이 가능
print(list1[0] + list2[0])

[1, 2, 3, 4, 5, 6]
5


In [79]:
# np.array() 의 연산
arr_a = np.array(list1)
arr_b = np.array(list2)

print(arr_a + arr_b)

[5 7 9]


In [81]:
arr2_a = np.array([[1,2,3],[4,5,6]])
arr2_b = np.array([[7,8,9],[10,11,12]])
print(arr2_a + arr2_b)

[[ 8 10 12]
 [14 16 18]]


In [82]:
# 자동으로 인덱싱을 하여 요소들을 찾아가 연산을 수행한다!
arr2_a + 3

array([[4, 5, 6],
       [7, 8, 9]])

In [83]:
arr2_a * 3

array([[ 3,  6,  9],
       [12, 15, 18]])

### 5. array 인덱싱 & 슬라이싱
- 인덱싱 : 요소 하나를 가리키는 것
- 슬라이싱 : 요소들을 잘라오는 것
- 리스트 or 튜플 형과 같이 인덱싱, 슬라이싱 방법은 같음

In [5]:
# 1차원 array 생성
arr_1 = np.arange(0,10)
arr_1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [85]:
# 인덱싱
print(arr_1[4])

#슬라이싱
print(arr_1[3:8])

4
[3 4 5 6 7]


In [87]:
# 슬라이싱을 하고 한번에 데이터 넣기

# 리스트 예시
# 리스트는 슬라이싱하고 값을 수정하게 되면 범위 자체가 하나의 요소로 반환!!!
list1 =[0,1,2,3,4,5,6,7,8]
# 리스트 3번부터 끝까지 슬라이싱
list1[3:] = [10]
print(list1)

# array 예시
# array는 슬라이싱 된 요소들의 자리에 각각 하나씩 값을 넣는다!
arr_1 [3:] = 10
print(arr_1)



[0, 1, 2, 10]
[ 0  1  2 10 10 10 10 10 10 10]


#### 5-1 .   2차원 array 인덱싱 & 슬라이싱
- 인덱싱 : [행값, 열값]
- 슬라이싱 : [행의 시작값 : 행의 끝값, 열의 시작값: 열의 끝값]

In [6]:
arr2 = np.arange(1,51).reshape(5,10)
arr2

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [90]:
# 인덱싱 : [행값, 열값]
# 튜플인덱싱
arr2[1,1]

12

In [91]:
# 인덱싱 : [행값][열값]
# 일반인덱싱 : 두 번 연산 진행
arr2[1][1]

12

In [112]:
# 2차원 array 슬라이싱
# array[ : , : ] → [행의 시작값 : 행의 끝값, 열의 시작값: 열의 끝값] 
# 주의 ) array[행의 시작값 : 행의 끝값{, 열의 시작값: 열의 끝값}]  → {} 생략가능
# 열은 생략가능
arr2[2: , :9]


array([[21, 22, 23, 24, 25, 26, 27, 28, 29],
       [31, 32, 33, 34, 35, 36, 37, 38, 39],
       [41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [113]:
# 시작부터 끝까지 모두 출력
arr2[ : , : ]

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [116]:
# 실습
arr2[ :4 , :5 ]

array([[ 1,  2,  3,  4,  5],
       [11, 12, 13, 14, 15],
       [21, 22, 23, 24, 25],
       [31, 32, 33, 34, 35]])

In [7]:
# 복합인덱싱

# 중요!! → 인덱싱 과 슬라이싱 동시에 가능! 
# array [ 슬라이싱, 인덱싱] → array [ a: b , c]
# 실습
# 전체 행의 1열만 출력
arr2 [ : , 0 ]

array([ 1, 11, 21, 31, 41])

In [8]:
# 0행부터 3행까지, 0열부터 4열까지 출력
arr2[:4, :5]

array([[ 1,  2,  3,  4,  5],
       [11, 12, 13, 14, 15],
       [21, 22, 23, 24, 25],
       [31, 32, 33, 34, 35]])

In [17]:
# Fancy 인덱싱 (정수 배열 인덱싱)
print(arr2)

# arr2에서 23, 24를 출력
print(arr2[[2,3],[2,3]]) # 2행2열, 3행 3열

# 3개 출력도 가능
print(arr2[[2,3,4],[2,3,4]]) # 2행2열, 3행 3열 , 4행 4열

[[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27 28 29 30]
 [31 32 33 34 35 36 37 38 39 40]
 [41 42 43 44 45 46 47 48 49 50]]
[23 34]
[23 34 45]


## BMI 지수 구하기!
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

##### 데이터 경로 지정
1. 절대경로
- /
    - 루트 디렉토리, 파일 시스템의 가장 상위 디렉토리
    - /로 시작하는 경로는 절대 경로로, 루트 디렉토리에서 시작하여 파일이나 디렉토리의 위치를 나타냄
    - ex) /Users/smhrd/봉봉/Python Library 수업 정리본/data/height_weight(p).txt
<br><br>
2. 상대경로
- ./
    - 현재 작업 디렉토리를 나타냄
    - Python에서 생략 시 defalt
- ../
    - 현재 디렉토리의 부모 디렉토리(즉, 한 단계 위 디렉토리)를 나타냄

In [20]:
# 데이터 읽어오기(.txt 파일 형식의 확장자 읽어오기)
# np.loadtxt('파일명 또는 경로' , delimiter = '구분자', dtype = 데이터타입)
# delimiter = '구분자' → 데이터들을 "특정 문자" 로 구분 지을 때 사용

# 현재 위치에서 (./) data 폴더 로 접근 후 그 폴더에 있는 txt
data = np.loadtxt("./data/height_weight(p).txt", delimiter=',')
data

array([[175.2   , 180.3   , 175.    , 169.2   , 185.2   , 188.    ,
        177.6   , 178.2   , 177.    , 179.    ],
       [144.5824, 193.952 , 174.5568, 152.7372, 121.22  , 156.9248,
        160.892 , 151.8556, 163.096 , 180.728 ]])

In [None]:
# BMI 지수 구하기
# 공식 : 몸무게(kg) / (키 (m) * 키(m))
# cm의 단위를 m로 바꿔야 한다
# pound 단위를 kg으로 바꿔야 한다 → kg = pound/2.204

# 1. 키 데이터 인덱싱 → h 변수에 담아주기
# 2. 몸무게 데이터 인덱싱 → w 변수에 담아주기
# 3. 키 데이터 단위변경 → m = cm * 0.01
# 4. 몸무게 데이터 단위 변경 → kg = pound / 2.204
# 5. BMI 지수 구하기


In [36]:
# 1. 키 데이터 인덱싱 → h 변수에 담아주기
# 0번째 행 인덱싱
h = data[:1,:] *0.01
h1 = data[0]*0.01


In [39]:
h

array([[1.752, 1.803, 1.75 , 1.692, 1.852, 1.88 , 1.776, 1.782, 1.77 ,
        1.79 ]])

In [40]:
h1

array([1.752, 1.803, 1.75 , 1.692, 1.852, 1.88 , 1.776, 1.782, 1.77 ,
       1.79 ])

In [33]:
# 2. 몸무게 데이터 인덱싱 → w 변수에 담아주기
w = data[1: , : ]/2.204
w

array([[65.6, 88. , 79.2, 69.3, 55. , 71.2, 73. , 68.9, 74. , 82. ]])

In [43]:
bmi = w/(h*h)
bmi

array([[21.37153104, 27.07018468, 25.86122449, 24.20652885, 16.03543423,
        20.14486193, 23.14392095, 21.69720651, 23.62028791, 25.59220998]])

In [55]:
# 과체중 데이터를 Boolean 인덱싱
# bmi 지수 : 23~25 → 과체중
23 <=bmi and bmi <= 25
# and 논리연산자 : bmi는 'array' 값이기 때문에 각 요소를 비교하지는 못함

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [56]:
# & 비트 연산자 
bmi[ (23<=bmi) & (bmi <= 25)]

array([24.20652885, 23.14392095, 23.62028791])

## Boolean 인덱싱
- 배열 안에서 조건을 충족(특정 조건을 만족)하는 True인 값들만 추출하는 인덱싱
- 간단히 말하면 "필터링"

In [48]:
# array 생성!
score = np.array([80,75,55,96,30])
print(score)

# 80점 이상인 데이터만 추출 → boolean mask 로 전환!
mask = score >= 80

[80 75 55 96 30]


In [49]:
score[mask]

array([80, 96])

In [50]:
score[score >= 80]

array([80, 96])

### array 연산 함수
- numpy에서 제공하는 함수

In [57]:
arr = np.random.randint(1, 10 , size = (2,5))
arr

array([[2, 9, 8, 9, 9],
       [7, 6, 6, 5, 8]])

In [58]:
# sum() : 합계
print(sum(arr)) # 파이썬에서 제공하는 내장함수

print(np.sum(arr)) # numpy 에서 제공하는 sum 함수
print(arr.sum())

[ 9 15 14 14 17]
69
69


In [59]:
# sqrt() : 제곱근(루트)
np.sqrt(arr)

array([[1.41421356, 3.        , 2.82842712, 3.        , 3.        ],
       [2.64575131, 2.44948974, 2.44948974, 2.23606798, 2.82842712]])

## Universally 함수
- 다양한 수학적 함수

- 단일 배열에 사용하는 함수 ( 같은 차원에서 사용)
![image.png](attachment:image.png)

- 서로 다른 배열간에 사용하는 함수
![image.png](attachment:image.png)