![image.png](attachment:image.png)

# NumPy Library
- Numerical Python 약자(numpy)
- Python에서 수치계산을 위한 핵심 라이브러리
- 'ndarray'(N-dimensional array) 자료구조 지원

In [6]:
# import : 외부 라이브러리(패키지 등) 불러올 때 사용하는 키워드
# alias(as) : 별칭 부여
import numpy as np

## ndarray ( N-dimensional array)
- 1. 다양한 수학 함수 지원
- 2. 빠른 연산속도
- 3. 브로드 캐스팅(차원을 동일시 하는 기능)
- 4. 다차원의 배열지원(보통은 2차원까지만 사용함)

* <b>동일한 자료형</b>을 가지는 값들이 배열 형태로 존재함
- 각 값들은 순서가 있다. -> index가 부여되어 있다!

### 1. ndarray 생성하기
- np.array(리스트 or 튜플)

In [7]:
# ndarray 생성하기 : 1차원(첫 번째)
# 리스트 데이터를 array화로 형변환하는 방법

# list 생성
list1 =[1,2,3,4,5]

# array 생성
arr1 = np.array(list1)
type(arr1)

numpy.ndarray

In [8]:
# ndarray 생성하기 : 1차원 (두 번째)
# 직접 array화로 생성
arr2 = np.array([6,7,8,9,10])
arr2

array([ 6,  7,  8,  9, 10])

In [9]:
# ndarray 생성하기 : 2차원
arr3 = np.array([[1,2,3],[4,5,6]])
arr3

array([[1, 2, 3],
       [4, 5, 6]])

In [10]:
# 2차원 형태의 리스트 ->ndarray와 차이가 있음
# list는 차원 수를 인식하지 못함
# ndarry는 차원 수를 인식한다!
list2 =[[1,2,3],[4,5,6]]
list2

[[1, 2, 3], [4, 5, 6]]

- 차원의 이해(자료의 구조)
![image.png](attachment:image.png)

### 2. ndarray 확인하기 -> "속성" or "키워드"

In [11]:
# array 차원 수 확인하기
# array명.ndim

print(arr1.ndim) # 1차원
print(arr3.ndim) # 2차원

1
2


In [12]:
# array 모양(크기) 확인하기
# array명.shape
# (행, 열)
print(arr1.shape) # 5개의 요소를 가지고 있는 1차원 array
print(arr3.shape) # 행 2줄 ,열3줄

(5,)
(2, 3)


In [13]:
# array의 전체 요소 개수 확인하기
# array명.size

print(arr1.size) # 5개의 요소
print(len(arr1),end ="\n\n") # 길이5

print(arr3.size) # 6개의 요소
print(len(arr3)) # 길이 2

arr3


5
5

6
2


array([[1, 2, 3],
       [4, 5, 6]])

In [14]:
np.array([[1,2,3],[4,5,6,7]]) # 동일한 자료형 <- 차원 수도 동일해야함

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (2,) + inhomogeneous part.

In [15]:
# 함수 만들어서 array 특성 확인하기
def array_info(array):
    print(array)
    print("ndim(차원수) : ", array.ndim)
    print("shape(모양) : ", array.shape)
    print("dtyoe(데이터타입) : ", array.dtype)
    print("size(요소 전체 개수) : ", array.size)

In [16]:
array_info(arr3)

[[1 2 3]
 [4 5 6]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtyoe(데이터타입) :  int32
size(요소 전체 개수) :  6


#### 2.1 array dtype 및 shape 변경

In [17]:
# 데이터 타입 변경하기1

list3 =[[1.7,4.2,3.6],[4.1,2.9,5.8]]
temp1 = np.array(list3)
temp2 = np.array(list3,dtype = np.int64)
array_info(temp1)
print()
array_info(temp2)

[[1.7 4.2 3.6]
 [4.1 2.9 5.8]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtyoe(데이터타입) :  float64
size(요소 전체 개수) :  6

[[1 4 3]
 [4 2 5]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtyoe(데이터타입) :  int64
size(요소 전체 개수) :  6


In [18]:
# 데이터 타입 변경하기2
# .astype(np.데이터타입)

temp2 = temp2.astype(np.float64)
array_info(temp2)

[[1. 4. 3.]
 [4. 2. 5.]]
ndim(차원수) :  2
shape(모양) :  (2, 3)
dtyoe(데이터타입) :  float64
size(요소 전체 개수) :  6


In [19]:
#  ndarray 특정 크기 변환
# 2차원의 경우 행과 열의 값이 맞게 떨어져야 함
# array명.reshape(행,열)

temp2 = temp2.reshape(3,2)
array_info(temp2)

[[1. 4.]
 [3. 4.]
 [2. 5.]]
ndim(차원수) :  2
shape(모양) :  (3, 2)
dtyoe(데이터타입) :  float64
size(요소 전체 개수) :  6


### 3. 특정한 값을 ndarray 생성하기
- np.zeros((행,열))
- np.ones((행,열))
- np.full((행,열),값)
- np.arange(시작값,끝값,증감량)
- np.random.rand(행,열)
- np.random.randint(시작값,끝값,size=(행,열))

In [20]:
# np.zeros((행, 열)) : 모든 값을 0으로 초기화
# 기본 데이터형 : float
arr_zeros =np.zeros((3,4))
arr_zeros

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [21]:
# np.ones((행,열)) : 모든 값을 1로 초기화
# 기본 데이터형 : float
arr_ones = np.ones((3,4))
arr_ones

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [22]:
# np.full((행,열),값) : 원하는 값을 초기화
arr_full = np.full((3,4),10)
arr_full

array([[10, 10, 10, 10],
       [10, 10, 10, 10],
       [10, 10, 10, 10]])

In [23]:
# np.random.randint(시작값,끝값,size = (행, 열))
# 랜덤값으로 배열 생성(int)형
# 끝값을 포함 X
# size는 생략 가능 -> none 값으로 지정시 요소 한개

arr_randint = np.random.randint(1,10,size=(3,2))
arr_randint

array([[1, 7],
       [6, 6],
       [1, 3]])

In [24]:
# 실습
# 1부터 50이 담긴 1차원 array 생성(array 형변환으로 생성)
# list 사용해서 생성

list1 = [i for i in range(1,51)]
# for i in range(1,51):
#     list1.append(i) 
arr = np.array(list1)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50])

In [25]:
# np.arange(시작값, 끝값,증감량)
# range() 함수처럼 범위를 지정
# numpy에서 제공하는 함수
# 증감량은 생략 가능

arr2 = np.arange(1,51)
array_info(arr2)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50]
ndim(차원수) :  1
shape(모양) :  (50,)
dtyoe(데이터타입) :  int32
size(요소 전체 개수) :  50


### 4. array 연산(요소별 연산)
- <b>"요소별 연산"</b>에 특화되어 있다!
- 브로드 캐스팅 : 차원수를 자동으로 맞춰준다!

- 브로드 캐스팅의 이해
     - 차원 수를 맞춰서 계산해준다
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)




In [26]:
# list의 연산방식 -> array 연산과 차이점 비교하기 위해
list1 =[1,2,3]
list2=[4,5,6]

# 리스트끼리 더함
print(list1 + list2)
print()

# 리스트의 요소별 연산 -> 각각 값을 도출(인덱싱)해야 연산이 가능
print(list1[0]*list2[0])

[1, 2, 3, 4, 5, 6]

4


In [27]:
# np.array()의 연산

arr_a = np.array(list1)
arr_b = np.array(list2)

print(arr_a+arr_b) 

[5 7 9]


In [28]:
arr2_a = np.array([[1,2,3],[4,5,6]])
arr2_b = np.array([[7,8,9],[10,11,12]])

print(arr2_a+arr2_b)

[[ 8 10 12]
 [14 16 18]]


In [29]:
# 자동으로 인덱싱하여 요소들을 찾아가 연산을 수행한다!!
arr2_a +3

array([[4, 5, 6],
       [7, 8, 9]])

In [30]:
arr2_a *3

array([[ 3,  6,  9],
       [12, 15, 18]])

### 5. array 인덱싱 & 슬라이싱 (중요)
- 인덱싱(Indexing) : 요소 하나를 가리키는 것
- 슬라이싱(Slicing) : 요소들을 잘아오는 것
- 리스트 or 튜플 형과 같이 인덱싱, 슬라이싱 방법은 같음

In [31]:
# 1차원 array 생성
arr_1 = np.arange(0,10)
arr_1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [32]:
# 인덱싱
print(arr_1[4])

# 슬라이싱
print(arr_1[3:8])

4
[3 4 5 6 7]


In [33]:
# 슬라이싱을 하고 한번에 데이터 넣기

# 리스트 예시
# 리스트는 슬라이싱하고 값을 수정하게 되면 범위 자체가 하나의 요소로 반환!
list1 =[0,1,2,3,4,5,6,7,8]
list1[3:]=[10]
print(list1)

print()

# array 예시
# array는 슬라이싱 된 요소들의 자리에 각각 하나씩 값을 넣는다!
arr_1[3:]=10
print(arr_1)

[0, 1, 2, 10]

[ 0  1  2 10 10 10 10 10 10 10]


#### 5.1 2차원 array 인덱싱 & 슬라이싱
- 인덱싱 : [행값, 열값]
- 슬라이싱 : [행의 시작값:행의 끝값,열의 시작값:열의 끝값] 
  - DataFrame에서도 쓰이니 익혀두자

In [34]:
arr2 = np.arange(1,51).reshape(5,10)
arr2

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [35]:
# 인덱싱 : [행값, 열값]
# 튜플인덱싱
arr2[1,1]

12

In [36]:
# 인덱싱 : [행값][열값]
# 두 번 연산 진행 (일반인덱싱) : 행값을 가져오고 열 값 가져오기
arr2[1][1]

12

In [37]:
# 예제1 
# [[21, 22, 23, 24, 25, 26, 27, 28, 29],
# [31, 32, 33, 34, 35, 36, 37, 38, 39],
# [41, 42, 43, 44, 45, 46, 47, 48, 49]]

# array[행시작값:행 끝값{,열시작값:열의 끝값}] * {}생략가능 -생략시 끝까지
# 열은 생략가능 -> 일반인덱싱 쓰지 않고 튜플 인덱싱 쓰는게 좋음

arr2[2:,:9]

array([[21, 22, 23, 24, 25, 26, 27, 28, 29],
       [31, 32, 33, 34, 35, 36, 37, 38, 39],
       [41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [38]:
# 예제2 [1,11,21,31,41]
#  전체 행의 1열만 출력
arr2[:,0]

array([ 1, 11, 21, 31, 41])

In [39]:
# 예제 3
#[[ 1,  2,  3,  4,  5],
#[11, 12, 13, 14, 15],
#[21, 22, 23, 24, 25],
#[31, 32, 33, 34, 35]]
# 0행부터 3행까지, 0열부터 4열까지
arr2[:4,:5]

array([[ 1,  2,  3,  4,  5],
       [11, 12, 13, 14, 15],
       [21, 22, 23, 24, 25],
       [31, 32, 33, 34, 35]])

In [42]:
# Fancy 인덱싱(정수 배열 인덱싱)
# 23(2행2열) 34(3행3열) 
print(arr2[[2,3],[2,3]])

print(arr2[[2,3,4],[2,3,4]])

[23 34]
[23 34 45]


## BMI 지수 구하기! 
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

##### 데이터 경로 지정
1. 절대경로
- /
    - 루트 디렉토리, 파일 시스템의 가장 상위 디렉토리
    - /로 시작하는 경로는 절대 경로로, 루트 디렉토리에서 시작하여 파일이나 디렉토리의 위치를 나타냄
    - ex) /Users/smhrd/봉봉/Python Library 수업 정리본/data/height_weight(p).txt
<br><br>
2. 상대경로
- ./
    - 현재 작업 디렉토리를 나타냄
    - Python에서 생략 시 defalt
- ../
    - 현재 디렉토리의 부모 디렉토리(즉, 한 단계 위 디렉토리)를 나타냄

In [80]:
# 데이터 읽어오기(.txt 파일 형식의 확장자 읽어오기)
# np.loadtxt('파일명 또는 경로', delimiter ='구분자',dtype =데이터타입)
# delimiter = '구분자' -> 데이터들을 "특정 문자"로 구분지을 때 사용

data =np.loadtxt("./height_weight(p).txt",delimiter=',')
data

array([[175.2   , 180.3   , 175.    , 169.2   , 185.2   , 188.    ,
        177.6   , 178.2   , 177.    , 179.    ],
       [144.5824, 193.952 , 174.5568, 152.7372, 121.22  , 156.9248,
        160.892 , 151.8556, 163.096 , 180.728 ]])

In [None]:
# BMI 지수 구하기
# 공식 : 몸무게(kg) / (키(m)*키(m))
# cm의 단위를 m로 바꿔야한다!!
# pound 단위를 kg로 바꿔야한다!! -> kg = pound/2.204

In [81]:
# 1. 키 데이터 인덱싱 -> h 변수에 담아주기
h = data[0]
h

array([175.2, 180.3, 175. , 169.2, 185.2, 188. , 177.6, 178.2, 177. ,
       179. ])

In [83]:
# 2. 몸무게 데이터 인덱싱 -> w 변수에 담아주기
w = data[1]
w

array([144.5824, 193.952 , 174.5568, 152.7372, 121.22  , 156.9248,
       160.892 , 151.8556, 163.096 , 180.728 ])

In [86]:
# 3. 키 데이터 단위변경 -> m = cm * 0.01
h = h*0.01
h

array([1.752, 1.803, 1.75 , 1.692, 1.852, 1.88 , 1.776, 1.782, 1.77 ,
       1.79 ])

In [87]:
# 4. 몸무게 데이터 단위변경 -> kg = pound / 2.204
w =w/2.204
w

array([65.6, 88. , 79.2, 69.3, 55. , 71.2, 73. , 68.9, 74. , 82. ])

In [88]:
# 5. BMI 지수 구하기
bmi = w/(h**2)
bmi

array([21.37153104, 27.07018468, 25.86122449, 24.20652885, 16.03543423,
       20.14486193, 23.14392095, 21.69720651, 23.62028791, 25.59220998])

In [112]:
# 과체중 데이터를 Boolean 인덱싱  
# bmi 지수 : 23~25-> 과체중!
bmi[(23<=bmi) & (bmi<=25)]

# and 논리연산자 :bmi 'array' 값이기 때문에 각 요소를 비교하지는 못함
# & 비트연산자 : 각 요소별 접근이 가능하다
# () -> 연산순서 때문

array([24.20652885, 23.14392095, 23.62028791])

## Boolean 인덱싱 (중요)
- 배열 안에서 조건을 충족(특정 조건을 만족)하는 True인 값들만 추출하는 인덱싱
- 간단히 말하면 "필터링"

In [91]:
# array 생성!
score = np.array([80,75,55,96,30])
print(score)

# 80점 이상인 데이터만 추출 -> boolean mask 로 전환!
mask= score >= 80

[80 75 55 96 30]


In [92]:
score[mask]

array([80, 96])

In [95]:
score[score>=80]

array([80, 96])

In [98]:
# arr_짱구 데이터
crayon = np.array([['짱구', '철수', '훈이','유리','맹구'],
                  [105.9,108.7,106.2,104.2,113.9]])
crayon

array([['짱구', '철수', '훈이', '유리', '맹구'],
       ['105.9', '108.7', '106.2', '104.2', '113.9']], dtype='<U32')

In [105]:
mask = np.array([[False,True,False,True,False],[False,True,False,True,False]])
crayon[mask]

array(['철수', '유리', '108.7', '104.2'], dtype='<U32')

### 6. array 연산 함수
- numpy에서 제공하는 함수

In [120]:
arr = np.random.randint(1,10,size =(2,5))
arr

array([[7, 5, 8, 3, 2],
       [9, 8, 7, 8, 4]])

In [126]:
# sum() : 합계
print(sum(arr)) # 파이썬에서 제공하는 내장함수

print(np.sum(arr)) # numpy에서 제공하는 sum 함수
print(arr.sum())

[16 13 15 11  6]
61
61


In [127]:
# sqrt() : 제곱근(루트)
np.sqrt(arr) # arr.sqrt() 불가능!

[[2.64575131 2.23606798 2.82842712 1.73205081 1.41421356]
 [3.         2.82842712 2.64575131 2.82842712 2.        ]]


## Universally 함수
- 다양한 수학적 함수

- 단일 배열에 사용하는 함수
![image.png](attachment:image.png)

- 서로 다른 배열간에 사용하는 함수
![image.png](attachment:image.png)

- 단일 배열에 사용하는 함수
|함수이름|설명|
|:------:|:---|
|abs, fabs|각 원소의 절대값을 구한다. 복소수가 아닌 경우에는 fabs로 빠르게 연산가능|
|sqrt|제곱근을 계산 arr**0.5와 동일|
|square|제곱을 계산 arr**2와 동일|
|Exp|각 원소에 지수 eₓ를 계산|
|Log, log10, log2, logp|각각 자연로그, 로그10, 로그2, 로그(1+x)|
|sign|각 원소의 부호를 계산|
|ceil|각 원소의 소수자리 올림|
|floor|각 원소의 소수자리 버림|
|rint|각 원소의 소수자리 반올림, dtype 유지|
|modf|원소의 몫과 나머지를 각각 배열로 반환|
|isnan|각 원소가 숫자인지 아닌지 NaN 나타내는 불리언 배열|
|isfinite, isinf|배열의 각 원소가 유한한지 무한한지 나타내는 불리언 배열|
|cos,cosh, sin, sinh, tan, tanh|일반 삼각함수와 쌍곡삼각 함수|
|logical_not|각 원소의 논리 부정(not) 값 계산, -arr와 동일|

- 서로 다른 배열간에 사용하는 함수
|함수이름|설명|
|:------:|:---:|
|add|두 배열에서 같은 위치의 원소끼리 덧셈|
|subtract|   첫번째 배열 원소 - 두번째 배열 원소|
|multiply|   배열의 원소끼리 곱셈|
|divide|   첫번째 배열의 원소에서 두번째 배열의 원소를 나눗셈|
|power|   첫번째 배열의 원소에 두번째 배열의 원소만큼 제곱|
|maximum, fmax|   두 원소 중 큰 값을 반환. fmax는 NaN 무시|
|minimum, fmin|   두 원소 중 작은 값을 반환. fmin는 NaN 무시|
|mod|   첫번째 배열의 원소에 두번째 배열의 원소를 나눈 나머지|
|greater, greater_equal, less, less_equal, equal, not_equal|    두 원소 간의 >,>=,<,<=,==,!= 비교연산 결과를 불리언 배열로 반환|
|logical_and, logical_or, logical_xor|   각각 두 원소 간의 논리연산. &,\|,\^ 결과를 반환|