<a href="https://colab.research.google.com/github/KSeungBin/python/blob/master/numpy2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Numpy - 2

numpy는 수치 연산과 관련된 모듈로, 숫자형 데이터를 보다 세분화된 형태로 저장합니다.
- 크게 정수/실수/복소수/Boolean형으로 구분합니다.
- 데이터형 뒤에는 비트수를 표기합니다. 

https://numpy.org/devdocs/user/basics.types.html

인스턴스 변수 `dtype`에는 데이터 타입이 저장돼 있습니다. `int32`는 정수 (`integer`) 값을 저장할 수 있는 32 bits 자료형이라는 뜻입니다. 숫자가 커질 수록 더욱 큰 수를 저장할 수 있는 반면 더 많은 저장 공간을 필요로 합니다. 

In [1]:
# 4는 3비트(100)로 표현할 수 있음. 즉 비트(0,1)는 데이터를 표현할 수 있는 가장 작은 단위
# 4비트는 2의 네제곱 -> 따라서, 0(0000)부터 15(1111)까지 총 16개의 숫자를 표현할 수 있음. 부호가 있다면 -8~0~7까지 총 16개의 숫자를 표현할 수도 있음
import numpy as np
a = np.arange(4)
print(a.dtype)
# int64 : 2의 64제곱에 해당하는 숫자를 불러올 수 있음 -> 큰 숫자를 표현할 수 있지만 메모리를 많이 차지한다

int64


데이터 타입을 변경할 때는 `astype` 메서드를 사용합니다. `int8`은 `int32` 보다 적은 숫자를 저장할 수 있겠죠?

In [3]:
a = a.astype('int8') # 8비트로 숫자를 변환해라(부호가 없다면 0~255 or 부호가 있다면 -128~127) -> 그 결과를 a 변수에 바인딩(astype의 결과도 바인딩해서 사용해야 함!!)
print(a.dtype)

a[0] = 127  # ndarray의 0번 위치가 127을 가리키게 함
a[1] = 128  # -128 이 출력되는 이유? 8bit 부호 있는 시스템에서는 -128~127 안에 있는 수만 표현할 수 있기 때문에 128은 표현할 수 없음(잘못된 데이터 타입 설정의 위험성)
a[2] = 129  
print(a)
# 데이터의 값 범위가 제한적이라면 int8을 사용해야 메모리 공간 낭비를 막을 수 있다. => 데이터 타입의 최적화

int8
[ 127 -128 -127    3]


`uint8`은 부호없는 정수를 저장하며 `int8`보다 조금 더(2배) 큰 숫자를 저장할 수 있습니다. 

In [4]:
a = a.astype('uint8') # unsigned int (음수를 사용하지 않는 대신 더 큰 수를 표현할 수 있다) : 0~255
print(a.dtype)

a[0] = 255
a[1] = 256
print(a)

uint8
[255   0 129   3]


## 넘파이의 연산
넘파이의 사칙연산은 전체 데이터에 적용되는데, 이를 브로드 캐스팅 (broadcasting)이라고 합니다. 
### 사칙연산
곱셈 연산이 `ndarray`에 저장된 모든 데이터에 적용됐음을 알 수 있습니다. 

In [5]:
# 하나의 연산이 전체 데이터에 적용됨
import numpy as np

a = np.arange(4)
print(a)
print( a * 3 )

[0 1 2 3]
[0 3 6 9]


곱셈 뿐만 아니라 덧셈/뺄셈/나눗셈에 대해서도 모두 동작합니다.

In [6]:
print( a + 10 )
print( a - 10 )
print( a / 3 )

[10 11 12 13]
[-10  -9  -8  -7]
[0.         0.33333333 0.66666667 1.        ]


ndarray와의 연산

In [8]:
# 연산이 확장적으로 적용되긴 하지만, 논리적으로 타당해야 함
a = np.arange(4)
b = np.arange(2, 6)
print(a+b) # 동일 위치에 동일 차원끼리 더하는 벡터 연산이 가능(단, 일대일대응이 되어야 함)

[2 4 6 8]


Q. 중간고사 성적의 분산을 출력하라
- v𝑎𝑟(𝑋)=𝐸((𝑋−𝜇)2)

<img src="https://i.ibb.co/SfVzf0Z/image.png" width="250" style="float:left" />

In [None]:
점수 = np.array([            ])

Q. 중간/기말고사 성적의 분산을 출력하라

In [None]:
점수 = np.array([            ])

In [None]:
# 인덱싱, 슬라이싱 할 수 있다 = 해당 위치의 값을 바꿀 수 있다.
a[0] = 30  # indexing : 하나의 데이터를 선택해 꺼내 줌
a[:2] = 20 # 덩어리 데이터를 꺼내 와서 동일한 데이터 타입으로 반환 함
a[[0,3]] = 0
# series, dataframe에도 반복되는 개념

### 비교연산
넘파이는 크다/작다/같다/다르다 등의 비교 연산을 지원합니다. 연산의 결과는 Boolean형 데이터 타입이며, 사칙연산과 같이 모든 데이터에 비교 연산이 적용됩니다. 연산의 결괏값은 `ndarray` 입니다. 

In [9]:
a = np.arange(5)
결과 = a > 3 # ndarray에는 하나의 연산이 전체 데이터로 확장되는 broadcasting이 적용됨(비교연산의 결과는 boolean형 데이터 타입 -> 그 결과가 ndarray 형태로 반환됨)
print(결과)

[False False False False  True]


<img src="https://i.ibb.co/HTpkqfW/1.png" width="600" style="float:left" />

불린형 데이터 타입이 저장된 `ndarray`를 사용해서 값을 filtering할 수 있습니다. 조건을 충족하는 4가 출력됩니다. 

In [11]:
# boolean형 데이터 타입(T/F)이 저장된 ndarray를 슬라이싱(참인 위치에 대응하는 데이터만 슬라이싱하여 엑셀의 filtering 기능과 유사)
a = np.arange(5)
조건 = a > 3 
print(a[조건])  # ndarray

[4]


위 코드는 간단하기 때문에 조건 비교와 인덱싱을 한 번에 표현할 수 있습니다. 

In [10]:
a[a>3]
# indexing : a[0]
# slicing : a[ : 2]
# 불연속적인 데이터를 선택(by list) : a[[0,2], :]
# mask : a[a>3]

array([4])

`np.where` 구문을 사용하면 데이터를 쉽게 변경할 수 있습니다. 

array([ 0,  1, 44,  3, 44])

비교할 조건이 다수라면 `&` 기호로 조건을 구분하며, 각각의 조건 역시 괄호 `( )`로 구분해저야 합니다. 

Q. LG전자의 종가 데이터가 ndarray 형태로 저장되어 있다. LG 전자의 주가가 85000원 보다 작을 때의 가격을 출력하라.

In [13]:
lge = np.array([93000, 82400, 99100, 81000, 72300])

In [14]:
lge[lge<85000]

array([82400, 81000, 72300])

Q. LG 전자의 주가가 85000원 이하로 떨어진 횟수는?

In [16]:
len(lge[lge<85000])

3

Q. 종가가 80000원 이상  90000원 미만인 값을 출력하라

In [18]:
cond1 = lge >= 80000 
cond2 = lge < 90000
lge[cond1 & cond2]

array([82400, 81000])

In [19]:
lge[cond1 | cond2] # or 조건

array([93000, 82400, 99100, 81000, 72300])

In [20]:
lge[~cond1] # not 조건

array([72300])

In [21]:
# 연산자의 우선순위가 있어 python interpreter는 (80000 & lge)를 먼저 수행하려고 해 error 발생 -> 따라서, 괄호 필수!
lge[(lge >= 80000) & (lge < 90000)]

array([82400, 81000])