## 데이터 분석 Python 라이브러리

- Matplotlib (1~6번 해당 내용) -> 확장해서 만든 것이 seaborn
- Numpy (7번)
- Pandas (8번)

## Numpy

* 'Numerical Python'의 줄임말


* 고성능의 과학 계산 컴퓨팅과 데이터 분석에 필요한 라이브러리
    - 튜토리얼 : https://numpy.org/devdocs/user/quickstart.html


* 행렬, 수치 계산 등 **수치 데이터**를 다루기 쉽게 도와줌
    - 다차원 배열 구조인 ndarray를 이용하여, 행렬/벡터 및 수치 연산을 빠르게 하는 것이 핵심
    - list와 numpy array의 연산 속도 차이는 30~40배까지 나기도 함 (C언어로 구현된 파이썬 라이브러리)


* **데이터의 크기가 커질수록 numpy는 필수**

### 차원 (Dimention)

* 중첩리스트 : 리스트 안의 리스트 (중첩된 정도를 구분하기 위해 '차원'이라는 단위 사용)
    - 일반적인 리스트는 중첩 데이터를 처리하는 게 느리고 복잡하므로, numpy 라이브러리를 사용

## np.array()

* 리스트, 튜플, 배열로부터 ndarray 생성
* 배열의 차원 및 크기 확인 : *ndim 및 shape 속성 활용*

In [7]:
# numpy 라이브러리 import 하기
import numpy as np

# numpy 버전 확인
np.__version__

'1.21.5'

In [2]:
# 1차원 배열 생성
a = np.array([1, 2, 3, 4, 5])
print(type(a))
print(a)

<class 'numpy.ndarray'>
[1 2 3 4 5]


In [3]:
# 2차원 배열 생성
b = np.array([[1, 2, 3], [4, 5, 6]])
print(type(b))
print(b)

# 변수를 사용해 2차원 배열 생성
i_list = [[1, 2, 3], [4, 5, 6]]
b = np.array(i_list)
print(type(b))
print(b)

<class 'numpy.ndarray'>
[[1 2 3]
 [4 5 6]]
<class 'numpy.ndarray'>
[[1 2 3]
 [4 5 6]]


In [5]:
# 배열의 차원 및 크기 확인 : ndim, shape 속성 사용
print(b.ndim)
print(b.shape)

print('---------')

print(a.ndim)
print(a.shape)

2
(2, 3)
---------
1
(5,)


## ndarray 초기화 방법 (ndarray 제외)

1. np.zeros(shape=(a, b)) 혹은 np.zeros((a, b)): 모든 값이 0인 a x b 크기의 배열 생성
    - np.zeros(shape, dtype=float, order='C')
    - 여기서 dtype과 order은 따로 지정하지 않아도 default값이 존재
    - https://numpy.org/doc/1.18/reference/generated/numpy.zeros.html

In [6]:
# 모든 값이 0인 2x3 배열 생성
a = np.zeros((2, 3))
a

'1.21.5'

2. np.ones(shape=(a, b)) 혹은 np.ones((a, b)): 모든 값이 1인 a x b 크기의 배열 생성
    - np.ones(shape, dtype=None, order='C')
    - https://numpy.org/doc/1.18/reference/generated/numpy.ones.html

In [8]:
# 모든 값이 1인 2x3 배열 생성
a = np.ones((2, 3))
a

array([[1., 1., 1.],
       [1., 1., 1.]])

3. np.full(shape=(a, b), fill_value=c) 혹은 np.full((a, b), c): 모든 값이 c인 axb 크기의 배열 생성
    - numpy.full(shape, fill_value, dtype=None, order='C')
    - https://numpy.org/doc/1.18/reference/generated/numpy.full.html

In [9]:
# 모든 값이 5인 2x3 배열 생성
a = np.full((2, 3), 5)
a

array([[5, 5, 5],
       [5, 5, 5]])

In [10]:
# dtype 설정하기: np.int8
b = np.full((2, 3), 5, dtype=np.int8)
b

array([[5, 5, 5],
       [5, 5, 5]], dtype=int8)

In [11]:
# dtype 설정하기: np.float64
c = np.full((2, 3), 5, dtype=np.float64)
c

array([[5., 5., 5.],
       [5., 5., 5.]])

In [12]:
# 모든 값이 1.5인 2x3 배열 생성
d = np.full((2, 3), 1.5)
d

array([[1.5, 1.5, 1.5],
       [1.5, 1.5, 1.5]])

4. np.eye(a): 대각선 값은 1이고, 나머지는 0인 a x a 크기의 2차원 배열 생성
    - 만약 np.eye(a, b)인 경우, a x b 크기의 2차원 배열 생성
    - numpy.eye(N, M=None, k=0, dtype=<class 'float32'>, order='C')
    - https://numpy.org/doc/1.18/reference/generated/numpy.eye.html

In [13]:
# 대각선 값은 1이고, 나머지는 0인 a x a 크기의 2차원 배열 생성
a = np.eye(3)
a

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [14]:
# 대각선 값은 1이고 나머지는 0인 a x b 크기의 2차원 배열 생성
a = np.eye(3, 4)
a

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.]])

5. np.random.randn(a, b): 임의의 값으로 채워진 a x b 크기의 배열 생성
    - numpy.random.randn(d0, d1, ..., dn)
    - https://numpy.org/doc/1.18/reference/generated/numpy.random.randn.html

In [15]:
# 임의의 값으로 채워진 a x b 크기의 배열 생성
np.random.randn(2, 3)

array([[-0.33670576,  0.46267686, -0.3398997 ],
       [-1.84301866, -0.70532443, -0.30048977]])

## 슬라이싱 (Slicing)

* ndarray를 통해 만든 다차원 배열은 list처럼 슬라이스(Slice) 기능을 지원
    - 이 기능을 활용하여 여러 개의 원소에 접근할 수 있음

* 각 차원 별로 슬라이스 범위를 지정해줘야 함

In [16]:
a = np.array([1, 2, 3])
b = a[0:2]
b

array([1, 2])

In [17]:
a = np.array([[1, 2, 3], [4, 5, 6]])
b = a[0:2, 0:2]
b

array([[1, 2],
       [4, 5]])

## Numpy 연산

* ndarray로 만든 자료형은 자유롭게 사칙연산이 가능
    - 배열 간 연산을 손쉽게 수행할 수 있음
    - +, -, *, / 연산자 사용 가능
    - add(), substract(), multiply(), divide() 함수 사용

In [18]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

In [19]:
# 동일한 인덱스에 위치한 요소끼리 곱셈
# c = np.multiply(a, b)와 동일
c = a * b
c

array([ 4, 10, 18])

In [20]:
# 동일한 인덱스에 위치한 요소끼리 나눗셈
# c = np.divide(a, b)와 동일
c = a / b
c

array([0.25, 0.4 , 0.5 ])

## Numpy array와 list의 차이

1. 사칙 연산
    - numpy array는 numpy array까리 사칙 연산이 가능하지만, python list는 **덧셈**만 가능
        - numpy array + numpy array : 같은 인덱스에 있는 값들끼리 더해짐
            - [1, 2, 3, 4, 5] + [1, 3, 5, 7, 9] = [2, 5, 8, 11, 14]
        - list + list : 두 리스트의 값들이 한 리스트로 합쳐짐
            - [1, 2, 3, 4, 5] + [1, 3, 5, 7, 9] = [1, 2, 3, 4, 5, 1, 3, 5, 7, 9]

    - numpy array는 numpy array끼리 **뺄셈, 곱셈, 나눗셈** 가능 -> 같은 인덱스에 있는 값들끼리 연산
        - But, python list는 list끼리 뺄셈, 곱셈, 나눗셈을 하면 **오류** 발생 !!

2. Numpy array는 **array 전체에 연산**이 가능하지만, Python list는 **곱셈**만 가능
    - Numpy array와 숫자의 연산: array에 들어있는 각 값에 연산이 적용됨
    - Python list는 곱셉만 가능: array처럼 각 값에 곱을 해주는 것이 아닌, list의 요소를 해당 숫자만큼 반복

3. 성능 차이

    - Python list에 비해 문법이 간단하고, 성능이 뛰어남
        - 예) 1억 개의 요소가 있는 기본 Python list에 곱하기 2를 하려면?
            - 반복문을 1억 번 돌려야 함
            - numpy array는 * 2만 붙여주면 됨
    - 차이가 나는 이유? 값들이 저장되는 방식에 차이
        - numpy array는 같은 자료형만 저장 가능
        - python list는 다양한 자료형을 저장 가능

### 결론

* Numpy array : 수치 계산이 많고 복잡할 때, 혹은 행렬 같은 다차원 배열을 쓸 때 사용
* Python list : 값을 추가하고 제거할 떄 사용