# Intro - 데이터 분석과 파이썬 기반 도구 삼대장
---
* 파이썬은 배우기 쉽고 강력한 프로그래밍 언어이며, 다양한 라이브러리를 쉽게 활용할 수 있습니다.
* 본 과정은 파이썬에서 데이터 분석 작업을 수행할 때 널리 사용되는 세 종류의 라이브러리를 다룹니다.
  * NumPy
    * 빠르고 효율적인 수치 계산을 위한 라이브러리
    * 대규모 다차원 배열과 행렬 연산에 필수적이며,
    * 딥러닝 등 수많은 다른 라이브러리는 NumPy를 기본적으로 사용하기 때문에 반드시 알아야 할 라이브러리입니다.
  * Pandas
    * 표(테이블) 형태의 데이터를 다루는데 최적화된 라이브러리
    * 데이터 정제, 변형, 분석 작업을 쉽게 도와줍니다.
  * Matplotlib 
    * 데이터를 시각화하여 직관적으로 이해할 수 있도록 도와주는 라이브러리
    * 다양한 종류의 그래프를 그릴 수 있습니다.

# NumPy
---
* Numerical Python의 줄임말이며, 파이썬에서 과학 계산을 위한 핵심 라이브러리
* 강력한 N차원 배열 객체인 `ndarray`는 데이터 분석과 머신러닝에서 매우 중요하게 사용됩니다.

## NumPy 소개 및 환경 설정
---
* Numpy란?
  * 파이썬에서 대규모 다차원 배열 및 행렬 연산을 지원
  * 이런 데이터 구조에 대한 다양한 수학 함수를 제공하는 라이브러리
* 데이터 분석에 사용되는 이유
  * 속도 성능 - 내부적으로 빠르게 동작할 수 있도록 만들어져(C언어로 구현) 파이썬 리스트보다 훨씬 빠르게 동작
  * 메모리 효율성 - 연속된 데이터는 연속된 메모리 공간을 사용, 효율적으로 메모리를 활용
  * 다양한 기능 - 선형대수, 푸리에 변환 등 다양한 고급 수학 함수를 제공
* NumPy 설치
  * 미니콘다 등 대부분의 파이썬 데이터 환경에는 기본 설치되어 있음
  * 필요한 경우 다음 명령으로 설치할 수 있음
    * `pip install numpy` (일반 파이썬 환경) 또는
    * `conda install numpy` (미니콘다/아나콘다 환경경)
* `np`와 `NumPy`의 차이점
  * `NumPy` 대신 `np`라는 별칭을 사용하는게 일종의 '국룰'로 통용용
  * 다음과 같이 설치 여부 및 버전 확인 가능

In [None]:
# NumPy 설치 여부 및 버전 확인
import numpy as np      # 설치 되어 있지 않으면 예외 발생생
print(np.__version__)

* NumPy의 데이터 타입
  * 정수형 - int32, int64
  * 실수형 - float32, float64
  * 불리언 - bool
  * 일반 객체 - object

In [None]:
integer_1 = np.int32(1)
print(type(integer_1))  
print(integer_1)        

In [None]:
print(integer_1 == 1)

In [None]:
print(integer_1 + 1)

In [None]:
integer_2 = integer_1 + integer_1
print(integer_2, type(integer_2))

In [None]:
# np.int32 - -2^31 ~ 2^31 - 1
# np.int64 - -2^63 ~ 2^63 - 1
large_int1 = np.int64(2 ** 50)
large_int2 = np.int32(2 ** 50)

In [None]:
# np.float32 - 약 7자리의 정밀도
# np.float64 - 약 15자리의 정밀도
large_float1 = np.float64(2 ** 50)
large_float2 = np.float32(2 ** 50)
print(large_float1, type(large_float1))
print(large_float2, type(large_float2))

## `ndarray` 배열 - NumPy의 핵심
* 소개
  * NumPy의 핵심 데이터 구조
  * **같은 타입**의 값들로 이루어진 다차원 배열
  * `dtype`인자를 지정해 데이터 타입을 명시적으로 지정할 수 있음
* 배열 생성법 
  * `np.array()` 함수를 사용

In [None]:
# 1차원 배열
array_int = np.array([1, 2, 3], dtype=np.int32)
array_float = np.array([1, 2, 3], dtype=np.float32)
print(array_int, array_float)
array_int2 = np.array([1, 2, 3])
print(array_int2)
array_float2 = np.array([1.0, 2.0, 3.0])
print(array_float2)

In [None]:
some_ndarray = np.array([1, 2, '3'])
print(some_ndarray)
other_ndarray = np.array([1, 2, 3.0])
print(other_ndarray)
object_ndarray = np.array([1, 2, '3'], dtype=object)
print(object_ndarray, object_ndarray.dtype)

In [None]:
# 2차원 배열
array_2d = np.array([[1, 2, 3], [4, 5, 6]], dtype=np.int32)
print(array_2d)

In [None]:
false_2d_array = np.array([1, 2, 3], [4, 5, 6])

In [None]:
array_2d = np.array([[1, 2, 3],
                     [4, 5, 6]], dtype=np.float32)
print(array_2d)

In [None]:
array_2d = np.array([[1, 2, 3],
                     [4, 5]])

In [None]:
# 3차원 배열
array_3d = np.array([
    [
        [1, 2, 3], [4, 5, 6]
    ],
    [
        [7, 8, 9], [10, 11, 12]
    ],
    [
        [13, 14, 15], [16, 17, 18]
    ],
    [
        [19, 20, 21], [22, 23, 24]
    ],
])
print(array_3d)

In [None]:
# shape - 배열의 차원
print(array_int.shape, array_2d.shape, array_3d.shape)

In [None]:
# dtype - 배열 요소의 데이터 타입
print(array_int.dtype, array_2d.dtype, array_3d.dtype)

In [None]:
# ndim - 배열의 차원 수
print(array_int.ndim, array_2d.ndim, array_3d.ndim)

In [None]:
# size - 배열의 요소 수
print(array_int.size, array_2d.size, array_3d.size)

In [None]:
# ndarray의 인덱싱, 슬라이싱
array_int = np.array([1, 2, 3, 4, 5])
print(array_int)
print(array_int[0], array_int[2], array_int[4])
print(array_int[0:2], array_int[1:3], array_int[1:-1])

In [None]:
print(array_2d[-1][-1])
print(array_2d[-1, -1])
print(array_3d[0][1][2])
print(array_3d[0, 1, 2])

In [None]:
# 조건부 인덱싱
print(array_int[array_int > 2])
print(array_int[array_int >= 2])
print(array_int[(array_int > 2) & (array_int % 2 == 1)])
print(array_int[(array_int > 2) | (array_int % 2 == 1)])

## NumPy 배열 연산
---
* 기본 사칙 연산
  * 같은 크기의 배열 간에 사칙 연산자를 사용, 대응되는 각 요소별로 연산을 수행
  * 배열과 스칼라 사이의 연산도 가능 - 스칼라 값이 배열의 모든 요소에 적용 

In [None]:
array_1 = np.array([[2, 3, 5], [7, 11, 13], [17, 19, 23]])
array_2 = np.array([[1, 3, 5], [7, 9, 11], [13, 15, 17]])
print(array_1)
print(array_2)

In [None]:
print(array_1 + array_2)
print(array_1 - array_2)

In [None]:
print(array_1 * array_2)
print(array_1 / array_2)
print(array_1 // array_2)

In [None]:
print(5 + array_1)
print(5 - array_1)
print(array_1 - 5)


In [None]:
print(5 * array_1)
print(5 / array_1)
print(5 // array_1)
print(5 % array_1)


In [None]:
print(array_1 / 5)
print(array_1 // 5)
print(array_1 % 5)

* 유니버셜 함수
  * 배열의 각 요소에 적용되는 함수

In [None]:
print(np.square(array_1))

  * 주요 유니버셜 함수
    * `np.sqrt()` - 제곱근
    * `np.exp()` - 지수
    * `np.log()`, `np.log10()`, `np.log2()` - 자연로그, 상용로그, 밑이 2인 로그그
    * `np.sin()` - sin 삼각함수
    * `np.cos()` - cos 삼각함수
    * `np.square()` - 제곱

In [None]:
# np.sqrt - 제곱근
print(np.sqrt(array_1))


In [None]:
# np.exp - 지수 : 자연상수 e의 거듭제곱
print(np.exp(array_1))
# np.log - 로그 : 자연로그 (밑이 e인 로그)
print(np.log(array_1))
# np.log10 - 로그 : 상용로그 (밑이 10인 로그)
print(np.log10(array_1))
# np.log2 - 로그 : 밑이 2인 로그
print(np.log2(array_1))


In [None]:
print(array_1)
print(array_2)
# np.add - 덧셈
print(np.add(array_1, array_2))
print(array_1 + array_2)


In [None]:

half_pi = np.pi / 2
array_3 = np.array([[half_pi, 0, half_pi], [-half_pi * 2 / 3, 0, half_pi * 2 / 3], [-half_pi / 3, 0, half_pi / 3]])
print(array_3)
# np.abs - 절대값
print(np.abs(array_3))

# np.sin, np.cos, np.tan - 삼각함수
print(np.sin(array_3))
print(np.cos(array_3))
print(np.tan(array_3))

* 주요 집계 함수 - 통계량을 계산하는 함수
  * `sum()` - 합계
  * `mean()` - 평균
  * `std()` - 표준편차
  * `median()` - 중앙값값
  * `min()`, `max()` - 최솟값과 최댓값
  * `argmin()`, `argmax()` - 최솟값의 인덱스, 최댓값의 인덱스스

In [None]:
print(array_1)
print(np.sum(array_1))
print(np.mean(array_1), np.std(array_1), np.var(array_1))
print(np.median(array_1))
print(np.min(array_1), np.argmin(array_1))
print(np.max(array_1), np.argmax(array_1))


* 축의 개념
  * 2차원 배열에서 `axis=0`은 열 방향, `axis=1`은 행 방향을 의미
  * 3차원 이상에서는 축의 순서는 추가 차원이 0의 값에 추가됨됨
    * 3차원이라면 - 깊이 -> 행 -> 열

In [None]:
print(array_1)
print(np.sum(array_1, axis=0))      # 열 끼리 합
print(np.sum(array_1, axis=1))      # 행 끼리 합

In [None]:
print(array_3d)
print()
print(np.sum(array_3d, axis=0))      # 0번째 축을 기준으로 합 - 깊이
print()
print(np.sum(array_3d, axis=1))      # 1번째 축을 기준으로 합 - 행
print()
print(np.sum(array_3d, axis=2))      # 2번째 축을 기준으로 합 - 열열

## 행렬 전용 연산
---
* `np.matmul()` 또는 `@` 연산 - 행렬곱
* `np.transpose()` 또는 `.T` - 전치
* `np.linalg.inv()` - 역행렬 - AB = I일 때 A와 B의 관계
* `np.linalg.det()` - 행렬식 - a * d - b * c
* `np.linalg.eig()` - 고유값, 고유 벡터
* `np.linalg.svd()` - 특이값 분해 (U * S * V_h로 분해해)

In [None]:
array_a = np.array([[1, 2], [3, 4]])
array_b = np.array([[5, 6], [7, 8]])
print(array_a)
print(array_b)

In [None]:
print(np.matmul(array_a, array_b))
print(array_a @ array_b)

In [None]:
print(array_a.T)
print(np.transpose(array_a))
print(array_b.T)
print(np.transpose(array_b))

In [None]:
print(np.linalg.inv(array_a))
print(np.linalg.inv(array_b))

In [None]:
print(np.linalg.det(array_a))
print(np.linalg.eig(array_a))
print(np.linalg.svd(array_a))