<a href="https://colab.research.google.com/github/zaegeon/Python/blob/main/20220523_DA01_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 분석 패키지

* NumPy : 다차원 배열을 다루는 패키지. 머신 러닝에서 중요하게 사용됨.
* pandas : 데이터프레임(DataFrame)과 시리즈(Series)를 다루는 패키지. 데이터 분석에서 가장 기본이 되는 패키지.
* matplotlib, seaborn : 데이터 시각화(그래프).
* scikit-learn : 머신 러닝에서 기본이 되는 패키지.
* keras, tensorflow : 딥러닝에서 사용되는 패키지.

Google Colab은 데이터 분석과 머신 러닝에 필요한 대부분의 패키지들이 이미 설치되어 있음.

In [None]:
import numpy as np
import pandas as pd
import matplotlib
import seaborn
import sklearn
import keras
import tensorflow as tf

In [None]:
# Google Colab에 설치된 패키지 버전 확인
print('NumPy version : ', np.__version__)
print('pandas version : ', pd.__version__)
print('matplotlib version : ', matplotlib.__version__)
print('seaborn version : ', seaborn.__version__)
print('scikit-learn version : ', sklearn.__version__)
print('keras version : ', keras.__version__)
print('tensorflow version : ', tf.__version__)

NumPy version :  1.21.6
pandas version :  1.3.5
matplotlib version :  3.2.2
seaborn version :  0.11.2
scikit-learn version :  1.0.2
keras version :  2.8.0
tensorflow version :  2.8.0


# Python list

* 여러 개의 값들을 저장할 수 있는 데이터 타입.
* 인덱스를 기반으로 값들을 저장하는 데이터 타입.
    * indexing
    * slicing
* 연산
    * `list + list`
    * `list * int` 또는 `int * list`
    

In [None]:
num_list1 = [1, 2, 3]
num_list2 = [10, 20, 30]

In [None]:
# indexing
print(num_list1[0]) # 리스트의 첫 번째 원소 참조
print(num_list1[-1]) # 리스트의 마지막 원소 참조

1
3


In [None]:
# slicing
print(num_list1[:2]) # 리스트에서 첫 2개 원소로 이루어진 부분집합(리스트)
print(num_list1[-2:]) # 리스트에서 마지막 2개 원소로 이루어진 부분집합(리스트)

[1, 2]
[2, 3]


In [None]:
num_list1 + num_list2 # num_list1.extend(num_list2)

[1, 2, 3, 10, 20, 30]

In [None]:
3 * num_list1

[1, 2, 3, 1, 2, 3, 1, 2, 3]

In [None]:
# num_list1과 num_list2의 같은 인덱스의 원소들끼리의 덧셈으로 만들어진 리스트
plus = []
for x,y in zip(num_list1, num_list2):
    plus.append(x+y)
print(plus)

[11, 22, 33]


In [None]:
[x + y for x, y in zip(num_list1, num_list2)]

[11, 22, 33]

In [None]:
# num_list1의 각각의 원소에 3을 곱한 값들로 이루어진 리스트
multiple = []
for x in num_list1:
    multiple.append(3 * x)
print(multiple)

[3, 6, 9]


In [None]:
[3 * x for x in num_list1]

[3, 6, 9]

# NumPy (Numerical Python)

* 배열(array)을 쉽고 빠르게 연산(`+, -, *, /, ...`)하기 위한 라이브러리.
* NumPy 패키지의 대부분의 기능(함수, 메서드)들은 반복문의 기능을 가지고 있음.
* `np.ndarray` 클래스 : NumPy 패키지의 기본 데이터 타입. n-dimensional array (n차원 배열).
    * `ndarray`는 같은 인덱스의 원소들끼리 연산을 수행함.

In [None]:
num_arr1 = np.array([1, 2, 3])
print(num_arr1)
num_arr1

[1 2 3]


array([1, 2, 3])

In [None]:
type(num_arr1)

numpy.ndarray

In [None]:
num_arr2 = np.array([10, 20, 30])
print(num_arr2)

[10 20 30]


In [None]:
# np.ndarray의 사칙 연산 - 배열은 element-wise(같은 인덱스의 원소들끼리) 연산 수행
print(num_arr1 + num_arr2)
print(num_arr1 - num_arr2)
print(num_arr1 * num_arr2)
print(num_arr1 / num_arr2)

[11 22 33]
[ -9 -18 -27]
[10 40 90]
[0.1 0.1 0.1]


In [None]:
print(num_arr1 * 3)

[3 6 9]


# `np.ndarray` 클래스의 속성들

In [None]:
print(num_arr1)
print('ndim : ', num_arr1.ndim) # 차원(dimension)
print('size : ', num_arr1.size) # 배열의 원소의 개수(정수)
print('shape : ', num_arr1.shape) # 배열의 각 차원에서의 원소의 개수(튜플)
print('dtype : ', num_arr1.dtype) # 배열의 원소의 데이터 타입

[1 2 3]
ndim :  1
size :  3
shape :  (3,)
dtype :  int64


* Python의 숫자 타입 : 
    * 정수 : `int`
    * 실수 : `float`
* np.ndarray의 숫자 타입 :
    * 정수 : `int8, int16, int32, int64, ...`
    * 실수 : `float16, float32, float64, ... `

In [None]:
# 2차원 배열
array = np.array([[1, 2, 3],
                  [4, 5, 6]])
print(array)

[[1 2 3]
 [4 5 6]]


In [None]:
print('ndim : ', array.ndim)
print('size : ', array.size)
print('shape : ', array.shape)

ndim :  2
size :  6
shape :  (2, 3)


# np.array 객체 생성 함수

In [None]:
evens = np.array([0, 2, 4, 6, 8, 10])
print(evens)

[ 0  2  4  6  8 10]


In [None]:
evens = np.array(range(0, 11, 2))
print(evens)

[ 0  2  4  6  8 10]


In [None]:
evens = np.arange(0, 11, 2)
print(evens)

[ 0  2  4  6  8 10]


In [None]:
# np.ndarray.reshape()
array = evens.reshape((2, 3))
print(array)

[[ 0  2  4]
 [ 6  8 10]]


In [None]:
array = evens.reshape((3,2))
print(array)

[[ 0  2]
 [ 4  6]
 [ 8 10]]


In [None]:
# 메서드(함수) 연쇄 호출
array = np.arange(12).reshape((3,4))
print(array)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [None]:
array = np.random.randint(0, 10, size=10) # [0,10) 범위의 정수 난수 10개로 이루어진 배열.
print(array)

[4 7 1 8 2 5 0 3 2 4]


In [None]:
array = np.random.randint(0, 10, size=(3,4)) # [0,10) 범위의 (3,4) 모양(shape)의 2차원 배열.
print(array)

[[9 0 0 1]
 [2 4 2 7]
 [2 7 4 1]]


In [None]:
array = np.random.rand(5) # [0,1) 범위의 균등 분포를 만족하는 실수 난수 5개로 이루어진 배열.
print(array)

[0.29754483 0.7210544  0.62799444 0.34760347 0.58906156]


In [None]:
array = np.random.rand(3, 4) # [0,1) 범위의 균등 분포를 만족하는 난수들로 이루어진 (3,4) 모양의 2차원 배열.
print(array)

[[0.20520927 0.60705306 0.51636026 0.39718184]
 [0.03929245 0.53525759 0.81306553 0.92657712]
 [0.37987156 0.54351838 0.60918529 0.19437337]]


In [None]:
array = np.random.randn(5) # 표준 정규 분포(N(0,1))를 따르는 난수 5개로 이루어진 배열.
print(array)

[ 2.21107925 -2.32314033 -0.13664356 -0.41785352  0.11403218]


In [None]:
array = np.random.randn(3,4) # 표준 정규 분포를 따르는 난수들로 이루어진 (3,4) 모양의 2차원 배열.
print(array)

[[ 0.06095458 -0.37391462  0.48542327  1.60161773]
 [ 0.44856522  0.26004845  0.5711043   1.70164324]
 [ 1.93807924  0.57063527  0.46249021  0.0574794 ]]
