<a href="https://colab.research.google.com/github/JakeOh/202511_BD53/blob/main/lab_python/da01_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 분석 패키지(라이브러리)

*   NumPy: 다차원 배열을 쉽게 사용할 수 있도록 만들어진 패키지. 머신러닝에서 중요하게 사용됨.
*   pandas: 시리즈(Series)와 데이터프레임(DataFrame)을 기본으로 사용해서 데이터 분석에 필요한 기능들을 가지고 있는 패키지.
*   matplotlib, seaborn: 데이터 시각화(그래프) 패키지.
*   scikit-learn: 머신러닝(Machine Learning) 패키지.
*   keras: 딥러닝(Deep Learning) 패키지.


In [1]:
import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns
import sklearn  # scikit-learn 패키지
import keras

In [2]:
print('numpy version =', np.__version__)
print('pandas version =', pd.__version__)
print('matplotlib version =', matplotlib.__version__)
print('seaborn version =', sns.__version__)
print('sklearn version =', sklearn.__version__)
print('keras version =', keras.__version__)

numpy version = 2.0.2
pandas version = 2.2.2
matplotlib version = 3.10.0
seaborn version = 0.13.2
sklearn version = 1.6.1
keras version = 3.10.0


# Python `list` 클래스

*   여러개의 값들을 저장할 수 있는 데이터 타입.
*   인덱스를 기반으로 한 데이터 타입.
    *   indexing: 인덱스를 사용해서 리스트의 특정 위치의 값을 참조. (예) `list[0]`
    *   slicing: [start, end) 인덱스 범위의 리스트를 잘라냄. (예) `list[0:5]`
*   산술 연산
    *   `list + list`: concatenate. 리스트 이어붙이기.
    *   `list * int, int * list`: replicate. 리스트의 원소들을 정수만큼 복사.

In [3]:
numbers1 = [1, 2, 3]
numbers2 = [11, 22, 33]

In [4]:
print(numbers1)

[1, 2, 3]


In [5]:
numbers2

[11, 22, 33]

In [6]:
# indexing
print(numbers1[0])  # 리스트의 첫번째 원소
print(numbers1[-1])  # 리스트의 마지막 원소

1
3


In [7]:
# slicing
print(numbers2[:2])  # 리스트에서 첫 2개 원소들을 잘라내기
print(numbers2[-2:])  # 리스트에서 마지막 2개 원소들을 잘라내기

[11, 22]
[22, 33]


In [8]:
numbers1 + numbers2

[1, 2, 3, 11, 22, 33]

In [9]:
numbers1 * 3

[1, 2, 3, 1, 2, 3, 1, 2, 3]

In [10]:
# numbers1과 numbers2의 같은 인덱스에 있는 원소들끼리 덧셈 --> 결과 [1+11, 2+22, 3+33]
[x + y for x, y in zip(numbers1, numbers2)]

[12, 24, 36]

In [11]:
# numbers1의 모든 원소에 3을 곱함. --> 결과 [1*3, 2*3, 3*3]
[3 * x for x in numbers1]

[3, 6, 9]

In [12]:
# numbers1과 numbers2의 같은 인덱스에 있는 원소들끼리 곱셈 --> 결과 [1*11, 2*22, 3*33]
[x * y for x, y in zip(numbers1, numbers2)]

[11, 44, 99]

# NumPy(Numerical Python)

*   다차원배열(n-dimensional array)을 쉽고 빠르게 연산(`+, -, *, /, ...`)하기 위한 패키지.
*   numpy 패키지의 대부분의 기능들(연산자, 함수, 메서드 등)은 반복문의 기능을 가지고 있음.
    *   같은 인덱스의 원소들끼리(element-wise) 연산하는 기능을 가지고 있음.
*   `numpy.ndarray` 클래스: numpy 패키지의 가장 기본이 되는 클래스.


In [13]:
num_array1 = np.array([1, 2, 3, 4, 5])

In [14]:
type(num_array1)

numpy.ndarray

In [15]:
print(num_array1)  # ndarray 클래스의 __str__() 메서드가 리턴하는 문자열을 출력

[1 2 3 4 5]


In [16]:
num_array1  # ndarray 클래스의 __repr__() 메서드가 리턴하는 문자열을 출력

array([1, 2, 3, 4, 5])

In [17]:
num_array2 = np.array([10, 20, 30, 40, 50])

In [18]:
# element-wise(같은 인덱스의 원소들끼리) 연산
print(num_array1 + num_array2)  # [1+10, 2+20, 3+30, ...]
print(num_array1 - num_array2)  # [1-10, 2-20, 3-30, ...]
print(num_array1 * num_array2)  # [1*10, 2*20, 3*30, ...]
print(num_array1 * 3)
print(num_array1 / num_array2)

[11 22 33 44 55]
[ -9 -18 -27 -36 -45]
[ 10  40  90 160 250]
[ 3  6  9 12 15]
[0.1 0.1 0.1 0.1 0.1]


# `np.ndarry` 클래스의 속성들(attributes)

In [23]:
print(num_array1)
print('ndim =', num_array1.ndim)  # number of dimension(차원의 개수)
print('size =', num_array1.size)  # 배열의 크기(모든 원소의 개수)
print('shape =', num_array1.shape)  # 배열의 모양(배열의 각 차원의 원소 개수들로 이루어진 튜플)
print('dtype =', num_array1.dtype)  # data type(배열 원소의 데이터 타입)

[1 2 3 4 5]
ndim = 1
size = 5
shape = (5,)
dtype = int64


*   Python의 숫자 타입
    *   정수: int
    *   실수: float
*   NumPy의 숫자 타입
    *   정수: int8, int16, int32, int64, ...
    *   실수: float16, float32, float64, ...

In [26]:
# 2차원 배열
array = np.array([[1, 2, 3], [4, 5, 6]])

In [27]:
print(array)

[[1 2 3]
 [4 5 6]]


In [28]:
array

array([[1, 2, 3],
       [4, 5, 6]])

In [29]:
print('ndim =', array.ndim)
print('size =', array.size)
print('shape =', array.shape)
print('dtype =', array.dtype)

ndim = 2
size = 6
shape = (2, 3)
dtype = int64


# `np.ndarray` 객체 생성 함수

## `np.array(object)`

*   object를 ndarray로 변환해서 리턴.
*   object: 배열과 비슷한 객체들. list, tuple, ndarray, ...


In [30]:
# 0 이상 10 미만의 정수들로 이루어진 ndarray(배열)
numbers = np.array([x for x in range(10)])
print(numbers)

[0 1 2 3 4 5 6 7 8 9]


## `np.arange(start, end, step)`

*   range를 사용해서 array(배열)을 만들어 주는 함수.
*   파이썬 `range(start, end, step)` 함수 사용법과 같음.
*   1차원 배열(ndarray)를 생성.


In [31]:
# 0 이상 10 미만의 정수들로 이루어진 ndarray(배열)
numbers = np.arange(10)
print(numbers)

[0 1 2 3 4 5 6 7 8 9]


In [32]:
# 0 이상 10 미만의 짝수들로만 이루어진 배열
evens = np.arange(0, 10, 2)
print(evens)

[0 2 4 6 8]


## reshape

*   `np.reshape(array, newshape)` 함수(function)
*   `np.ndarray.reshape(newshape)` 메서드(method)


In [35]:
array = np.arange(12)
print(array)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [36]:
# reshape 함수
array2 = np.reshape(array, (3, 4))
print(array2)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [38]:
# reshape 메서드
array3 = array.reshape((4, 3))
print(array3)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [39]:
# 함수(메서드) 연쇄 호출
array = np.arange(15).reshape((3, 5))
print(array)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


## 난수 배열

### `np.random.rand(d0, d1, d2, ...)`

*   [0, 1) 범위의 균등분포(uniform distribution)를 따르는 난수들의 배열을 생성.
*   아규먼트(d0, d1, ...)들은 각 차원의 원소 개수.


In [40]:
array = np.random.rand(5)
print(array)

[0.7059186  0.49670141 0.55429566 0.28682001 0.83866209]


In [41]:
array = np.random.rand(3, 4)
print(array)

[[0.86132681 0.44885425 0.48190096 0.17035509]
 [0.91503803 0.86840444 0.93953952 0.53525229]
 [0.71933849 0.15732418 0.25362417 0.51807044]]


### `np.random.randn(d0, d1, d2, ...)`

*   평균이 0이고 표준편차가 1인 표준정규분포(standard normal distribution)를 따르는 난수들의 배열을 생성.
*   아규먼트들(d0, d1, ...)은 각 차원의 원소 개수.


In [43]:
array = np.random.randn(10)
print(array)

[ 0.53847694 -1.15883101  1.62054699  0.7506609  -0.99722328  1.75784768
 -1.94401755  0.60943229 -0.85272105 -0.83543363]


In [44]:
array = np.random.randn(3, 5)
print(array)

[[-0.06802982  0.30567172  1.10742775 -1.26448558 -1.8907275 ]
 [ 1.21749218  1.05510868 -0.1053397  -0.45763544  0.33405513]
 [ 0.79653576  0.56867839 -0.67830488 -0.16466142 -0.07316103]]
