<a href="https://colab.research.google.com/github/JakeOh/202505_BD50/blob/main/lab_da/da01_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 분석 패키지

*   NumPy: 다차원 배열을 쉽게 사용할 수 있는 패키지. 머신 러닝에서 중요하게 사용됨.
*   pandas: 데이터프레임(DataFrame)과 시리즈(Series)를 기본으로 사용해서 데이터 분석에 필요한 기능들을 가지고 있는 패키지.
*   matplotlib, seaborn: 데이터 시각화 패키지. 그래프.
*   scikit-learn: 머신 러닝에서 사용하는 패키지.
*   keras: 딥러닝에서 사용하는 패키지.

In [1]:
import numpy as np
import pandas as pd
import matplotlib
import seaborn
import sklearn  # scikit-learn
import keras

In [2]:
print('numpy version =', np.__version__)
print('pandas version =', pd.__version__)
print('matplotlib version =', matplotlib.__version__)
print('seaborn version =', seaborn.__version__)
print('scikit-learn version =', sklearn.__version__)
print('keras version =', keras.__version__)

numpy version = 2.0.2
pandas version = 2.2.2
matplotlib version = 3.10.0
seaborn version = 0.13.2
scikit-learn version = 1.6.1
keras version = 3.8.0


# Python List

*   여러개의 값들을 저장할 수 있는 데이터 타입
*   인덱스를 기반으로 값들을 저장하는 데이터 타입
    *   indexing: 인덱스를 사용해서 원하는 위치의 값을 참조. (예) `numbers[0]`
    *   slicing: [start, end) 인덱스 범위의 부분 리스트를 만듦. (예) `numbers[0:5]`
*   산술 연산
    *   `list + list`: 두 개의 리스트를 이어붙어서 하나의 리스트로 만듦. concatenate.
    *   `list * int, int * list`: 리스트의 원소들을 정수만큼 복사해서 추가. replicate.

In [3]:
num_list1 = [1, 2, 3]
num_list2 = [11, 22, 33]

In [4]:
# indexing
print(num_list1[0])  # 첫번째 원소
print(num_list2[-1])  # 마지막 원소

1
33


In [5]:
# slicing
print(num_list1[:2])  # 첫 2개의 원소들을 잘라내기
print(num_list2[-2:])  # 마지막 2개의 원소들을 잘라내기

[1, 2]
[22, 33]


In [6]:
num_list1 + num_list2  # concatenate

[1, 2, 3, 11, 22, 33]

In [7]:
num_list1 * 3  # replicate

[1, 2, 3, 1, 2, 3, 1, 2, 3]

In [8]:
# num_list1과 num_list2에서 같은 인덱스의 원소들끼리 덧셈
[x + y for x, y in zip(num_list1, num_list2)]

[12, 24, 36]

In [9]:
# num_list1의 모든 원소에 3을 곱하기
[3 * x for x in num_list1]

[3, 6, 9]

# NumPy(Numerical Python)

*   다차원 배열(n-dimensional array)을 쉽고 빠르게 연산(`+, -, *, /, ...`)하기 위한 라이브러리.
*   numpy 패키지의 대부분의 기능(연산자, 함수, 메서드)들은 반복문의 기능을 가지고 있음.
    *   같은 인덱스의 원소들끼리(element-wise) 연산하는 기능을 가지고 있음.
*   `numpy.ndarray` 클래스: numpy 패키지의 가장 기본이 되는 클래스.

In [12]:
num_arr1 = np.array([1, 2, 3])  # 아규먼트로 전달된 리스트를 ndarray로 변환해서 리턴.
print(type(num_arr1))
print(num_arr1)  # __str__() 메서드가 리턴하는 문자열

<class 'numpy.ndarray'>
[1 2 3]


In [13]:
num_arr1  # __repr__() 메서드가 리턴하는 문자열

array([1, 2, 3])

In [14]:
num_arr2 = np.array([11, 22, 33])
print(num_arr2)

[11 22 33]


In [15]:
# element-wise 연산
print(num_arr1 + num_arr2)
print(num_arr1 - num_arr2)
print(num_arr1 * num_arr2)
print(num_arr1 * 3)
print(num_arr1 / num_arr2)

[12 24 36]
[-10 -20 -30]
[11 44 99]
[3 6 9]
[0.09090909 0.09090909 0.09090909]


## `np.ndarray` 클래스의 속성들

In [20]:
print(num_arr1)
print('ndim =', num_arr1.ndim)  # 차원(dimension)
print('size =', num_arr1.size)  # 배열의 크기(모든 원소 개수)
print('shape =', num_arr1.shape)  # 배열의 모양(배열의 각 차원에서의 원소 갯수들로 이루어진 튜플)
print('dtype =', num_arr1.dtype)  # 데이터 타입(배열 원소의 데이터 타입)

[1 2 3]
ndim = 1
size = 3
shape = (3,)
dtype = int64


*   Python의 숫자 타입
    *   정수: `int`
    *   실수: `float`
*   NumPy의 숫자 타입
    *   정수: `int8, int16, int32, int64, ...`
    *   실수: `float16, float32, float64, ...`

In [21]:
# 2차원 배열
array = np.array([[1, 2, 3],
                  [4, 5, 6]])
print(type(array))

<class 'numpy.ndarray'>


In [22]:
print(array)

[[1 2 3]
 [4 5 6]]


In [26]:
print('ndim =', array.ndim)  # 차원(dimension)
print('size =', array.size)  # 크기(shape 튜플의 모든 숫자들을 곱한 값)
print('shape =', array.shape)  # 모양
print('dtype =', array.dtype)

ndim = 2
size = 6
shape = (2, 3)
dtype = int64


# `np.ndarray` 객체 생성 함수들

## `np.array(object)`

*   object를 ndarray로 변환해서 리턴.
*   object: 배열과 비슷한 객체들. `list, tuple, ndarry, ...`

In [27]:
# 0 이상 10 미만의 정수들로 이루어진 배열
numbers = np.array([x for x in range(10)])  # range(0, 10, 1)
print(numbers)

[0 1 2 3 4 5 6 7 8 9]


## `np.arange(start, end, step)`

*   range를 사용해서 array을 생성하는 함수.
*   `range(start, end, step)`와 사용 방법이 동일.
*   1차원 ndarray를 생성

In [29]:
numbers = np.arange(10)
print(numbers)

[0 1 2 3 4 5 6 7 8 9]
