<a href="https://colab.research.google.com/github/JakeOh/20230228_itwill_java140_lab_python/blob/main/py13_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 분석 패키지

Google Colab에는 데이터 분석과 머신 러닝에 필요한 대부분의 패키지들이 이미 설치가 되어 있음.

*  NumPy: 다차원 배열(n-dimensional array)을 다루는 패키지. 머신 러닝에서 중요하게 사용됨.
*  pandas: 시리즈(Series), 데이터프레임(DataFrame)을 다루는 패키지. 데이터 분석에서 기본으로 사용되는 패키지.
*  matplotlib: 데이터 시각화(그래프).
*  seaborn: 데이터 시각화. 통계 작업.


In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import seaborn as sns

In [2]:
print('NumPy version:', np.__version__)
print('pandas version:', pd.__version__)
print('Matplotlib version:', mpl.__version__)
print('seaborn version:', sns.__version__)

NumPy version: 1.22.4
pandas version: 1.5.3
Matplotlib version: 3.7.1
seaborn version: 0.12.2


# Python `list` class

*  여러 개의 값들을 저장할 수 있는 데이터 타입.
*  인덱스를 기반으로 값들을 저장, 참조하는 데이터 타입.
    *  indexing: 인덱스를 사용해서 원하는 위치의 값을 참조, 변경.
    *  slicing: `[start, end)` 인덱스 범위의 값들로 이루어진 부분집합을 잘라내는 방법.
*  `list + list`: 2개의 리스트를 이어붙이기(concatenate).
*  `list * int`, `int * list`: 리스트의 원소들을 정수만큼 반복해서 복제(replicate).

In [3]:
list1 = [1, 2, 3, 4]
list2 = [10, 20, 30, 40]

In [4]:
# indexing:
print(list1[0])  # list1의 첫번째 원소
print(list1[3], list1[-1])  # list1의 마지막 원소

1
4 4


In [5]:
# slicing
print(list1[:3])  # list1에서 앞에서 3개 원소 자르기
print(list1[-3:])  # list1에서 뒤에서 3개 원소 자르기

[1, 2, 3]
[2, 3, 4]


In [6]:
list1 + list2

[1, 2, 3, 4, 10, 20, 30, 40]

In [7]:
list1 * 3

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

In [8]:
# list1, list2에서 같은 인덱스 위치의 원소들끼리 덧셈
[x + y for x, y in zip(list1, list2)]

[11, 22, 33, 44]

In [9]:
# list1의 모든 원소에 3을 곱함.
[3 * x for x in list1]

[3, 6, 9, 12]

# NumPy

*  배열(ndarray)을 쉽고 빠르게 연산(+, -, *, /, //, %)을 수행하는 라이브러리.
*  NumPy 패키지의 함수 또는 메서드들을 대부분 반복문의 기능을 가지고 있음.
*  np.ndarray 클래스: NumPy 패키지에서 기본 타입 클래스. n차원 배열(n-dimensional array).
    *  `ndarray`는 같은 인덱스(위치)에 있는 원소들끼리 연산을 수행.

In [10]:
array1 = np.array([1, 2, 3])  # python의 list 객체를 numpy의 ndarray 객체로 변환.

In [11]:
type(array1)

numpy.ndarray

In [12]:
print(array1)  # print() 함수는 __str__ 메서드의 리턴값을 출력

[1 2 3]


In [13]:
array1  # expression은 __repr__ 메서드의 리턴값을 출력

array([1, 2, 3])

In [14]:
array2 = np.array([4, 5, 6])
print(array2)

[4 5 6]


In [15]:
# ndarray의 사칙연산 - 같은 인덱스의 원소들끼리(element-wise) 연산 수행
print(array1 + array2)
print(array1 - array2)
print(array1 * array2)
print(array1 / array2)

[5 7 9]
[-3 -3 -3]
[ 4 10 18]
[0.25 0.4  0.5 ]


## `ndarray` 클래스의 속성들

In [20]:
print(array1)
print('ndim:', array1.ndim)  # 차원(dimesion). 배열의 축(axis)의 개수.
print('size:', array1.size)  # 배열의 크기. 원소 개수.
print('shape:', array1.shape)  # 배열의 모양. 각 차원에서의 원소 개수.
print('dtype:', array1.dtype)  # 배열 원소의 데이터 타입.

[1 2 3]
ndim: 1
size: 3
shape: (3,)
dtype: int64


`ndarray`는 한 가지 타입의 데이터들만 저장할 수 있는 데이터 타입 - `list`와 다른 점.

## 2차원 배열

In [21]:
array_2d = np.array([
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
])

In [22]:
type(array_2d)

numpy.ndarray

In [23]:
print(array_2d)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [24]:
array_2d

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [25]:
print('ndim:', array_2d.ndim)  # 차원
print('size:', array_2d.size)  # 크기
print('shape:', array_2d.shape)  # 모양
print('dtype:', array_2d.dtype)  # 데이터 타입

ndim: 2
size: 12
shape: (3, 4)
dtype: int64
