<a href="https://colab.research.google.com/github/JakeOh/202208_itw_java134_lab_python/blob/main/py17_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 분석 패키지

* NumPy: 다차원 배열(n-dimensional array)을 다루는 패키지. 머신 러닝에서 중요하게 사용됨.
* pandas: 시리즈(Series)와 데이터프레임(DataFrame)을 다루는 패키지. 데이터 분석에서 기본으로 사용하는 패키지.
* matplotlib: 데이터 시각화(그래프).
* seaborn: 데이터 시각화.

Google Colab에는 데이터 분석과 머신 러닝에 필요한 대부분의 패키지들이 이미 설치되어 있음.

In [1]:
import numpy as np
import pandas as pd
import matplotlib
import seaborn as sns

In [3]:
print('NumPy version:', np.__version__)
print('pandas version:', pd.__version__)
print('matplotlib version:', matplotlib.__version__)
print('seaborn version:', sns.__version__)

NumPy version: 1.21.6
pandas version: 1.3.5
matplotlib version: 3.2.2
seaborn version: 0.11.2


# Python `list` class

* 여러개의 값들을 저장할 수 있는 데이터 타입
* 인덱스를 기반으로 값들을 저장, 참조.
    * indexing: 인덱스로 원하는 위치의 값을 참조, 변경.
    * slicing: `[start:end)` 인덱스 범위의 값들로 이루어진 부분집합(리스트)를 잘라냄.
* `list + list`: extend. 2개의 리스트를 이어붙여서 하나의 리스트로 만듦.
* `list * int, int * list`: 리스트의 원소들을 정수만큼 반복해서 복제.


In [4]:
list1 = [1, 2, 3, 4, 5]
list2 = [10, 20, 30, 40, 50]

In [6]:
# indexing
print(list1[0])
print(list1[-1], list1[4])

1
5 5


In [7]:
# slicing
print(list1[:3])  # list1[0:3]
print(list1[-3:], list1[2:], list1[2:5])

[1, 2, 3]
[3, 4, 5] [3, 4, 5] [3, 4, 5]


In [8]:
list1 + list2

[1, 2, 3, 4, 5, 10, 20, 30, 40, 50]

In [9]:
list1.extend(list2)

In [10]:
list1

[1, 2, 3, 4, 5, 10, 20, 30, 40, 50]

In [12]:
list2 * 2

[10, 20, 30, 40, 50, 10, 20, 30, 40, 50]

In [13]:
2 * list2

[10, 20, 30, 40, 50, 10, 20, 30, 40, 50]

In [14]:
list1 = [1, 2, 3]
list2 = [4, 5, 7]

# 같은 인덱스(위치)의 원소들끼리 덧셈
[x + y for x, y in zip(list1, list2)]

[5, 7, 10]

# NumPy

* Numerical Python
* 배열(`ndarray`)을 쉽고 빠르게 연산(`+, -, *, /, ...`)을 할 수 있는 라이브러리.
* NumPy 패키지의 함수 또는 메서드들은 대부분 반복문의 기능을 가지고 있음.
* `np.ndarray` 클래스: NumPy 패키지의 기본 타입 클래스. n차원 배열(n-dimensional array).
    * `ndarray`는 같은 인덱스(위치)의 원소들끼리(element-wise) 연산을 수행.


In [15]:
array1 = np.array([1, 2, 3])

In [16]:
type(array1)

numpy.ndarray

In [17]:
print(array1)  # print 함수는 __str__ 메서드 이용

[1 2 3]


In [18]:
array1  # expression 출력은 __repr__ 메서드 이용

array([1, 2, 3])

In [19]:
array2 = np.array([10, 20, 30])

In [20]:
# ndarry의 사칙연산: element-wise 연산
print(array1 + array2)
print(array1 - array2)
print(array1 * array2)
print(array1 / array2)

[11 22 33]
[ -9 -18 -27]
[10 40 90]
[0.1 0.1 0.1]


## `ndarray` 속성들

In [26]:
print(array1)  # ndarray
print('ndim:', array1.ndim)  # 차원(dimension): 축(axis)의 개수.
print('size:', array1.size)  # 크기(원소의 개수)
print('shape:', array1.shape)  # 모양(각 차원에서의 원소 개수. 각 축을 따라서 있는 원소의 개수)
print('dtype:', array1.dtype)  # 데이터 타입 - ndarray는 한가지 타입의 값들만 저장.

[1 2 3]
ndim: 1
size: 3
shape: (3,)
dtype: int64



* Python 숫자 타입: 정수(int), 실수(float)
* np 숫자 타입: 
    * 정수(int8, int16, int32, int64, ...)
    * 실수(float16, float32, float64, ...)


## 2차원 `ndarray`

In [27]:
array_2d = np.array([
    [1, 2, 3, 4], 
    [5, 6, 7, 8], 
    [9, 10, 11, 12]
    ])

In [28]:
print(array_2d)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [29]:
print('ndim:', array_2d.ndim)  # 차원
print('size:', array_2d.size)  # 크기
print('shape:', array_2d.shape)  # 모양
print('dtype:', array_2d.dtype)  # 데이터 타입

ndim: 2
size: 12
shape: (3, 4)
dtype: int64


# `ndarray` 객체 생성 함수

`np.array(object, dtype=None, ...)`

* object: 배열과 비슷한 객체들(list, tuple, set, dict, ndarray, ...). ndarry를 생성하기 위한 데이터.


In [31]:
# 0 이상 10 이하(11 미만)의 짝수들로 이루어진 ndarray
evens = np.array([2 * x for x in range(6)])  # list -> ndarray
print(evens)

[ 0  2  4  6  8 10]
