<a href="https://colab.research.google.com/github/JakeOh/202110_itw_lab_python/blob/main/py18_data_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 분석에 많이 사용되는 패키지

* NumPy: 다차원 배열(n-dimensional array)을 다루는 패키지. 머신 러닝(machine learning)에서 중요하게 사용됨.
* pandas: 데이터프레임(DataFrame)과 시리즈(Series)를 다루는 패키지. 데이터 분석에서 기본으로 사용되는 패키지.
* matplotlib: 데이터 시각화(그래프).

Google Colab은 데이터 분석과 머신 러닝에 필요한 대부분의 패키지들이 이미 설치되어 있음.

In [1]:
import numpy as np
import pandas as pd
import matplotlib

In [2]:
# Google Colab에 설치된 패키지 버전
print('NumPy version:', np.__version__)
print('pandas version:', pd.__version__)
print('matplotlib version:', matplotlib.__version__)

NumPy version: 1.21.5
pandas version: 1.3.5
matplotlib version: 3.2.2


# Python list

* 여러개의 값들을 저장할 수 있는 데이터 타입.
* 인덱스를 기반으로 값들을 저장하는 데이터 타입.
    * indexing: 인덱스로 원하는 위치의 값을 참조.
    * slicing: `[start, end)` 인덱스 범위의 값들로 이루어진 부분집합(list)을 만듦.
* `list + list`: extend 메서드의 기능. 두 개의 리스트를 이어붙여서 하나의 리스트를 만듦.
    ```
    [1, 2] + [3, 4] = [1, 2, 3, 4]
    ```
* `list * int, int * list`: list의 원소들을 정수 개수만큼 반복해서 추가.
    ```
    [1, 2] * 3 = [1, 2, 1, 2, 1, 2]
    3 * [1, 2] = [1, 2, 1, 2, 1, 2]
    ```

In [3]:
num_list1 = [1, 2, 3]
num_list2 = [10, 20, 30]

In [4]:
# indexing
print(num_list1[0])
print(num_list1[-1])

1
3


In [6]:
# slicing
print(num_list1[:2])
print(num_list1[-2:])

[1, 2]
[2, 3]


In [7]:
num_list1 + num_list2

[1, 2, 3, 10, 20, 30]

In [8]:
2 * num_list1

[1, 2, 3, 1, 2, 3]

In [10]:
# num_list1과 num_list2의 같은 인덱스의 원소들끼리의 합을 원소로 갖는 리스트
# add_list = []
# for x, y in zip(num_list1, num_list2):
#     add_list.append(x + y)
add_list = [x + y for x, y in zip(num_list1, num_list2)]

add_list

[11, 22, 33]

In [11]:
# num_list1의 모든 원소에 곱하기 2를 한 결과
[2 * x for x in num_list1]

[2, 4, 6]

# NumPy(Numerical Python)

* 배열(array)을 쉽고 빠르게 연산(+, -, *, /, ..)하기 위한 라이브러리.
* NumPy 패키지의 대부분의 기능(함수, 메서드)들은 반복문의 기능을 가지고 있음.
* `np.ndarray` 클래스: NumPy 패키지의 기본 데이터 타입. n차원 배열(n-dimensional array).
    * ndarray는 같은 인덱스의 원소들끼리(element-wise) 연산을 수행함.

In [15]:
num_arr1 = np.array(num_list1)  # np.array(): 객체를 ndarray 타입으로 변환.

In [16]:
num_arr1  # 식(expression) 출력 - ndarray.__repr__() 메서드의 리턴값을 출력

array([1, 2, 3])

In [17]:
print(num_arr1)  # print() 함수는 ndarray.__str__() 메서드의 리턴값을 출력

[1 2 3]


In [18]:
type(num_arr1)

numpy.ndarray

In [19]:
num_arr2 = np.array(num_list2)
print(num_arr2)

[10 20 30]


In [22]:
# ndarray의 사칙연산 - element-wise operation
print(num_arr1 + num_arr2)
print(num_arr1 - num_arr2)
print(num_arr1 * num_arr2)
print(num_arr1 / num_arr2)

[11 22 33]
[ -9 -18 -27]
[10 40 90]
[0.1 0.1 0.1]


In [24]:
print(num_arr1 * 2)

[2 4 6]


In [29]:
# ndarray의 속성들(attributes)
print(num_arr1)
print('ndim =', num_arr1.ndim)  # 차원(dimension)
print('size =', num_arr1.size)  # ndarray의 크기(원소의 개수)
print('shape =', num_arr1.shape)  # 각 차원에서의 원소의 개수
print('dtype =', num_arr1.dtype)  # 원소의 데이터 타입

[1 2 3]
ndim = 1
size = 3
shape = (3,)
dtype = int64


* Python 숫자 타입
    * 정수: int
    * 실수: float
* np의 숫자 타입
    * 정수: int8, int16, int32, int64, ...
    * 실수: float16, float32, float64, ...

## 2차원 ndarray

In [30]:
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr_2d)

[[1 2 3]
 [4 5 6]]


In [31]:
print('ndim =', arr_2d.ndim)
print('size =', arr_2d.size)
print('shape =', arr_2d.shape)
print('dtype =', arr_2d.dtype)

ndim = 2
size = 6
shape = (2, 3)
dtype = int64
