# 데이터 분석 패키지

* Numpy : 다차원 배열을 다루는 패키지. 머신 러닝에서 중요하게 생각됨.
* pandas : 데이터프레임 (DataFrame)과 시리즈(Series)를 다루는 패키지. 데이터 분석에서 가장 기본이 되는 패키지.
* matplotlib, seaborn : 데이터 시각화(그래프)
* scikit-learn : 머신러닝에서 기본이 되는 패키지.
* keras, tensorflow : 딥러닝에서 사용되는 패키지.

Google Colab은 데이터 분석과 머신 러닝에 필요한 대부분의 패키지들이 이미 설치되어 있음.

In [28]:
# 패키지 모듈 이름 import
import numpy as np
import pandas as pd
import matplotlib
import seaborn
import sklearn
import keras
import tensorflow as tf

In [29]:
# Google Colab에 설치된 패키지 버전 확인
print('NumPy version :', np.__version__)
print('Pandas version :', pd.__version__)
print('matplotlib version :', matplotlib.__version__)
print('seaborn version :', seaborn.__version__)
print('sklearn version :', sklearn.__version__)
print('keras version :', keras.__version__)
print('tensorflow version :', tf.__version__)

NumPy version : 1.21.6
Pandas version : 1.3.5
matplotlib version : 3.2.2
seaborn version : 0.11.2
sklearn version : 1.0.2
keras version : 2.8.0
tensorflow version : 2.8.0


# Python list

* 여러 개의 값들을 저장할 수 있는 데이터 타입.
* 인덱스를 기반으로 값들을 저장하는 데이터 타입.
 * indexing
 * slicing
* 연산
 * `list` + `list`
 * `list` * `int` 또는 `int` * `list`

In [30]:
num_list1 = [1,2,3]
num_list2 = [10,20,30]

In [31]:
# indexing
print(num_list1[0]) #리스트의 첫번째 원소를 참조.
print(num_list1[-1]) #리스트의 마지막 원소를 참조.

1
3


In [32]:
# slicing
print(num_list1[:2]) #리스트에서 첫 2개 원소로 이루어진 부분집합(리스트).
print(num_list1[-2:]) #리스트에서 마지막 2개 원소로 이루어진 부분집합(리스트)

[1, 2]
[2, 3]


In [33]:
num_list1 + num_list2 # num_list1.extend(num_list2)

[1, 2, 3, 10, 20, 30]

In [34]:
3 * num_list1

[1, 2, 3, 1, 2, 3, 1, 2, 3]

In [35]:
# num_list1과 num_list2에서 각각의 인덱스들끼리 더하는 리스트.
plus = []
for x, y in zip(num_list1, num_list2):
    plus.append(x + y)
print(plus)

[11, 22, 33]


In [36]:
[x + y for x, y in zip(num_list1, num_list2)]

[11, 22, 33]

In [37]:
# num_list1의 각각의 원소에 3을 곱한 값들로 이루어진 리스트.
[3 * x for x in num_list1]

[3, 6, 9]

# Numpy(Numerical Python)

* 배열(array)을 쉽고 빠르게 연산(`+,-,*,/, ...`)하기 위한 라이브러리.
* Numpy 패키지의 대부분의 기능(함수,메서드)들은 반복문의 기능을 가지고 있음.
* `np.ndarray` 클래스 : Numpy 패키지의 기본 데이터 타입. n-dimensional array (n차원 배열)
 * `ndarray`는 같은 인덱스의 원소들끼리 연산을 수행함.

In [38]:
num_arr1 = np.array([1,2,3])
print(num_arr1)
num_arr1

[1 2 3]


array([1, 2, 3])

In [39]:
type(num_arr1)

numpy.ndarray

In [40]:
num_arr2 = np.array([10,20,30])
print(num_arr2)

[10 20 30]


In [41]:
#np.ndarray의 사칙연산 - 배열은 element-wise
print(num_arr1 + num_arr2)
print(num_arr1 - num_arr2)
print(num_arr1 * num_arr2)
print(num_arr1 / num_arr2)

[11 22 33]
[ -9 -18 -27]
[10 40 90]
[0.1 0.1 0.1]


In [42]:
print(num_arr1 * 3)

[3 6 9]


# np.ndarray 클래스의 속성들

In [43]:
print(num_arr1)
print('ndim:', num_arr1.ndim) # 차원(dimension)
print('size:', num_arr1.size) # 배열의 전체 원소의 개수(정수)
print('shape:', num_arr1.shape) # 배열의 각 차원에서의 원소의 개수 (튜플)
print('dtype:', num_arr1.dtype) # 배열이 저장하고 있는 원소의 데이터 타입

[1 2 3]
ndim: 1
size: 3
shape: (3,)
dtype: int64


* Python의 숫자 타입:
 * 정수 : `int`
 * 실수 : `float`
* np.ndarray의 숫자 타입:
 * 정수 : `int8`, `int16`, `int32`, `int64` ...
 * 실수 : `float16`, `float32`, `float64` ...

In [44]:
# 2차원 배열
array = np.array([[1,2,3],
                 [4,5,6]])

print(array)

[[1 2 3]
 [4 5 6]]


In [45]:
print('ndim:', array.ndim)
print('size:', array.size)
print('shape:', array.shape)

ndim: 2
size: 6
shape: (2, 3)


# np.array 객체 생성 함수

In [46]:
evens = np.array([0, 2, 4, 6, 8, 10])
print(evens)

[ 0  2  4  6  8 10]


In [47]:
evens = np.array(range(0, 11, 2))
print(evens)

[ 0  2  4  6  8 10]


In [48]:
evens = np.arange(0, 11, 2)
print(evens)

[ 0  2  4  6  8 10]


In [49]:
# np.ndarray.reshape()
array = evens.reshape((2, 3))
print(array)

[[ 0  2  4]
 [ 6  8 10]]


In [50]:
array = evens.reshape((3, 2))
print(array)

[[ 0  2]
 [ 4  6]
 [ 8 10]]


In [51]:
# 메서드(함수) 연쇄 호출
array = np.arange(12).reshape((3, 4))
print(array)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [52]:
array = np.random.randint(0, 10, size=10)  
#> [0, 10) 범위의 정수 난수 10개로 이루어진 배열.
print(array)

[8 7 4 0 1 7 8 0 2 8]


In [53]:
array = np.random.randint(0, 10, size=(3, 4))
#> [0, 10) 범위의 (3, 4) 모양(shape)의 2차원 배열.
print(array)

[[7 3 5 9]
 [5 8 8 3]
 [5 8 2 4]]


In [54]:
array = np.random.rand(5)
#> [0, 1) 범위의 균등 분포를 만족하는 실수 난수 5개로 이루어진 배열.
print(array)

[0.0253576  0.72443341 0.38645192 0.71322482 0.37805402]


In [55]:
array = np.random.rand(3, 4)
#> [0, 1) 범위의 균등 분포를 만족하는 난수들로 이루어진 (3, 4) 모양의 2차원 배열.
print(array)

[[0.40694853 0.18659495 0.44950208 0.39710118]
 [0.53662144 0.2186813  0.78027004 0.75558004]
 [0.35084731 0.79420728 0.50318951 0.64114602]]


In [56]:
array = np.random.randn(5)
#> 표준 정규 분포(평군=0, 표준편차=1)를 따르는 난수 5개로 이루어진 배열.
print(array)

[-0.049239   -0.62983222 -0.38253525 -1.3726165   0.18033984]


In [57]:
array = np.random.randn(3, 4)
#> 표준 정규 분포를 따르는 난수들로 이루어진 (3, 4) 모양의 2차원 배열.
print(array)

[[ 0.19277431 -0.8771314   1.34100736 -0.23660326]
 [-0.59951739 -1.18556956 -1.28235633 -0.72942324]
 [-1.20570107  1.17197079 -0.60628546 -0.15538628]]
