<a href="https://colab.research.google.com/github/moonsunglab/BigData_study/blob/main/Data_Analysis/da01_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 분석 패키지

*   NumPy: 다차원 배열을 쉽게 사용할 수 있는 패키지. 머신 러닝에서 중요하게 사용됨.
*   pandas: 데이터프레임(DataFrame)과 시리즈(Series)를 기본으로 사용해서 데이터 분석에 필요한 기능들을 가지고 있는 패키지.
*   matplotlib, seaborn: 데이터 시각화 패키지. 그래프.
*   scikit-learn: 머신 러닝에서 가용하는 패키지.
*   keras: 딥러닝에서 사용하는 패키지.

In [None]:
import numpy as np
import pandas as pd
import matplotlib
import seaborn
import sklearn  # scikit-learn
import keras

In [None]:
print('numpy version=', np.__version__)
print('pandas version=', pd.__version__)
print('matplotlib version', matplotlib.__version__)
print('seaborn version=', seaborn.__version__)
print('scikit-learn=', sklearn.__version__)
print('keras version=', keras.__version__)

numpy version= 2.0.2
pandas version= 2.2.2
matplotlib version 3.10.0
seaborn version= 0.13.2
scikit-learn= 1.6.1
keras version= 3.8.0


# Python List

*   여러개의 값들을 저장할 수 있는 데이터 타입
*   인덱스를 기반으로 값들을 저장하는 데이터 타입
    *   indexing: 인덱스를 사용해서 원하는 위치의 값을 참조   (예) `numbers[0]`
    *   slicing: [start, end) 인덱스 범위의 부분 리스트를 만듦.  (예) `numbers[0:5]`
*   산술 연산
    *   `list + list`: 두 개의 리스트를 이어붙여서 하나의 리스트로 만듦. concatenate
    *   `list * int, int * list` : 리스트의 원소들을 정수만큼 복사해서 추가. replicate.


In [None]:
num_list1 = [1,2,3]
num_list2 = [11,22,33]

In [None]:
# indexing
print(num_list1[0])
print(num_list2[-1])

1
33


In [None]:
# slicing
print(num_list1[:2])
print(num_list2[-2:])


[1, 2]
[22, 33]


In [None]:
num_list1 + num_list2

[1, 2, 3, 11, 22, 33]

In [None]:
num_list1 * 3

[1, 2, 3, 1, 2, 3, 1, 2, 3]

In [None]:
# num_list1과 num_list2에서 같은 인덱스의 원소들끼리 덧셈
[x + y for x,y in zip(num_list1, num_list2)]

[12, 24, 36]

In [None]:
# num_list1의 모든 원소에 3을 곱하기
[3 * x for x in num_list1]

[3, 6, 9]

NumPy(Numerical Python)

*   다차원 배열(n-dimensional array)을 쉽고 빠르게 연산(`+,-,*,/,..._`)하기 위한 라이브러리.
*   numpy 패키지의 대부분의 기능(연산자, 함수, 메서드)들은 반복문의 기능을 가지고 있음.
    *   같은 인덱스의 원소들끼리(element-wise) 연산하는 기능을 가지고 있음.
*   `numpy.ndarray` 클래스: numpy 패키지의 가장 기본이 되는 클래스.


In [None]:
num_arr1 = np.array([1,2,3])        # 아규먼트로 전달된 리스트를 ndarray로 변환해서 리턴.
print(type(num_arr1))
print(num_arr1)     # __str__메서드가 리턴하는 문자열             # 2) numpy배열 리스트는 쉼표로 구분이아니라 공백으로 구문하네
num_arr1            # __repr__메서드가 리턴하는 문자열

<class 'numpy.ndarray'>
[1 2 3]


array([1, 2, 3])

In [None]:
num_arr2 = np.array([11,22,33])
print(num_arr2)

[11 22 33]


In [None]:
# element-wise 연산
print(num_arr1 + num_arr2)
print(num_arr1 - num_arr2)
print(num_arr1 * num_arr2)
print(num_arr1 * 3)
print(num_arr1 / num_arr2)

[12 24 36]
[-10 -20 -30]
[11 44 99]
[3 6 9]
[0.09090909 0.09090909 0.09090909]


## `np.ndarray` 클래스의 속성들

In [None]:
print(num_arr1)
print('ndim= ', num_arr1.ndim)      # 차원(dimension)
print('size= ', num_arr1.size)      # 배열의 크기 (모든 원소 개수)
print('shape= ', num_arr1.shape)    # 배열의 모양 (배열의 각 차원에서의 원소 개수들로 이루어진 튜플)
print('dtype= ', num_arr1.dtype)    # 데이터 타입 (배열 원소의 데이터 타입)

[1 2 3]
ndim=  1
size=  3
shape=  (3,)
dtype=  int64


*   Python의 숫자 타입
    *   정수: `int`
    *   실수: `float`
*   NumPy의 숫자 타입
    *   정수: `int8, int16, int32, int64...`
    *   실수: `float16, float32, float64, ...`

In [None]:
# 2차원 배열
array = np.array([[1,2,3],
                  [4,5,6]])
print(type(array))
print(array)


<class 'numpy.ndarray'>
[[1 2 3]
 [4 5 6]]


In [None]:
print('ndim= ', array.ndim)     # 차원 (dimension)
print('size= ', array.size)     # 크기 (shape 튜플의 모든 숫자들을 곱한 값)
print('shape= ', array.shape)   # 모양
print('dtype= ', array.dtype)   # 데이터 타입


ndim=  2
size=  6
shape=  (2, 3)
dtype=  int64


# np.ndarray 객체 생성 함수들

## `np.array(object)`

*   object를 ndarray 로 변환해서 리턴.
*   object: 배열과 비슷한 객체들. `list, tuple, ndarray, ...`

In [None]:
# 0 이상 10 미만의 정수들로 이루어진 배열
numbers = np.array([x for x in range(10)])      # range(0,10,1)
print(numbers)

[0 1 2 3 4 5 6 7 8 9]


## `np.arange(start, end, step)`

*   range를 사용해서 array를 생성하는 함수
*   `range(start, end, step)`와 사용 방법이 동일.
*   1차원 ndarray를 생성

In [None]:
numbers = np.arange(10)
print(numbers)

[0 1 2 3 4 5 6 7 8 9]


In [None]:
# 0 이상 10 이하의 짝수들을 원소로 갖는 배열(ndarray)
evens = np.arange(0, 11, 2)
print(evens)

[ 0  2  4  6  8 10]


## reshape

*   `np.ndarray.reshape(new)` 메서드
*   `np.reshape(array, newshape)` 함수

In [None]:
array = np.arange(12)
print(array)


[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [None]:
array2 = array.reshape((3,4))           # 객체에서 메서드 호출
print(array2)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [None]:
array3 = np.reshape(array, (4,3))       # 함수 호출
array3

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [None]:
# 메서드 연쇄 호출(chain-call)
array = np.arange(15).reshape((3,5))
print(array)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


## 난수 배열

*   `np.random.rand(d0, d1, d2, ...)`
    *   [0, 1)범위의 균등분포(uniform distribution)를 따르는 난수들을 갖는 배열을 생성.
    *   아규먼트 d0,d1,...:ndarray의 각 차원의 원소 개수.
*   `np.random.randn(d0, d1, d2 ,...)`
    *   평균이 0이고 표준편차가 1인 표준정규분포(standard normal distribution)를 따르는 난수들을 갖는 배열을 생성.
    *   아규먼트 d0, d1, ...: ndarray의 각 차원의 원소 개수.
*   `np.random.randint(low = high, size, dtype)`
    *   [low, high) 범위의 정수 난수들을 갖는 배열을 생성.
    *   아규먼트 size: ndarray의 shape(모양)을 정수 또는 튜플로 전달.
    *   아규먼트 dtype: int8, int16, int32, ...

In [None]:
array = np.random.rand(5)
print(array)

[0.75143689 0.89330547 0.24565001 0.73743091 0.75876749]


In [None]:
array = np.random.rand(5,3)
print(array)

[[0.00627325 0.14495117 0.70442944]
 [0.85928746 0.20105013 0.86734079]
 [0.33712757 0.20620395 0.30779018]
 [0.64759507 0.08335824 0.08410016]
 [0.79944185 0.12664133 0.47142913]]


In [None]:
array = np.random.randn(5)
print(array)

[ 0.11623193  1.20911295 -1.40827294  1.08281202  1.20681397]


In [None]:
array = np.random.randn(5,3)
print(array)

[[-0.31618983  0.18860872  0.5251445 ]
 [ 1.94015936  0.88261565 -0.33921608]
 [-0.01240446 -0.41184731 -1.08232113]
 [ 0.49704934  0.3352706  -0.19485788]
 [ 0.17800822 -0.47807228 -0.92340172]]


In [None]:
array = np.random.randint(0,10, size= 5)
print(array)

[5 5 8 0 7]


In [None]:
array = np.random.randint(0,10, size= (5,3))
[print(array)]

[[2 4 1]
 [2 0 3]
 [6 0 0]
 [3 1 0]
 [8 0 3]]


[None]

In [None]:
array = np.random.randint(10)  #> size= None기본값 일때는 난수 1개를 리턴
print(array)

2


# 통계 함수/메서드

*   함수: `np.function_name(ndarray)`
*   메서드: `np.ndarray.method_name()`

In [None]:
array = np.random.randint(100, size = 10)
print(array)


[78 93 59  5 91 62 43 78 96  8]


In [None]:
print('평균: ', np.mean(array), array.mean())
print('평균: ', np.var(array), array.var())
print('표준편차: ', np.std(array), array.std())
print('최댓값: ', np.max(array), array.max())
print('최솟값: ', np.min(array), array.min())
print('중앙값: ', np.median(array))

평균:  61.3 61.3
평균:  1000.01 1000.01
표준편차:  31.622934715171517 31.622934715171517
최댓값:  96 96
최솟값:  5 5
중앙값:  70.0


In [None]:
np.sort(array)          # 함수 호출 - 원본 배열은 변경하지 않고, 정렬된 "새로운" 배열을 리턴

array([ 5,  8, 43, 59, 62, 78, 78, 91, 93, 96])

In [None]:
array.sort()            # 메서드 호출 - 원본 배열을 정렬하고 리턴은 없음. 원본 배열이 변경됨.
print(array)

[ 5  8 43 59 62 78 78 91 93 96]


In [None]:
array = np.random.randint(100,size=10)
print(array)
print(np.argmax(array), array.argmax())     # 배열에서 최댓값의 인덱스를 리턴
print(np.argmin(array), array.argmin())     # 배열에서 최솟값의 인덱스를 리턴

[54  1 68 64 77 48 24 27 33 90]
9 9
1 1


## 2차원 배열에서 통계 함수/메서드


In [None]:
np.random.seed(42)          #  실행할 때마다 항상 같은 난수들을 만들어 내기 위해서
array = np.random.randint(10, size=(5,4))
print(array)

[[6 3 7 4]
 [6 9 2 6]
 [7 4 3 7]
 [7 2 5 4]
 [1 7 5 1]]


In [None]:
np.sum(array)          # 2차원 배열의 모든 원소들의 합계

np.int64(96)

In [None]:
sum(array)

array([27, 25, 22, 22])

In [None]:
np.sum(array, axis = 0)         # 행의 인덱스가 증가하는 방향으로 원소들의 합계

array([27, 25, 22, 22])

In [None]:
np.sum(array, axis = 1)         # 컬럼의 인덱스가 증하는 방향으로 원소들의 합계

array([20, 23, 21, 18, 14])

In [None]:
np.sum(array, axis = 0)[1]

np.int64(25)