<a href="https://colab.research.google.com/github/SpaceXdaehan/Python/blob/main/py13_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 분석 패키지

Google Colab에는 데이터 분석과 머신러님에 필요한 대부분의 패키지들이 이미 설치가 되어 있음.

* NumPy: 다차원 배열(n-dimensional array)을 다루는 패키지. 머신러닝에서 중요하게 사용됨.
* Pandas: 시리즈(Series), 데이터프레임(DataFrame)을 다루는 패키지. 데이터 분석에서 기본으로 사용되는 패키지.
* matplotlib: 데이터 시각화(그래프).
* seaborn: 데이터 시각화(통계 작업).

In [None]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import seaborn as sns

In [None]:
print('NumPy version:', np.__version__)
print('pandas version:', pd.__version__)
print('matplotlib version:', mpl.__version__)
print('seaborn version:', sns.__version__)

NumPy version: 1.22.4
pandas version: 1.5.3
matplotlib version: 3.7.1
seaborn version: 0.12.2


# Python list class

* 여러 개의 값들을 저장할 수 있는 데이터 타입.
* 인덱스를 기반으로 값들을 저장, 참조하는 데이터 타입.
  * indexing: 인덱스를 사용해서 원하는 위치의 값을 참조, 변경.
  * slicing: `[start, end)` 인덱스 범위의 값들로 이루어진 부분집합을 잘라내는 방법.
* `list + list`: 2개의 리스트를 이어붙이기(concatenate).
* `list * int`, `int * list`: 리스트의 원소들을 정수만큼 반복해서 복제(replicate).

In [None]:
list1 = [1, 2, 3, 4]
list2 = [10, 20, 30, 40]

In [None]:
# indexing:
print(list1[0]) # list1번의 첫번째 원소
print(list1[3], list1[-1]) # list1번의 마지막 원소.

1
4 4


In [None]:
# slicing:
print(list1[:3]) # list1번에서 앞에서 3개 원소 자르기
print(list1[-3:]) # list1번에서 뒤에서 3개 원고 자르기

[1, 2, 3]
[2, 3, 4]


In [None]:
list1 + list2

[1, 2, 3, 4, 10, 20, 30, 40]

In [None]:
list1 * 3 # 원소들을 3번 반복

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

In [None]:
# list1과 list2에서 같은 인덱스 위치의 원소들 끼리 계산하기
[x + y for x, y in zip(list1, list2)]

[11, 22, 33, 44]

In [None]:
# list1의 모든 원소에 3을 곱하기
[3 * x for x in list1]

[3, 6, 9, 12]

# NumPy

* 배열(ndarray)을 쉽고 빠르게 연산(+, -, *, /, //, %)을 수행하는 라이브러리
* NumPy 패키지의 함수 또는 메서드들은 대부분 반복문의 기능을 가지고 있음.
* np.ndarray 클래스: NumPy 패키지에서 기본 타입 클래스. 의미 = n차원 배열(n-dimensional array).
  * `ndarray`는 같은 인덱스(위치)에 있는 원소들끼리 연산을 수행.
  * `ndarray`를 사용하면 반복문을 사용하지 않아도 됨. 첫번째 인덱스부터 마지막 인덱스까지 읽음.

In [None]:
array1 = np.array([1, 2, 3]) # 파이썬의 list 객체를 numpy의 ndarray 객체로 변환.

In [None]:
type(array1)

numpy.ndarray

In [None]:
print(array1) # print() 함수는 __str__메서드의 리턴값을 출력

[1 2 3]


In [None]:
array1 # expression은 __repr__메서드의 리턴값을 출력.

array([1, 2, 3])

In [None]:
array2 = np.array([4, 5, 6])
print(array2)

[4 5 6]


In [None]:
# ndarray의 사칙연산 - 같은 인덱스의 원소들 끼리(element-wise) 연산이 수행됨!
print(array1 + array2)
print(array1 - array2)
print(array1 * array2)
print(array1 / array2)

[5 7 9]
[-3 -3 -3]
[ 4 10 18]
[0.25 0.4  0.5 ]


## `ndarray` 클래스의 속성들

In [None]:
print(array1)
print('ndim:', array1.ndim) # 차원(dimesion). 배열의 축(axis)의 개수.
print('size:', array1.size) # 배열의 크기, 원소 개수.
print('shape:', array1.shape) # 배열의 모양, 각 차원에서의 원소 개수.
print('dtype:', array1.dtype) # 배열 원소의 데이터 타입.

[1 2 3]
ndim: 1
size: 3
shape: (3,)
dtype: int64


`ndarray`는 한 가지 타입(정수면 정수, 오브젝트면 오브젝트,...)의 데이터들만 저장할 수 있는 데이터 타입. - `list`와 다른 점!

## 2차원 배열

In [None]:
array_2d = np.array([
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
])

In [None]:
type(array_2d)

numpy.ndarray

In [None]:
print(array_2d)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [None]:
array_2d

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
print('ndim:', array_2d.ndim) # 차원
print('size:', array_2d.size) # 크기 (행 * 열)
print('shape:', array_2d.shape) # 모양 (행이 3개고 열이 4개이다)
print('dtype:', array_2d.dtype) # 데이터 크기

ndim: 2
size: 12
shape: (3, 4)
dtype: int64


### 2차원 `ndarray`의 인덱스 사용 방법:

* `array[i][j]` - Python list와 같은 사용 방법.
* `array[i, j]` - NumPy의 ndarray에서만 사용 가능한 방법.

In [None]:
array_2d[0, 0] # == array_2d[0][0]

1

In [None]:
array_2d[1, 2] # == array_2d[1][2]

7

## `ndarray` 인덱스

In [None]:
# [0, 100) 범위의 정수 난수 10개를 갖는 ndarray 객체를 생성:
array = np.random.randint(0, 100, size=10)
print(array)

[26 70 66 98 76  4 45 88 97 58]


In [None]:
# indexing:
print(array[0])
print(array[-1])

26
58


In [None]:
# slicing
print(array[:3])
print(array[-3:])

[26 70 66]
[88 97 58]


In [None]:
print(array[0]) # indexing -> 아이템(값)
print(array[0:1]) # slicing -> 배열(ndarray)

26
[26]


## fancy indexing

* 배열과 비슷한 객체(ndarray, list, tuple, set, ...)를 사용해서 원하는 원소들을 참조하는 방법.
* fancy indexing의 결과는 ndarray.

In [None]:
print(array)
print(array[0]) # indexing
print(array[[0, 2, 4]]) # 배열에서 인덱스 0, 2, 4번 인덱스를 고른다. (fancy indexing)
print(array[[0]]) # fancy indexing -> 결과는 배열이됨! 인덱스들의 리스트

[26 70 66 98 76  4 45 88 97 58]
26
[26 66 76]
[26]


### boolean indexing

* 논리값(True, False)들의 배열(list, tuple, ...)을 사용한 fancy indexing 방법.
* 배열에서 조건을 만족하는 원소들로 이루어진 부분집합(ndarray)를 만드는 방법.

In [None]:
print(array)
print(array[[True, False, True, False, True, False, True, False, True, False]])

[26 70 66 98 76  4 45 88 97 58]
[26 66 76 45 97]


In [None]:
# 배열 array의 원소들 중 홀수들만 찾기:
print(array % 2)
print(array % 2 == 1)
print(array[array % 2 == 1])

[0 0 0 0 0 0 1 0 1 0]
[False False False False False False  True False  True False]
[45 97]


In [None]:
# 배열 array의 원소들 중에서 50 이상인 숫자들의 배열을 찾기:
print(array[array >= 50])

[70 66 98 76 88 97 58]


## NumPy의 통계 함수, 메서드

* np.function(ndarray) 함수
* np.ndarray.method()메서드

In [None]:
array = np.array([1, 2, 3, 4, 5,])
print(array)

[1 2 3 4 5]


In [None]:
# 합계:
print(np.sum(array)) # 함수
print(np.mean(array))
print(array.sum()) # 메서드
print(array.mean())

15
3.0
15
3.0


* numpy 패키지를 사용
* [0, 100) 범위의 정수 난수 10개를 갖는 ndarray를 생성
* 배열에서 최댓값, 최솟값, 평균(mean), 분산(variance), 표준편차(standard deviation)
* 배열 원소들 중 평균보다 큰 값들로 이루어진 배열을 만들고 출력

In [None]:
np.random.seed(1) # 난수들을 생성하는 seed를 설정. - 값이 같으면 항상 같은 난수 숫자들을 생성.
array1 = np.random.randint(0, 100, size=10)
print(array1)

[37 12 72  9 75  5 79 64 16  1]


In [None]:
print('최댓값:', np.max(array1))
print('최솟값:', np.min(array1))
print('평균값:', np.mean(array1))
print('분산값:', np.var(array1))
print('표준편차값:', np.std(array1))

최댓값: 79
최솟값: 1
평균값: 37.0
분산값: 933.2
표준편차값: 30.548322376196047


In [None]:
print(array1[array1 >= np.mean(array1)])

[37 72 75 79 64]


## 2차원 배열에서의 통계 함수, 메서드

In [None]:
# [0, 100) 범위의 정수 난수를 갖는 (3, 4) shape을 갖는 모양을 갖는 2차원 ndarray:
np.random.seed(1)
array = np.random.randint(100, size=(3, 4)) # 원소 두개로 이루어진 튜플, 행의 갯수 3개 컬럼의 갯수 4개
print(array)

[[37 12 72  9]
 [75  5 79 64]
 [16  1 76 71]]


In [None]:
np.sum(array) # 배열에 모든 원소들을 더한 합계

517

In [None]:
np.sum(array, axis=0) # axis=0은 2차원 배열에서 첫번째 인덱스(0번째)가 증가하는 축 방향으로 계산.

array([128,  18, 227, 144])

In [None]:
np.sum(array, axis=1) # 2차원 배열에서 두번째 인덱스가 증가하는 축 방향으로 계산.

array([130, 223, 164])

In [None]:
np.sum(array, axis=1, keepdims=True)

array([[130],
       [223],
       [164]])