<a href="https://colab.research.google.com/github/kim-dahun/python-study/blob/main/py13_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 분석 패키지

Google Colab 에는 데이터 분석과 머신 러닝에 필요한 대부분의 패키지들이 이미 설치가 되어 있음.

* NumPy: 다차원 배열(n-dimensional array)을 다루는 패키지. 머신 러닝에서 중요하게 사용됨.
* pandas : 시리즈(series), 데이터 프레임(DataFrame)을 다루는 패키지. 데이터 분석에서 기본으로 사용되는 패키지.
* matplotlib : 데이터 시각화(그래프).
* seaborn :  데이터 시각화. 통계 작업.

In [1]:
import numpy as np

In [2]:
import pandas as pd

In [4]:
import matplotlib as mpl
import seaborn as sns

In [5]:
print('Numpy version : ', np.__version__)

Numpy version :  1.22.4


In [6]:
print('Pandas version : ', pd.__version__)

Pandas version :  1.5.3


In [7]:
print('matplotlib : ',mpl.__version__)

matplotlib :  3.7.1


In [8]:
print('seaborn : ', sns.__version__)

seaborn :  0.12.2


# Python `list` class

* 여러 개의 값들을 저장할 수 있는 데이터 타입
* 인덱스를 기반으로 값들을 저장하거나 참조하는 데이터 타입.
  * indexing : 인덱스를 사용해서 원하는 위치의 값을 참조하거나, 그 값을 변경할 때 인덱싱을 사용,
  * slicing : `[strat, end)` 이런 인덱스 범위의 값들로 이루어진 부분 집합을 잘라내는 방법.
* `list + list` : 두 개의 리스트를 이어붙여서 하나의 새로운 리스트를 만드는 기능 ( concatenate).
* `list * int`,`int * list` : 리스트의 원소들을 정수만큼 반복해서 복제.(replicate).

In [9]:
list1 = [1,2,3,4]
list2 = [10,20,30,40]

list3 = list1+list2

In [10]:
list3

[1, 2, 3, 4, 10, 20, 30, 40]

In [16]:
# indexing:
print(list1[0]) # list1의 첫번째 원소
print(list1[3], list1[-1]) #list1의 마지막 원소

1
4 4


In [18]:
# slicing
print(list1[:3]) # list1에서 앞에서 3개 원소 자르기

print(list1[-3:]) # list1에서 뒤에서 3개 원소 자르기

[1, 2, 3]
[2, 3, 4]


In [19]:
list1 + list2

[1, 2, 3, 4, 10, 20, 30, 40]

In [20]:
list1 * 3

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

In [21]:
# list1, list2 에서 같은 인덱스 위치 원소들끼리 덧셈.

[x+y for x,y in zip(list1,list2)]

[11, 22, 33, 44]

In [22]:
# list1 모든 원소에 3을 곱하기
[x*3 for x in list1]

[3, 6, 9, 12]

# NumPy

* 배열(ndarray)을 쉽고 빠르게 연산(+,-,*,/,//,%)을 수행하는 라이브러리.
* Numpy 패키지의 함수 또는 메서드들은 대부분 반복문의 기능을 갖고 있음.
* np.ndarray 클래스 : NumPy 패키지에서 기본 타입 클래스. n차원 배열.(n-dimensional array).
  * `ndarray`는 같은 인덱스(위치)에 있는 원소들끼리 연산을 수행.

In [26]:
array1 = np.array([1,2,3]) # python의 list 객체를 numpy의 ndarray 객체로 변환.

In [27]:
type(array1)

numpy.ndarray

In [28]:
print(array1) # print() 함수는 __str__ 메서드의 리턴값을 출력.

[1 2 3]


In [29]:
array1 # expression은 __repr__메서드의 리턴값을 출력.

array([1, 2, 3])

In [30]:
array2 = np.array([4,5,6])

In [31]:
print(array2)

[4 5 6]


In [32]:
array2

array([4, 5, 6])

In [35]:
# ndarray의 사칙연산 -> 같은 인덱스의 원소들(element-wise)끼리 연산이 수행됨.

array1*array2

array([ 4, 10, 18])

In [36]:
print(array1+array2)
print(array1-array2)
print(array1*array2)
print(array1/array2)

[5 7 9]
[-3 -3 -3]
[ 4 10 18]
[0.25 0.4  0.5 ]


## ndarray 클래스의 속성들

In [37]:
print(array1)

[1 2 3]


In [43]:
print('ndim:',array1.ndim) # 차원(dimension). 배열의 축(axis)의 갯수
print('size:',array1.size) # 배열의 크기. 원소 갯수.
print('shape:',array1.shape) # 각 차원에서의 원소갯수
print('dtype:',array1.dtype) # 배열 원소의 데이터 타입

ndim: 1
size: 3
shape: (3,)
dtype: int64


ndarray 는 한 가지 타입의 데이터들만 저장할 수 있는 데이터 타입 - list 와 다른점.

## 2차원 배열



In [45]:
array_2d = np.array([
    [1,2,3,4],
    [5,6,7,8],
    [9,10,11,12]
])

In [47]:
type(array_2d)

numpy.ndarray

In [48]:
print(array_2d)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [49]:
print('ndim : ',array_2d.ndim) # 차원
print('size : ',array_2d.size) # 크기
print('shape : ',array_2d.shape) # 모양
print('dtype : ',array_2d.dtype) # 데이터 타입

ndim :  2
size :  12
shape :  (3, 4)
dtype :  int64


### 2차원 `ndarray`의 인덱스 사용 방법:

* `array[i][j]` - Python list와 같은 사용 방법.
* `array[i,j]` - ndarray에서만 사용 가능.

In [50]:
array_2d[1,2]

7

## `ndarray` 인덱스

In [55]:
#
array = np.random.randint(1,46,size=(5,6))

In [56]:
array

array([[39, 11, 19, 13, 13, 43],
       [41,  8, 21, 12, 32, 31],
       [15, 28, 14, 28, 42, 13],
       [37,  6, 26, 30, 35, 28],
       [19, 10, 37, 10, 16,  6]])

In [58]:
# [0, 100) 범위의 정수 난수 10개를 갖는 ndarray 객체를 생성 :
array = np.random.randint(0,100, size=(10,10))

In [59]:
array

array([[45, 24, 90, 93, 14, 83, 99, 66, 19,  6],
       [52, 20, 20, 43, 10, 91, 89, 44, 70, 76],
       [25, 95, 47, 58, 95, 40, 21, 44,  9, 18],
       [ 3, 75, 76,  0, 27, 24, 46, 82, 77, 83],
       [18, 10, 15,  8, 16, 94, 50, 82, 68, 21],
       [36, 20, 42, 72,  6, 48, 61, 59, 43, 91],
       [44,  9, 69, 96, 71, 23, 32, 89, 16, 19],
       [79, 29, 78, 50, 52, 31, 30, 80, 37, 94],
       [15, 72, 86, 98, 98,  7,  0, 62, 97, 24],
       [37, 69, 93,  4, 22, 56, 70, 39, 87, 19]])

In [61]:
# indexing:
print(array[0])
print(array[5,1])

[45 24 90 93 14 83 99 66 19  6]
20


In [62]:
# slicing
print(array[0:3])

[[45 24 90 93 14 83 99 66 19  6]
 [52 20 20 43 10 91 89 44 70 76]
 [25 95 47 58 95 40 21 44  9 18]]


In [63]:
print(array[0:3,0:3]) # 2차원에서 3번째까지, 그리고 각 배열에서 3번째까지

[[45 24 90]
 [52 20 20]
 [25 95 47]]


In [None]:
print(array[0]) # indexing -> 아이템(값)
print(array[0:1]) # slicing -> 배열(ndarray)

### fancy indexing

* 배열과 비슷한 객체(ndarray, list, tuple, set, ...) 를 사용해서 원하는 원소들을 참조하는 방법
* fancy indexing의 결과는 ndarray.

In [65]:
print(array[0]) # indexing
print(array[[0,2,4]]) # 배열에서 0, 2, 4 인덱스의 원소를 골라옴. -> 골라온 원소로 ndarray 를 만듦.
print(array[[0]])

[45 24 90 93 14 83 99 66 19  6]
[[45 24 90 93 14 83 99 66 19  6]
 [25 95 47 58 95 40 21 44  9 18]
 [18 10 15  8 16 94 50 82 68 21]]
[[45 24 90 93 14 83 99 66 19  6]]


### boolean indexing

* 논리값(True/False) 들의 배열(리스트, 튜플...) 을 사용한 fancy indexing 방법.
* 배열에서 조건을 만족하는 원소들로 이루어진 부분집합(ndarray)을 만드는 방법.

In [66]:
print(array)

[[45 24 90 93 14 83 99 66 19  6]
 [52 20 20 43 10 91 89 44 70 76]
 [25 95 47 58 95 40 21 44  9 18]
 [ 3 75 76  0 27 24 46 82 77 83]
 [18 10 15  8 16 94 50 82 68 21]
 [36 20 42 72  6 48 61 59 43 91]
 [44  9 69 96 71 23 32 89 16 19]
 [79 29 78 50 52 31 30 80 37 94]
 [15 72 86 98 98  7  0 62 97 24]
 [37 69 93  4 22 56 70 39 87 19]]


In [69]:
print(array[0,[True, False,True, False,True, False,True, False,True, False]]) # True 위치에 있는 것들만 인덱싱

[45 90 14 99 19]


In [79]:
# 배열 array의 원소들 중 홀수들만 찾기:
print(array[0][array[0] %2 == 1])

[45 93 83 99 19]


In [77]:
# 배열 array의 원소들 중에서 50 이상 숫자들의 배열을 찾기:
print(array[array>=50])

[90 93 83 99 66 52 91 89 70 76 95 58 95 75 76 82 77 83 94 50 82 68 72 61
 59 91 69 96 71 89 79 78 50 52 80 94 72 86 98 98 62 97 69 93 56 70 87]


## NumPy 의 통계함수, 메서드

* np.function(ndarray) 함수
* np.ndarray.method() 메서드



In [80]:
array = np.array([1,2,3,4,5])

In [86]:
# 합계 :
np.sum(array) # 함수
print(array.sum()) # 메서드

15


In [87]:
# 평균 :
np.mean(array) # 함수
print(array.mean()) # 메서드

3.0
