# 데이터 분석 패키지

Google Golab에는 데이터 분석과 머신 러닝에 필요한 대부분의 패키지(라이브러리)들이 이미 설치가 되어 있다.

* NumPy: 다차원 배열(n-dimensional array)을 다루는 패키지, 머신 러닝에서 중요하게 사용된다.
* pandas: 시리즈(Serues), 데이터프레임(DataFrame)을 다루는 패키지.
* matplotlib: 데이터 시각화(그래프).
* seaborn: 데이터 시각화. 통계 작업.

In [6]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import seaborn as sns

In [7]:
print('NumPy version:', np.__version__)
print('pands version:', pd.__version__)
print('matplotlib version:', mpl.__version__)
print('seaborn version:', sns.__version__)

NumPy version: 1.22.4
pands version: 1.5.3
matplotlib version: 3.7.1
seaborn version: 0.12.2


# Python `list` class

* 파이썬의 리스트
    * 여러 개의 값들을 저장할 수 있는 데이터 타입.
    * 인덱스를 기반으로 값들을 저장, 참조하는 데이터 타입.
        * indexing: 인덱스를 사용해서 원하는 위치의 값을 참조, 변경.
        * slicing: `[start, end,)` 인덱스 범위의 값들로 이루어진 부분집합을 잘라내는 방법.
    * 리스트에서는 산술연산이 2가지만 가능하다.
        * `list + list`: 2개의 리스ㅡ를 이어붙이기.
        * `list * 정수`, `정수 * list`: 리스트의 원소들을 정수 만큼 반복해서 복제.

In [8]:
list1 = [1, 2, 3, 4]
list2 = [10, 20, 30, 40]

In [9]:
# indexing:
print(list1[0]) # list1의 첫번째 원소.
print(list1[-1]) # list1의 마지막 원소.

1
4


In [10]:
#slicing
print(list1[:3]) # list1에서 앞에서 3개 원소 자르기
print(list1[-3:]) # list1에서 뒤에서 3개 원소 자르기

[1, 2, 3]
[2, 3, 4]


In [11]:
list1 + list2

[1, 2, 3, 4, 10, 20, 30, 40]

In [12]:
list1 * 3

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

In [13]:
#list1, list2에서 같은 인덱스 위치의 원소들끼리 덧셈
[x + y for x, y in zip(list1, list2)]

[11, 22, 33, 44]

In [14]:
# list1의 모든 원소에 3을 곱함.
[3 * x for x in list1]

[3, 6, 9, 12]

# NumPy

* 배열(ndarray)을 쉽고 빠르게 연산(+, -, *, /, //, %, ...)을 수행하는 라이브러리.
     * NumPy 안에 ndarray라는 클래스로 배열을 명시하고 있다.
* NumPy 패키지의 함수 또는 메서드들을 대부분 반복문의 기능을 가지고 있다.
* NumPy는 np.ndarray 클래스가 있는데, NumPy 패키지에서 기본 타입 클래스이고 n차원 배열(n-dimensional array)라는 뜻이다.
    * **`ndarray`는 같은 인덱스(위치)에 있는 원소들끼리 연산을 수행을 한다**.

In [15]:
# NumPy array를 만드는 방법
array1 = np.array([1, 2, 3]) # 파이썬의 list 객체를 numpy의 ndarray 객체로 변환.
array1

array([1, 2, 3])

In [16]:
type(array1)

numpy.ndarray

In [17]:
print(array1) # print() 는 __str__ 메서더의 리턴값을 출력.

[1 2 3]


In [18]:
array1 # expression은 __repr__메서드의 리턴값을 출력.

array([1, 2, 3])

In [19]:
array2 = np.array([4, 5, 6])
print(array2)

[4 5 6]


In [20]:
# nbarray의 사칙 연산 - 같은 인덱스의 원소들끼리(element-wrise) 연산이 수행된다.
print(array1 + array2)
print(array1 - array2)
print(array1 / array2)
print(array1 * array2)
# for문보다 numpy가 속도가 더 빠르다.

[5 7 9]
[-3 -3 -3]
[0.25 0.4  0.5 ]
[ 4 10 18]


## `ndarray`클래스의 속성들

In [21]:
print(array1)
print('ndim: ', array1.ndim) # 차원 (dimesion), 배열의 축(axis)의 개수. (1차원 배열)
print('size:', array1.size) # 배열의 크기, 원소 개수.
print('shape: ', array1.shape) # 배열의 모양. 각 차원에서의 원소 개수.
print('dtype:', array1.dtype) # 배열 원소의 데이터 타입. -> 64비트의 int를 저장, (java에서 long)

[1 2 3]
ndim:  1
size: 3
shape:  (3,)
dtype: int64


* 파이썬의 `list`와 다른 점
    * `ndarray`는 한 가지 타입의 데이터들만 저장할 수 있는 데이터 타입이다.

## 2차원 배열

In [22]:
array_2d = np.array([
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12]
])

In [23]:
type(array_2d)

numpy.ndarray

In [24]:
print(array_2d)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [25]:
array_2d

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [26]:
print('ndim: ', array_2d.ndim)
print('size:', array_2d.size) # length랑 구별을 해야한다. -> 3개가 나온다.
print('shape: ', array_2d.shape)
print('dtype:', array_2d.dtype)

ndim:  2
size: 12
shape:  (3, 4)
dtype: int64


### 2차원 `ndarray`의 인덱스 사용 방법:

* `array[i][j]` - Python list와 같은 사용 방법.
* `array[i, j]` - ndarray에서만 사용 가능.

In [27]:
array_2d[0, 0] # array_2d[0][0]

1

In [28]:
array_2d[1, 2]

7

## `ndarray` 인덱스



In [29]:
# [0, 100) 범위의 정수 난수 10개를 갖는 ndarray 객체를 생성:
array = np.random.randint(0, 100, size=10)
print(array)

[62 95 19  1 14  0 19 62 35 35]


In [30]:
# indexing:
print(array[0]) # 첫번쨰 원소
print(array[-1]) # 마지막 원소

62
35


In [31]:
# slicing:
print(array[:3]) # 첫 3개 원소 자르기
print(array[-3:]) # 마지막 3개 원소 자르기

[62 95 19]
[62 35 35]


In [32]:
print(array[0]) # indexinf -> 아이템(값)
print(array[0:1]) # slicing -> 배열(ndarray)

62
[62]


### fancy indeing

* 배열과 비슷한 객체(ndarray, list, tuple, set, ...)를 사용해서 원하는 원소들을 참조하는 방법.
* fabcy indexing의 결과는 ndarray.

In [33]:
print(array)
print(array[0]) # indexing -> item
print(array[[0, 2, 4]]) # 배열에서 index 0, 2, 4을 골라달라는 의미이다.
print(array[[0]]) # 배열.

[62 95 19  1 14  0 19 62 35 35]
62
[62 19 14]
[62]


### boolean indexing

* 논리값(True/Fasle)들의 배열 (리스트, 튜플, ...)을 사용한 fanct indexing방법.
* 배열에서 조건을 만족하는 원소들로 이루어진 부분집합(ndarray)를 만드는 방법.

In [34]:
print(array)
print(array[[True, False, True, False, True, False, True, False, True, False]])

[62 95 19  1 14  0 19 62 35 35]
[62 19 14 19 35]


In [35]:
# 배열 array의 원소들 중 홀수들만 찾기:
print(array % 2) # list는 연산이 안되지만 배열은 나누기를 각각의 아이템에 % 2한 결과를 리턴한다.
print(array % 2 == 1)
print(array[array % 2 == 1])

[0 1 1 1 0 0 1 0 1 1]
[False  True  True  True False False  True False  True  True]
[95 19  1 19 35 35]


In [36]:
# 배열 array의 원소들 중에서 50 이상인 숫자들의 배열을 찾기:
print(array[array >= 50])

[62 95 62]


## NumPy의 통계 함수, 메서드

* np.function(ndarray) 함수
* np.ndarray.method() 메서

In [37]:
array = np.array([1, 2, 3, 4, 5])
print(array)

[1 2 3 4 5]


In [38]:
# 합계:
print(np.sum(array)) # 함수
print(array.sum()) # 메서드

15
15


In [39]:
# 평균
print(np.mean(array)) # 함수
print(array.mean()) # 메서드

3.0
3.0


# 2차원 배열에서의 통계 함수, 메서드

In [40]:
# [0, 100) 범위의 정수 난수를 갖는 (3, 4) 모양(shape)을 갖는 2차원 ndarray:
np.random.seed(1)
array = np.random.randint(100, size=(3, 4))
print(array)

[[37 12 72  9]
 [75  5 79 64]
 [16  1 76 71]]


In [41]:
np.sum(array)  # axis=None(기본값): 배열의 모든 원소들의 합계

517

In [42]:
np.sum(array, axis=0)  # axis=0: 2차원 배열에서 첫번째 인덱스가 증가하는 축 방향으로 계산.

array([128,  18, 227, 144])

In [43]:
np.sum(array, axis=1)  # axis=1: 2차원 배열에서 두번째 인덱스가 증가하는 축 방향으로 계산.

array([130, 223, 164])

In [44]:
np.sum(array, axis=1, keepdims=True)

array([[130],
       [223],
       [164]])