### 빅데이터분석개론 토픽10 복습
- 2024 . 07 . 04

------

- list보다 numpy의 ndarray가 속도가 훨씬 빠름
    - 대용량의 배열과 행렬 연산을 빠르게 처리 (반복문을 사용하지 않고 바로 계산)

<br>

- 다차원 배열 ndarray (n dimension array / 배열과 리스트는 다름)
    - numpy에서 각 dimension을 axis라고 부름
    - 각 요소는 index로 참조
    - 장점
        - c언어 기반 배열 구조 == 메모리 적게 차지 == 속도 빠름
        - 배열과 배열 간 수학 연산의 적용
        - 고급 연산자 및 함수 제공
        


In [1]:
# 파이썬 리스트

mid_scores = [10, 20, 30]
final_scores = [70, 80, 90]

total = mid_scores + final_scores # 이러면 두 리스트가 연이어서 concatenate됨 (원래 원하던 연산이 아님)
print (total)

[10, 20, 30, 70, 80, 90]


In [2]:
# ndarray

import numpy as np

mid_scores = np.array(mid_scores)
final_scores = np.array(final_scores)

total = mid_scores + final_scores # 원소간 합이 발생 (행렬합)
print (total)

[ 80 100 120]


In [3]:
# numpy 사칙연산

a = b = np.array(range(1, 11)) # np.arange(1, 11)
print (a + b)
print (a - b)
print (a * b)
print (a / b)

[ 2  4  6  8 10 12 14 16 18 20]
[0 0 0 0 0 0 0 0 0 0]
[  1   4   9  16  25  36  49  64  81 100]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


------

- numpy는 ndarray 안에 있는 component의 모든 자료형이 동일해야 한다 (마치 c언어처럼)
- ndarray의 속성 : ndim, size, shape, itemsize, dtype
    - ndim : dimension(axis)의 갯수
    - size : 전체 component 갯수
    - itemsize : 객체가 차지하고 있는 메모리 크기
    - dtype : 데이터타입
    - shape : 배열 모양

In [4]:
# ndarray 속성

np_array = np.array(range(1, 6))
print (np_array.ndim) # 차원의 수
print (np_array.size) # 항목 수
print (np_array.itemsize) # 주메모리에 차지하고 있는 바이트의 용량
print (np_array.dtype) # 데이터타입
print (np_array.shape) # 배열의 형태

1
5
8
int64
(5,)


- numpy의 계산이 빠른 이유
    - numpy는 동일한 타입의 데이터만 저장 가능 
        - 따라서 만약에 numpy에 각각 다른 자료형을 가진 데이터를 삽입하면 전부 문자열로 동일히 변경됨
    - 동일한 타입의 데이터만 다루면 임의 접근이 가능해진다
    - 임의 접근 : 원하는 위치에 바로 접근하여 데이터를 읽고 씀
    - 임의 접근 메모리 == RAM

In [6]:
# ndarray도 슬라이싱, 인덱싱 가능

np_array = np.array(range(1, 11))
print (np_array[0:3]) # 1, 2, 3
print (np_array[0]) # 1
print (np_array[::-1]) # 10, 9, 8, 7, 6, 5, 4, 3, 2, 1
print (np_array[1::2]) # 2, 4, 6, 8, 10

[1 2 3]
1
[10  9  8  7  6  5  4  3  2  1]
[ 2  4  6  8 10]


In [10]:
# logical indexing : 조건에 맞는 원소만 출력 가능

print (np_array > 3) # 특정 원소가 3 초과가 되는 원소 (boolean)
print (np_array[np_array > 3])

print (np_array % 2 == 0) # 짝수
print (np_array[np_array % 2 == 0]) 

[False False False  True  True  True  True  True  True  True]
[ 4  5  6  7  8  9 10]
[False  True False  True False  True False  True False  True]
[ 2  4  6  8 10]


-------

- 기존 리스트 : 이름이 리스트의 참조값을 가짐
- ndarray : n차원 배열을 1차원으로 변환하여 참조값 가진다 (RAM에서는 1차원으로 저장되니깐)

In [11]:
# 2차원 배열 == 리스트의 리스트

y = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
print (y[0][0], y[1][0], y[2][0])
print (y)

array_y = np.array(y)

# 2차원 리스트의 특정 인덱스는 ,로 구분 ([][]보다 빠르다)
# [0][2] == [0, 2]
print (array_y[0][0], array_y[1][0], array_y[2][0])
print (array_y[0, 0], array_y[1, 0], array_y[2, 0]) # 위와 같음
print (array_y)

# 특정 요소 변경
# array_y[0, 0] = 100
# print (array_y[0])

1 4 7
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
1 4 7
1 4 7
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[100   2   3]


In [12]:
# 슬라이싱 연습

np_array = np.array([[i+j for j in range (4)] for i in range (1, 16, 4)])
print (np_array)

print (np_array[0]) # 0번째 행 출력
print (np_array[0::2]) # 0번째 행, 2번째 행 출력
print (np_array[0:2, 0:2]) # 0번째 행 ~ 1번째 행, 0번째 열 ~ 1번째 열
print (np_array[0::2, 0::2]) # 0번째 행, 2번째 행, 0번째 열, 2번째 열
print (np_array[:, 2]) # 2번째 열

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]
[1 2 3 4]
[[ 1  2  3  4]
 [ 9 10 11 12]]
[[1 2]
 [5 6]]
[[ 1  3]
 [ 9 11]]
[ 3  7 11 15]


In [13]:
# 리스트 슬라이싱 vs numpy 슬라이싱

print (np_array)

print (np_array[::2][::2]) # 0행, 2행 선택, 그 중 첫번째 0행 선택
print (np_array[::2, ::2]) # 0행, 2행 선택, 0열, 2열 선택

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]
[[1 2 3 4]]
[[ 1  3]
 [ 9 11]]


----

- 차원
    - 1차원 배열 == vector
        - 배열 안 원소의 갯수 : 차원 
        - [1, 2, 3] : 3차원 vector 
    - 3차원 배열 == tensor
    - vector : 1차원 tensor
    - matrix : 2차원 tensor

In [16]:
# arange() vs range()
# arange() == np.array(range())

np_array_arange = np.arange(1, 11)
np_array_range = np.array(range(1, 11))

print (np_array_arange == np_array_range)

[ True  True  True  True  True  True  True  True  True  True]


In [17]:
# linspace() : start부터 stop까지 데이터 생성 (균등간격)
# logspace() : 10^start에서부터 10^stop까지 데이터 생성 (균등간격)

# num 속성 : 범위 안 몇개의 num?
# base 속성 : 밑 지정

print (np.logspace(1, 10, num = 10, base = 2))
print (np.linspace(1, 100, num = 10))

[   2.    4.    8.   16.   32.   64.  128.  256.  512. 1024.]
[  1.  12.  23.  34.  45.  56.  67.  78.  89. 100.]


In [19]:
# reshpae : shape 변경하기
# n by m -> l by k라면 n * m = l * k 만족해야 함

y = np.arange(12)
print (y)

y = y.reshape(2, 6)
print (y)

y = y.reshape(3, 4)
print (y)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [21]:
# flatten : 평탄화 (고차원 배열을 1차원 배열로 변경)

y = [[1, 2], [3, 4]]
y = np.array(y)
print (y)

y = y.flatten()
print (y)

[[1 2]
 [3 4]]
[1 2 3 4]


----

- 난수
    - 무작위성을 가짐
    - 컴퓨터 프로그래밍에서는 일정한 규칙인 seed를 가지고 난수를 만듦
    - seed가 같으면 난수가 같을 수도 있다 (의사 난수)

In [22]:
# 난수 만들기 (실수)
np.random.seed(100) # seed 설정
print (np.random.rand(5)) # 5개의 난수가 포함된 배열을 만듦 (0~1)
print (np.random.rand(5, 3)) # 5 by 3

# 난수 만들기 (정수)
print (np.random.randint(1, 7, size=10)) # 1에서 7 이하
print (np.random.randint(1, 10, size=(2, 2))) # 2행 2열 

[0.54340494 0.27836939 0.42451759 0.84477613 0.00471886]
[[0.12156912 0.67074908 0.82585276]
 [0.13670659 0.57509333 0.89132195]
 [0.20920212 0.18532822 0.10837689]
 [0.21969749 0.97862378 0.81168315]
 [0.17194101 0.81622475 0.27407375]]
[4 4 4 2 2 6 4 1 3 2]
[[4 3]
 [6 9]]


In [23]:
# randn : 특정 난수, 하지만 0에 가까운 수들 (표준정규분포)
print (np.random.randn(5))

# 평균이 10이고 표준편차가 2인 정규분포 난수
mu = 10
sigma = 2
randoms = mu + sigma * np.random.randn(2, 2) # 2 by 2
print (randoms)

[-1.08310212 -2.06634065 -1.27064503 -2.09572442 -2.13740639]
[[11.83169736 11.18515149]
 [10.07591626 10.74393514]]


In [24]:
# 10개 난수 생성하고, 평균과 중앙값 구하기
numbers = np.random.randn(10)
print (numbers)
print (np.mean(numbers)) # 평균
print (np.median(numbers)) # 중앙값

[ 0.35975395 -0.14039647 -0.44373851  0.56877016  0.53848877  1.31557418
  1.4789783   0.22142626 -1.11789416 -0.18499993]
0.2595962542657967
0.29059010136502667


In [25]:
# zeros : 모든 배열의 값이 0
print (np.zeros((100, 100))) # 100 by 100인 행렬, parameter값으로 튜플

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


In [26]:
# ones : 모든 배열의 값이 1
print (np.ones((100, 100))) # 100 by 100인 행렬, parameter값으로 튜플 

[[1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 ...
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]]


- corr
    - 상관관계를 통하여 두 변수 및 세 변수 이상의 서로의 상관관계를 유추 가능
    - diagonal은 전부 1, 자기 자신과의 상관관계이기 때문

In [27]:
# 상관관계 파악하기

x = [i for i in range (1, 101)]
y = [i ** 2 for i in range (1, 101)]

rst = np.corrcoef([x, y]) # 리스트 
print (rst) # 상관이 매우 강하다 (양의 상관관계)

[[1.         0.96885447]
 [0.96885447 1.        ]]


In [28]:
# 상관관계 3차원

x = [i for i in range (1, 101)]
y = [i ** 2 for i in range (1, 101)]
z = [i ** 3 for i in range (1, 101)]

rst = np.corrcoef([x, y, z]) # 3개 이상의 변수는 리스트로 표현
print (rst)

[[1.         0.96885447 0.91755196]
 [0.96885447 1.         0.98608688]
 [0.91755196 0.98608688 1.        ]]
