In [1]:
import numpy as np
import pandas as pd

In [3]:
# 재배치: resize(원데이터, (행, 열)) -> 원본 배열이 바뀔 수도 있음에 유의, 재배치되면서 사이즈가 커지면 기존의 데이터를 반복, 작아지면 삭제
# c.f. 재배치: reshape -> 원본 배열의 사이즈가 변하지 않는다. size가 다르면 에러

x = np.array([[0, 1], [4, 7]]); x

array([[0, 1],
       [4, 7]])

In [12]:
# 2행 3열로 재배치
x1 = np.resize(x, (2, 3)); x1 # 재배치되면서 사이즈가 커지면 기존의 데이터를 반본 0, 1, 4, 7, 0, 1, ...

array([[0, 1, 4],
       [7, 0, 1]])

In [13]:
# 2행 4열로 재배치
x2 = np.resize(x, (2, 4)); x2

array([[0, 1, 4, 7],
       [0, 1, 4, 7]])

In [17]:
x3 = np.array([1,2,3,4,5,6,7,8,9])
x3.resize(2,3); x3 # 재배치되면서 사이즈가 작아지면 초과된 값은 잘림

array([[1, 2, 3],
       [4, 5, 6]])

In [21]:
# trim_zeros: 0 제거, 앞과 뒤의 0을 지우는 것이 기본
x = np.array([0,0,0,0,2,4,2,2,1,6,0,0,7,0]); x

array([0, 0, 0, 0, 2, 4, 2, 2, 1, 6, 0, 0, 7, 0])

In [22]:
x1 = np.trim_zeros(x); x1

array([2, 4, 2, 2, 1, 6, 0, 0, 7])

In [26]:
x2 = np.trim_zeros(x, 'f'); x2 # 옵션 'f': front, 'b': back

array([2, 4, 2, 2, 1, 6, 0, 0, 7, 0])

In [28]:
# 대표값: unique()
x = np.array([1,1,2,2,1,1,2,2,3,3,3,4,4,4,4,5,5,5,2,1]); x

array([1, 1, 2, 2, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 2, 1])

In [29]:
x1 = np.unique(x); x1

array([1, 2, 3, 4, 5])

In [31]:
# 데이터 카운팅
x2 = np.unique(x, return_counts = True); x2

(array([1, 2, 3, 4, 5]), array([5, 5, 3, 4, 3], dtype=int64))

In [32]:
data, count = x2

print(data)
print(count)

[1 2 3 4 5]
[5 5 3 4 3]


In [33]:
# unique: 문자도 가능
x = np.array(['a','b','c','b','c','a','d']); x

array(['a', 'b', 'c', 'b', 'c', 'a', 'd'], dtype='<U1')

In [34]:
x1 = np.unique(x, return_counts = True); x1

(array(['a', 'b', 'c', 'd'], dtype='<U1'), array([2, 2, 2, 1], dtype=int64))

In [35]:
data, count = x1

print(data)
print(count)

['a' 'b' 'c' 'd']
[2 2 2 1]


## 선형대수(Linear Algebra)

- 벡터, 행렬, 선형변환, 선형방정식 등을 연구하는 대수학 분야
- 데이터 분석이나 모델 연산 시 필요한 여러 계산을 도와주는 용도

**[데이터 유형]**
> 1. 스칼라(scalar): 하나의 숫자로 이루어진 데이터
> 2. 벡터(vector): 여러개의 숫자로 이루어진 데이터(data record)
> 3. 행렬(matrix): 벡터가 여러 개 있는 데이터 집합

In [36]:
x = 1; x

1

In [37]:
# 스칼라
x = 100; x

100

In [40]:
# 벡터
# 선형대수에서는 열의 개수가 하나인 2차원 배열 형태로 표현하는 것을 더 권장
x = np.array([[2],[2],[5]]); x # 3 x 1 형태의 벡터

array([[2],
       [2],
       [5]])

In [None]:
# rank가 1인 배열 객체도 대부분 벡터로 인정

In [41]:
# 행렬: 복수의 데이터 집합
x = np.array([[2,2],[3,3],[4,4],[5,5]]); x

array([[2, 2],
       [3, 3],
       [4, 4],
       [5, 5]])

### [특수한 벡터와 행렬]
영벡터: 모든 원소가 0인 n차원 벡터
일벡터: 모든 원소가 1인 n차원 벡터

영행렬: 모든 원소가 0인 행렬
일행렬: 모든 원소가 1인 행렬

정방행렬(정사각행렬, square matrix): 행의 개수, 열의 개수가 같은 행렬

대각행렬(diagonal matrix): 주 대각선을 제외한 모든 원소가 0인 행렬
                        : 모든 비대각요소(off-diagonal) 가 0인 정방행렬
                        : np.diag()
 - 단위 행렬(identity matrix): 대각 행렬 중에서 모든 대각요소(주요소)가 1인 대각 행렬
                            : np.identity(), np.eye()
대칭행렬(sysmetric matrix): 전치 연산을 통해 얻는 전치행렬과 원행렬이 같은 행렬 (정방행렬만 가능)



In [42]:
# 영행렬
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [43]:
# 일행렬
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [45]:
np.full((3,3), 100) # 3행 3열, 모든 원소가 100으로 행렬 만들기

array([[100, 100, 100],
       [100, 100, 100],
       [100, 100, 100]])

In [46]:
# 대각행렬 -> 주요소의 값은 따로 지정해줘야 함)
np.diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [47]:
# 대각행렬 - 단위행렬
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [49]:
np. identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### **[내적]**
- 합성곱: 모델이 데이터를 이해하는 핵심 연산
- 신경망 학습에서 입력과 가중치 연산
- 결과행렬은 앞 행렬의 행벡터와 뒤 행렬의 열벡터를 내적한 값을 스칼라로 가지는 행렬

In [53]:
# 행렬
x = np.array([[1,2],
              [3,4]]); x

array([[1, 2],
       [3, 4]])

In [54]:
# 벡터
v = np.array([9, 10]); v

array([ 9, 10])

In [55]:
# 내적
np.dot(v, x)

array([39, 58])

### **[브로드캐스팅(BroadCasting)]**
- 모양(shape)이 다른 배열들 간의 연산이 어떤 조건을 만족했을 때 가능하도록 배열을 자동적으로 변환하는 것
- 브로드캐스팅이 일어날 수 있는 조건
1. 차원의 크기가 1 즉, 스칼라면 가능
2. 차원의 크기가 1이 아니라면 차원의 짝이 맞는 조건이 필요(축의 길이가 같은 경우 등)

In [58]:
# 한 쪽이 스칼라인 경우 
x = np.array([[1,2],
              [3,4]])
y = 10
x + y

array([[11, 12],
       [13, 14]])

In [65]:
a = np.array([1,2,3,4])
b = np.array([1,2])
a + b

# 양쪽이 모두 배열인데 size가 달라

ValueError: operands could not be broadcast together with shapes (4,) (2,) 

In [66]:
x = np.arange(3) # [0, 1, 2]
y = 5
x + y

array([5, 6, 7])

In [67]:
x = np.ones((3,3)); x

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [74]:
# 양쪽 모두 배열인 경우(브로드캐스팅)
x

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [75]:
y = np.arange(3); y

array([0, 1, 2])

In [77]:
x + y # x와 y의 size가 다른 배열이지만 열의 크기가 동일하기 때문에 브로드캐스팅이 일어나 덧셈 가능

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

In [78]:
x = np.arange(3).reshape(3, 1); x

array([[0],
       [1],
       [2]])

In [79]:
x + y

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

In [None]:
# pandas는 데이터 조작 및 분석을 위해 python프로그래밍 언어로 작성된 소프트웨어 라이브러리
# csv, excel, json 등의 데이터를 읽고 원하는 데이터 형식으로 변환
# Series, DataFrame
# 데이터 -> 모델
