## Numpy 개요
* Numerical Python extensions  
* 수치해석용 Python 패키지  
* ndarray라는 행렬 자료형을 통해 빠른 연산 가능  
* 데이터 분석 파이썬 패키지들의 기초가 됨
  
### 행렬 생성


In [5]:
import numpy as np

# List로 부터

a = np.array([1, 2])
print(a, end="\n\n")

a = np.array([[3, 4, 5], [6, 7, 8]])
print(a, end="\n\n")

# 함수를 사용

a = np.zeros((3, 2))
print(a, end="\n\n")

a = np.ones((3, 2))
print(a, end="\n\n")

[1 2]

[[3 4 5]
 [6 7 8]]

[[0. 0.]
 [0. 0.]
 [0. 0.]]

[[1. 1.]
 [1. 1.]
 [1. 1.]]



In [6]:
# 단위 행렬

a = np.identity(3)
print(a)
print("=============")

# np.arange(시작, 끝-미포함, 건너뛰기)

a = np.arange(10, 20, 2)
print(a)
print("=============")

# np.linspace(시작, 끝-포함, 몇등분): 각 요소들이 동일한 간격을 갖도록 생성
a = np.linspace(0, 5, 5)
print(a)
print("=============")
a = np.linspace(0, 5, 2)
print(a)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[10 12 14 16 18]
[0.   1.25 2.5  3.75 5.  ]
[0. 5.]


#### 행렬의 높이/너비 조절
* 값이 들어있는 기존의 행렬의 직사각형 모양을 변형
* 인자 중 하나에 -1을 넣을 수 있음. 그러면 자동으로 해당 행/열 크기가 계산됨  
* 약수가 아닌 수를 넣으면 당연히 에러남  


In [7]:
a = np.arange(12)
print(a)
print("=============")
a = a.reshape(2, 6)
print(a)
print("=============")
a = a.reshape(4, -1)
print(a)
print("=============")
a = a.reshape(-1, 4)
print(a)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


#### 전치행렬

In [8]:
a = np.arange(1, 7).reshape(2, 3)
print(a)
print(a.transpose())
print(np.transpose(a))
print(np.transpose(a).transpose())
print("=============")
print(a.dot(a.T))

[[1 2 3]
 [4 5 6]]
[[1 4]
 [2 5]
 [3 6]]
[[1 4]
 [2 5]
 [3 6]]
[[1 2 3]
 [4 5 6]]
[[14 32]
 [32 77]]


#### 행렬 연산  
* 행렬과 숫자 간 연산 : 행렬 내 각 요소들과 숫자 사이에 연산이 된다.

In [9]:
a = np.arange(0, 12).reshape(3, -1)
print(a)
print(a+2)
print(a**2)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 2  3  4  5]
 [ 6  7  8  9]
 [10 11 12 13]]
[[  0   1   4   9]
 [ 16  25  36  49]
 [ 64  81 100 121]]


#### 행렬 간 연산 : 모양이 동일한 행렬이면 각 원소끼리 연산됨

In [10]:
a = np.array([[1, 1], [0, 1]])
b = np.array([[2, 1], [3, 4]])

print(a+b)
print(a-b)
print(a*b)
print(a/b)

[[3 2]
 [3 5]]
[[-1  0]
 [-3 -3]]
[[2 1]
 [0 4]]
[[0.5  1.  ]
 [0.   0.25]]


#### 행렬 곱셈 : a @ b 또는 a.dot(b) 또는 np.dot(a, b) 사용

In [11]:
print(a @ b)
print(a.dot(b))
print(np.dot(a, b))

[[5 5]
 [3 4]]
[[5 5]
 [3 4]]
[[5 5]
 [3 4]]


#### 역행렬(inverse matrix)
: numpy 내의 선형대수 패키지(linalg : linear algebra) 사용

In [12]:
c = np.linalg.inv(a)
print(a)
print(c)
print(a.dot(c))

[[1 1]
 [0 1]]
[[ 1. -1.]
 [ 0.  1.]]
[[1. 0.]
 [0. 1.]]


#### 행렬식(determinant)
: numpy 내의 선형대수 패키지(linalg : linear algebra) 사용


In [13]:
print(np.linalg.det(a))
print(np.linalg.det(b))

1.0
5.000000000000001


#### 대소 비교

In [14]:
a = np.arange(0, 12).reshape(3, -1)
print(a)
print(a > 5)
print(a==3)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]
[[False False False  True]
 [False False False False]
 [False False False False]]


## 행렬 자르기
* 첫 시간 문자열 자르기와 동일  
: index(순서)는 1이 아닌 0부터 시작

In [15]:
str = 'i am hungry'
print(str[-2])
print(str[7])
print(str[:3])
print(str[7:])
print(str[2:-3])
print(str[::3])


r
n
i a
ngry
am hun
imur


In [16]:
a = np.arange(12)
print(a[2::])
print(a[::3])

[ 2  3  4  5  6  7  8  9 10 11]
[0 3 6 9]


In [17]:
# 2차원 자르기

a = np.arange(24).reshape(4, -1)
print(a, end="\n\n")
print(a[0:2,:])
print("")
print(a[: :2, ::])
print("")
print(a[: : , 0:3 : 1])
print("")
print(a[: ,2: : 2])

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]

[[ 0  1  2  3  4  5]
 [12 13 14 15 16 17]]

[[ 0  1  2]
 [ 6  7  8]
 [12 13 14]
 [18 19 20]]

[[ 2  4]
 [ 8 10]
 [14 16]
 [20 22]]


In [18]:
print(a[: : 2, 2:5 :3])
print(a[1: :2, :3 :2])

[[ 2]
 [14]]
[[ 6  8]
 [18 20]]


## 실습 
A 행렬을 만들고 요소들만 갖도록 표현하기

In [19]:
A = np.arange(11, 35).reshape(4, -1)
A

array([[11, 12, 13, 14, 15, 16],
       [17, 18, 19, 20, 21, 22],
       [23, 24, 25, 26, 27, 28],
       [29, 30, 31, 32, 33, 34]])

In [20]:
# 1 
print(A[:2, 3:])

[[14 15 16]
 [20 21 22]]


In [21]:
# 2 
print(A[::2])

[[11 12 13 14 15 16]
 [23 24 25 26 27 28]]


In [22]:
#3
print(A[::, 4:5])

[[15]
 [21]
 [27]
 [33]]


In [23]:
#4
print(A[::, 1: : 3])

[[12 15]
 [18 21]
 [24 27]
 [30 33]]


In [24]:
# 5 
print(A[::2, 1::2])

[[12 14 16]
 [24 26 28]]


## Pandas
* 쉽게 사용 가능한 자료 구조를 지님
* 자료들 간 빠른 연산 속도 및 데이터 분석 가능
* DB 테이블, 또는 엑셀 파일과 같은 테이블 형태의 데이터를 다룸
* 데이터에 레이블을 붙여서 가독성을 높임

### Series : 1차원 데이터 + index


In [25]:
#  List로부터 생성 : index는 자동으로 생성됨

import pandas as pd

rawData = [3, 5, 10, 2]
print(rawData)
data = pd.Series(rawData)
print(data)
print(data.get(2))
print(data[2])


[3, 5, 10, 2]
0     3
1     5
2    10
3     2
dtype: int64
10
10


In [26]:
# Dictionary로부터 생성 : key들은 index, value들이 데이터로 들어감

rawData = {"치킨스테이크":3, "비프스테이크":5, "삼겹살스테이크":10, "함박스테이크":2}
print(rawData)
data = pd.Series(rawData)
print(data)
print(data.get(2))
print(data[2])
print(data.get("함박스테이크"))
print(data["비프스테이크"])

{'치킨스테이크': 3, '비프스테이크': 5, '삼겹살스테이크': 10, '함박스테이크': 2}
치킨스테이크      3
비프스테이크      5
삼겹살스테이크    10
함박스테이크      2
dtype: int64
10
10
2
5


In [27]:
# List로부터 생성 + index 직접 부여

rawData = [3, 5, 10, 2]
data = pd.Series(rawData, index=['a', 'b', 'c', 'd'])
print(data)
print(data[2])
print(data["c"])
print(data.get(2))
print(data.get("c"))

a     3
b     5
c    10
d     2
dtype: int64
10
10
10
10


## DataFrame 
### : Series들이 모인 2차원 데이터


In [28]:
# List로부터 생성

aL = [1, 2, 3, 4]
bL = [5, 6, 7, 8]
cL = [4, 3, 2, 1]
scoreType = ["과제1","과제2","과제3","기말"]
students = ["양용","용석","석양"]

abc = pd.DataFrame((aL, bL, cL), columns=scoreType, index=students)
print(abc)

    과제1  과제2  과제3  기말
양용    1    2    3   4
용석    5    6    7   8
석양    4    3    2   1


In [29]:
df = pd.DataFrame((aL, bL, cL))
display(df)

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8
2,4,3,2,1


In [30]:
# 여러 개의 Series로부터 생성

aS = pd.Series(aL, index=scoreType)
bS = pd.Series(bL, index=scoreType)
cS = pd.Series(cL, index=scoreType)
abc = pd.DataFrame((aS, bS, cS), index=students)
display(abc)

Unnamed: 0,과제1,과제2,과제3,기말
양용,1,2,3,4
용석,5,6,7,8
석양,4,3,2,1


In [31]:
# 비어있는 데이터를 넣으면?

dL = [4, 5, 6]
dS = pd.Series(dL, index=["과제2","과제3", "기말"])
abc = pd.DataFrame((aS, bS, cS, dS), index=["양용","용석","석양","날라리"])
display(abc)

Unnamed: 0,과제1,과제2,과제3,기말
양용,1.0,2.0,3.0,4.0
용석,5.0,6.0,7.0,8.0
석양,4.0,3.0,2.0,1.0
날라리,,4.0,5.0,6.0
