# 1. Numpy

### Numpy란
- C언어 기반으로 내부 반복문 사용하여 속도가 빠름
- 다차원 배열(ndarray)을 편리하게 처리할 수 있음
- array vs list
 - array: 적은 메모리로 데이터 빠르게 처리, 모든 원소는 같은 자료형 가짐
 - list: 속도가 느림, 원소가 각각 다른 자료형 가질 수 있음

## 데이터 타입 종류

In [3]:
!pip install numpy

Collecting numpy
  Downloading numpy-1.19.4-cp38-cp38-win_amd64.whl (13.0 MB)
Installing collected packages: numpy
Successfully installed numpy-1.19.4


In [7]:
import numpy as np

data = [[1,2,3],[4,5,6],[7,8,9]]

a = np.array(data)
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [8]:
a.dtype

dtype('int32')

In [9]:
# int형을 float으로 변환
a = a.astype(np.float32)
a

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]], dtype=float32)

In [10]:
a.dtype

dtype('float32')

In [11]:
a[0][1]

2.0

In [12]:
a[0]

array([1., 2., 3.], dtype=float32)

In [13]:
# np.arange(start, stop, step) : step에 따라 증가하는 수열 생성
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

In [14]:
# reshape: 만들어진 배열의 데이터를 가지고 형태를 바꿔줌
np.arange(1, 10).reshape(3,3)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [15]:
np.arange(1,13).reshape(3,2,2)

array([[[ 1,  2],
        [ 3,  4]],

       [[ 5,  6],
        [ 7,  8]],

       [[ 9, 10],
        [11, 12]]])

In [16]:
# nan: 자료형이 float이므로 integer에서는 오류 발생
# 배열에서 연산할 경우 오류가 발생하지는 않지만, 결과값은 Nan이 됨

np.nan * 10

nan

In [17]:
a[0][1] = np.nan
a

array([[ 1., nan,  3.],
       [ 4.,  5.,  6.],
       [ 7.,  8.,  9.]], dtype=float32)

In [20]:
a = np.arange(1, 10).reshape(3,3)
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [21]:
# 위에서 a를 float에서 integer로 reshape 했음
# integer에서는 nan을 사용할 수 없으므로, 아래 코드는 에러
a[0][1] = np.nan
a

ValueError: cannot convert float NaN to integer

In [29]:
# start부터 stop까지 일정한 간격으로 num개의 숫자를 가져오기
a = np.linspace(1,10, 20) #(start, stop, num) 
a

array([ 1.        ,  1.47368421,  1.94736842,  2.42105263,  2.89473684,
        3.36842105,  3.84210526,  4.31578947,  4.78947368,  5.26315789,
        5.73684211,  6.21052632,  6.68421053,  7.15789474,  7.63157895,
        8.10526316,  8.57894737,  9.05263158,  9.52631579, 10.        ])

## 연산

In [30]:
# 반복문을 사용하지 않아도 배열의 모든 원소는 반복 연산 가능
data = np.arange(1,10).reshape(3,3)
data

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [31]:
data + data

array([[ 2,  4,  6],
       [ 8, 10, 12],
       [14, 16, 18]])

In [33]:
# 리스트끼리 더하면 연결됨
[1,2,3] + [4,5,6]

[1, 2, 3, 4, 5, 6]

In [34]:
data - data

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [35]:
data * data

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

In [40]:
data

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [36]:
# 행렬 곱 구하기 - A
np.dot(data, data)

array([[ 30,  36,  42],
       [ 66,  81,  96],
       [102, 126, 150]])

In [39]:
# 행렬 곱 구하기 - B
data@data

array([[ 30,  36,  42],
       [ 66,  81,  96],
       [102, 126, 150]])

In [44]:
b = np.arange(1,5).reshape(2,2)
b

array([[1, 2],
       [3, 4]])

In [45]:
# 행렬 곱 구하기 - A
np.dot(b,b)

array([[ 7, 10],
       [15, 22]])

In [46]:
# 행렬 곱 구하기 - B
b@b

array([[ 7, 10],
       [15, 22]])

## 차원

In [47]:
# 0차원: Scalar (하나의 데이터 값만으로 존재)
# 1차원: Vector (숫자들의 배열(1D array))
# 2차원: Matrix (숫자들의 2D array)
# 3차원 이상: Tensor (숫자들의 다차원 배열)

# shape: 각 차원의 크기를 튜플로 표시하는 것
#    rows: 2 / columns: 3 --> (2,3)

In [48]:
# 0차원
a = np.array(1)
print(a)
print(a.shape)
print(a.ndim)

1
()
0


In [52]:
# 1차원
a = np.array([1])
print(a)
print(a.shape)
print(a.ndim)

print('---------')

a = np.array([1,2,3,4,5])
print(a)
print(a.shape)
print(a.ndim)

[1]
(1,)
1
---------
[1 2 3 4 5]
(5,)
1


In [54]:
# 2차원
a = np.array([[1,2,3], [4,5,6]])
print(a)
print(a.shape)
print(a.ndim)

[[1 2 3]
 [4 5 6]]
(2, 3)
2


In [55]:
# 2차원 
a = np.array([[1]])
print(a)
print(a.shape)
print(a.ndim)

[[1]]
(1, 1)
2


In [56]:
# 3차원
a = np.array([[[1,2], [3,4], [5,6]], [[7,8], [9,10], [11,12]]])
print(a)
print(a.shape)
print(a.ndim)

[[[ 1  2]
  [ 3  4]
  [ 5  6]]

 [[ 7  8]
  [ 9 10]
  [11 12]]]
(2, 3, 2)
3


## matrix 유형

In [57]:
# zeros: 0으로 초기화된 배열 생성
# ones: 1로 초기화 된 배열 생성
# eye: 주대각선의 원소가 모두 1이고 나머지 원소는 0인 정사각행렬 (단위행렬)
# empty: 초기화 하지 않고 배열만 생성, 기존에 메모리에 저장되어 있는 값으로 나타남
# full: 지정한 숫자로 초기화
# linespace(start, end(포함), number, endpoint=): 선형 구간을 지정한 개수만큼 분할한다.
    # endpoind = True/false: 마지막 값을 포함시킬지 시키지 않을지 선택   

In [58]:
a = np.arange(12).reshape(2,3,2)
a

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [59]:
b = np.ones(12)
b

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [60]:
b = np.ones(12).reshape(2,3,2)
b

array([[[1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.]]])

In [61]:
c = np.zeros(12).reshape(2,3,2)
c

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [62]:
# eye:주대각선의 원소가 모두 1이고 나머지 원소는 0인 정사각행렬 (단위행렬)
d = np.eye(3)
d

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [64]:
e = np.zeros([3,4])
e

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [68]:
# 신기하네... 3개 세트, 4행 2열
e = np.zeros([3,4,2])
e

array([[[0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.]]])

In [69]:
e = np.zeros([2,3,7])
e

array([[[0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0.]]])

In [73]:
f = np.empty([2,3])
f

array([[0., 0., 0.],
       [0., 0., 0.]])

In [75]:
g = np.full ((3,4), 100)
g

array([[100, 100, 100, 100],
       [100, 100, 100, 100],
       [100, 100, 100, 100]])

In [79]:
h = np.linspace(2, 10, 6)
h

array([ 2. ,  3.6,  5.2,  6.8,  8.4, 10. ])

## 집계함수

In [80]:
a = np.arange(10).reshape(2,5)
a

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [81]:
a[0][0]=100
a

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9]])

In [82]:
a[0,1] = 1000
a

array([[ 100, 1000,    2,    3,    4],
       [   5,    6,    7,    8,    9]])

In [83]:
np.mean(a)

114.4

In [84]:
np.median(a)

6.5

In [85]:
# 표준편차
np.std(a)

296.5485457728633

In [86]:
# 분산
np.var(a)

87941.04

In [87]:
np.sum(a)

1144

In [91]:
a

array([[ 100, 1000,    2,    3,    4],
       [   5,    6,    7,    8,    9]])

In [88]:
sum(a)

array([ 105, 1006,    9,   11,   13])

In [89]:
# axis = 0: 각 컬럼의 합
# 1컬럼: 100 + 5 = 105
# 2컬럼: 1000 + 6 = 1006 ....
np.sum(a, axis = 0)

array([ 105, 1006,    9,   11,   13])

In [90]:
# axis = 1: 각 로우의 합
# 1로우: 100 + 1000 + 2 + 3 + 4 = 1109
# 2로우: 5 + 6 + 7 + 8 + 9 = 35
np.sum(a, axis = 1)

array([1109,   35])

In [93]:
print(np.max(a))
print(np.min(a))

1000
2


# 2. Pandas

### Pandas란
- 데이터 분석할 때 가장 많이 사용
- 행과 열을 쉽게 처리할 수 있는 함수를 제공
 - 단, 각 열은 단일 데이터 형식만 저장
- Numpy보다 유연하게 수치 연산 가능

In [94]:
!pip install pandas

Collecting pandas
  Downloading pandas-1.1.4-cp38-cp38-win_amd64.whl (8.9 MB)
Collecting pytz>=2017.2
  Using cached pytz-2020.4-py2.py3-none-any.whl (509 kB)
Installing collected packages: pytz, pandas
Successfully installed pandas-1.1.4 pytz-2020.4


In [96]:
import pandas as pd

pd.__version__

# pd?  <-- 해당 명령어 입력 시 Pandas에 대한 설명을 보여줌

'1.1.4'

## Series

- index와 values로 이루어진 1차원 배열
- 모든 유형의 데이터 보유 가능
- 인덱스 지정할 수 있음
- 인덱스 길이는 데이터의 길이와 같아야 함
- 명시적 인덱스와 암묵적 인덱스를 가짐
 - loc: 인덱스값을 기반으로 행 데이터를 읽음
 - iloc: 정수 인덱스를 기반으로 행 데이터를 읽음

In [98]:
data = np.arange(0, 50, 10) # np.arange(start, stop, step) 
data

array([ 0, 10, 20, 30, 40])

In [99]:
# 명시적 인덱스
a = pd.Series(data, index=['a', 'b', 'c', 'd', 'e'])
print(a)

a     0
b    10
c    20
d    30
e    40
dtype: int32


In [100]:
# 암묵적 인덱스
b = pd.Series(data)
b

0     0
1    10
2    20
3    30
4    40
dtype: int32

In [101]:
a['b']

10

In [102]:
# 명시적 인덱스
a.loc['b']

10

In [103]:
# 암묵적 인덱스
a.iloc[1]

10

## 산술연산

In [104]:
a

a     0
b    10
c    20
d    30
e    40
dtype: int32

In [105]:
a + 10

a    10
b    20
c    30
d    40
e    50
dtype: int32

In [106]:
a * 10

a      0
b    100
c    200
d    300
e    400
dtype: int32

## 비교 연산자

In [108]:
a

a     0
b    10
c    20
d    30
e    40
dtype: int32

In [109]:
a > 15

a    False
b    False
c     True
d     True
e     True
dtype: bool

In [110]:
a[a>15]

c    20
d    30
e    40
dtype: int32

## 집계함수

- add, sub, mul, div, mod, min, max, mean, median, std(표준편차), var(분산)

In [111]:
a.add(100)

a    100
b    110
c    120
d    130
e    140
dtype: int32

In [113]:
print(a.min())
print(a.max())

0
40


## DataFrame

- 2차원 배열에 행과 열에 인덱스를 붙인 건
- 가장 기본적인 데이터 구조