## numpy

### numpy의 특징
- 과학 계산을 위한 라이브러리
- 행렬/배열 처리 및 연산
- 난수 생성

### 배열의 생성
1. 리스트에서 행렬 배열 생성

In [2]:
import numpy as np # numpy 패키지 로드하여 np로 사용
a=[[1,2,3],[4,5,6]] # 리스트에서 행렬생성
b=np.array(a)
print(b)

[[1 2 3]
 [4 5 6]]


2. 1차원 배열 만들기

In [3]:
ar = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]:
type(ar)

numpy.ndarray

3. 벡터화 연산
- 배열 객체는 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리

In [5]:
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [6]:
answer=[]
for di in data:
    answer.append(2*di)
answer

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

- 벡터화 연산, 반복문보다 빠름

In [7]:
x=np.array(data)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [8]:
x*2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [9]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

- 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [10]:
2*a+b

array([12, 24, 36])

In [11]:
a==2

array([False,  True, False])

In [12]:
b>10

array([False,  True,  True])

In [13]:
(a==2) & (b>10)

array([False,  True, False])

4. 2차원 배열 만들기

- ndarray 는 N-dimensional Array 약자
- 다차원 배열 자료 구조
-  2차원 배열은 행렬(matrix)
   -  가로줄: 행(row)
   -  세로줄: 열(column)
- 리스트의 리스트(list of list)를 이용하면 2차원 배열을 생성
  - 안쪽 리스트 : 열의 수 즉, 가로 크기
  - 바깥족 리스트 : 행의 수, 즉 세로 크기

In [14]:
c=np.array([[1,2,3],[4,5,6]]) # 2행 3열 배열 array
c

array([[1, 2, 3],
       [4, 5, 6]])

- 2차원 배열의 행과 열의 갯수

In [15]:
# 행의 갯수
len(c)

2

In [16]:
# 열의 갯수
len(c[0])

3

- 3차원 배열의 행과 열의 갯수
  - 리스트의 리스트의 리스트를 이용하면 3차원 배열도 생성
  - 크기 : 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서

In [17]:
d = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])   # 2 x 3 x 4 array

- 3차원의 깊이 행 열

In [18]:
len(d), len(d[0]), len(d[0][0])

(2, 3, 4)

5. 배열의 차원과 크기 알아내기
 - ndim : 배열의 차원
 - shape : 배열의 크기

In [19]:
a = np.array([1, 2, 3])
print(a.ndim)
print(a.shape)

1
(3,)


In [20]:
c = np.array([[0, 1, 2], [3, 4, 5]])
print(c.ndim)
print(c.shape)

2
(2, 3)


6. 배열의 인덱싱
 - 1차원

In [21]:
a = np.array([0, 1, 2, 3, 4])

In [22]:
a[2]

2

In [23]:
a[-4]

1

- 다차원
  - 콤마(comma ,)를 사용하여 접근
  - 축(axis) : 콤마로 구분된 차원

In [24]:
a = np.array([[0, 1, 2], [3, 4, 5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

In [25]:
a[0,0] # 첫번째 행의 첫번째 열

0

In [26]:
a[1,2] # 마지막 행의 마지막 열
a[-1,-1] # 마지막 행의 마지막 열

5

- 배열 슬라이싱
  - 다차원 배열의 원소 중 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용

In [27]:
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [28]:
a[0,:] # 첫번째 행 전체

array([0, 1, 2, 3])

In [29]:
a[:,1] # 두번째 열 전체

array([1, 5])

In [30]:
a[1,1:] # 두번째 행의 두번째 열부터 끝까지

array([5, 6, 7])

In [31]:
a[:2, :2] # 첫번째 열부터 두번째 행까지

array([[0, 1],
       [4, 5]])

In [32]:
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
a[1][1] # 재귀적 접근, 두번째행 두번째 열

5

- 배열 인덱싱
  - 데이터베이스의 질의(Query) 기능을 수행
  - 불리언(Boolean) 배열 방식과 정수 배열 방식 두가지
    - 불리언 : 인덱스 배열의 원소가 True, False 두 값으로만 구성,
               인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같음  
    - 정수:
- 인덱스 배열
  - 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또 다른 ndarray 배열

In [33]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx=np.array([True, False, True, False, True, False, True, False, True, False])
a[idx] # True인 값들만 나옴

array([0, 2, 4, 6, 8])

In [34]:
a[[True, False, True, False, True, False, True, False, True, False]]

array([0, 2, 4, 6, 8])

- 조건문 연산

In [35]:
a%2

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1], dtype=int32)

In [36]:
a%2==0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [37]:
a[a%2==0]

array([0, 2, 4, 6, 8])

- 인덱스 배열의 원소 각각이 원래 ndarray 객체 원소 하나를 가리키는 인덱스 정수여야 함

In [41]:
# 1차원 배열에서 홀수번째 원소만 찾기
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 2, 4, 6, 8]) # 인덱스 위치임 확인 잘 할 것
a[idx]

array([11, 33, 55, 77, 99])

- 배열 인덱스의 크기가 원래의 배열 크기와 달라도 상관없음.
- 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 함

In [42]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2]) # 같은 인덱스 여러번 기리키기
a[idx]

array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

- 다차원 인덱싱

In [43]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [44]:
a[:, [True, False, False, True]] # 모든 행을 선택하고, 첫번째, 네번째 열만 포함된 배열 생성

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

### 배열의 생성과 
1. numpy의 자료형
- ndarray(numpy의 배열)클래스는 원소가 모두 같은 자료형이어야 함
- dtype : 자료형 속성보기

In [45]:
x=np.array([1,2,3])
x.dtype

dtype('int32')

In [46]:
x=np.array([1.0,2.0,3.0])
x.dtype

dtype('float64')

In [47]:
x=np.array([1,2,3.0]) # 정수와 실수가 함께있는 경우 더 넓은 범위의 타입으로 변환
x.dtype

dtype('float64')

In [48]:
x=np.array([1,2,3])
x.dtype

dtype('int32')

In [49]:
x=np.array([1,2,3],dtype='f') # 타입을 지정 가능
x.dtype

dtype('float32')

In [50]:
x[0] + x[1] # 지정된 타입 실수형으로 계산

3.0

2. Inf와 NaN
- np.inf : 무한대 숫자 표현
- np.nan : 정의할 수 없는 숫자

In [51]:
np.array([0,1,-1,0])/np.array([1,0,0,0])

  np.array([0,1,-1,0])/np.array([1,0,0,0])
  np.array([0,1,-1,0])/np.array([1,0,0,0])


array([  0.,  inf, -inf,  nan])

In [52]:
np.log(0)

  np.log(0)


-inf

In [54]:
np.exp(-np.inf) # -np.inf : 음의 무한대
# exp: 자연상수(e, 약 2.71828)를 거듭제곱한 값을 계산하는 함수

0.0

3. 배열 생성

- zeros, ones
  - 크기가 정해져 있고 모든 값이 0인 배열을 생성

In [55]:
a=np.zeros(5) # 모든 값이 0인 1차원 배열생성
a

array([0., 0., 0., 0., 0.])

In [57]:
# 튜플을 입력하면 다차원 배열
b=np.zeros((2,3)) # 모든 값이 0인 2행 3열
b

array([[0., 0., 0.],
       [0., 0., 0.]])

In [60]:
# dtype인수를 명시하면 해당 자료형 원소를 가진 배열 만듬
c = np.zeros((5, 2), dtype="i")
c

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

- ones
  - 1로 초기화된 배열 생성

In [61]:
e=np.ones((2,3))
e

array([[1., 1., 1.],
       [1., 1., 1.]])

- ones_like, zeros_like 
  - 크기를 튜플로 명시하지 않고 다른 배열과 같은 크기의 배열을 생성하고 싶다면 사용

In [62]:
f=np.zeros_like(b,dtype='f')
f

array([[0., 0., 0.],
       [0., 0., 0.]], dtype=float32)

- empty
  - 배열을 생성만 하고 특정한 값으로 초기화를 하지 않음
  -  empty 명령으로 생성된 배열에는 기존에 메모리에 저장되어 있던 값이 있으므로 배열의 원소의 값을 미리 알 수 없음

In [63]:
g=np.empty((3,4))
g

array([[1.39073560e-311, 3.16202013e-322, 0.00000000e+000,
        0.00000000e+000],
       [1.06099790e-312, 6.12267126e+169, 5.10407593e-066,
        9.51972155e-047],
       [1.43260001e+161, 1.54800972e+185, 7.16797668e-038,
        3.12226990e-033]])

- arange
  - NumPy 버전의 range 명령으로 특별한 규칙에 따라 증가하는 수열을 만듬

In [65]:
np.arange(10) # 0 ~ n-1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [67]:
np.arange(1,21,2) # 시작, 끝(끝숫자포함X), 단계

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19])

- linspace,logspace
  - 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할

In [68]:
np.linspace(0,100,5) # 시작, 끝(끝숫자포함), 갯수

array([  0.,  25.,  50.,  75., 100.])

In [71]:
np.logspace(0.1,10,10) # 로그 스케일에서 0.1과 1 사이에 균등하게 분포된 10개의 값

array([1.25892541e+00, 1.58489319e+01, 1.99526231e+02, 2.51188643e+03,
       3.16227766e+04, 3.98107171e+05, 5.01187234e+06, 6.30957344e+07,
       7.94328235e+08, 1.00000000e+10])

4. 전치 연산
- T속성으로 구할 수 있음
- 2차원 배열의 전치(transpose) 연산은 행과 열을 바꾸는 작업

In [72]:
A=np.array([[1,2,3],[4,5,6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [73]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

5. 배열의 크기 변형
https://datascienceschool.net/01%20python/03.02%20%EB%B0%B0%EC%97%B4%EC%9D%98%20%EC%83%9D%EC%84%B1%EA%B3%BC%20%EB%B3%80%ED%98%95.html

## Pandas

### pandas 정의
- 불러오기
  - import pandas as pd
- 파일 읽기
  - df = pd.read_csv('파일이름.csv')
  - 한글깨짐방지 : encoding='utf-8'

### 데이터구조
#### 시리즈
  - pd.Series
  - 열(column)이 한개인 표

#### DataFrame
  - 행,열이 여러개인 표 모양
  - 딕셔너리, Matrix

https://datascienceschool.net/01%20python/03.01%20%EB%84%98%ED%8C%8C%EC%9D%B4%20%EB%B0%B0%EC%97%B4.html

#### DataFrame 함수