## numpy

### numpy의 특징
- 과학 계산을 위한 라이브러리
- 행렬/배열 처리 및 연산
- 난수 생성

### 배열의 생성
1. 리스트에서 행렬 배열 생성

In [16]:
import numpy as np # numpy 패키지 로드하여 np로 사용
a=[[1,2,3],[4,5,6]] # 리스트에서 행렬생성
b=np.array(a)
print(b)

[[1 2 3]
 [4 5 6]]


2. 1차원 배열 만들기

In [4]:
ar = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
type(ar)

numpy.ndarray

3. 벡터화 연산
- 배열 객체는 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리

In [6]:
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [7]:
answer=[]
for di in data:
    answer.append(2*di)
answer

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

- 벡터화 연산, 반복문보다 빠름

In [8]:
x=np.array(data)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [9]:
x*2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [10]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

- 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [11]:
2*a+b

array([12, 24, 36])

In [12]:
a==2

array([False,  True, False])

In [13]:
b>10

array([False,  True,  True])

In [14]:
(a==2) & (b>10)

array([False,  True, False])

4. 2차원 배열 만들기

- ndarray 는 N-dimensional Array 약자
- 다차원 배열 자료 구조
-  2차원 배열은 행렬(matrix)
   -  가로줄: 행(row)
   -  세로줄: 열(column)
- 리스트의 리스트(list of list)를 이용하면 2차원 배열을 생성
  - 안쪽 리스트 : 열의 수 즉, 가로 크기
  - 바깥족 리스트 : 행의 수, 즉 세로 크기

In [18]:
c=np.array([[1,2,3],[4,5,6]]) # 2행 3열 배열 array
c

array([[1, 2, 3],
       [4, 5, 6]])

- 2차원 배열의 행과 열의 갯수

In [19]:
# 행의 갯수
len(c)

2

In [20]:
# 열의 갯수
len(c[0])

3

- 3차원 배열의 행과 열의 갯수
  - 리스트의 리스트의 리스트를 이용하면 3차원 배열도 생성
  - 크기 : 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서

In [23]:
d = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])   # 2 x 3 x 4 array

- 3차원의 깊이 행 열

In [24]:
len(d), len(d[0]), len(d[0][0])

(2, 3, 4)

5. 배열의 차원과 크기 알아내기
 - ndim : 배열의 차원
 - shape : 배열의 크기

In [27]:
a = np.array([1, 2, 3])
print(a.ndim)
print(a.shape)

1
(3,)


In [32]:
c = np.array([[0, 1, 2], [3, 4, 5]])
print(c.ndim)
print(c.shape)

2
(2, 3)


6. 배열의 인덱싱
 - 1차원

In [38]:
a = np.array([0, 1, 2, 3, 4])

In [34]:
a[2]

2

In [36]:
a[-4]

1

- 다차원
  - 콤마(comma ,)를 사용하여 접근
  - 축(axis) : 콤마로 구분된 차원

In [41]:
a = np.array([[0, 1, 2], [3, 4, 5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

In [42]:
a[0,0] # 첫번째 행의 첫번째 열

0

In [47]:
a[1,2] # 마지막 행의 마지막 열
a[-1,-1] # 마지막 행의 마지막 열

5

- 배열 슬라이싱
  - 다차원 배열의 원소 중 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용

In [48]:
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [50]:
a[0,:] # 첫번째 행 전체

array([0, 1, 2, 3])

In [53]:
a[:,1] # 두번째 열 전체

array([1, 5])

In [54]:
a[1,1:] # 두번째 행의 두번째 열부터 끝까지

array([5, 6, 7])

In [55]:
a[:2, :2] # 첫번째 열부터 두번째 행까지

array([[0, 1],
       [4, 5]])

In [65]:
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
a[1][1] # 재귀적 접근, 두번째행 두번째 열

5

- 배열 인덱싱
  - 데이터베이스의 질의(Query) 기능을 수행
  - 불리언(Boolean) 배열 방식과 정수 배열 방식 두가지
    - 불리언 : 인덱스 배열의 원소가 True, False 두 값으로만 구성,
               인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같음  
    - 정수:
- 인덱스 배열
  - 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또 다른 ndarray 배열

In [62]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx=np.array([True, False, True, False, True, False, True, False, True, False])
a[idx] # True인 값들만 나옴

array([0, 2, 4, 6, 8])

In [63]:
a[[True, False, True, False, True, False, True, False, True, False]]

array([0, 2, 4, 6, 8])

## Pandas

### pandas 정의
- 불러오기
  - import pandas as pd
- 파일 읽기
  - df = pd.read_csv('파일이름.csv')
  - 한글깨짐방지 : encoding='utf-8'

### 데이터구조
#### 시리즈
  - pd.Series
  - 열(column)이 한개인 표

#### DataFrame
  - 행,열이 여러개인 표 모양
  - 딕셔너리, Matrix

https://datascienceschool.net/01%20python/03.01%20%EB%84%98%ED%8C%8C%EC%9D%B4%20%EB%B0%B0%EC%97%B4.html

#### DataFrame 함수