### 빅데이터 분석 절차

1. 데이터 수집(Data Collection)
2. 데이터 전처리(Data Preprocessing)
3. 탐색적 데이터 분석(EDA: Exploratory Data Analysis)
4. 모델 선택(Model Selecting)
5. 평가 및 적용(Evaluation & Application)

2,3 **
* 데이터 정제
* 결측치 / 이상치 처리
* 극단치 분석

* 데이터 스케일 맞추기(Feature Scalling)
* 더미 변수화(Dummification)
* 차원 축소(Dimensionality Reduction)

Numpy 개요

* numpy는 수치해석용 파이썬 패키지로 numerical python의 줄임말
* 다차원의 배열 자료구조 클래스인 ndarray 클래스를 지원
* 벡터와 행렬을 사용하는 선형대수 계산 사용

Numpy 특징
* numpy의 배열 연산은 c로 구현된 내부 반복문을 사용
* 파이썬 반복문에 비해 빠른 속도
* 벡터화 연산(vectorized operation)을 이용
* 간단한 코드로도 복잡한 선형 대수 연산을 수행
* 배열 인덱싱(array indexing)을 사용한 질의(query) 기능

데이터 분석에서 빠른 연산을 위해 자주 사용하는 기능
* 배열에서 데이터 변경, 정제, 부분 집합, 필터링의 빠른 수행
* 정렬, 유일 원소 찾기, 집합, 연산
* 통계 표현과 데이터의 수집/요약
* 여러 데이터의 병합, 데이터 정렬과 데이터 조작


In [6]:
import numpy as np

conda는 anaconda 자체적으로 패키지 관리를 해주는데
어떤건 conda install로 깔았다가 어떤건 pip로 설치하면 꼬이는 상황히 발생할 수 있다.

정리
1. 아나콘다 설치 conda쓰기
2. 어쩌다 conda로 안깔릴 때만 pip로 깔기

### 스칼라와 벡터

스칼라

- 하나의 숫자만으로 이루어진 데이터로 아래와 같이 표기


x -> R / x ㅌ R
 
벡터

- 벡터는 여러 개의 숫자가 특정한 순서대로 모여 있는 것으로 n개의 숫자가 모여 있으면 N-차원 벡터(n-dimensionalvector)로 아래와 같이 표기

 
x -> R^N / x ㅌ R^N


---

배열 array

numpy의 array라는 함수에 리스트[]를 넣으면 배열로 변환

In [8]:
arr = np.array([0,1,2,3,4,5,6,7,8,9])

In [9]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
type(arr)

numpy.ndarray

-> n 차원의 array

In [12]:
# array 의 형태(크기)를 확인
arr.shape

(10,)

In [13]:
# array 의 자료형을 확인
arr.dtype

dtype('int32')

In [14]:
a = 1

In [16]:
a.dtype

AttributeError: 'int' object has no attribute 'dtype'

벡터와 연산(vectorized operation)

In [18]:
data = [0,1,2,3,4,5,6,7,8,9]
x = np.array(data)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [19]:
2*x

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [20]:
a = np.array([1,2,3])
b = np.array([10,20,30])

In [21]:
a + b

array([11, 22, 33])

In [22]:
a1 = [1,2,3,4,]
b1 = [4,3,2,1,]

In [23]:
a1 + b1

[1, 2, 3, 4, 4, 3, 2, 1]

In [24]:
2*a+b

array([12, 24, 36])

In [25]:
b - a

array([ 9, 18, 27])

In [26]:
a - b

array([ -9, -18, -27])

In [27]:
# 조건(True, False) 연산

In [28]:
a == 2

array([False,  True, False])

In [29]:
b > 10

array([False,  True,  True])

In [30]:
(a==2)&(b>10)

array([False,  True, False])

2차원 배열

다차원 배열 자료 구조

2차원 배열은 행렬(matrix)로 행(row)과 열(column)로 구성

In [31]:
c = np.array([[0,1,2],[3,4,5]])

In [32]:
c

array([[0, 1, 2],
       [3, 4, 5]])

In [33]:
len(c)

2

In [34]:
len(c[0])

3

3 차원 배열
크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시한다.(행x열x깊이)

In [38]:
d = np.array([[[1,2,3,4],
              [5,6,7,8],
              [9,10,11,12]],
              [[15,16,17,18],
              [19,20,21,22]]])

In [39]:
d

array([list([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]),
       list([[15, 16, 17, 18], [19, 20, 21, 22]])], dtype=object)

In [40]:
len(d)

2

In [45]:
len(d[0])

3

In [46]:
len(d[0][0])

4

ndim 속성은 배열의 차원, shape속성은 배열의 크기를 반환

In [47]:
abc = np.array([1,2,3])

In [48]:
print(abc.ndim)

1


In [49]:
print(abc.shape)

(3,)


In [50]:
b.ndim

1

In [51]:
b.shape

(3,)

In [52]:
a = np.array([1,2,3,4])

In [53]:
a[2]

3

In [54]:
b = np.array([[0,1,2],[3,4,5]])
b

array([[0, 1, 2],
       [3, 4, 5]])

In [55]:
b[0,0]

0

In [56]:
b[0,1]

1

In [57]:
b[-1,-1]

5

In [59]:
b[-1,1]

4

In [60]:
b[-1,0]

3

배열의 불리안 인덱싱

불리안 배열 인덱싱 방식은 인덱스 배열의 원소가 True, False 두 값으로만 구성

인덱스 배열의 크기가 원래 ndarray 객체의 크기와 동일한 조건

예를 들어 1차원 ndarray에서 짝수인 원소만 골라내려면 짝수인 원소에 대응하는 인덱스 값이 True


In [61]:
a%2

array([1, 0, 1, 0], dtype=int32)

In [62]:
a % 2 == 0

array([False,  True, False,  True])

In [63]:
a[a % 2 == 0 ]

array([2, 4])

In [64]:
a

array([1, 2, 3, 4])

배열의 슬라이싱

배열 객체로 구현한 다차원 배열의 원소 중 복수 개를 선택

일반적인 파이썬의 슬라이싱(slicing)과 comma(,)를 함께 사용


In [65]:
a[0:]

array([1, 2, 3, 4])

In [66]:
a[:1]

array([1])

In [70]:
a

array([1, 2, 3, 4])

In [72]:
a[0,:]

IndexError: too many indices for array

In [74]:
a[:,1]

IndexError: too many indices for array

In [75]:
a[0:]

array([1, 2, 3, 4])

In [77]:
a[:1]

array([1])

In [85]:
a = np.array([[0,1,2,3],[3,4,5,6,7]])

In [81]:
a

array([1, 2, 3, 4])

In [86]:
a[0,:]

IndexError: too many indices for array

In [88]:
a[:,1]

IndexError: too many indices for array

In [84]:
a

array([1, 2, 3, 4])