# 넘파이(Numpy)
## 넘파이 - 넘파이 모듈 가져오기

In [None]:
import numpy as np

## 넘파이 - 넘파이 배열 생성하기
**넘파이 배열**을 만들 때는 ```np.array()```메서드를 이용합니다. ```np.array() ```메서드는 파이썬 리스트를 인수로 받아 넘파이 라이브러리가 제공하는 특수한 형태의 배열(numpy.ndarray)을 반환합니다. 

In [None]:
x = np.array([1.0, 2.0, 3.0])
print(x)
print( type(x) )

[1. 2. 3.]
<class 'numpy.ndarray'>


## 넘파이 - 넘파이의 산술 연산


In [None]:
x = np.array([10.0, 8.0, 15.0])
y = np.array([5.0, 4.0, 5.0])
print('x + y = {}'.format(x+y))     # 원소별로 덧셈(element-wise product)을 수행함
print('x - y = {}'.format(x-y))
print('x * y = {}'.format(x*y))
print('x / y = {}'.format(x/y))

x + y = [15. 12. 20.]
x - y = [ 5.  4. 10.]
x * y = [50. 32. 75.]
x / y = [2. 2. 3.]


넘파이 배열은 원소별 계산뿐만 아니라 넘파이 배열과 수치 하나(스칼라값)의 조합으로된 산술 연산도 수행할 수 있습니다. 이 경우 스칼라 값과의 계산이 넘파이 배열 요소별로 한 번씩 수행됩니다. 이 기능을 **브로드캐스트**라고 합니다.

In [None]:
print('x = {}'.format(x))
x = x / 2
print('x/2 = {}'.format(x))

x = [10.  8. 15.]
x/2 = [5.  4.  7.5]


## 넘파이 - 넘파이 N차원 배열
넘파이는 1차원 배열(한 줄로 늘어선 배열)뿐만 아니라 다차원 배열도 작성할 수 있습니다.  

In [None]:
A = np.array([[1, 2], [3, 4]])
print('A = \n', A) 
print('A.shape :', A.shape)       # 행렬의 형상(shape), n by m, n행 m열
print('A.dtype :', A.dtype)       # 행렬의 데이터 타입

A = 
 [[1 2]
 [3 4]]
A.shape : (2, 2)
A.dtype : int64


In [None]:
B = np.array([[1, 0], [0, 2]])
print('B = \n', B)

print('A + B =\n',A+B)          # 원소별로 덧셈(element-wise product)을 수행함       
print('A * B =\n',A*B)          # (2, 2) * (2, 2) -> (2, 2)

B = 
 [[1 0]
 [0 2]]
A + B =
 [[2 2]
 [3 6]]
A * B =
 [[1 0]
 [0 8]]


In [None]:
print('A = \n', A) 
# 브로드 캐스트
print('2 * A =\n', 2*A)

A = 
 [[1 2]
 [3 4]]
2 * A =
 [[2 4]
 [6 8]]


# 컴프리헨션
## 리스트 컴프리헨션

In [None]:
x = list( range(5) )
print(x)

[0, 1, 2, 3, 4]


In [None]:
y =[ i for i in range(5)]
print(y)

[0, 1, 2, 3, 4]


In [None]:
lst = [ 2*x for x in range(5)]
print(lst)

[0, 2, 4, 6, 8]


In [None]:
import numpy as np
x = np.array([2,4, 6,8])
print('x =', x)

y = [ i**2 for i in x ]
print('y=', y)

x = [2 4 6 8]
y= [4, 16, 36, 64]


In [None]:
mx = np.mean(x)
y = [ (i-mx)**2 for i in x ]
print('y =', y)

divisor = sum(y)
print('divisor =', divisor)

y = [9.0, 1.0, 1.0, 9.0]
divisor = 20.0


# 상관관계

네이버 지식백과에서 상관관계에 대한 설명을 읽어 보십시요.  
[상관관계](https://terms.naver.com/entry.naver?docId=2073705&cid=47324&categoryId=47324)



# 판다스(Pandas)
## 판다스에서 NaN 값 대체 방법 - fillna()


In [None]:
import pandas as pd
import numpy as np

a = {'A':[1, np.nan, 3, np.nan, 2], 'B':[4, 4, np.nan, 4, 4]}
df = pd.DataFrame(a)
df

Unnamed: 0,A,B
0,1.0,4.0
1,,4.0
2,3.0,
3,,4.0
4,2.0,4.0


In [None]:
# 결측치를 제외하고 평균을 계산함.
df.mean()

A    2.0
B    4.0
dtype: float64

In [None]:
df.fillna(df.mean())

Unnamed: 0,A,B
0,1.0,4.0
1,2.0,4.0
2,3.0,4.0
3,2.0,4.0
4,2.0,4.0


In [None]:
df.fillna(0)

Unnamed: 0,A,B
0,1.0,4.0
1,0.0,4.0
2,3.0,0.0
3,0.0,4.0
4,2.0,4.0


In [None]:
df

Unnamed: 0,A,B
0,1.0,4.0
1,,4.0
2,3.0,
3,,4.0
4,2.0,4.0


# 원-핫 인코딩

In [None]:
import pandas as pd
a = { 'species':['setosa', 'versicolor', 'virginica', 'versicolor', 'setosa', 'versicolor', 'setosa']}
df = pd.DataFrame(a)
df

Unnamed: 0,species
0,setosa
1,versicolor
2,virginica
3,versicolor
4,setosa
5,versicolor
6,setosa


In [None]:
df = pd.get_dummies(df)
df

Unnamed: 0,species_setosa,species_versicolor,species_virginica
0,1,0,0
1,0,1,0
2,0,0,1
3,0,1,0
4,1,0,0
5,0,1,0
6,1,0,0
