# Numpy 패키지 특징

 - 선형대수(백터,행렬) 연산 관련 함수 제공
 - list 보다 이점 : N차원 배열 생성, 선형대수 연산, 고속 처리
 - Series 공통점
   -> 수학/통계 함수 지원
      ex) obj.수학/통계()
   -> 범위수정, 블럭연산
   -> indexing/slicing
 - 주요 모듈과 함수
   1. random : 난수 생성 함수
   2. array : N차원 배열 생성 (arrayt([[list]]))
   3. sampling 함수
   4. arrange : range() 유사형

In [1]:
import numpy as np

# list 자료 구조
lst = [1,2,3]
lst #  [1, 2, 3]
# lst**2 : type error

for i in lst:
    print(i**2)
    
    
# list -> numpy
arr = np.array(lst)
arr # [1 2 3]
arr**2 # array([1, 4, 9], dtype=int32)


# 동일 type
# [] : 1차원  [[]] : 2차원
arr = np.array([[1,'two',3]])
arr # array([['1', 'two', '3']], dtype='<U11')
arr.shape # (1,3)



1
4
9


(1, 3)

# 1. random : 난수 생성 함수

In [2]:

# 1. random : 난수 생성 함수
data = np.random.randn(3,4) # module.module.func(행,열)
data # 12개의 난수를 2차원의 형태로 생성
'''
array([[-0.17325173,  0.71266666, -0.46621441,  0.10595129],
       [-1.52417232, -0.18707051,  0.52128906, -1.0693616 ],
       [ 0.5320931 , -0.34287133, -1.04108414, -0.35820974]])
'''

for row in data:
    print('행 단위 합계 :', row.sum())
    print('행 단위 평균 :', row.mean())


# 1) 수학/통계 함수 지원
type(data) # numpy.ndarray
print('전체 합계 : ', data.sum())
print('전체 평균 : ', data.mean())
print('전체 분산 : ', data.var())
print('전체 표준편차 : ', data.std())

len(dir(data)) # 162


# 2) 범위 수정, 블럭 연산
data + data 
'''
array([[-0.34650346,  1.42533331, -0.93242881,  0.21190259],
       [-3.04834464, -0.37414102,  1.04257811, -2.1387232 ],
       [ 1.06418619, -0.68574265, -2.08216827, -0.71641947]])
'''
data - data
'''
array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])
'''

# 3) indexing
data[0,0] # 1행1열
data[0,:] # 1행 전체
data[:,1] # 2열 전체




행 단위 합계 : 0.7906316586795108
행 단위 평균 : 0.1976579146698777
행 단위 합계 : 0.06430108011034052
행 단위 평균 : 0.01607527002758513
행 단위 합계 : -0.8057706847810725
행 단위 평균 : -0.20144267119526812
전체 합계 :  0.04916205400877882
전체 평균 :  0.004096837834064902
전체 분산 :  0.49357293754314413
전체 표준편차 :  0.7025474628401587


array([ 0.86925784,  0.76375606, -0.99504746])

# 2. array 함수 : N차원 배열 생성

In [3]:

# 1) 단일 list
lst1 = [3,5.6,4,7,8]

arr1 = np.array(lst1)
arr1 # array([3.,5.6,4.,7.,8.])

arr1.var()
arr1.std()

# 2) 중첩 list
lst2 = [[1,2,3,4,5],[2,3,4,5,6]]

arr2 = np.array(lst2)
arr2
# array([[1, 2, 3, 4, 5],
#       [2, 3, 4, 5, 6]])

arr2.shape # (2,5)

# index : obj[index,column]
arr2[1,:]
arr2[:, 1]
arr2[:, 2:4]


# 3) broadcast 연산
# - 작은 차원이 큰 차원으로 늘어난 후 연산

# (1) scala(0) vs vector(1)
arr1 # array([3. , 5.6, 4. , 7. , 8. ])
0.5 * arr1 # array([1.5, 2.8, 2. , 3.5, 4. ])

# (2) scala(0) vs matrix(2)
arr2 
0.5 * arr2
# array([[0.5, 1. , 1.5, 2. , 2.5],
#        [1. , 1.5, 2. , 2.5, 3. ]])


# (3) vector(1) vs matrix(2)
print(arr1.shape, arr2.shape)

arr3 = arr1 + arr2
print(arr3)





(5,) (2, 5)
[[ 4.   7.6  7.  11.  13. ]
 [ 5.   8.6  8.  12.  14. ]]


# 3. sampling 함수

In [7]:
num = list(range(1,11))
num # 1~10
#help(np.random.choice)
# a, size=None, replace=True, p=None

'''
a : 관측치 길이
size : 임의 추출 크기
replace : 복원(T) or 비복원(F)
p : 확률
'''
idx = np.random.choice(a=len(num), size=5, replace=False) # 비복원으로 5개의 값을 추출
idx # array([1, 4, 9, 8, 0])

import pandas as pd
score = pd.read_csv('C:/IITT/4_Python-II/workplace/data/score_iq.csv')
score.info() # 150 x 6

idx = np.random.choice(a=len(score), size=int(len(score)*0.3), replace=False)
idx # 0~149의 숫자에서 랜덤 비복원으로 45개 숫자 출력
len(idx) # 45

# DataFrame index
score_train = score.iloc[idx,:]
score_train.shape # (45,6)
'''
score_train = score.sample(45)
score_train.shape # (45,6)
'''

# pandas(DF) -> numpy(array)
# - 행/열 구조의 array로 변경 : 칼럼명,인덱스 x
score_arr = np.array(score)
score_arr.shape # (150, 6)
score_train2 = score_arr[idx,:]
score_train2.shape # (45, 6)



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   sid      150 non-null    int64
 1   score    150 non-null    int64
 2   iq       150 non-null    int64
 3   academy  150 non-null    int64
 4   game     150 non-null    int64
 5   tv       150 non-null    int64
dtypes: int64(6)
memory usage: 7.2 KB


(45, 6)

# 4. arange 함수

In [8]:
zero_arr = np.zeros((3,5)) # 영 행렬
zero_arr # 3행 5열의 15개의 0값을 가짐


cnt = 1
for i in range(3):
    for j in range(5):
        zero_arr[i,j] = cnt
        cnt += 1
zero_arr
'''
array([[ 1.,  2.,  3.,  4.,  5.],
       [ 6.,  7.,  8.,  9., 10.],
       [11., 12., 13., 14., 15.]])
'''

# range(-1,2,0.1) 과 같음 음수 불가능
np.arange(-1,2,0.1) # 가능


array([-1.00000000e+00, -9.00000000e-01, -8.00000000e-01, -7.00000000e-01,
       -6.00000000e-01, -5.00000000e-01, -4.00000000e-01, -3.00000000e-01,
       -2.00000000e-01, -1.00000000e-01, -2.22044605e-16,  1.00000000e-01,
        2.00000000e-01,  3.00000000e-01,  4.00000000e-01,  5.00000000e-01,
        6.00000000e-01,  7.00000000e-01,  8.00000000e-01,  9.00000000e-01,
        1.00000000e+00,  1.10000000e+00,  1.20000000e+00,  1.30000000e+00,
        1.40000000e+00,  1.50000000e+00,  1.60000000e+00,  1.70000000e+00,
        1.80000000e+00,  1.90000000e+00])