# Data Science
- 방대한 양의 데이터를 수진, 분석, 시각화 처리하여 유의미한 정보를 추출하는 것
- 파이썬 패키지로는 numpy, pandas, matplotlib, seaborn 등이 주로 사용됨

---------------
# numpy
- 대규모의 다차원 배열, 수치 연산을 지원하는 라이브러리 

In [None]:
!pip install numpy



---------------------

### ndarray 다차원 배열 생성

In [3]:
import numpy as np

In [None]:
today_arr = [2025, 7, 16, 11, 32]                  # 콤마로 구분
arr = np.array([2025, 7, 16, 11, 32])              # 띄어쓰기로 구분
print(today_arr, type(today_arr))
print(arr, type(arr))

[2025, 7, 16, 11, 32] <class 'list'>
[2025    7   16   11   32] <class 'numpy.ndarray'>


In [None]:
arr = np.array((1, 2, 3, 4, 5))                   # 튜플로 진행해도 동일 (np = 시퀀스 형태로 전달받은 것을 ndarray로 변환)
print(arr, type(arr))

# ndarray 구조 파악을 위한 속성
print(arr.shape)      #형태       # 각 축별로의 크기 반환 (현재 arr는 1차원으로 구성되어 있어, shape의 요소가 1이며 해당 축의 요소가 5개) (요소가 하나이면 (5,)로 표현-튜플형태 반환)
print(arr.ndim)       #깊이       # 깊이를 나타내는 요소 (축의 갯수를 나타냄)
print(arr.size)       #요소의 갯수       # 요소의 갯수를 나타냄
print(arr.dtype)      #요소의 자료형       # 데이터 타입(고정된 데이터만 들어감) : 정수 자료형만 들어감. 


[1 2 3 4 5] <class 'numpy.ndarray'>
(5,)
1
5
int64


In [None]:
arr_2d = np.array([[1,2,3], [4,5,6]])

print(arr_2d)
print([[1,2,3], [4,5,6]])

# 배열로 출력시 그대로 출력. but ndarray의 형식은 행렬의 형식으로 반환(2차원)

print(arr_2d.shape)   # (2, 3)   
print(arr_2d.ndim)    # 2
print(arr_2d.size)    # 6     *** 이해가 안돼. 추가 공부 필요
print(arr_2d.dtype)   # int     *** 고정된 데이터 셋을 가짐

[[1 2 3]
 [4 5 6]]
[[1, 2, 3], [4, 5, 6]]
(2, 3)
2
6
int64


In [None]:
arr_int = np.array([2025, 7, 14])
print(arr_int.dtype)              # int64  : 64비트(8바이트) 데이터

arr_float = np.array([1.234, 3.456, 9.876, 10])
print(arr_float.dtype)           # float64 : 정수 10을 추가해도 float 타입 

arr_bool = np.array([True, False, True, True])
print(arr_bool.dtype)            # bool

arr_str = np.array(['Hello', 'World', 'python', 'numpy-lib'])
print(arr_str.dtype)             # <U9    : 유니코드 9글자까지 저장가능한 문자열 의미 (가장 긴 문자 값 기준으로 판단)

int64
float64
bool
<U9


In [20]:
# 형변환
arr = np.array([1.234, 3.456, 9.876, 10])  # 암묵적 형변환
arr = np.array([1.234, 3.456, 9.876, 10], dtype=float)   # 명시적 형변환
arr = np.array([1.234, 3.456, 9.876, 10], dtype=int)     # 실수를 정수로 형변환 시 내림 적용. 

arr = arr.astype(float)  # 명시적 형변환
# arr = arr.astype(str)

print(arr, arr.dtype)

[ 1.  3.  9. 10.] float64


### python list와 ndarray의 차이
- ndarray는 동일한 자료형만 저장 가능 (고정된 자료형)
- ndarray는 다차원인 경우, 중첩 배열은 동일한 크기만 허용  (고정된 크기)  : 축별 요소의 갯수가 동일
- 형태 / 길이를 확인하는 방법
    - python list : len()
    - ndarray : ndarray.shape, ndarray.ndim, ndarray.size

In [None]:
my_list = [2025, 7, 14, 'numpy', True]
print(my_list)

my_list = [[1,2,3], [4,5], [6]]
print(my_list)

print(len(my_list))
print(len(my_list[0]))

[2025, 7, 14, 'numpy', True]
[[1, 2, 3], [4, 5], [6]]
3
3


In [28]:
arr = np.array([2025, 7, 14, 'numpy', True])    # 암시적 형변환이 일어남
# arr = np.array([[1,2,3], [4,5], [6]])           # ValueError 발생. 
 
print(arr)
print(arr.shape)      
print(arr.ndim)    
print(arr.size)  
print(arr.dtype)

['2025' '7' '14' 'numpy' 'True']
(5,)
1
5
<U21


### 특정 수로 초기화된 ndarray 생성

In [None]:
# zeros
arr = np.zeros((3, 4))    # shape 넣기. 3행 4열
print(arr)

# ones
arr = np.ones((3, 4))    # shape 넣기. 3행 4열
print(arr)
print(arr.dtype)

# full 
arr = np.full((4, 1), 9)    # shape 넣기. 3행 4열
arr = np.full((4,), 9)      # 1차원의 ndarray 
print(arr)
print(arr.dtype)            

#  zeros, ones 는 기본값이 float, full의 경우 정수 9를 부여했기때문에 int. 
#  zeros_like, ones_like 는 앞선 데이터 형식이 정수면 정수 반환, 실수면 실수 반환. 

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
float64
[9 9 9 9]
int64


In [None]:
arr = np.array([[10, 20], [30, 40]])
print(arr.shape)

# zeros_like
print(np.zeros_like(arr))   # shape 대신 arr 집어넣음. 원래 생성되어 있던 arr가 있는 경우 사용 .

# ones_like
print(np.ones_like(arr))

# full_like
print(np.full_like(arr, 9))     # print(np.full_like(arr, 9.1), dtype=float)로 타입 지정 시 실수 반환 가능. 타입 지정 안할 시 이전 타입으로 반환

(2, 2)
[[0 0]
 [0 0]]
[[1 1]
 [1 1]]
[[9 9]
 [9 9]]


# (1, 5) = [[ , , , , ]]  : 2차원    / (5, ) = [ , , , , ]   : 1차원   *** 공부하기.. shape일 때 무슨소리야.. arage는 1차원으로 수열 만드는 것 (다른거거등요? 왜 다르져..?)

### 수열 생성
- np.arange(start, end, step) 
   - start : 시작하는 숫자
   - end : 끝나는 숫자 + 1
   - step : 증가하는 간격

In [None]:
arr = np.arange(1, 10)
arr = np.arange(1, 10, .1)
arr = np.arange(10)   # 인자 한개만 부여시 끝값 부여로 인식

print(arr)

[0 1 2 3 4 5 6 7 8 9]


- np.linspace(start, end, num)
    - start : 시작하는 숫자
    - end : 끝나는 숫자 (포함)
    - num : (시작하는 숫자부터 끝나는 숫자까지 범위에서) 결과로 만들어진 수열의 요소 개수(동일한 간격으로 생성)

In [None]:
arr = np.linspace(0, 10, 5)
arr = np.linspace(0, 10)         # num 디폴트 값이 50 
# arr = np.linspace(10)            # typeerror : 반드시 두개의 인자가 필요함.(시작, 끝)

print(arr)

[10.          9.89795918  9.79591837  9.69387755  9.59183673  9.48979592
  9.3877551   9.28571429  9.18367347  9.08163265  8.97959184  8.87755102
  8.7755102   8.67346939  8.57142857  8.46938776  8.36734694  8.26530612
  8.16326531  8.06122449  7.95918367  7.85714286  7.75510204  7.65306122
  7.55102041  7.44897959  7.34693878  7.24489796  7.14285714  7.04081633
  6.93877551  6.83673469  6.73469388  6.63265306  6.53061224  6.42857143
  6.32653061  6.2244898   6.12244898  6.02040816  5.91836735  5.81632653
  5.71428571  5.6122449   5.51020408  5.40816327  5.30612245  5.20408163
  5.10204082  5.        ]


- [참고] 지수 | 로그
    - 지수 : 거듭제곱 $a^x = b$ 에서 x
    - 밑 : 거듭제곱될 수 $a^x = b$ 에서 a
    - 로그  : 밑과 거듭제곱 결과로부터 지수를 반환  $log_a{b} = x$
    - 자연로그 : 밑이 자연상수 e(2.718)인 로그
    - 상용로그 : 밑이 10인 로그 

- np.logspace(start_exp, end_exp, num, base)
    - start_exp : 시작 지수
    - end_exp : 끝 지수
    - num : 결과로 만들어진 수열의 요소 개수 
    - base : 밑

In [None]:
arr = np.logspace(1, 3, 4)    # 시작, 끝은 필수. base의 기본 값은 10 (상용로그)
print(arr)                    # 지수 형태에서의 y의 값을 반환 

[  10.           46.41588834  215.443469   1000.        ]


### ndarry indexing & slicing

In [None]:
# 1차원 배열 인덱싱 (python과 동일)
arr = np.arange(1, 11)


print(arr)
print(arr[1], arr[3], arr[9]) # indexing
print(arr[-1], arr[-5]) #음수로 인덱싱 (뒤에서부터)

(10,)
1
[ 1  2  3  4  5  6  7  8  9 10]
2 4 10
10 6


In [None]:
# 2차원 배열 인덱싱
arr_2d = np.array([[10, 20, 30], [40, 50, 60]])

print(arr_2d.shape)

print(arr_2d[0])
print(arr_2d[0][1])
print(arr_2d[0, 1])         # shape이 튜플의 형태를 가진 것처럼 아래와 동일한 상태임. 
print(arr_2d[(0, 1)])       # 다차원 인덱싱 (동작 결과는 동일하지만 인덱싱하는 방식은 다름)

(2, 3)
[10 20 30]
20
20


In [61]:
arr_2d = np.array([[11, 22, 33], [44, 55, 66], [77, 88, 99]])

print(arr_2d[1, 0])  #44
print(arr_2d[2, 1])  #88
print(arr_2d[-1, -2])  #88 (음수 인덱스 활용)

44
88
88


In [None]:
# 1차원 배열 슬라이싱
arr = np.arange(1, 11)

print(arr[2:7])           # [ 3 4 5 6 7 ]
print(arr[arr % 2 != 0])  # [ 1 3 5 7 9 ]   #print(arr[::2])
print(arr[4:])            # [ 5 6 7 8 9 10 ]
print(arr[:7])            # [ 1 2 3 4 5 6 7 ]
print(arr[::-1])          # [ 10 9 8 7 6 5 4 3 2 1 ]

[3 4 5 6 7]
[1 3 5 7 9]
[ 5  6  7  8  9 10]
[1 2 3 4 5 6 7]
[10  9  8  7  6  5  4  3  2  1]


In [None]:
# 2차원 배열 슬라이싱
arr_2d = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])

print(arr_2d)
print(arr_2d[0:2, 1:2])   # [행 슬라이싱, 열 슬라이싱]
print(arr_2d[0:2, : ])
print(arr_2d[ : , 1:2])
print(arr_2d[ : , 1: ])
print(arr_2d[0:2])        # 하나만 입력 시 행에 대해서로 인식(열에 대해서만 슬라이싱 진행 시 앞에 빈 콜론이 필요함.)
print(arr_2d[ : , arr_2d[arr_2d % 2 != 0]])  #??? 외낭돼?

[[10 20 30]
 [40 50 60]
 [70 80 90]]
[[20]
 [50]]
[[10 20 30]
 [40 50 60]]
[[20]
 [50]
 [80]]
[[20 30]
 [50 60]
 [80 90]]
[[10 20 30]
 [40 50 60]]
[]


In [None]:
# 슬라이싱 = shape 유지 (차원 유지)
print(arr_2d[ :-1, 0:1])
print(arr_2d[ :-1, 0:1].shape)   # 차원유지 


# index 접근 -> 값을 꺼내서 반환 (차원 제거)
print(arr_2d[ :-1, 0])
print(arr_2d[ :-1, 0].shape)      # 인덱싱 시 해당 값을 꺼내서 반환하기 때문에 차원이 제거됨. 

[[10]
 [40]]
(2, 1)
[10 40]
(2,)


### fancy indexing & boolean indexing

In [84]:
# 1차원 배열 fancy indexing
arr = np.arange(5, 31, 5)
print(arr)

indices = [1, 3, 5]
print(arr[indices])   # = print(arr[[1,3,5]])   fnacy indexing : 정수 배열을 사용해서 여러 위치의 갓을 추출할 수 있는 것
print(arr[[1,3,5]])


[ 5 10 15 20 25 30]
[10 20 30]
[10 20 30]


In [None]:
# 2차원 배열 fancy indexing
arr_2d = np.array([
    [5, 10, 15, 20],
    [25, 30, 35, 40], 
    [45, 50, 55, 60]
])

# [10 35] 요소 추출
indices1 = [0, 1]
indices2 = [1, 2]  
print(arr_2d[indices1, indices2])
print(arr_2d[[0, 1], [1, 2]])       # 정수형 배열로 넣어주면 fancy indexing (행과 열에 대한 인덱싱을 하기 위해 대괄호에 넣어주는 것)
                                    # 앞에가 행이고, 뒤에가 열임. 짝을 맞춰서 해석해줘야함. 
                                    # 작성: [0행, 1행] [1열,2열], 결과값: [0행 1열] [1행 2열] 이렇게 나옴

print(arr_2d[[0,1], [1,3]])         # [0행, 1행], [1열, 3열]로 작성 -> 결과는 [0행, 1열], [1행, 3열] 값 반환

[10 35]
[10 35]
[10 40]


In [None]:
# 1차원 boolean indexing
arr = np.arange(1, 6)
print(arr)

bools = [True, False, False, False, True]
print(arr[bools])                          # 대조 시 true인 값만 반환 / 조건을 집어넣고 조건에 만족하는 값만 반환. 
print(arr[arr < 3])                        # 요소 중 3보다 작은 값을 반환하기 


[1 2 3 4 5]
[1 5]
[1 2]


In [None]:
# 2차원 boolean indexing
arr_2d = np.array([
    [5, 10, 15, 20],
    [25, 30, 35, 40], 
    [45, 50, 55, 60]
])

print(arr_2d[(arr_2d > 30) & (arr_2d < 50)])   # and 사용은 안됨. 
print(arr_2d[arr_2d % 2 == 0])

[35 40 45]
[10 20 30 40 50 60]


- np.all(): ndarray의 모든 요소가 조건을 만족할 때 true 반환
- np.any(): ndarray의 요소 중 하나라도 조건을 만족할 때 true 반환

In [None]:
arr = np.array([10, 20, 30, 40, -50])

print(np.all(arr > 0))       # 모든 조건이 t 일때 t 반환 (like and 조건)
print(np.any(arr > 0))       # 하나라도 t이면 t 반환     (like or 조건)
# 괄호 안에는 조건식 

False
True



In [None]:
is_all_positive = np.all(arr > 0)
has_positive = np.any(arr > 0)


if is_all_positive : 
    print('모든 수가 양수')
else :
    print('모든 수가 양수는 아니다')


if has_positive : 
    print('양수가 포함되어 있다.') 
else :
    print('모든 수가 음수이다.')

모든 수가 양수는 아니다
양수가 포함되어 있다.
