# Data Science
- 방대한 양의 데이터를 수집, 분석, 시각화 처리하여 유의미한 정보를 추출하는 것
- 파이썬 패키지로는 numpy, pandas, matplotlib, seaborn 등이 주로 사용됨

---

# numpy
- 대규모의 다차원 배열, 수치 연산을 지원하는 라이브러리

In [1]:
!pip install numpy



---

### ndarray 다차원 배열 생성

In [2]:
import numpy as np

In [3]:
today_arr = [2025, 7, 16, 11, 32]
arr = np.array([2025, 7, 16, 11, 32])

print(today_arr, type(today_arr))
print(arr, type(arr))

[2025, 7, 16, 11, 32] <class 'list'>
[2025    7   16   11   32] <class 'numpy.ndarray'>


In [None]:
arr = np.array((1, 2, 3, 4, 5))

print(arr, type(arr))

# ndarray 구조
print(arr.shape)    # 형태
print(arr.ndim)     # 깊이
print(arr.size)     # 요소의 갯수
print(arr.dtype)    # 요소의 자료형

[1 2 3 4 5] <class 'numpy.ndarray'>
(5,)
1
5
int64


In [None]:
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr_2d)
print([[1, 2, 3], [4, 5, 6]])

print(arr_2d.shape)    # (2, 3)
print(arr_2d.ndim)     # 2
print(arr_2d.size)     # 6
print(arr_2d.dtype)    # int64

[[1 2 3]
 [4 5 6]]
[[1, 2, 3], [4, 5, 6]]
(2, 3)
2
6
int64


In [10]:
arr_int = np.array([2025, 7, 14])
print(arr_int.dtype)    # int64

arr_float = np.array([1.234, 3.456, 9.876, 10])
print(arr_float.dtype)    # float64

arr_bool = np.array([True, False, True, True])
print(arr_bool.dtype)    # bool

arr_str = np.array(['Hello', 'World', 'python', 'numpy-lib'])
print(arr_str.dtype)    # <U9 : 유니코드 9글자까지 저장 가능한 문자열

int64
float64
bool
<U9


In [16]:
# 형변환
arr = np.array([1.234, 3.456, 9.876, 10])
arr = np.array([1.234, 3.456, 9.876, 10], dtype=float)
arr = np.array([1.234, 3.456, 9.876, 10], dtype=int)

arr = arr.astype(float)

print(arr, arr.dtype)

[ 1.  3.  9. 10.] float64


#####  python list와 ndarray의 차이
- ndarray는 동일한 자료형만 저장 가능
- ndarray는 다차원인 경우, 중첩 배열은 동일한 크기만 허용
- 형태/길이를 확인하는 방법
    - python list: len()
    - ndarray: ndarray.shape, ndarray.ndim, ndarray.size

In [17]:
my_list = [2025, 7, 14, 'numpy', True]
print(my_list)

my_list = [[1, 2, 3], [4, 5], [6]]
print(my_list)

print(len(my_list))
print(len(my_list[0]))

[2025, 7, 14, 'numpy', True]
[[1, 2, 3], [4, 5], [6]]
3
3


In [20]:
arr = np.array([2025, 7, 14, 'numpy', True])
# arr = np.array([[1, 2, 3], [4, 5], [6]])

print(arr)
print(arr.shape)
print(arr.ndim) 
print(arr.size) 
print(arr.dtype)

['2025' '7' '14' 'numpy' 'True']
(5,)
1
5
<U21


### 특정 수로 초기화된 ndarray 생성

In [None]:
# zeros
arr = np.zeros((3, 4))
print(arr)

# ones
arr = np.ones((5, 2))
print(arr)

# full
arr = np.full((4, 1), 9)
print(arr)
arr = np.full((4,), 9)
print(arr)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
[[9]
 [9]
 [9]
 [9]]
[9 9 9 9]


In [36]:
arr = np.array([[10, 20], [30, 40]])
print(arr.shape)

# zeros_like
print(np.zeros_like(arr))

# ones_like
print(np.ones_like(arr))

# full_like
print(np.full_like(arr, 9))

(2, 2)
[[0 0]
 [0 0]]
[[1 1]
 [1 1]]
[[9 9]
 [9 9]]


### 수열 생성
- np.arange(start, end, step)
    - start: 시작하는 숫자
    - end: 끝나는 숫자 + 1
    - step: start~end 증가하는 간격

In [39]:
arr = np.arange(1, 10)
arr = np.arange(1, 10, .1)
arr = np.arange(10)

print(arr)

[0 1 2 3 4 5 6 7 8 9]


- np.linspace(start, end, num)
    - start: 시작하는 숫자
    - end: 끝나는 숫자
    - num: 결과로 만들어진 수열의 요소 개수 (동일한 간격으로 생성)

In [46]:
arr = np.linspace(0, 10, 33)
arr = np.linspace(0, 10)
# arr = np.linspace(10)

print(arr)

[ 0.          0.20408163  0.40816327  0.6122449   0.81632653  1.02040816
  1.2244898   1.42857143  1.63265306  1.83673469  2.04081633  2.24489796
  2.44897959  2.65306122  2.85714286  3.06122449  3.26530612  3.46938776
  3.67346939  3.87755102  4.08163265  4.28571429  4.48979592  4.69387755
  4.89795918  5.10204082  5.30612245  5.51020408  5.71428571  5.91836735
  6.12244898  6.32653061  6.53061224  6.73469388  6.93877551  7.14285714
  7.34693878  7.55102041  7.75510204  7.95918367  8.16326531  8.36734694
  8.57142857  8.7755102   8.97959184  9.18367347  9.3877551   9.59183673
  9.79591837 10.        ]


- [참고] 지수 | 로그
    - 지수: 거듭제곱 $a^x = b$에서 x
    - 밑: 거듭제곱될 수 $a^x = b$에서 a
    - 로그: 밑과 거듭제곱 결과로부터 지수를 반환 $log_a{b} = x$
    - 자연로그: 밑이 자연상수e (2.718...)인 로그
    - 상용로그: 밑이 10인 로그

- np.logspace(start_exp, end_exp, num, base)
    - start_exp: 시작 지수
    - end_exp: 끝 지수
    - num: 결과로 만들어진 수열의 요소 개수
    - base: 밑

In [48]:
arr = np.logspace(1, 3, 4)

print(arr)

[  10.           46.41588834  215.443469   1000.        ]


---

### ndarray indexing & slicing

In [None]:
# 1차원 배열 인덱싱
arr = np.arange(1, 11)

print(arr)
print(arr[1], arr[3], arr[9])
print(arr[-1], arr[-5])

[ 1  2  3  4  5  6  7  8  9 10]
2 4 10
10 6


In [57]:
# 2차원 배열 인덱싱
arr_2d = np.array([[10, 20, 30], [40, 50, 60]])
print(arr_2d)
print(arr_2d.shape)

print(arr_2d[0])
print(arr_2d[0][1])
print(arr_2d[0, 1])
print(arr_2d[(0, 1)])

[[10 20 30]
 [40 50 60]]
(2, 3)
[10 20 30]
20
20
20


In [60]:
arr_2d = np.array([[11, 22, 33], [44, 55, 66], [77, 88, 99]])

print(arr_2d[1, 0]) # 44
print(arr_2d[2, 1]) # 88
print(arr_2d[-1, -2]) # 88 (음수 인덱스 활용)

44
88
88


In [66]:
# 1차원 배열 슬라이싱
arr = np.arange(1, 11)
print(arr)

print(arr[2:7]) # [3  4  5  6  7]
print(arr[::2]) # [1  3  5  7  9]
print(arr[4:]) # [5  6  7  8  9  10]
print(arr[:-3]) # [1  2  3  4  5  6  7]
print(arr[::-1]) # [10  9  8  7  6  5  4  3  2  1]

[ 1  2  3  4  5  6  7  8  9 10]
[3 4 5 6 7]
[1 3 5 7 9]
[ 5  6  7  8  9 10]
[1 2 3 4 5 6 7]
[10  9  8  7  6  5  4  3  2  1]


In [73]:
# 2차원 배열 슬라이싱
arr_2d = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])

print(arr_2d)
print(arr_2d[0:2, 1:2]) # [행 슬라이싱, 열 슬라이싱]
print(arr_2d[0:2, :])
print(arr_2d[:, 1:])
print(arr_2d[0:2])

[[10 20 30]
 [40 50 60]
 [70 80 90]]
[[20]
 [50]]
[[10 20 30]
 [40 50 60]]
[[20 30]
 [50 60]
 [80 90]]
[[10 20 30]
 [40 50 60]]


In [None]:
# 슬라이싱 = shape 유지 (차원 유지)
print(arr_2d[:-1, 0:1])
print(arr_2d[:-1, 0:1].shape)

[[10]
 [40]]
(2, 1)


In [None]:
# index 접근 -> 값을 꺼내서 반환 (차원 제거)
print(arr_2d[:-1, 0])
print(arr_2d[:-1, 0].shape)

[10 40]
(2,)


### fancy indexing & boolean indexing

In [79]:
# 1차원 배열 fancy indexing
arr = np.arange(5, 31, 5)
print(arr)

indices = [1, 3, 5]
print(arr[indices])
print(arr[[1, 3, 5]])

[ 5 10 15 20 25 30]
[10 20 30]
[10 20 30]


In [81]:
# 2차원 배열 fancy indexing
arr_2d = np.array([
    [5, 10, 15, 20],
    [25, 30, 35, 40],
    [45, 50, 55, 60]
])

# [10 35]
indices1 = [0, 1]
indices2 = [1, 2]
print(arr_2d[indices1, indices2])
print(arr_2d[[0, 1], [1, 2]])

[10 35]
[10 35]


In [85]:
# 1차원 배열 boolean indexing
arr = np.arange(1, 6)
print(arr)

bools = [True, False, False, False, True]
print(arr[bools])
print(arr[arr < 3])

[1 2 3 4 5]
[1 5]
[1 2]


In [91]:
# 2차원 배열 boolean indexing
arr_2d = np.array([
    [5, 10, 15, 20],
    [25, 30, 35, 40],
    [45, 50, 55, 60]
])

print(arr_2d[(arr_2d > 30) & (arr_2d < 50)])
print(arr_2d[arr_2d % 2 == 0])

[35 40 45]
[10 20 30 40 50 60]


- np.all(): ndarray의 모든 요소가 조건을 만족할 때 True 반환
- np.any(): ndarray의 요소 중 하나라도 조건을 만족할 때 True 반환

In [93]:
arr = np.array([10, 20, 30, 40, -50])

print(np.all(arr > 0))
print(np.any(arr > 0))

False
True


In [94]:
is_all_positive = np.all(arr > 0)
has_positive = np.any(arr > 0)

if is_all_positive:
    print('모든 수는 양수이다!')
else:
    print('모든 수가 양수는 아니다!!!')

if has_positive:
    print('양수가 포함되어 있다!')
else:
    print('모든 수가 음수이다!!!')

모든 수가 양수는 아니다!!!
양수가 포함되어 있다!
