## Data Science
- 방대한 양의 데이터를 수집, 분석, 시각화 처리하여 유의미한 정보를 추출하는 것
- 파이썬 패키지로는 numpy, pandas, matplotib, seaborn 등이 주로 사용됨

---

## Numpy
- 대규모의 다차원 배열, 수치 연산을 지원하는 라이브러리

In [2]:
!pip install numpy



---
## 다차원 배열 생성


In [3]:
import numpy as np

In [5]:
arr = np.array([2025, 1, 9, 11, 34]) # 인자로는 파이썬 리스트를 전달할 수 있음
today_arr = [2025, 1, 9, 11, 34] # array랑 비교하려고 만듦 

print(arr, type(arr))
print(today_arr, type(today_arr))

[2025    1    9   11   34] <class 'numpy.ndarray'>
[2025, 1, 9, 11, 34] <class 'list'>


In [7]:
arr = np.array((1, 2, 3, 4, 5))
print(arr, type(arr))

[1 2 3 4 5] <class 'numpy.ndarray'>


In [8]:
arr = np.array([2025, 1, 9, 11, 34])

# ndarray 구조
print(arr.shape) # 배열의 모양 (튜플 형태) - (5,)
print(arr.ndim)  # 배열의 차원(깊이) (형태를 반환) - 1
print(arr.size)  # 배열의 크기 (요소 갯수) - 5
print(arr.dtype) # 데이터 타입 확인 (요소로 가진 것의 데이터 타입(자료형)) - int64

(5,)
1
5
int64


In [11]:
# 2차원은 배열이 하나 더 생긴 것 (1+1)
arr_2d = np.array([[1,2,3], [4,5,6]])
print(arr_2d)
print([[1,2,3], [4,5,6]])

print(arr_2d.shape)  # (2, 3) -> (배열, 배열안에 든 요소갯수)
print(arr_2d.ndim)   # 2
print(arr_2d.size)   # 6
print(arr_2d.dtype)  # int64 -> 64bit 

[[1 2 3]
 [4 5 6]]
[[1, 2, 3], [4, 5, 6]]
(2, 3)
2
6
int64


In [14]:
arr_int = np.array([2025, 1, 9])
print(arr_int.dtype)    # int64(8byte) / inst32(4byte)

arr_float = np.array([1.234, 3.456, 9.876, 10]) #ndarry는 하나의 타입만 저장 가능능
print(arr_float.dtype)  # float64 / float32

arr_bool = np.array([True, False, True, False])
print(arr_bool.dtype)   # bool

arr_str = np.array(['Hello', 'World', 'numpy-lib', 'great'])
print(arr_str.dtype)    # <U9 : 유니코드 9글자까지 저장 가능한 문자열


int64
float64
bool
<U9


In [20]:
# 형변환
arr = np.array([1.234, 5.678, 9, 10])
arr = np.array([1.234, 5.678, 9, 10], dtype=float)
arr = np.array([1.234, 5.678, 9, 10], dtype=int)

arr = np.array([1.234, 5.678, 9, 10])
arr = arr.astype(int) 

arr, arr.dtype

(array([ 1,  5,  9, 10]), dtype('int64'))

#### python list와 ndarray의 차이
- ndarray는 동일한 자료형만 저장 가능
- ndarray는 다차원인 경우, 중첩 배열은 동일한 크기만 허용
- 형태/길이를 확인하는 방법의 차이
    - python list: len()
    - ndarray: ndarray.shape, ndarray.ndim, ndarrary.size


In [23]:
my_list = [2025, 1, 9, 'numpy', True]
print(my_list)

my_list = [[1, 2, 3], [4, 5], [6]]
print(my_list)
print(len(my_list))
print(len(my_list[0]))


[2025, 1, 9, 'numpy', True]
[[1, 2, 3], [4, 5], [6]]
3
3


In [25]:
arr = np.array([2025, 1, 9, 'numpy', True])

print(arr)
print(arr.shape)
print(arr.ndim)
print(arr.size)
print(arr.dtype)

['2025' '1' '9' 'numpy' 'True']
(5,)
1
5
<U21


#### 특정 수로 초기화된 ndarray 생성

In [31]:
# zeros(shape에 해당되는 부분이 들어가야함) : 모든 요소를 0으로 초기화해서 반환함
arr = np.zeros((3, 3))
print(arr)

# ones(shape에 해당되는 부분이 들어가야함) : 모든 요소를 1로 초기화해서 반환함
arr = np.ones((5, 2))
print(arr)

# full('shape에 해당되는 부분이 들어가야함', 채워줄 특정 값) : 특정 값으로 초기화해서 반환함
arr = np.full((4, 1), 9)
print(arr)
arr = np.full((4,), 9)
print(arr)


[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
[[9]
 [9]
 [9]
 [9]]
[9 9 9 9]


In [34]:
arr = np.array([[10, 20], [30, 40]])
print(arr.shape)

# zeros_like
print(np.zeros_like(arr))

# ones_like
print(np.ones_like(arr))

# full_like
print(np.full_like(arr, 9))  # 특정값을 지칭해줘야 함

(2, 2)
[[0 0]
 [0 0]]
[[1 1]
 [1 1]]
[[9 9]
 [9 9]]


#### 수열 생성
- np.arange(start, end, step)
    - start :  시작하는 숫자
    - end : 끝나는 숫자 + 1
    - step : start~end 증가하는 간격

In [39]:
arr = np.arange(1, 10)
arr = np.arange(1, 10, .1)
# arr = np.arange(10)
print(arr)

[1.  1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.  2.1 2.2 2.3 2.4 2.5 2.6 2.7
 2.8 2.9 3.  3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.  4.1 4.2 4.3 4.4 4.5
 4.6 4.7 4.8 4.9 5.  5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.  6.1 6.2 6.3
 6.4 6.5 6.6 6.7 6.8 6.9 7.  7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.  8.1
 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.  9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9]


- np.linspace(start, end, num)
    - start :  시작하는 숫자
    - end : 끝나는 숫자
    - num : 결과로 만들어진 수열의 요소 갯수

In [45]:
arr = np.linspace(0, 10, 5)
arr = np.linspace(0, 10)
# arr = np.linspace(10)
print(arr)

[ 0.          0.20408163  0.40816327  0.6122449   0.81632653  1.02040816
  1.2244898   1.42857143  1.63265306  1.83673469  2.04081633  2.24489796
  2.44897959  2.65306122  2.85714286  3.06122449  3.26530612  3.46938776
  3.67346939  3.87755102  4.08163265  4.28571429  4.48979592  4.69387755
  4.89795918  5.10204082  5.30612245  5.51020408  5.71428571  5.91836735
  6.12244898  6.32653061  6.53061224  6.73469388  6.93877551  7.14285714
  7.34693878  7.55102041  7.75510204  7.95918367  8.16326531  8.36734694
  8.57142857  8.7755102   8.97959184  9.18367347  9.3877551   9.59183673
  9.79591837 10.        ]


- np.logspace(start_exp, end_exp, num, base)
    - start_exp : 시작 지수
    - end_exp : 끝 지수 (포함)
    - num : 결과로 만들어진 수열의 요소 갯수
    - base : 밑(안주면 기본값 = 10 설정 됨)

In [46]:
arr = np.logspace(1, 3, 4)
print(arr)

[  10.           46.41588834  215.443469   1000.        ]


---
### ndarray indexing & slicing

In [72]:
# 1차원 배열 인덱싱
arr = np.arange(1, 11)
print(arr)
print(arr[1], arr[3], arr[9])
print(arr[-1], arr[-5])

[ 1  2  3  4  5  6  7  8  9 10]
2 4 10
10 6


In [75]:
# 2차원 배열 인덱싱
arr_2d = np.array([[10, 20, 30], [40, 50, 60]])
print(arr_2d.shape)

print(arr_2d[0])
print(arr_2d[0][0], arr_2d[0, 1], arr_2d[(0, 2)])

(2, 3)
[10 20 30]
10 20 30


In [80]:
arr = np.array([[11, 22, 33], [44, 55, 66], [77, 88, 99]])
print(arr)

print(arr[1, 0]) # 44
print(arr[2, 1]) # 88
print(arr[-1, -2]) # 88 (음수 인덱스 활용)

[[11 22 33]
 [44 55 66]
 [77 88 99]]
44
88
88


In [99]:
# 1차원 배열 슬라이싱
arr = np.arange(1, 11)

print(arr)  # [ 1  2  3  4  5  6  7  8  9 10]
print(arr[2:7])  # [3 4 5 6 7]
print(arr[::2]) # [1 3 5 7 9]
print(arr[4:])  # [5 6 7 8 9 10]
print(arr[:7])  # [1 2 3 4 5 6 7]
print(arr[::-1])  # [10 9 8 7 6 5 4 3 2 1]

[ 1  2  3  4  5  6  7  8  9 10]
[3 4 5 6 7]
[1 3 5 7 9]
[ 5  6  7  8  9 10]
[1 2 3 4 5 6 7]
[10  9  8  7  6  5  4  3  2  1]


In [109]:
# 2차원 배열 슬라이싱
arr = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])
print(arr)
print(arr[0:2, 1:2]) # [행 슬라이싱, 열 슬라이싱] # [[20] [50]]

print(arr[0:2,:]) # 같은 값 print(arr[0:2])
print(arr[:,1:])

# 슬라이싱 = shape 유지(차원 유지)
print(arr[:-1, 0:1], arr[:-1, 0:1].shape)

#index 접근 -> 값을 꺼내서 반환 (차원 제거)
print(arr[:-1, 0], arr[:-1, 0].shape)

[[10 20 30]
 [40 50 60]
 [70 80 90]]
[[20]
 [50]]
[[10 20 30]
 [40 50 60]]
[[20 30]
 [50 60]
 [80 90]]
[[10]
 [40]] (2, 1)
[10 40] (2,)


In [112]:
# 1차원 배열 fancy indexing
arr = np.arange(5, 31, 5)
print(arr) # [ 5 10 15 20 25 30]

print(arr[[1, 3, 5]]) # [10 20 30] -> index는 리스트로 줘야해서 [[]]개로 해서 배열을 줘야 함

idx = [1, 3, 5]
print(arr[idx]) # [10 20 30] -> 변수로도 가능

[ 5 10 15 20 25 30]
[10 20 30]
[10 20 30]


In [118]:
# 2차원 배열 fancy indexing
arr = np.array([
    [5, 10, 15, 20],
    [25, 30, 35, 40],
    [45, 50, 55, 60]
])

print(arr[[0,1],[1,2]])  # [10 35]

[10 35]


In [121]:
# boolean indexing
arr = np.arange(1, 6)
print(arr) # [1 2 3 4 5]

bools = [True, False, False, False, True]
print(arr[bools]) # [1 5]

[1 2 3 4 5]
[1 5]


In [122]:
# 2차원 배열 boolean indexing
arr = np.array([
    [3, 6, 9],
    [12, 15, 18],
    [21, 24, 27]
])

print(arr[arr > 10])       # [12 15 18 21 24 27]
print(arr[arr % 2 == 0])   # [ 6 12 18 24]


[12 15 18 21 24 27]
[ 6 12 18 24]


- np.all() : ndarray의 모든 요소가 조건을 만족할 때 True 반환
- np.any() : ndarray의 요소 중 하나라도 조건을 만족할 때 True 반환

In [123]:
arr = np.array([10, 20, 30, 40, -50])
is_all_positive = np.all(arr > 0) # np.False_

if is_all_positive:
    print('모든 수는 양수입니다.')
else:
    print('모든 수가 양수는 아닙니다.') # 모든 수가 양수는 아닙니다.

모든 수가 양수는 아닙니다.


In [124]:
has_positive = np.any(arr > 0)

if has_positive:
    print('모든 수는 양수입니다.') # 모든 수는 양수입니다.
else:
    print('모든 수가 양수는 아닙니다.')

모든 수는 양수입니다.
