# Data Science
- 방대한 양의 데이터를 수집, 분석, 시각화 처리하여 유의미한 정보를 추출하는 것
- 파이썬 패키지로는 numpy, pandas, matplotlib, seabom 등이 주로 사용됨

---
#numpy
- 대규모의 다차원 배열, 수치 연산을 지원하는 라이브러리

In [1]:
!pip install numpy



# 다차원 배열 생성

In [2]:
import numpy as np

In [3]:
arr = np.array([2025, 1, 9, 11, 34])
today_arr = [2025, 1, 9, 11, 34]

print(arr, type(arr))
print(today_arr, type(today_arr))

[2025    1    9   11   34] <class 'numpy.ndarray'>
[2025, 1, 9, 11, 34] <class 'list'>


In [4]:
arr = np.array((1, 2, 3, 4, 5))
print(arr, type(arr))

[1 2 3 4 5] <class 'numpy.ndarray'>


In [5]:
arr = np.array([2025, 1, 9, 11, 34])

# ndarray 구조
print(arr.shape)    # 형태 반환
print(arr.ndim)     # 깊이
print(arr.size)     # 요소의 갯수
print(arr.dtype)    # 요소의 자료형

(5,)
1
5
int64


In [6]:
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr_2d)
print(([[1, 2, 3], [4, 5, 6]]))

print(arr_2d.shape)    # 2, 3
print(arr_2d.ndim)     # 2
print(arr_2d.size)     # 6
print(arr_2d.dtype)    # int64

[[1 2 3]
 [4 5 6]]
[[1, 2, 3], [4, 5, 6]]
(2, 3)
2
6
int64


In [7]:
arr_int = np.array([2025, 1, 9])
print(arr_int.dtype)    # int64(8byte), int32
arr_float = np.array([1.234, 3.456, 9.876, 10]) # ndarray는 하나의 타입만 저장 가능
print(arr_float.dtype)  # float64, float32
arr_bool = np.array([True, False, True, False])
print(arr_bool.dtype)   # bool
arr_str = np.array(['Hello', 'World', 'numpy-lib', 'great'])
print(arr_str.dtype)    # <U9 : 유니코드 9글자까지 저장 가능한 문자열


int64
float64
bool
<U9


In [8]:
# 형변환
arr = np.array([1.234, 5.678, 9, 10])
arr = np.array([1.234, 5.678, 9, 10], dtype=float)
arr = np.array([1.234, 5.678, 9, 10], dtype=int)

arr = np.array([1.234, 5.678, 9, 10])
arr = arr.astype(int)

arr, arr.dtype

(array([ 1,  5,  9, 10]), dtype('int64'))

##### python list와 ndarray의 차이
- ndarray는 동일한 자료형만 저장 가능
- ndarray는 다차원인 경우, 중첩 배열은 동일한 크기만 허용
- 형태/길이를 확인하는 방법의 차이
    - python list: len()
    - ndarray: ndarray.shape, ndarray.ndim, ndarray.size


In [9]:
my_list = [2025, 1, 9, 'numpy', True]
print(my_list)

my_list = [[1, 2, 3], [4, 5], [6]]
print(my_list)
print(len(my_list))
print(len(my_list[1]))

[2025, 1, 9, 'numpy', True]
[[1, 2, 3], [4, 5], [6]]
3
2


In [10]:
arr = np.array([2025, 1, 9, 'numpy', True])
arr = [[1, 2, 3], [4, 5], [6]]
print(arr)
# print(arr.shape)
# print(arr.ndim)
# print(arr.size)
# print(arr.dtype)

[[1, 2, 3], [4, 5], [6]]


##### 특정 수로 초기화된 ndarray 생성

In [11]:
# zeros
arr = np.zeros((3, 3))
print(arr)

# ones
arr = np.ones([5, 2])   # 5개의 요소가 2열이 있음
print(arr)

# full
arr = np.full([4, 1], 9)    # 인자 값 추가가
print(arr)

arr = np.full((4,), 9)
print(arr)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
[[9]
 [9]
 [9]
 [9]]
[9 9 9 9]


In [12]:
arr = np.array([[10, 20], [30, 40]])

# zeros_like
print(np.zeros_like(arr))

# ones_like
print(np.ones_like(arr))

# full_like
print(np.full_like(arr, 9))


[[0 0]
 [0 0]]
[[1 1]
 [1 1]]
[[9 9]
 [9 9]]


##### 수열 생성
- np.arange(start, end, step)
    - start: 시작하는 숫자
    - end: 끝나는 숫자
    - num: 더해주는 값

In [13]:
arr = np.arange(1, 10)
arr = np.arange(1, 10, .1)
arr = np.arange(10)
print(arr)

[0 1 2 3 4 5 6 7 8 9]


#####

- np.linspace(start, end, num)
    - start: 시작하는 숫자
    - end: 끝나는 숫자
    - num: 결과로 만들어진 수열의 갯수

In [14]:
arr = np.linspace(0, 10, 5)
arr = np.linspace(0, 10)
# arr = np.linspace(10)
print(arr)

[ 0.          0.20408163  0.40816327  0.6122449   0.81632653  1.02040816
  1.2244898   1.42857143  1.63265306  1.83673469  2.04081633  2.24489796
  2.44897959  2.65306122  2.85714286  3.06122449  3.26530612  3.46938776
  3.67346939  3.87755102  4.08163265  4.28571429  4.48979592  4.69387755
  4.89795918  5.10204082  5.30612245  5.51020408  5.71428571  5.91836735
  6.12244898  6.32653061  6.53061224  6.73469388  6.93877551  7.14285714
  7.34693878  7.55102041  7.75510204  7.95918367  8.16326531  8.36734694
  8.57142857  8.7755102   8.97959184  9.18367347  9.3877551   9.59183673
  9.79591837 10.        ]


- np.logspace(start_end, end_exp, base)
    - start_exp: 시작 지수
    - end_exp: 끝 지수
    - num: 결과로 만들어진 수열의 요소 갯수
    - base: 밑 (기본값 = 10)

In [15]:
arr = np.logspace(1, 3, 4)
print(arr)

[  10.           46.41588834  215.443469   1000.        ]


In [16]:
# 1
arr = np.zeros([4, 3])
print(arr)

# 2
arr = np.ones([3, 3])
print(arr)

# 3
arr = np.arange(0, 21, 5)
print(arr)

# 4
arr = np.linspace(0, 1, 4)
print(arr)

# 5
arr = np.array([[1, 2], [3, 4]])
print(arr)

# 정규 분포표
arr = np.random.randn(2, 2) # 표준 정규분포를 따름
print(arr)

arr = np.random.normal(loc = 0, scale = 1, size=(2, 2))
print(arr)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
[ 0  5 10 15 20]
[0.         0.33333333 0.66666667 1.        ]
[[1 2]
 [3 4]]
[[-0.43482213 -0.59078313]
 [-1.04545525  0.05990024]]
[[ 1.13762133  0.65936186]
 [ 1.30888446 -1.91449421]]


---
### ndarray indexing & slicing

In [17]:
# 1차원 배열 인덱싱
arr = np.arange(1, 11)
print(arr)
print(arr[1], arr[3], arr[10])

[ 1  2  3  4  5  6  7  8  9 10]


IndexError: index 10 is out of bounds for axis 0 with size 10

In [82]:
# 2차원 배열 인덱싱
arr_2d = np.array([[10, 20, 30], [40, 50, 60]])
print(arr_2d)
print(arr_2d.shape)

print(arr_2d[0])
print(arr_2d[0][0], arr_2d[0, 1], arr_2d[(0, 2)])

[[10 20 30]
 [40 50 60]]
(2, 3)
[10 20 30]
10 20 30


In [84]:
arr_2d = np.array([[11, 22, 33], [44, 55, 66], [77, 88, 99]])
print(arr_2d[1][0])# 44
print(arr_2d[2][1])# 88
print(arr_2d[-1][-2])# 88 (음수 인덱스 활용)

44
88
88


In [100]:
# 1차원 배열 슬라이싱
arr = np.arange(1, 11)
print(arr)

print(arr[2:7])
print(arr[::2])
print(arr[4:])
print(arr[:7])
print(arr[::-1])

[ 1  2  3  4  5  6  7  8  9 10]
[3 4 5 6 7]
[1 3 5 7 9]
[ 5  6  7  8  9 10]
[1 2 3 4 5 6 7]
[10  9  8  7  6  5  4  3  2  1]


In [9]:
# 2 차원 배열 슬라이싱
arr = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])
print(arr)
print(arr[:2]) 
print(arr[:, 1:]) 

# 슬라이싱 = shape 유지 (차원 유지)
print(arr[:-1, 0:1], arr[:-1, 0:1].shape)

# index 접근 -> 값을 꺼내서 반환 (차원 제가)
print(arr[:-1, 0], arr[:-1, 0].shape) 


[[10 20 30]
 [40 50 60]
 [70 80 90]]
[[10 20 30]
 [40 50 60]]
[[20 30]
 [50 60]
 [80 90]]
[[10]
 [40]] (2, 1)
[10 40] (2,)


In [126]:
# fancy indexing
arr = np.arange(5, 31, 5)
print(arr)
print(arr[[1, 3, 5]])

indices = [1, 3, 5]
print(arr[indices])

[ 5 10 15 20 25 30]
[10 20 30]
[10 20 30]


In [160]:
arr = np.array([
    [5, 10, 15, 20],
    [25, 30, 35, 40],
    [45, 50, 55, 60]
])

print(arr[[0,1],[1,2]])

[10 35]


In [162]:
# boolean indexing
arr = np.arange(1, 6)
print(arr)

bools = [True, False, False, False, True]
print(arr[bools])

[1 2 3 4 5]
[1 5]


In [164]:
# 2차원 배열 boolean indexing
arr = np.array([
    [3, 6, 9],
    [12, 15, 18],
    [21, 24, 27]
])
print(arr)

print(arr[arr > 10])
print(arr[arr % 2 == 0])

[[ 3  6  9]
 [12 15 18]
 [21 24 27]]
[12 15 18 21 24 27]
[ 6 12 18 24]


- np.all()
- np.any()

In [170]:
arr = np.array([10, 20, 30, 40, -50])
is_all_positive = np.all(arr > 0)   # np.False_

if is_all_positive:
    print("정답")
else:
    print("오답")

오답


In [169]:
has_positive = np.any(arr > 0)

if has_positive:
    print('양수 포함')
else:
    print("양수 x")

양수 포함


np.all() : ndarray의 모든 요소가 조건을 만족할 때 True 반환
np.any() : ndarray의 요소 중 하나라도 조건을 만족할 때 True 반환

In [191]:
# 1
arr = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])
print(arr[1][2])
print(arr[:, 1:2])
print(arr[1:, 0:2])

# 2
arr = np.array([10, 20, 30, 40, 50, 60, 70])
cols = [0, 2, 4]
print(arr[cols])
print(arr[arr > 50])

60
[[20]
 [50]
 [80]]
[[40 50]
 [70 80]]
[10 30 50]
[60 70]


In [None]:
# 3
import numpy as np

sales = np.array([[120, 150, 100],
                  [80, 90, 110],
                  [200, 180, 220],
                  [50, 45, 70],
                  [300, 320, 310]])

month = sales[sales >= 200]
print(month)

month3 = sales[sales[:, 2] <= 100, 0:2]
print(month3)

month2 = sales[sales[:, 1] >= 150, :]
print(month2)