# Data Science
 - 방대한 양의 데이터를 수집, 분석, 시각화 처리하여 유의미한 정보를 추출하는 것
 - 파이썬 패키지로는 numpy, pandas, matplotlib, seaborn 등이 주로 사용됨


---

## numpy
- 대규모의 다차원 배열, 수치 연산을 지원하는 라이브러리

In [1]:
!pip install numpy



## 다차원 배열 생성

In [2]:
import numpy as np


In [5]:
arr = np.array([2025, 1, 9, 11, 34])
today_arr = [2025,1, 9, 11, 34]

print(arr, type(arr))
print(today_arr, type(today_arr))

[2025    1    9   11   34] <class 'numpy.ndarray'>
[2025, 1, 9, 11, 34] <class 'list'>


In [7]:
arr = np.array((1, 2, 3, 4, 5))

print(arr, type(arr))

[1 2 3 4 5] <class 'numpy.ndarray'>


In [8]:
arr = np.array([2025, 1, 9, 11, 34])

print(arr.shape)
print(arr.ndim)
print(arr.size)
print(arr.dtype)

(5,)
1
5
int64


In [13]:
arr_2d = np.array([[1,2,3],[4,5,6]])
print(arr_2d)
print([[1,2,3],[4,5,6]])

print(arr_2d.shape)
print(arr_2d.ndim)
print(arr_2d.size)
print(arr_2d.dtype)

[[1 2 3]
 [4 5 6]]
[[1, 2, 3], [4, 5, 6]]
(2, 3)
2
6
int64


In [17]:
arr_int = np.array([2025, 1, 9])
print(arr_int.dtype)

arr_float = np.array([1.234, 2.445, 3.566, 10]) # ndarray는 하나의 타입만 저장 가능
print(arr_float.dtype)

arr_bool = np.array([True, True, False, False])
print(arr_bool.dtype)

arr_str = np.array(['Hello', 'World', 'numpu-lib', 'great'])
print(arr_str.dtype) # <U9 : 유니코드 9글자까지 저장 가능한 문자열

int64
float64
bool
<U9


In [23]:
# 형변환
arr = np.array([1.234, 5.345, 4, 2])
arr = np.array([1.234, 5.345, 4, 2], dtype=float)
arr = np.array([1.234, 5.345, 4, 2], dtype=int)

arr = np.array([1.234, 5.345, 4, 2])
arr = arr.astype(int)
arr, arr.dtype

(array([1, 5, 4, 2]), dtype('int64'))

#### python list와 ndarrary의 차이
- ndarray는 동일한 자료형만 저장 가능
- ndarray는 다차원인 경우, 중첩 배열은 동일한 크기만 허용
- 형태/길이를 확인하는 방법의 차이
    - python list : len()
    - ndarrayL ndarray.shape, ndarray.ndim, ndarray.dtype

In [26]:
my_list = [2025, 1, 9, 'numpy', True]
print(my_list)

my_list = [[1,2,3],[4,5],[6]]
print(my_list)
print(len(my_list))
print(len(my_list[0]))


[2025, 1, 9, 'numpy', True]
[[1, 2, 3], [4, 5], [6]]
3
3


In [28]:
arr = np.array([2024, 1, 9, 'numpy', True])
arr = np.array([[1,2,3],[4,5],[6]])

print(arr.shape)
print(arr.ndim)
print(arr.size)
print(arr.dtype)

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (3,) + inhomogeneous part.

## 특정 수로 초기화된 ndarray 생성

In [36]:
# zeros
arr = np.zeros((3, 3))
print(arr)

# ones
arr = np.ones((5, 2))
print(arr)

# full
arr = np.full((4, 1), 9)
print(arr)

arr = np.full((4, ), 9)
print(arr)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
[[9]
 [9]
 [9]
 [9]]
[9 9 9 9]


In [40]:
arr = np.array([[10, 20], [30, 40]])
print(arr.shape)

# zeros_like
print(np.zeros_like(arr))

# ones_like
print(np.ones_like(arr))

# full_like
print(np.full_like(arr, 9))

(2, 2)
[[0 0]
 [0 0]]
[[1 1]
 [1 1]]
[[9 9]
 [9 9]]


## 수열 생성
- np.arange(start, end, step)
    - start : 시작하는 숫자
    - end : 끝나는 숫자 + 1
    - step : 건너뛰는 숫자

In [44]:
arr = np.arange(1, 10)
arr = np.arange(1, 10, .1)
arr = np.arange(10)
print(arr)

[0 1 2 3 4 5 6 7 8 9]


- np.linspace(start, end, num)
    - start : 시작하는 숫자
    - end : 끝나는 숫자
    - num : 결과로 만들어진 수열의 요소 갯수

In [51]:
arr = np.linspace(0, 10, 5)
arr = np.linspace(0, 10)
# arr = np.linspace(10)
print(arr)

[ 0.          0.20408163  0.40816327  0.6122449   0.81632653  1.02040816
  1.2244898   1.42857143  1.63265306  1.83673469  2.04081633  2.24489796
  2.44897959  2.65306122  2.85714286  3.06122449  3.26530612  3.46938776
  3.67346939  3.87755102  4.08163265  4.28571429  4.48979592  4.69387755
  4.89795918  5.10204082  5.30612245  5.51020408  5.71428571  5.91836735
  6.12244898  6.32653061  6.53061224  6.73469388  6.93877551  7.14285714
  7.34693878  7.55102041  7.75510204  7.95918367  8.16326531  8.36734694
  8.57142857  8.7755102   8.97959184  9.18367347  9.3877551   9.59183673
  9.79591837 10.        ]


- np.logspace(start_ext, end_ext, num, base)

실습 문제

NumPy를 사용하여 다음과 같은 배열을 생성해 보세요.

1. 크기가 4x3인 모든 값이 0인 배열
2. 크기가 3x3인 모든 값이 1인 배열
3. 0에서 20까지 5씩 증가하는 값으로 구성된 배열
4. 0과 1 사이의 4개의 등간격 값을 가진 배열
5. *크기가 2x2인 정규 분포로 구성된 배열*

In [66]:
# 1

arr = np.zeros((4, 3))
print(arr)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [59]:
# 2

arr = np.ones((3, 3))
print(arr)

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [67]:
# 3

arr = np.arange(0, 25, 5)
arr

array([ 0,  5, 10, 15, 20])

In [63]:
# 4

arr = np.linspace(0, 1, 4)
arr

array([0.        , 0.33333333, 0.66666667, 1.        ])

In [79]:
# 5
arr = np.random.randn(2, 2)
print(arr)

arr = np.random.normal(loc=0, scale=1, size=(2, 2))
print(arr)

[[-0.97866284  0.48447494]
 [ 0.33517116  0.87636672]]
[[-0.88838699 -0.41124575]
 [-1.74227876  0.3313011 ]]
