# Data Science
- 방대한 양의 데이터를 수집, 분석, 시각화 처리하여 유의미한 정보를 추출하는 것
- Python package: numpy, pandas, matplotlib, seaborn 등이 주로 사용됨

---

# numpy
- 대규모 다차원 배열, 수치 연산을 지원하는 라이브러리

### 설치코드
```python
pip install numpy
```
### 주피터에서
```python
!pip install numpy
```

---

### ndarray 다차원 배열 생성

In [2]:
import numpy as np

In [12]:
list1 = [1,2,3,4,5]
array1 = np.array([1,2,3,4,5])

print("list:", list1)
print("ndarray:", array1)
print(array1.size)
print(array1.shape)
print("Comparison:", type(list1), type(array1))

list: [1, 2, 3, 4, 5]
ndarray: [1 2 3 4 5]
5
(5,)
Comparison: <class 'list'> <class 'numpy.ndarray'>


In [None]:
# 즉 array()는 SEQUENCE를 array로 바꿔주는 역할을 함
arr = np.array((1,2,3,4,5))
print(arr,type(arr))

[1 2 3 4 5] <class 'numpy.ndarray'>


In [None]:
array2 = np.array([[1,2,3],[4,5,6],[7,8,9]])

print(array2, '\n')                         
print("Size:", array2.size)                 # 요소 개수
print("Num of Dimensions:", array2.ndim)    # 깊이 (몇차원인지)
print("Shape:", array2.shape)               # 형태 
print(array2.dtype)                         # 요소의 자료형

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

Size: 9
Num of Dimensions: 2
Shape: (3, 3)
int64


In [11]:
arr_int = np.array([2025,7,14])
print(arr_int.dtype)

arr_float = np.array([1.234, 3.14, 9.55])
print(arr_float.dtype)

arr_bool = np.array([True, False, False, True])
print(arr_bool.dtype)

arr_str = np.array(['Hello', 'World', 'python', 'numpy-lib'])
print(arr_str.dtype) # <U9: 유니코드 9글자까지 저장 가능한 문자열 (제일 긴 놈 기준으로 바뀜)

int64
float64
bool
<U9


In [19]:
arr_1 = np.array([1.234, 3.14, 9.55, 10]) # 암묵적 형변환
print(arr_1.dtype)

arr_2 = np.array([1.234, 3.14, 9.55, 10], dtype=float) 
print(arr_2, arr_2.dtype)

arr_3 = np.array([1.234, 3.14, 9.55, 10], dtype=int) # type casting method 1
print(arr_3, arr_3.dtype)

arr_4 =  np.array([1.234, 3.14, 9.55, 10])
arr_4 = arr_4.astype(int) # type casting method 2
print(arr_4, arr_4.dtype)


float64
[ 1.234  3.14   9.55  10.   ] float64
[ 1  3  9 10] int64
[ 1  3  9 10] int64


### python list V.S. ndarray
- ndarray는 동일한 자료형만 저장 가능
- ndarray는 다차원인 경우, 충접 배열은 동일한 크기만 허용
- 형태/길이 확인법
    - python list: len()
    - ndarray: ndarray.shape, ndarray.dim, ndarray.size 

In [21]:
my_list = [2025, 7, 14, 'numpy', True]
print(my_list)

my_list2 = [[1,2,3], [4,5],[6]]
print(my_list2)

print(len(my_list))
print(len(my_list2[0]))

[2025, 7, 14, 'numpy', True]
[[1, 2, 3], [4, 5], [6]]
5
3


In [None]:
arr_test = np.array([2025, 7, 14, 'numpy', True])

print(arr_test)
print(arr_test.size)
print(arr_test.shape)
print(arr_test.ndim)
print(arr_test.dtype) # <U21 => 싹 다 string으로 들어가는 것

['2025' '7' '14' 'numpy' 'True']
5
(5,)
1
<U21


In [None]:
arr_test2 = np.array([[1,2,3], [4,5],[6]]) # 이거는 안되쥬 -> 왜? 중첩구조에서는 크기가 같아야 하니까
 
print(arr_test2)
print(arr_test.size2)
print(arr_test.shape2)
print(arr_test.ndim2)
print(arr_test.dtype2) 

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (3,) + inhomogeneous part.

# 특정 수로 초기화된 ndarray 생성

In [41]:
# zeros
arr_zeros = np.zeros((3,3)) # tuple은 shape
print(arr_zeros, '\n')

# ones
arr_ones = np.ones((3,5), dtype=int)
print(arr_ones, '\n')

# full
arr_full = np.full((4,2), 9.0)
print(arr_full, '\n')
arr_full = np.full((3,), 7) # 명시적으로 comma 
print(arr_full)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]] 

[[1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]] 

[[9. 9.]
 [9. 9.]
 [9. 9.]
 [9. 9.]] 

[7 7 7]


In [None]:
arr = np.array([[10.0, 20.0],[30.0, 40.0]]) # arr.shape -> (2,2)
print("Shape:", arr.shape, '\n')

## ndarray를 삽입하면 됨 => 이미 만들어진 matrix 구조에 숫자만 지정해서 초기화
# zeros_like
print(np.zeros_like(arr), '\n')

# ones_like
print(np.ones_like(arr), '\n')

# full_like
print(np.full_like(arr, 9)) 

Shape: (2, 2) 

[[0. 0.]
 [0. 0.]] 

[[1. 1.]
 [1. 1.]] 

[[9. 9.]
 [9. 9.]]


### Sequence(수열) 생성: arithmetic sequence
- np.arange(start, end, step)
    - start: 시작하는 숫자
    - end: 끝나는 숫지 + 1
    - step: start~end 증가하는 간격

In [None]:
seq1_arr = np.arange(1,10)
seq2_arr = np.arange(0, 20 , .2)
seq3_arr = np.arange(10) # default로 1씩 increment

print(seq1_arr)
print(seq2_arr)
print(seq3_arr)


TypeError: arange: scalar arguments expected instead of a tuple.

- np.linspace(strat, end, num)
    - start: 시작
    - end: 끝
    - num: 결과로 만들어진 수열의 요소 개수 (동일한 간격으로 생성)

In [64]:
arr_lin1 = np.linspace(0, 1, 5)  # 0에서 1까지 5개의 interval
arr_lin2 = np.linspace(0, 10)  # num의 기본값은 50
#arr_lin3 = np.linspace(10)  # 이렇게는 안 됨!!!!

print(arr_lin1)
print(arr_lin2)
#print(arr_lin3)

[0.   0.25 0.5  0.75 1.  ]
[ 0.          0.20408163  0.40816327  0.6122449   0.81632653  1.02040816
  1.2244898   1.42857143  1.63265306  1.83673469  2.04081633  2.24489796
  2.44897959  2.65306122  2.85714286  3.06122449  3.26530612  3.46938776
  3.67346939  3.87755102  4.08163265  4.28571429  4.48979592  4.69387755
  4.89795918  5.10204082  5.30612245  5.51020408  5.71428571  5.91836735
  6.12244898  6.32653061  6.53061224  6.73469388  6.93877551  7.14285714
  7.34693878  7.55102041  7.75510204  7.95918367  8.16326531  8.36734694
  8.57142857  8.7755102   8.97959184  9.18367347  9.3877551   9.59183673
  9.79591837 10.        ]


- [참고] 지수 | 로그
    - 지수(exponent): 거듭제곱 $a^x = b$에서 x
    - 밑(base): 거급제곱 될 수  $a^x = b$에서 a
    - 로그
    - 자연로그: base with 'e'
    - common logarithm: base 10

- np.logspace(start_exp, end_exp, num, base)
    - start_exp: 시작 exponent(지수)
    - end_exp: 끝 exponent
    - num: 결과로 만들어진 수열의 요소 개수
    - base: base

In [70]:
log_arr = np.logspace(1,3,4) # base default: 10
print(log_arr)

log_arr2 = np.logspace(1, 3, 4, 2) # base default: 10
print(log_arr2)

[  10.           46.41588834  215.443469   1000.        ]
[  10.           46.41588834  215.443469   1000.        ]


---

## ndarray Indexing & Slicing

In [75]:
# 1-d array indexing = python list indexing

arr = np.arange(0,22,2) # 0~22까지 2 간격

print(arr)
print(arr[1], arr[3], arr[-1])

[ 0  2  4  6  8 10 12 14 16 18 20]
2 6 20


In [None]:
# 2-d array indexing

arr_2d = np.array([[10,20,30],[40,50,60]])
print("Shape:", arr_2d.shape)
print(arr_2d[0])

print(arr_2d[0][1:]) # 방법 1
print(arr_2d[0, 1:]) # 방법 2 == print(arr_2d[ (0, 1:) ])  -> 근데 내부적으로 구동 방법에는 차이가 있기는 함



Shape: (2, 3)
[10 20 30]
[20 30]
[20 30]


In [88]:
arr2_2d = np.array([[11, 22, 33], [44, 55, 66], [77, 88, 99]])

print(arr2_2d[1,0]) # 44
print(arr2_2d[2,1]) # 88
print(arr2_2d[-1,-2]) # 88 (음수 인덱스로)

44
88
88


In [97]:
# 1차원 배열 슬라이싱
arr = np.arange(1,11)

print(arr[2:7]) # [3 4 5 6 7]
print(arr[:10:2]) # [1 3 4 7 9]
print(arr[4:]) # [5 6 7 8 9 10]
print(arr[:-3])# [1 2 3 4 5 6 7]
print(arr[::-1])# [10 9 8 7 6 5 4 3 2 1]

[3 4 5 6 7]
[1 3 5 7 9]
[ 5  6  7  8  9 10]
[1 2 3 4 5 6 7]
[10  9  8  7  6  5  4  3  2  1]


In [None]:
# 2차원 배열 슬라이싱
arr_2d = np.array([[10,20,30],[40,50,60],[70,80,90]])

print(arr_2d[0:2, 1:2], '\n') # [[20], [50]] => [행 슬라이싱, 열 슬라이싱]
print(arr_2d[:2, :], '\n')
print(arr_2d[:, 1:], '\n')
print(arr_2d[0:2]) # argument 1개면 row에 대해서만 슬라이싱 한다는 것

[[20]
 [50]] 

[[10 20 30]
 [40 50 60]] 

[[20 30]
 [50 60]
 [80 90]] 

[[10 20 30]
 [40 50 60]]


In [None]:
print(arr_2d[:-1, 0:1])
print(arr_2d[:-1, 0:1].shape)

print("\n") # 위랑 아래랑 결과가 다른 것을 볼 수 있음 => why? 위에는 컬럼 슬라이싱 밑에는 인덱싱(차원이 제거가 됨) 즉, 값을 꺼내서 반환

print(arr_2d[:-1, 0])
print(arr_2d[:-1, 0].shape)

[[10]
 [40]]
(2, 1)


[10 40]
(2,)


### Fancy indexing & boolean indexing

In [123]:
# 1차원 배열 fancy indexing
arr = np.arange(5,31, 5)
print(arr, "\n")

indices = [1, 3, 5]
print(arr[indices]) # arr[[1,3,5]]

[ 5 10 15 20 25 30] 

[10 20 30]


In [None]:
# 2차원 배열 fancy indexing
arr2d = np.array([
    [5, 10, 15, 20], 
    [25, 30, 35, 40],
    [45, 50, 55, 60]
]
)

# Goal: [10, 35] => 10 위치: (0,1), 35 위치: (1,2)
indices1= [0, 1] # [행1, 행2]
indices2 = [1 ,2] # [열1, 열2]
print(arr2d[indices1, indices2]) 
print(arr2d[[0,1],[1,2]]) #  위랑 같음 

[10 35]
[10 35]


In [None]:
# 1차원 데이터 boolean indexing
arr = np.arange(1,6)
print(arr)

bools = [True, False, False, False, True]
print(arr[bools])
print(arr[arr < 3]) # 조건으로 indexing


[1 2 3 4 5]
[1 5]
[1 2]


In [137]:
# 2차원 배열 boolean indexing
arr2d = np.array([
    [5, 10, 15, 20], 
    [25, 30, 35, 40],
    [45, 50, 55, 60]
]
)

print(arr2d[(arr2d > 30) & (arr2d < 60)])
print(arr2d[arr2d %2 ==0])

[35 40 45 50 55]
[10 20 30 40 50 60]


- **np.all()**: ndarray의 모든 요소가 조건을 만족할 때 True 반환
- **np.any()**: ndarray의 요소 중 하나라도 조건 만족할 때 True 반환

In [None]:
arr = np.array([10,20,30,40, -50])

print(np.all(arr > 0)) # '전부' 조건 해당되면 True
print(np.any(arr > 0)) # '하나라도' 조건 해당되면 True

False
True
