# Data Science

- 방대한 양의 데이터를 수집, 분석, 시각화 처리하여 유의미한 정보를 추출하는 것
- 파이선 패키지로는 numpy, pandas, matplotlib, seaborn 등이 주로 사용됨

---

# NumPy
- 대규모의 다차원 배열과 이의 수치 연산을 지원하는 라이브러리

In [None]:
!pip install numpy

---

### ndarray 다차원 배열 생성

In [2]:
import numpy as np

In [3]:
today_arr = [2026, 1 ,20, 11, 21]
arr = np.array([2026, 1 ,20, 11, 21])

print(today_arr, type(today_arr))
print(arr, type(arr))

[2026, 1, 20, 11, 21] <class 'list'>
[2026    1   20   11   21] <class 'numpy.ndarray'>


In [None]:
arr = np.array((1, 2, 3, 4, 5)) # 튜플은 print 할 때 list의 출력 형식과는 좀 다름?
print (arr, type(arr))

[1 2 3 4 5] <class 'numpy.ndarray'>


In [6]:
arr = np.array([2026, 1, 20, 11, 21])

# ndarray의 구조를 보여주는 거임
print(arr.shape) # 형태 (5,).. 그럼 튜플이고 5개가 안에 들어있다는것?
print(arr.ndim) # n dimention? 깊이에 대한 이야기임 / 차원!! 1이 나왔다는 것은 1차원이라는 뜻임
print(arr.size) # 이건 걍 요소의 개수
print(arr.dtype) # 이건 안에 들어있는 데이터의 타입? 요소의 자료형.

(5,)
1
5
int64


In [None]:
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr_2d)
print([[1, 2, 3], [4, 5, 6]])
print("===========")

print(arr_2d.shape) # (2, 3) => 1차원에 가지고 있는 요소가 2, 2차원에 가지고 있는 요소가 3
print(arr_2d.ndim) # 깊이는 2차원!
print(arr_2d.size) # 6개
print(arr_2d.dtype) # 요소의 자료형.. 아직까진 int

[[1 2 3]
 [4 5 6]]
[[1, 2, 3], [4, 5, 6]]
(2, 3)
2
6
int64


In [None]:
arr_int = np.array([2026, 1, 20])

 # 하나의 요소를 정수타입으로 바꾼다고 하더라도 ndarray는 하나의 데이터 타입만 허용하기 때문에
 # 데이터 상에서는 정수가 float타입으로 변환돼서 저장되는 것임.
arr_float = np.array([1.234, 3.14, 9.876, 10.0])
arr_bool = np.array([True, False, False, True])
arr_str = np.array(['hello', 'world', 'python-is-nice', 'numpy'])

print(arr_int.dtype)    # int64 : (int64, int 32) => 비트를 의미함, 64비트=8바이트
print(arr_float.dtype)  # float64
print(arr_bool.dtype)   # bool
print(arr_str.dtype)    # <U6 => <U14 : 유니코드 14글자까지 저장 가능한 문자열이라는 뜻
    # => 요소에서 제일 큰 크기를 가진 요소의 length가 이 ndarray의 dtype이 되는거임.

int64
float64
bool
<U14


In [None]:
# 아래의 ndarray를 형변환하기
arr = np.array([1.234, 3.14, 9, 10])

# 1) ndarray를 생성할 때 dtype을 지정하는 방법
# 이렇게 타입을 정하고 싶으면 키워드 인자를 사용해서 정의할 수 있음.
# arr = np.array([1.234, 3.14, 9, 10], dtype=int)

# 2) 생성된 ndarry의 astype() 메서드를 이용해서 dtype을 변환하는 방법
# 또 다른 방법! astype이라는 메소드를 사용하는 방법
arr = arr.astype(int)

# 하지만 형변환을 할 때는.. 데이터의 손실에 대한.. 주의?를 해야됨!

print(arr, arr.dtype)

[ 1  3  9 10] int64


### python list와 ndarray의 차이

- ndarray는 동일한 자료형만 저장가능
- 형태/길이를 확인하는 방법의 차이
    - python list : len()
    - ndarray : ndarray.shape, ndarray.ndim, ndarray.size
- ndarray는 !!!다차원!!!인 경우, 중첩 배열을 동일한 크기만 허용함. (ndarray는 고정 길이를 가짐)

In [36]:
my_list = [2026, 1, 20, '화요일', True]
print(my_list)

my_list = [[1, 2, 3], [4, 5], [6]]
print(my_list)
print(len(my_list))
print(len(my_list[1]))

[2026, 1, 20, '화요일', True]
[[1, 2, 3], [4, 5], [6]]
3
2


In [None]:
my_ndarr = np.array([2026, 1, 20, '화요일', True])
print(my_ndarr) # 동일한 자료형만 가능하기 때문에 문자열 형식의 배열로 나옴

# 이렇게 크기가 다른 다차원 배열을 정의하면 오류가남. shape을 표현할 수 없기 때문
# 같은 차원에 있는 요소들의 크기는 항상 같아야되는거임...!
# 아래는 2차원이라서 2차원에 해당하는 요소들의 크기는 다 동일해야됨.
# my_ndarr = np.array([[1, 2, 3], [4, 5], [6]])
my_ndarr = np.array([[1, 2, 3], [4, 5, 1], [6, 2, 3]])
print(my_ndarr)
print(my_ndarr.shape)
print(my_ndarr.ndim)
print(my_ndarr.size)

['2026' '1' '20' '화요일' 'True']
[[1 2 3]
 [4 5 1]
 [6 2 3]]
(3, 3)
2
9


### 특정 수로 초기화된 ndarray 생성

In [None]:
arr = np.array([[0, 0, 0], [0, 0, 0], [0, 0, 0]])
print(arr)

# zeros() : 0으로 초기화 된 ndarray 생성 / 기본적으로 float 타입임
zeros_arr = np.zeros((3, 3))
print(zeros_arr) # 0으로 된... 1차원 3개 2차원 3개의 배열.. zeros라서 0으로 채움

# ones() : 1로 초기화된 ndarray 생성 / 기본적으로 float 타입임
ones_arr = np.ones((5, 2)) # 1차원에 5개 요소, 2차원에 2개가 있는 배열이 만들어짐. ones라서 1이 채워짐.
print(ones_arr)

# full() : 지정된 임의의 값으로 초기화된 ndarray 생성 / 7이라는 정수형을 입력했기 때문에 정수형으로 채워짐.
full_arr = np.full((4, 1), 7) # 어떤 값을 채울지 지정해줘야됨! 1차원에 4개, 2차원에 1개
print(full_arr)

[[0 0 0]
 [0 0 0]
 [0 0 0]]
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
[[7]
 [7]
 [7]
 [7]]


In [None]:
origin_arr = np.array([[10, 20], [30, 40]])
print(origin_arr.shape)

# 위의 정의된 ndarray의 차원 형식에 맞춰서 0 / 1 / 7을 채움
# 원본 배열의 dtype이 정수형이기 때문에 원본 배열의 dtype을 따름.
# 위의 zeros() 등에서 정의한 배열 데이터와 다르게 정수형으로 출력됨.

# zeros_like() : 0으로 초기화된 원본 배열의 구조와 동일한 구조의 ndarray가 만들어짐.
print(np.zeros_like(origin_arr))
# ones_like() : 1로 초기화된 초기화된 원본 배열의 구조와 동일한 구조의 ndarray가 만들어짐.
print(np.ones_like(origin_arr))
# full_like() : 임의의 값으로 초기화된 원본 배열의 구조와 동일한 구조의 ndarray가 만들어짐.
print(np.full_like(origin_arr, 7))

(2, 2)
[[0 0]
 [0 0]]
[[1 1]
 [1 1]]
[[7 7]
 [7 7]]


### 수열 생성

- np.arange(start, end, step)
    - start : 시작하는 숫자
    - end : 끝나는 숫자 + 1
    - step : start에서 end까지의 증가하는 간격

In [None]:
print(np.arange(10))
print(np.arange(1, 10))
print(np.arange(1, 10, .1)) # 1~9까지 0.1 씩 증가하는 배열을 뽑음! 총 90개가 들어있음

[0 1 2 3 4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]
[1.  1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.  2.1 2.2 2.3 2.4 2.5 2.6 2.7
 2.8 2.9 3.  3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.  4.1 4.2 4.3 4.4 4.5
 4.6 4.7 4.8 4.9 5.  5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.  6.1 6.2 6.3
 6.4 6.5 6.6 6.7 6.8 6.9 7.  7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.  8.1
 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.  9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9]


- np.linspace(start, end, num)
    - start : 시작하는 숫자
    - end : 끝나는 숫자 (근데 얘는 +1이 아님 arange랑 다르게)
    - num : 결과로 만들어진 수열의 요소 개수

In [72]:
# print(np.linspace(10)) # 인자를 하나만 주면 문제가 생김

print(np.linspace(1, 10)) # 끝나는 값을 포함함. 그리고 50개가 고정으로 나오는 듯
print(np.linspace(1, 10, 5)) # 여기는.. step을 의미하는것이 아님.
# 1에서 10까지... 5개만 뽑는다는 뜻인거 같음..

[ 1.          1.18367347  1.36734694  1.55102041  1.73469388  1.91836735
  2.10204082  2.28571429  2.46938776  2.65306122  2.83673469  3.02040816
  3.20408163  3.3877551   3.57142857  3.75510204  3.93877551  4.12244898
  4.30612245  4.48979592  4.67346939  4.85714286  5.04081633  5.2244898
  5.40816327  5.59183673  5.7755102   5.95918367  6.14285714  6.32653061
  6.51020408  6.69387755  6.87755102  7.06122449  7.24489796  7.42857143
  7.6122449   7.79591837  7.97959184  8.16326531  8.34693878  8.53061224
  8.71428571  8.89795918  9.08163265  9.26530612  9.44897959  9.63265306
  9.81632653 10.        ]
[ 1.    3.25  5.5   7.75 10.  ]


- np.logspace(start_exp, end_exp, num, base)
    - start_exp : 시작 지수
    - end_exp : 끝 지수
    - num : 결과로 만들어진 수열의 요소 개수
    - base : 밑 (기본값 = 10)
- 지수 : 거듭제곱.. 위에 있는 숫자
- log(n) b = x 뭐 이런.. .. log와 관련된 함수임

In [64]:
print(np.logspace(1, 3, 4))

[  10.           46.41588834  215.443469   1000.        ]
