

## 1.4 필수 라이브러리와 도구들

### 1.4.2 Numpy
 파이썬에서 다차원 계산 등 여러 계산을 하기 위한 패키지이다.



In [1]:
import numpy  as np
x = np.array([[1,2,3],[4,5,6],[7,8,9]])
print("x:\n",x,"\n")
print("x의 크기:",x.shape,"\n")

x:
 [[1 2 3]
 [4 5 6]
 [7 8 9]] 

x의 크기: (3, 3) 



### 1.4.3 Scipy

계산용 함수를 모아놓은 파이썬 패키지이다.
여러 함수중 scipy.sparse가 가장 중요하다.   
sparse matrix : 희소(희박) 행렬은 행렬에서 0이 아닌 원소만 저장하는 기능이다.   

CSR(Compressed Sparse Row) : 행의 인덱스를 압축하여 저장.   
COO(Coodinate) : 데이터가 놓일 행렬의 위치를 별도의 매개변수로 전달.

In [None]:
from scipy import sparse

eye = np.eye(4)
print("NumPy 배열:\n",eye)

# 위 단위행렬에서 0이 아닌 원소만 저장.
sparse_matrix = sparse.csr_matrix(eye)
print("\nSciPy의 CSR 행렬:\n",sparse_matrix)

# 간단히 위 csr 행렬은 원래 행렬을 가지고 0이 아닌 원소만 표현,
# COO 표현은 희소행렬을 바로 만들어 표현현.
data = np.ones(4)
row_indices = np.arange(4)
col_indices = np.arange(4)
eye_coo = sparse.coo_matrix((data, (row_indices,col_indices)))
print("\nCOO 표현:\n",eye_coo)

### 1.4.4 matplotlib
 그래프를 그리기 위한 라이브러리입니다.

In [None]:
import matplotlib.pyplot as plt

# -10에서 10까지 100개의 간격으로 나뉘어진 배열을 생성한다.
x = np.linspace(-10,10,100)

# 사인 함수를 사용하여 y 배열을 생성한다.
y = np.sin(x)

# plot 함수는 한 배열의 값을 다른 배열에 대응해서 선 그래프를 그린다.
plt.plot(x,y, marker='o')
plt.show()

### 1.4.5 pandas
 데이터 처리와 분석을 위한 라이브러리이다.

In [None]:
import pandas as pd

# 간단한 데이터 세트 생성.
data = {'Name': ["John", "Anna", "Peter", "Linda"],
        'Location' : ["New York", "Paris", "Berlin", "London"],
        'Age' : [24, 13, 53, 33]
       }
data_pandas = pd.DataFrame(data)
display(data_pandas)

In [None]:
# Age열의 값이 30 이상인 모든 행을 선택합니다.
display(data_pandas[data_pandas.Age>30])

**이 책의 소프트웨어 버젼**

Python 버전: 3.7.3 (default, Mar 27 2019, 16:54:48) 
[Clang 4.0.1 (tags/RELEASE_401/final)]
pandas 버전: 1.3.3
matplotlib 버전: 3.4.3
NumPy 버전: 1.21.2
SciPy 버전: 1.7.1
IPython 버전: 7.21.0
scikit-learn 버전: 1.0


**현재 나의 소프트웨어 버젼**

In [2]:
import sys
print("Python 버전:", sys.version)

import pandas as pd
print("pandas 버전:", pd.__version__)

import matplotlib
print("matplotlib 버전:", matplotlib.__version__)

import numpy as np
print("NumPy 버전:", np.__version__)

import scipy as sp
print("SciPy 버전:", sp.__version__)

import IPython
print("IPython 버전:", IPython.__version__)

import sklearn
print("scikit-learn 버전:", sklearn.__version__)

Python 버전: 3.9.16 (main, Dec  7 2022, 01:11:51) 
[GCC 9.4.0]
pandas 버전: 1.5.3
matplotlib 버전: 3.7.1
NumPy 버전: 1.22.4
SciPy 버전: 1.10.1
IPython 버전: 7.34.0
scikit-learn 버전: 1.2.2


## 1.7 첫 번째 애플리케이션: 붓꽃의 품종 분류
 붓꽃(setoda, versicolor, virginica)의 꽃잎(petal)과 꽃받침(sepal)의 폭과 길이를 센치미터 단위로 측정한 데이터세트이다.  

이를 꽃잎과 꽃받침의 데이터로 붓꽃의 종류를 분류하는 문제이다. 

In [None]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()

# load_iris의 객체는 파이썬의 딕셔너리와 유사한 Bunch 클래스의 객체이다.
print("iris_dataset의 키:\n",iris_dataset.keys())

print(iris_dataset['DESCR'][:193]+ "\n...")