In [1]:
from sklearn.datasets import load_boston # 보스턴 집값 데이터셋

boston_dataset = load_boston()

print(boston_dataset.DESCR) # 데이터셋 정보 확인
# 506개의 데이터가 있음 13개의 입력변수, 14번째 속성이 목표변수. 집 가격임

print(boston_dataset.feature_names) # 속성 이름들

print(boston_dataset.data) # 입력변수들이 행렬로 나옴
print(boston_dataset.data.shape) # 506개의 행과 13개의 열, 506개의 데이터와 13개의 속성

print(boston_dataset.target) # 506개의 집 가격, 목표변수가 나옴
print(boston_dataset.target.shape) # 차원이 506인 벡터

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [4]:
# 이제 데이터프레임으로 보자!
import pandas as pd

x = pd.DataFrame(boston_dataset.data, columns=boston_dataset.feature_names)
print(x)

# 입력변수 한 개일 때만 봐보자!
x = x[['AGE']] # 열 하나만 갖고오기

# 목표변수 설정
y = pd.DataFrame(boston_dataset.target, columns=['MEDV'])

        CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD    TAX  \
0    0.00632  18.0   2.31   0.0  0.538  6.575  65.2  4.0900  1.0  296.0   
1    0.02731   0.0   7.07   0.0  0.469  6.421  78.9  4.9671  2.0  242.0   
2    0.02729   0.0   7.07   0.0  0.469  7.185  61.1  4.9671  2.0  242.0   
3    0.03237   0.0   2.18   0.0  0.458  6.998  45.8  6.0622  3.0  222.0   
4    0.06905   0.0   2.18   0.0  0.458  7.147  54.2  6.0622  3.0  222.0   
..       ...   ...    ...   ...    ...    ...   ...     ...  ...    ...   
501  0.06263   0.0  11.93   0.0  0.573  6.593  69.1  2.4786  1.0  273.0   
502  0.04527   0.0  11.93   0.0  0.573  6.120  76.7  2.2875  1.0  273.0   
503  0.06076   0.0  11.93   0.0  0.573  6.976  91.0  2.1675  1.0  273.0   
504  0.10959   0.0  11.93   0.0  0.573  6.794  89.3  2.3889  1.0  273.0   
505  0.04741   0.0  11.93   0.0  0.573  6.030  80.8  2.5050  1.0  273.0   

     PTRATIO       B  LSTAT  
0       15.3  396.90   4.98  
1       17.8  396.90   9.14  
2       1

In [5]:
from sklearn.model_selection import train_test_split

# 입력변수(x)와 목표변수(y) 넘겨주고, 전체 데이터 중에 20퍼센트만 test에 사용, 나머지는 train에 사용하라는 의미
# random_state는 test를 어떻게 고를지 정하는 마라미터임, 옵셔널이라서 안 줘도 됨
# 안 주면 실행할 때마다 새롭게 매번 랜덤한 test를 고르게 됨 (지금처럼 정수 넘겨주면 매번 같은 데이터 고름, 아무 정수 넣어도 됨)
# 4개의 값을 반환해서 각각 들어갈 것을 설정했다.
# 모두 판다스 데이터 프레임이다.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=5) 

# 20대 80으로 나뉨
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)
print(y_test.shape)

(404, 1)
(102, 1)
(404, 1)
(102, 1)


In [13]:
# 사이킷런으로 선형회귀 사용
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x_train, y_train)

print(model.coef_) # 모델의 정보중 세타1 값
print(model.intercept_) # 세타0의 값

y_test_prediction = model.predict(x_test) # 테스트 데이터셋에 대한 예측값

# 평균 제곱 오차 구하기
from sklearn.metrics import mean_squared_error
print(mean_squared_error(y_test, y_test_prediction)) # 평균 제곱 오차
print(mean_squared_error(y_test, y_test_prediction) ** 0.5) # 평균 제곱근 오차, 루트 씌우면 되는데, 0.5제곱과 같으니 0.5제곱 하기
# 위 모델로 집값 구하면 약 8천달러 정도의 오차가 있다고 보면 됨

[[-0.12402883]]
[31.04617413]
67.8462187008521
8.236881612652455


In [15]:
# 다중 선형회귀
X = pd.DataFrame(boston_dataset.data, columns=boston_dataset.feature_names)
X

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5) 

model = LinearRegression()
model.fit(X_train, y_train)

print(model.coef_) # 세타0을 제외한 모든 세타 값
print(model.intercept_) # 세타0의 값, 손실을 최대한 적게하는 세타 값

y_test_prediction = model.predict(X_test)
print(mean_squared_error(y_test, y_test_prediction)) # 평균 제곱 오차
print(mean_squared_error(y_test, y_test_prediction) ** 0.5) # 평균 제곱근 오차
# 위 모델로 집값 구하면 약 4천달러 정도의 오차가 있다고 보면 됨
# 입력변수 여러 개 하니 오차가 줄어듦

[[-1.30799852e-01  4.94030235e-02  1.09535045e-03  2.70536624e+00
  -1.59570504e+01  3.41397332e+00  1.11887670e-03 -1.49308124e+00
   3.64422378e-01 -1.31718155e-02 -9.52369666e-01  1.17492092e-02
  -5.94076089e-01]]
[37.91248701]
20.86929218377074
4.5682920423032


In [23]:
# 다항회귀를 할 때 가상의 열(속성)을 만들어야하는데, sklearn이 모두 다 해준다!
from sklearn.preprocessing import PolynomialFeatures # 다항 속성

polynomial_transformer = PolynomialFeatures(2) # 몇 차 함수인지 작성, 2차함수로 작성함.
polynomial_data = polynomial_transformer.fit_transform(boston_dataset.data) # 다항 변형기(다항 회귀를 위해 가공)

print(polynomial_data.shape) # 506행 105열(13개 열을 조합하고 가상의 열을 추가해서 총 105개가 됨)
polynomial_feature_names = polynomial_transformer.get_feature_names(boston_dataset.feature_names)
print(polynomial_feature_names) # 가능한 거의 모든 2차 조합이 다 있다, 곱하거나 제곱하거나 등등.., 1은 bias임

X = pd.DataFrame(polynomial_data, columns=polynomial_feature_names)
X

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5) 

model = LinearRegression()
model.fit(X_train, y_train)

print(model.coef_) # 세타0을 제외한 모든 세타 값
print(model.intercept_) # 세타0의 값

y_test_prediction = model.predict(X_test)
print(mean_squared_error(y_test, y_test_prediction)) # 평균 제곱 오차
print(mean_squared_error(y_test, y_test_prediction) ** 0.5) # 평균 제곱근 오차
# 위 모델로 집값 구하면 약 3천달러 정도의 오차가 있다고 보면 됨

(506, 105)
['1', 'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'CRIM^2', 'CRIM ZN', 'CRIM INDUS', 'CRIM CHAS', 'CRIM NOX', 'CRIM RM', 'CRIM AGE', 'CRIM DIS', 'CRIM RAD', 'CRIM TAX', 'CRIM PTRATIO', 'CRIM B', 'CRIM LSTAT', 'ZN^2', 'ZN INDUS', 'ZN CHAS', 'ZN NOX', 'ZN RM', 'ZN AGE', 'ZN DIS', 'ZN RAD', 'ZN TAX', 'ZN PTRATIO', 'ZN B', 'ZN LSTAT', 'INDUS^2', 'INDUS CHAS', 'INDUS NOX', 'INDUS RM', 'INDUS AGE', 'INDUS DIS', 'INDUS RAD', 'INDUS TAX', 'INDUS PTRATIO', 'INDUS B', 'INDUS LSTAT', 'CHAS^2', 'CHAS NOX', 'CHAS RM', 'CHAS AGE', 'CHAS DIS', 'CHAS RAD', 'CHAS TAX', 'CHAS PTRATIO', 'CHAS B', 'CHAS LSTAT', 'NOX^2', 'NOX RM', 'NOX AGE', 'NOX DIS', 'NOX RAD', 'NOX TAX', 'NOX PTRATIO', 'NOX B', 'NOX LSTAT', 'RM^2', 'RM AGE', 'RM DIS', 'RM RAD', 'RM TAX', 'RM PTRATIO', 'RM B', 'RM LSTAT', 'AGE^2', 'AGE DIS', 'AGE RAD', 'AGE TAX', 'AGE PTRATIO', 'AGE B', 'AGE LSTAT', 'DIS^2', 'DIS RAD', 'DIS TAX', 'DIS PTRATIO', 'DIS B', 'DIS LSTAT', 'RAD^2',

In [35]:
# 분류 데이터셋 iris
from sklearn.datasets import load_iris

iris_data = load_iris()
# print(iris_data.DESCR) # 꽃받침(sepal)과 꽃잎(petal) 길이와 너비

X = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
y = pd.DataFrame(iris_data.target, columns=['class'])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5) 
y_train = y_train.values.ravel() # 데이터 타입을 데이터프레임에서 넘파이 배열로 변경해줌


from sklearn.linear_model import LogisticRegression
# solver는 모델을 최적화할 때 어떤 알고리즘을 쓸지 결정하는 것이다.
# max_iter는 최적화할 때 해당 과정을 몇 번 반복할지 결정하는 것이다. (경사하강법에서도 손실을 줄이기 위해 반복하니..)
# 2000번 설정했다고 해서 2000번 돌진 않음, 그전에 최적화 됐다 판단하면 알아서 멈춤
# 모두 옵셔널이라서 안 적어도 되긴 함
model = LogisticRegression(solver='saga', max_iter=2000)

model.fit(X_train, y_train)
print(model.predict(X_test))

print(model.score(X_test, y_test)) # 모델 평가, 93% 확률로 제대로 분류했다

[1 2 2 0 2 1 0 2 0 1 1 2 2 2 0 0 2 2 0 0 1 2 0 1 1 2 1 1 1 2]
0.9666666666666667
