# 데이터분석 목적

- 지도학습(y값: 레이블을 제공)
    - 베이스공식: wx + b => 회귀분석
    - 베이스공식 + (0 ~ 1 사이 값으로만 출력) => 이항분류
    - 베이스공식 + 이항분류 + 확률값계산 => 다항분류
        - AI에서는 다항분류의 softmax의 output값은 y값의 유니크 갯수로 지정
- 사이킷런은 이항분류/다항분류 모두 => 다항분류로 나옴
    - y 예측값이 2개 일 때는 [확률1 ,확률2]
    - y 예측값이 4개 일 때는 [확률1, 확률2, 확률3, 확률4]
    - 가장 큰 확률값의 위치를 찾으면 y 예측값이 됨
- 인공신경망은 이항분류는 sigmoid, output 1개 / 다항분류는 softmax, output y의 유니크 갯수 값

## 회귀분석에서 예측값 공식

$\hat{y} = wx + b$ 예상
<br />
$y = \hat{y} + err$ 실제

In [1]:
# https://wikidocs.net/87222
# 이항분류에서는 미리 자료값을 같은 범위로 만드는
# 스케일링을 진행하고 작업하는것을 권장함.
# https://m.blog.naver.com/gdpresent/221703566189 (옵션)
# 구글링: 로지스틱 회귀분석 c값

In [2]:
# 메모리내 변수 제거

all = [var for var in globals() if var[0] != "_"]   # globals() 목록의 첫글자가 _ 로 시작하지 않는 자료의 리스트만 가져와서
for var in all:
    del globals()[var]    # _로 시작하지 않는 모든 자료 삭제함

In [27]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

##########데이터 로드

x_data = np.array([
    [2, 1],
    [3, 2],
    [3, 4],
    [5, 5],
    [7, 5],
    [2, 5],
    [8, 9],
    [9, 10],
    [6, 12],
    [9, 2],
    [6, 10],
    [2, 4],
    [1, 1],
    [0, 0]
])
y_data = np.array([0, 1, 2, 1, 1, 2, 0, 2, 1, 2, 1, 0, 1, 1])
labels = ['fail', 'pass']

##########데이터 분석

##########데이터 전처리

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, 
                                                    test_size=0.2, random_state=777)

##########모델 학습
model = LogisticRegression(max_iter=9)  # wx + b(선형회귀) + 시그모이드 공식 + 확률 => 인공신경망의 softmax와 유사
model.fit(x_train, y_train)

##########모델 검증
y_predict = model.predict(x_test)

print('---테스트-예측값--- ')
print(y_predict)  # 
print('\n--테스트-실제값--- ')
print(y_test)  # 
print('\n--테스트데이터 정확도--- ')
print(accuracy_score(y_test, y_predict)) #1.0 #정확도

---테스트-예측값--- 
[2 1 1]

--테스트-실제값--- 
[1 1 1]

--테스트데이터 정확도--- 
0.6666666666666666


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [28]:
print(model.predict_proba(x_test))
print(model.predict(x_test))

[[0.24678509 0.34466205 0.40855285]
 [0.331247   0.35150402 0.31724898]
 [0.3132533  0.36526296 0.32148374]]
[2 1 1]


In [29]:
x_train = [[2, 3], [2, 3], [2, 3]]
y_train = [1, 0, 1]

x_test = [[2, 3], [2, 3], [2, 3]]
y_test = [1, 2, 3]

model = LogisticRegression()
model.fit(x_train, y_train)

model.predict_proba(x_train)
model.predict_proba(x_test)

array([[0.33333143, 0.66666857],
       [0.33333143, 0.66666857],
       [0.33333143, 0.66666857]])

# 비지도 학습