In [None]:
#로지스틱 회귀 : 종속 변수가 이진형일 때(결과가 두가지 중 하니일때) 사용되는 통계 기법(예, 사진을 가지고 개 또는 고양이인지 판별하는 경우)
#선형 회귀와는 달리 결과값이 0과 1 사이에 위치하게 하게 위해 시그모이드 함수를 사용한다.
#시그모이드 함수 : 1/(1+e^-x)로 0과 1사이의 값을 가지는 함수-무하닣 큰 양의 수를 넣어도 최댓값인 1에 가까워지고, 무한히 큰 음의 수를 넣어도 최솟값인 0에 가까워진다.(확률)
#로지스틱 회귀의 비용 함수(=로그 손실 함수, 크로스 엔트로피 손실 함수): 예측값과 실제값의 차이를 계산하는 함수(예, 개 사진을 예측할 확률이 0.2 이라면 오차율은 0.8이다. 최대한 1에 가까워지도록 학습한다.)



In [2]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer #유방암 데이터
from sklearn.model_selection import train_test_split #다양한 데이터
from sklearn.preprocessing import StandardScaler #데이터 전처리(평균이 0, 표준편차가 1이 되도록 = 표준화)
#from sklearn.preprocessing import MinMaxScaler 데이터 전처리(최소값이 0, 최대값이 1이 되도록 = 정규화)


In [4]:
data_cancer = load_breast_cancer()
data_cancer

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
         1.189e-01],
        [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
         8.902e-02],
        [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
         8.758e-02],
        ...,
        [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
         7.820e-02],
        [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
         1.240e-01],
        [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
         7.039e-02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0

In [5]:
X = data_cancer.data
y = data_cancer.target

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
scaler = StandardScaler() #표준화 : 데이터가 동일한 범위에 있도록 함
X_train = scaler.fit_transform(X_train) 
X_test = scaler.transform(X_test) #X_trian을 transform만 한 이유 : 테스트용은 학습하면 안되고 학습용 데이터만 학습해야한다(테스트용은 값이 달라지면 안된다)

In [13]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 모델 생성 밑 학습
model = LogisticRegression()
model.fit(X_train, y_train)

In [14]:
#예측
y_pred = model.predict(X_test)

In [15]:
#평가
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Classification Report:\n{classification_report(y_test, y_pred)}")
print(f"Confusion Matrix:\n{confusion_matrix(y_test, y_pred)}")

Accuracy: 0.9736842105263158
Classification Report:
              precision    recall  f1-score   support

           0       0.98      0.95      0.96        43
           1       0.97      0.99      0.98        71

    accuracy                           0.97       114
   macro avg       0.97      0.97      0.97       114
weighted avg       0.97      0.97      0.97       114

Confusion Matrix:
[[41  2]
 [ 1 70]]


In [None]:
#타이타닉 데이터를 이용해서 생존할 확률을 예측
import seaborn as sns

# 데이터 로드
titanic = sns.load_dataset('titanic')
titanic

In [17]:
# 필요한 열 선택 및 결측값 처리
# 데이터 프레임에서 여러 열을 선택할때는 또 리스트로 묶어줘야함
titanic = titanic[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked']].dropna()

In [18]:
# 성별과 탑승한 곳 인코딩
titanic['sex'] = titanic['sex'].map({'male': 0, 'female': 1}) #이렇게 숫자로 하는 것은 좋지는 않은 인코딩 방법
titanic['embarked'] = titanic['embarked'].map({'C': 0, 'Q': 1, 'S': 2})


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked
0,0,3,male,22.0,1,0,7.2500,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.9250,S
3,1,1,female,35.0,1,0,53.1000,S
4,0,3,male,35.0,0,0,8.0500,S
...,...,...,...,...,...,...,...,...
885,0,3,female,39.0,0,5,29.1250,Q
886,0,2,male,27.0,0,0,13.0000,S
887,1,1,female,19.0,0,0,30.0000,S
889,1,1,male,26.0,0,0,30.0000,C


In [None]:
# 특성과 타겟 분리
X = titanic.drop('survived', axis=1)
y = titanic['survived']
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked
0,0,3,male,22.0,1,0,7.2500,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.9250,S
3,1,1,female,35.0,1,0,53.1000,S
4,0,3,male,35.0,0,0,8.0500,S
...,...,...,...,...,...,...,...,...
885,0,3,female,39.0,0,5,29.1250,Q
886,0,2,male,27.0,0,0,13.0000,S
887,1,1,female,19.0,0,0,30.0000,S
889,1,1,male,26.0,0,0,30.0000,C


In [None]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 데이터 스케일링
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# 모델 생성 및 학습
model = LogisticRegression()
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 평가
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Classification Report:\n{classification_report(y_test, y_pred)}")
print(f"Confusion Matrix:\n{confusion_matrix(y_test, y_pred)}")