In [3]:
import pandas as pd
import numpy as np

# 사이킷런의 로지스틱 회귀 라이브러리
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 타이타닉 데이터 불러오기
data = pd.read_csv('labels/about.csv')
data.head(10)

Unnamed: 0,Mask,Maskkinds,Name,Sex,Age
0,0,3,Mr. Owen Harris Braund,male,22.0
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0
2,1,3,Miss. Laina Heikkinen,female,26.0
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0
4,0,3,Mr. William Henry Allen,male,35.0
5,0,3,Mr. James Moran,male,27.0
6,0,1,Mr. Timothy J McCarthy,male,54.0
7,0,3,Master. Gosta Leonard Palsson,male,2.0
8,1,3,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,female,27.0
9,1,2,Mrs. Nicholas (Adele Achem) Nasser,female,14.0


In [4]:
#데이터에 null이 포함되어 있는지 확인
# null값이 있으면 해당 데이터를 지우거나, 평균값으로 null 값을 채워주는 방법이 있다.
data.isna().sum()

Mask         0
Maskkinds    0
Name         0
Sex          0
Age          0
dtype: int64

In [5]:
#타겟 데아터 따로 저장
target = data['Mask']

data.drop(labels=['Name', 'Maskkinds'], axis=1, inplace=True)

#성별 데이터를 숫자로 변환
data['Sex'] = data['Sex'].map({'male':0,
                               'female':1})

data

Unnamed: 0,Mask,Sex,Age
0,0,0,22.0
1,1,1,38.0
2,1,1,26.0
3,1,1,35.0
4,0,0,35.0
...,...,...,...
882,0,0,27.0
883,1,1,19.0
884,0,1,7.0
885,1,0,26.0


In [6]:
#훈련 데이터와 테스트 데이터 분리
train_input, test_input, train_target, test_target = train_test_split(
    data, target, random_state=42)

In [7]:
#로지스틱 회귀 인스턴스 생성
lr = LogisticRegression()
#훈련 데이터로 모델 훈련
lr.fit(train_input, train_target)

#예측 결과 출력
print(lr.predict(test_input))

[1 0 0 1 0 1 0 0 1 1 1 1 1 0 1 0 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 1 1 0 0
 1 0 0 1 0 1 0 0 1 0 0 0 0 0 1 0 0 1 0 1 1 0 1 0 1 1 1 1 0 0 1 0 0 0 1 0 0
 0 1 1 0 0 0 0 0 0 0 1 1 0 0 1 0 1 0 0 1 0 0 0 0 1 1 0 1 0 1 0 0 0 0 0 1 1
 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
 0 0 0 1 0 0 0 1 0 1 1 0 0 0 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 0 0 0 0 1 1 0 1
 0 0 0 0 1 0 1 0 1 0 0 0 1 1 0 1 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0]


In [8]:
#변수 종류 출력
print(data.head(0))
#각 특징(변수, feature)들의 가중치
print(lr.coef_)

Empty DataFrame
Columns: [Mask, Sex, Age]
Index: []
[[ 7.18046567e+00  1.05211704e+00 -1.87460013e-03]]


In [9]:
#내가 탔을 때를 가정한 조건 (마스크종류, 성별, 나이)
# 마스크종류 : 1 -> KF49 / 2 -> 덴탈마스크 / 3 -> 안씀
# 성별 : 1 -> 여성 / 0 -> 남성
pred = lr.predict([[1, 0, 19.0]])

if(pred[0] == 0):
    print('AI : 확진되실 것으로 예측됩니다.\n')
else:
    print('AI : 음성이실 것으로 예측됩니다.\n')

#음성 클래스 / 양성 클래스의 확률 
print('양성 클래스 / 음성 클래스 : {}'.format(lr.predict_proba([[1, 0, 19.0]])))

AI : 음성이실 것으로 예측됩니다.

양성 클래스 / 음성 클래스 : [[0.04980639 0.95019361]]
