In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score


# 파일 로드

In [2]:
# 파일 경로
file_path = 'data/cmm_data.csv'

# 데이터 불러오기
data = pd.read_csv(file_path)

In [None]:
# 데이터 결측치 확인

In [3]:
# 결측치 및 데이터 타입 확인
missing_values = data.isnull().sum()
data_types = data.dtypes

missing_values, data_types

(품명                                                                                 0
 편차_각도1 <- 각도[XYPLAN]:직선2와 직선3 Ang                                                  0
 편차_각도2 <- 각도[XYPLAN]:직선23와 직선24 Ang                                                0
 편차_거리1 <- XAXIS[PT]:점9와 점10 <상> DS                                                 0
 편차_거리2 <- XAXIS[PT]:점14와 점15 <하> DS                                                0
 편차_거리3 <- XYPLAN[PT]:원5와 원통1 DS                                                    0
 편차_거리4 <- XAXIS[평균]:점32와 점31 <소재기준> DS                                             0
 편차_원1(I) <상> D                                                                     0
 편차_원2(I) <중> D                                                                     0
 편차_원3(I) <하> D                                                                     0
 편차_원4(E) <소재> D                                                                    0
 편차_원4(E) <소재> X                                      

In [4]:
# '품명' 열 제외
data_numeric = data.drop(columns=['품명'])

# 결측치를 평균값으로 대체
imputer = SimpleImputer(strategy='mean')
data_imputed = imputer.fit_transform(data_numeric)

# 데이터프레임으로 변환
data_imputed = pd.DataFrame(data_imputed, columns=data_numeric.columns)

In [None]:
# 데이터 분리 (훈련, 테스트)

In [5]:
# 독립 변수와 종속 변수 분리
X = data_imputed.drop(columns=['품질상태'])
y = data_imputed['품질상태']

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 로지스틱 모델 생성 및 훈련

In [6]:
# 로지스틱 회귀 모델 생성 및 훈련
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)



# 예측

In [None]:
# 테스트 세트에서 예측
y_pred = logistic_model.predict(X_test)

# 평가

In [None]:
# 모델 평가
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

In [8]:
print(accuracy, report)

1.0               precision    recall  f1-score   support

         1.0       1.00      1.00      1.00         2

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2

