# 6월 20일

In [None]:
import pandas as pd #데이터 로드
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression # 사용하기 위해
from sklearn.metrics import mean_squared_error, r2_score # 평가를 위해
from sklearn.preprocessing import OneHotEncoder # 원 핫 인코딩처리 
from sklearn.compose import ColumnTransformer # 전처리
from sklearn.pipeline import Pipeline #  

In [26]:
# 데이터셋 로드
df = pd.read_csv('StudentsPerformance.csv')

In [27]:
# 데이터셋: 특성(Features), 타켓(target))
X = df.drop(columns=['math score']) # 학습용 입력 데이터(Features)
y = df['math score']                # 타겟(target) : 답
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


In [28]:
# 범주형 데이터 -> 수치 데이터
ctgy_data = ['gender','race/ethnicity','parental level of education','lunch','test preparation course','reading score','writing score']


In [29]:
# 전처리
preprocessor = ColumnTransformer(
    transformers=[
        ('cool', OneHotEncoder(handle_unknown='ignore'),ctgy_data)
    ],
    remainder='passthrough'
)

In [30]:
# 어떤 절차로
model = Pipeline(
    steps=[
        ('preprocessor',preprocessor),
        ('regressor',LinearRegression())
    ]
)

In [None]:
# 데이터를 8:2로 분할 (학습용 : 테스트용)
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,      # 8:2
    random_state=42    # 보통은 42로
)


In [32]:
# 학습
model.fit(X_train,y_train) # 학습데이터로만

0,1,2
,steps,"[('preprocessor', ...), ('regressor', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,transformers,"[('cool', ...)]"
,remainder,'passthrough'
,sparse_threshold,0.3
,n_jobs,
,transformer_weights,
,verbose,False
,verbose_feature_names_out,True
,force_int_remainder_cols,'deprecated'

0,1,2
,categories,'auto'
,drop,
,sparse_output,True
,dtype,<class 'numpy.float64'>
,handle_unknown,'ignore'
,min_frequency,
,max_categories,
,feature_name_combiner,'concat'

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [None]:
# 예측
y_pred = model.predict(X_test)

In [36]:
# 모델 평가
mse = mean_squared_error(y_test,y_pred)
r2 = r2_score(y_test,y_pred)

In [37]:
print(f'mse: {mse}')
print(f'r2: {r2}')

mse: 87.21622583849286
r2: 0.6415846169840318


# 로지스틱 회귀

In [1]:
# 라이브러리
from sklearn.datasets import load_breast_cancer # 유방암 데이터셋 로드
from sklearn.model_selection import train_test_split # 학습용/테스트용 데이터 분리
from sklearn.linear_model import LogisticRegression # 로지스틱 회귀 모델
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report # 평가 지표

In [None]:
# 1. 데이터셋 준비(로드)
data = load_breast_cancer() # 유방암 판별 데이터셋 로드

In [12]:
# 특성과 타깃으로 분류
X = data.data       # 특성 데이터(다양한 세포 정보) 
y = data.target     # 레이블 (0: 음성, 1: 양성)

In [14]:
#print(X)
#print(y)


In [16]:
# 훈련 데이터와 테스트 데이터 구분
X_train,X_test,y_train,y_test = train_test_split(
    X,y,
    test_size=0.2,
    random_state=42
)

In [17]:
# 학습 모델 선택, 객체 생성 학습
model = LogisticRegression(max_iter=10000) 
# max_iter= 최대 몇번 훈련 시킬거냐

In [19]:
# 학습
model.fit(X_train,y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,10000


In [None]:
# 테스트 데이터로 예측 
y_pred = model.predict(X_test)

In [None]:
# 평가 지표
acc = accuracy_score(y_test,y_pred)     # 정확도
prec = precision_score(y_test,y_pred)   # 정밀도
recall = recall_score(y_test,y_pred)    # 재현률
f1 = f1_score(y_test,y_pred)            # f1 점수

In [25]:
# 평가 지표 출력
print(f'정확도: {acc}')
print(f'정밀도: {prec}')
print(f'재현률: {recall}')
print(f'f1 점수: {f1}') 

정확도: 0.956140350877193
정밀도: 0.9459459459459459
재현률: 0.9859154929577465
f1 점수: 0.9655172413793104


In [29]:
print('혼동행렬 메트릭스 출력')
print(confusion_matrix(y_test,y_pred))

혼동행렬 메트릭스 출력
[[39  4]
 [ 1 70]]


In [31]:
# 분류 보고서 출력
print('분류  보고서 출력')
print(classification_report(y_test,y_pred))


분류  보고서 출력
              precision    recall  f1-score   support

           0       0.97      0.91      0.94        43
           1       0.95      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.96      0.95      0.95       114
weighted avg       0.96      0.96      0.96       114



# KNN

In [1]:
# 1. 필요한 라이브러리 임포트
from sklearn.datasets import load_iris # Iris 데이터셋 로드
from sklearn.model_selection import train_test_split # 데이터 분리
from sklearn.neighbors import KNeighborsClassifier # KNN 알고리즘 사용
from sklearn.metrics import classification_report, accuracy_score #성능평가

In [6]:
# 데이터 로드
iris = load_iris()

In [9]:
# 특성, 라벨로 구분
X = iris.data
y= iris.target
#print(X)
#print(y)

In [12]:
# 데이터 분리: 학습, 테스트용
X_train,X_test, y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)
print(X_train.shape)
print(X_test.shape)



(120, 4)
(30, 4)


In [13]:
# KNN 모델 사용 k - 하이퍼파라미터
k = 3 # 가장 가까운 이웃의 개수
knn = KNeighborsClassifier(n_neighbors=k)

In [14]:
# 모델 학습
knn.fit(X_train,y_train)

0,1,2
,n_neighbors,3
,weights,'uniform'
,algorithm,'auto'
,leaf_size,30
,p,2
,metric,'minkowski'
,metric_params,
,n_jobs,


In [17]:
# 모델 평가
y_pred = knn.predict(X_test)
acc  = accuracy_score(y_test,y_pred)
print(f'정확도: {acc}')

정확도: 1.0


In [22]:
# 분류 보고서
print('분류 보고서')
print(classification_report(y_test,y_pred,target_names=iris.target_names))

분류 보고서
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       1.00      1.00      1.00         9
   virginica       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



In [None]:
# 새로운 데이터 예측
                                                                                                                                                     
#new_data = [[5.0, 3.5, 1.3, 0,3]]
#new_pridict=knn.predict(new_data)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   
#print(new_pridict)
#predicted_class =                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                
                                                                                                                                                                                                                                                                                                                                                                                                                                        

ValueError: X has 5 features, but KNeighborsClassifier is expecting 4 features as input.