In [1]:
pip install --upgrade numexpr --user

Requirement already up-to-date: numexpr in c:\users\freda\anaconda3\lib\site-packages (2.8.6)
Note: you may need to restart the kernel to use updated packages.


In [2]:
pip install --upgrade scikit-learn --user


Collecting scikit-learn
  Downloading scikit_learn-1.3.2-cp38-cp38-win_amd64.whl (9.3 MB)
Collecting joblib>=1.1.1
  Downloading joblib-1.4.2-py3-none-any.whl (301 kB)
Installing collected packages: joblib, scikit-learn
Successfully installed joblib-1.4.2 scikit-learn-1.3.2
Note: you may need to restart the kernel to use updated packages.


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

In [2]:
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
#iris.data를 사용하여 pandas 데이터 프레임 생성
data['species'] = iris.target
#iris 데이터 셋의 target데이터를 데이터프레임에 새로운 열로 추가. data프레임에 species라는 새로운 열을 추가하고, 각 샘플에 대한 꽃의 종류를 해당 열에 채워 넣음

head()함수는 데이터 프레임의 처음 몇 개의 행 출력. 보통 처음 5개. 데이터 구조를 빠르게 확인하고, 데이터 프레임이 제대로 생성되었는지
확인하기 위해.

In [6]:
print(data.head())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   species  
0        0  
1        0  
2        0  
3        0  
4        0  


describe()함수는 데이터프레임의 각 열에 대한 주요 통계 정보를 제공. 평균, 표준편차, 최소값, 최댓값 등 포함.
이를 통해 각 특성의 분포를 빠르게 파악 가능, 이상치나 데이터 품질 문제 식별에 도움

In [4]:
print(data.describe())

       sepal length (cm)  sepal width (cm)  petal length (cm)  \
count         150.000000        150.000000         150.000000   
mean            5.843333          3.057333           3.758000   
std             0.828066          0.435866           1.765298   
min             4.300000          2.000000           1.000000   
25%             5.100000          2.800000           1.600000   
50%             5.800000          3.000000           4.350000   
75%             6.400000          3.300000           5.100000   
max             7.900000          4.400000           6.900000   

       petal width (cm)     species  
count        150.000000  150.000000  
mean           1.199333    1.000000  
std            0.762238    0.819232  
min            0.100000    0.000000  
25%            0.300000    0.000000  
50%            1.300000    1.000000  
75%            1.800000    2.000000  
max            2.500000    2.000000  


value_counts()함수는 특정 열의 각 값의 출현 빈도. 범주형 데이터에 유용. 레이블의 분포 확인에 사용.
species열의 값들이 몇 번씩 출현하는 지 출력. -> 데이터셋에 클래스 불균형이 있는지, 충분한 샘플을 가지고 있는지 확인.

In [5]:
print(data['species'].value_counts())

species
0    50
1    50
2    50
Name: count, dtype: int64


표준화 과정. 데이터의 각 특성을 평균0 표준편차 1인 표준 정규 분포로 변환하는 과정. 주로 데이터 스케일 조정, 모델 학습 성능 향상 위해 사용
-데이터 스케일 조정
특성들 간의 단위나 스케일이 다르면 일부 모델에서는 제대로 동작하지 않을 수 있음. 표준화 하여 모든 특성들이 같은 스케일 가지게 만듦.

-모델 학습 성능 향상
일부 모델은 데이터가 표준 정규 분포를 따를 때 더 나은 성능. ex) 신경망 모델

In [7]:
from sklearn.preprocessing import StandardScaler

StandardScaler()는 표준화를 위한 클래스.

In [8]:
scaler = StandardScaler()

fit_transform() 함수는 데이터를 표준화 하는 메서드.
먼저 fit()메서드를 호출하여 데이터의 평균과 표준편차를 계산한 후, 실제 데이터를 표준화.
data.iloc[:, :-1]은 데이터 프레임의 마지막 열 제외한 모든 열 선택.(마지막 열은 타겟 변수 -> 표준화 X)

In [9]:
scaled_features = scaler.fit_transform(data.iloc[:,:-1])

표준화된 특성들로 새로운 데이터 프레임 제작, 기존의 데이터 프레임에 있는 클래스 레이블 정보와 결합하여 출력.
columns=iris.feature_names는 생성된 데이터의 열 이름 지정 옵션.
새로운 데이터 프레임 scaled_data 생성.

In [10]:
scaled_data = pd.DataFrame(scaled_features, columns=iris.feature_names)

data['species']는 원래 데이터프레임에 있는 클래스 레이블 가져옴. 이를 scaled_data['species']에 새로운 열로 추가.

In [11]:
scaled_data['species'] = data['species']

표준화된 특성과 클래스 레이블을 포함하는 새로운 데이터프레임인 scaled_data의 처음 몇개 행 출력.

In [12]:
print(scaled_data.head())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0          -0.900681          1.019004          -1.340227         -1.315444   
1          -1.143017         -0.131979          -1.340227         -1.315444   
2          -1.385353          0.328414          -1.397064         -1.315444   
3          -1.506521          0.098217          -1.283389         -1.315444   
4          -1.021849          1.249201          -1.340227         -1.315444   

   species  
0        0  
1        0  
2        0  
3        0  
4        0  


In [13]:
from sklearn.model_selection import train_test_split

X에 scaled_data 데이터 프레임 할당.

In [14]:
X=scaled_data.iloc[:,:-1]

y에는 타겟 변수 species을 할당.

In [15]:
y = scaled_data['species']

train_test_split()은 데이터를 학습용과 테스트 용을 무작위로 분할.
test_size=0.2는 전체 데이터 중 20%를 테스트용 사용.
random_state=42는 무작위 분할을 제어하는 시드 값.

In [16]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

학습 데이터 크기 출력.
X_train.shape는 학습용 입력 특성 데이터의 행과 열의 개수 나타내는 튜플

In [17]:
print(f"학습 데이터 크기: {X_train.shape}")

학습 데이터 크기: (120, 4)


테스트 데이터의 크기 출력

In [18]:
print(f"테스트 데이터 크기: {X_test.shape}")

테스트 데이터 크기: (30, 4)


scikit-learn 라이브러리에서 로지스틱 회귀 모델 가져옴.

In [22]:
from sklearn.linear_model import LogisticRegression

LogisticRegression() 사용하여 로지스틱 회귀 모델 생성.
max_iter=200은 모델의 최대 반복 횟수를 200으로 설정
최적의 모델을 찾기 위해 학습 과정에서 반복되는 최대 횟수를 지정. 최적의 모델이 수렴하지 않으면 반복 횟수를 늘려줘야 한다.

In [23]:
model = LogisticRegression(max_iter=200)

fit()메서드는 모델을 주어진 데이터에 학습시킴.
X_train은 입력 특성 데이터, y_train은 타겟 변수

In [24]:
model.fit(X_train, y_train)

predict()메서드는 입력 데이터에 대한 예측값 반환.

In [25]:
y_pred = model.predict(X_test)

accuracy_score()함수는 예측된 클래스 레이블과 실제 클래스 레이블 간의 정확도 계산.
y_test는 실제 타겟 변수.
y_pred는 모델이 예측한 타겟 변수.

In [26]:
accuracy = accuracy_score(y_test, y_pred)

classification_report()는 정밀도, 재현율 등의 분류 보고서 생성.

In [27]:
report = classification_report(y_test, y_pred)

모델의 정확도 출력. 모델이 예측한 클래스 레이블과 실제 클래스 레이블 간의 정확도.
모델 정확도 : 1.0은 모든 테스트 데이터에 대해 정확하게 예측을 수행했다는 것 의미.

In [28]:
print(f"모델 정확도: {accuracy}")

모델 정확도: 1.0


분류 보고서 출력.

In [29]:
print("분류 보고서:\n", report)

분류 보고서:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

