In [1]:
# 리스트 중첩 슬라이싱이 머신러닝에서 사용예시 :

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# 데이터 로드
iris = load_iris()
x, y = iris.data, iris.target

# 데이터 분할
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.3, random_state=42)


# 중첩된 슬라이싱을 사용하여 부분 데이터셋 생성
# 훈련 데이터의 첫 50개 샘플에서 짝수 인덱스의 첫 두 특성만 선택
x_train_subset = x_train[:50:2, :2]
y_train_subset = y_train[:50:2]

# 테스트 데이터의 마지막 20개 샘플에서 홀수 인덱스의 마지막 두 특성만 선택
x_test_subset = x_test[-20::2, 2:]
y_test_subset = y_test[-20::2]

# 모델 생성 및 학습
model = SVC(kernel = 'linear', random_state = 42)
model.fit(x_train_subset, y_train_subset)

# 예측
y_pred = model.predict(x_test_subset)

# 정확도 계산
accuracy = accuracy_score(y_test_subset, y_pred)
print(f"부분 데이터셋을 사용한 모델의 정확도: {accuracy:.2f}")

# 전체 데이터셋으로 모델 재학습 및 평가
full_model = SVC(kernel='linear', random_state = 42)
full_model.fit(x_train, y_train)
full_accuracy= accuracy_score(y_test, full_model.predict(x_test))
print(f"전체 데이터셋을 사용한 모델의 정확도: {full_accuracy:.2f}")

부분 데이터셋을 사용한 모델의 정확도: 0.70
전체 데이터셋을 사용한 모델의 정확도: 1.00


중첩된 슬라이싱과 리스트 컴프리헨션은 둘 다 파이썬에서 데이터를 조작하고 부분 집합을 생성하는 데 사용되는 강력한 도구입니다. 각각의 특징과 차이점을 비교하여 설명해 드리겠습니다.

 - 중첩된 슬라이싱:
    - 문법 : 리스트[시작:끝:단계][시작:끝:단계]
    - 다차원 배열이나 리스트에서 부분 집합을 추출하는 데 사용됩니다.
    - 인덱싱 기반으로 작동하며, 원본 데이터 구조의 형태를 유지합니다.
    - 주로 numpy 배열이나 다차원 리스트에서 사용됩니다.

 - 리스트 컴프리헨션:
    - 문법 : [표현식 for 항목 in 반복가능객체 if 조건]
    - 기존 리스트를 기반으로 새로운 리스트를 생성하는 데 사용됩니다.
    - 각 요소에 대해 조건을 확인하고 변환을 적용할 수 있습니다.
    - 1차원 리스트 생성에 주로 사용되지만, 중첩하여 다차원 리스트도 만들 수 있습니다.

In [None]:
# 리스트 컴프리헨션이 사용된 머신러닝 사례 코드

# 리스트 컴프리헨션의 사용 사례:

texts = [review for review, _ in data] # 데이터에서 텍스트만 추출
labels = [label for _, label in data] # 데이터에서 레이블만 추출
preprocessed_texts = [text.lower() for text in texts]  # 텍스트를 소문자로 변환

import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# 샘플 데이터 : (텍스트, 레이블) 형태의 튜플 리스트

data = [
    ("I love this movie", "positive"),
    ("Great acting and plot", "positive"),
    ("Terrible waste of time", "negative"),
    ("Boring and predictable", "negative"),
    ("Amazing special effects", "positive"),
    ("Worst movie ever", "negative"),
    ("Highly recommended", "positive"),
    ("Don't bother watching", "negative")
]

# 리스트 컴프리헨션을 사용한 간단한 전철
preprocessed_texts = [text.lower() for text in texts]

# 데이터 학습 세트와 테스트 세트로 분할
x_train, x_test, y_train, y_test = train_test_split(preprocessed_texts, labels, test_size=0.2, random_state=42)

# CountVectorizer를 사용하여 텍스트를 특성 벡터로 변환
vectorizer = CountVectorizer()
x_train_vectorized = vectorizer.fit_transform(x_train)
x_test_vectorized = vectorizer.transform(x_test)

# 나이브 베이즈 분류기 학습
classifier = MultinomialNB()
classifier.fit(x_train_vectorized, y_train)

# 예측
y_pred = classifier.predict(x_test_vectorized)

# 정확도 평가
accuracy = accuracy_score(y_test, y_pred)
print(f"정확도: {accuracy:.2f}")

# 분류 보고서
print("\n분류 보고서: ")
print(classification_report(y_test, y_pred))

# 리스트 컴프리헨션을 사용하여 새로운 리뷰 예측
new_reviews = [
    "This movie was fantastic",
    "I didn't enjoy it at all",
    "The actors were great but the story was weak"
]

new_reviews_vectorized = vectorizer.transform(new_reviews)
predictions = classifier.predict(new_reviews_vectorized)

print("\n새로운 리뷰 예측: ")
[print(f"리뷰: '{review}'\n예측: {prediction}\n") for review, prediction in zip(new_reviews, predictions)]

정확도: 0.00

분류 보고서: 
              precision    recall  f1-score   support

    negative       0.00      0.00      0.00       1.0
    positive       0.00      0.00      0.00       1.0

    accuracy                           0.00       2.0
   macro avg       0.00      0.00      0.00       2.0
weighted avg       0.00      0.00      0.00       2.0


새로운 리뷰 예측: 
리뷰: 'This movie was fantastic'
예측: positive

리뷰: 'I didn't enjoy it at all'
예측: negative

리뷰: 'The actors were great but the story was weak'
예측: negative



[None, None, None]

In [None]:
# List comprehension을 사용한 머신 러닝 예시코드
# 아이리스 데이터셋을 사용하여 간단한 KNN(K-Nearest Neighbors)분류기를 구현합니다.
# 리스트 컴프리헨션을 여러 곳에서 활용하고 있습니다. 주요 특징은 다음과 같습니다.

# 데이터 전처리:
# x_selected = [[feature[0], feature[2]] for feature in x]
#   : 리스트 컴프리헨션을 사용하여 꽃받침 길이와 꽃잎 길이만 선택합니다.
# y_transformed = [y_names[label] for label in y] : 숫자 레이블을 꽃 이름으로 변환합니다.

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 아이리스 데이터셋 로드
iris = load_iris()
x, y = iris.data, iris.target

# 리스트 컴프리헨션을 사용한 데이터 전처리
# 꽃받침 길이와 꽃잎 길이만 선택(인덱스 0과 2)
x_selected = [[feature[0], feature[2]] for feature in x]

# 리스트 컴프리헨션을 사용한 레이블 변환
# 0 -> 'setosa', 1-> 'versicolor', 2 -> 'viginica'
y_names = ['setosa','versicolor','virginica']
y_transformed = [y_names[label] for label in y]

# 데이터 분할
x_train, x_test, y_train, y_test = train_test_split(x_selected, y_transformed, test_size=0.3, random_state=42)

# KNN모델 훈련
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(x_train, y_train)

# 예측
y_pred = knn.predict(x_test)

# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
print(f"모델 정확도: {accuracy:.2f}")

# 리스트 컴프리헨션을 사용한 결과 출력
print("\n예측 결과: ")
[print(f"실제: {true}, 예측: {pred}") for true, pred in zip(y_test, y_pred)]

# 새로운 데이터에 대한 예측
new_flowers = [[5.1, 1.8], [4.9, 1.5], [6.3,5.0]]
new_predictions = knn.predict(new_flowers)

print("\n새로운 꽃 예측: ")
[print(f"꽃받침 길이: {flower[0]}, 꽃잎 길이: {flower[1]}  -> 예측: {prediction}")
for flower, prediction in zip(new_flowers,new_predictions)]

모델 정확도: 0.96

예측 결과: 
실제: versicolor, 예측: versicolor
실제: setosa, 예측: setosa
실제: virginica, 예측: virginica
실제: versicolor, 예측: versicolor
실제: versicolor, 예측: versicolor
실제: setosa, 예측: setosa
실제: versicolor, 예측: versicolor
실제: virginica, 예측: versicolor
실제: versicolor, 예측: versicolor
실제: versicolor, 예측: versicolor
실제: virginica, 예측: virginica
실제: setosa, 예측: setosa
실제: setosa, 예측: setosa
실제: setosa, 예측: setosa
실제: setosa, 예측: setosa
실제: versicolor, 예측: virginica
실제: virginica, 예측: virginica
실제: versicolor, 예측: versicolor
실제: versicolor, 예측: versicolor
실제: virginica, 예측: virginica
실제: setosa, 예측: setosa
실제: virginica, 예측: virginica
실제: setosa, 예측: setosa
실제: virginica, 예측: virginica
실제: virginica, 예측: virginica
실제: virginica, 예측: virginica
실제: virginica, 예측: virginica
실제: virginica, 예측: virginica
실제: setosa, 예측: setosa
실제: setosa, 예측: setosa
실제: setosa, 예측: setosa
실제: setosa, 예측: setosa
실제: versicolor, 예측: versicolor
실제: setosa, 예측: setosa
실제: setosa, 예측: setosa
실제: virginica, 예측: virginic

[None, None, None]

In [9]:
# 딕셔너리의 머신러닝 사용 예시코드

# 하이퍼파라미터를 딕셔너리로 관리

hyperparameters = {
    'learning_rate' : 0.001,
    'batch_size' : 32,
    'epochs' : 10,
    'optimizer' : 'adam'
}

# 예시로 Kearas를 사용하는 경우
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam
from sklearn.metrics import confusion_matrix, classification_report

# Iris 데이터셋 호출
iris = load_iris()
x = iris.data
y = iris.target.reshape(-1,1) # (150,) -> (150,1)

# OneHot 인코딩
encoder = OneHotEncoder(sparse_output=False)
y = encoder.fit_transform(y) # (150,1) -> (150,3)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)


model = Sequential()
model.add(Dense(64, activation='relu', input_shape=(x_train.shape[1],)))
model.add(Dense(3, activation='softmax')) # 3개의 클래스를 위한 출력층

optimizer = Adam(learning_rate = hyperparameters['learning_rate'])

model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics = ['accuracy'])

# 모델학습
model.fit(x_train, y_train, batch_size = hyperparameters['batch_size'], epochs = hyperparameters['epochs'])

# 모델 평가
score = model.evaluate(x_test, y_test)
print(f'\n\nTest loss: {score[0]} / Test accuracy: {score[1]}')

# 예측
predictions = model.predict(x_test)

# 혼동 행렬 출력
y_pred_classes = np.argmax(predictions, axis=1)
y_test_classes = np.argmax(y_test, axis=1)
conf_matrix = confusion_matrix(y_test_classes, y_pred_classes)
print("\n\nConfusion Matrix: ")
print(conf_matrix)

# 분류 보고서 출력
class_names = iris.target_names
print("\nClassification Report: ")
print(classification_report(y_test_classes, y_pred_classes, target_names = class_names))

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10






Test loss: 0.7411728501319885 / Test accuracy: 0.7666666507720947






Confusion Matrix: 
[[10  0  0]
 [ 0  2  7]
 [ 0  0 11]]

Classification Report: 
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       1.00      0.22      0.36         9
   virginica       0.61      1.00      0.76        11

    accuracy                           0.77        30
   macro avg       0.87      0.74      0.71        30
weighted avg       0.86      0.77      0.72        30



In [None]:
# 튜플의 머신러닝 사용예시 코드
import tensorflow as tf

# 예제데이터
features = [[1,2],[3,4],[5,6]]
labels = [0,1,0]

# 튜플을 사용하여 데이터셋 생성
dataset = tf.data.Dataset.from_tensor_slices((features,labels))

for element in dataset:
  print(element)

(<tf.Tensor: shape=(2,), dtype=int32, numpy=array([1, 2], dtype=int32)>, <tf.Tensor: shape=(), dtype=int32, numpy=0>)
(<tf.Tensor: shape=(2,), dtype=int32, numpy=array([3, 4], dtype=int32)>, <tf.Tensor: shape=(), dtype=int32, numpy=1>)
(<tf.Tensor: shape=(2,), dtype=int32, numpy=array([5, 6], dtype=int32)>, <tf.Tensor: shape=(), dtype=int32, numpy=0>)


In [None]:
# 정규표현식의 머신러닝 사용 예시코드
# 머신러닝 모델에 입력하기 전에 텍스트를 정제하는 과정을 보여줍니다.
# URL, HTML 태그, 이메일 주소, 특수 문자 등을 제거하고 텍스트를 일관된 형식으로 만듭니다.

import re

def clean_text(text):
  # 소문자 변환
  text = text.lower()

  # URL 제거
  text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)

  # HTML 태그 제거
  text = re.sub(r'<.*?>','',text)

  # 이메일 주소 제거
  text = re.sub(r'\S+@|S+','',text)

  # 특수 문자 제거 (단, 일부 문장 부호는 유지)
  text = re.sub(r'[^a-zA-Z0-9\s\.,!?]','',text)

  # 연속된 공백 제거
  text = re.sub(r'\s|','',text).strip()

  return text

# 테스트
sample_text = """
Check out our website at http://www.example.com!
Contact us at <email>info@example.com</email>.
#MachineLearning is awesome! Don't you think so???
"""

cleaned_text = clean_text(sample_text)
print(cleaned_text)

checkoutourwebsiteatcontactusatexample.com.machinelearningisawesome!dontyouthinkso???


In [2]:
# Deep copy() 를 사용하는 사례의 코드 (원본 모델의 내부상태(가중치, 편향 등)을 복제)

import copy
import numpy as np
from sklearn.neural_network import MLPClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# 데이터 생성
x, y = make_classification(n_samples = 1000, n_features = 20, n_classes = 2, random_state = 42)
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2, random_state=42)

# 기본 모델 생성
base_model = MLPClassifier(hidden_layer_sizes = (100,50), max_iter = 200, random_state=42)
base_model.fit(x_train, y_train)

print("기본 모델 정확도: ", base_model.score(x_test,y_test))

# 실험을 위한 모델 복사 및 수정
experiments = []
learning_rates = [0.001, 0.01, 0.1]

for lr in learning_rates:
  # deep copy 를 사용하여 모델 복사
  experiment_model = copy.deepcopy(base_model)

  # 학습률 수정
  experiment_model.learning_rate_init = lr

  # 추가 학습
  experiment_model.partial_fit(x_train, y_train)

  accuracy = experiment_model.score(x_test, y_test)
  experiments.append((lr, accuracy))

# 실험 결과 출력
for lr, accuracy in experiments:
  print(f"학습률 {lr}의 모델 정확도 : {accuracy}")

기본 모델 정확도:  0.82
학습률 0.001의 모델 정확도 : 0.82
학습률 0.01의 모델 정확도 : 0.82
학습률 0.1의 모델 정확도 : 0.82
