<a href="https://colab.research.google.com/github/presentchris/NLP/blob/main/Practice_of_Stats%26Modelings10.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

출제범위 [인공지능개발자] 알고리즘,통계기초(단순 회귀분석 및 모델평가),이미지 분류 모델링,시계열 예측 모델링

이제 좀 다른 코딩테스트 및 실기 문제를 내봐

##자연어 처리 - 스팸 메시지 분류
주어진 텍스트 메시지 데이터셋을 사용하여 스팸 메시지와 정상 메시지를 분류하는 모델을 구축하세요. 데이터셋은 '메시지'와 '레이블'(스팸 또는 정상)의 두 열로 구성됩니다. 텍스트 전처리, 특성 추출, 그리고 분류기 선택 및 학습 과정을 포함해야 합니다.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

In [None]:
# 예시 데이터셋 로딩
# 데이터셋 : 'message'열에는 텍스트 메시지, 'label'열에는 'spam' 또는 'ham' 표시
df = pd.read_csv('spam.csv', encoding='latin-1')
df = df[['message', 'label']]

FileNotFoundError: [Errno 2] No such file or directory: 'spam.csv'

In [None]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(df['message'], df['label'], test_size=0.2, random_state=42)

In [None]:
# 벡터화
vectorizer = CountVectorizer(stop_words='english')
X_train_counts = vectorizer.fit_transform(X_train)
X_test_counts = vectorizer.transform(X_test)

In [None]:
# 모델 학습
model = MultinomialNB()
model.fit(X_train_counts, y_train)

In [None]:
# 예측 및 평가
y_pred = model.predict(X_test_counts)
print('Accuracy:', accuracy_score(y_test, y_pred))

##회귀 분석 - 부동산 가격 예측
부동산 데이터셋을 사용하여 주택 가격을 예측하는 회귀 모델을 구축하세요. 데이터셋에는 주택의 여러 특성(예: 방의 개수, 면적, 위치 등)과 주택 가격 정보가 포함되어 있습니다. 데이터 탐색, 전처리, 특성 선택, 모델 학습 및 평가 과정을 수행하세요.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [None]:
from typing import ValuesView
# 데이터셋 로딩
df = pd.read_csv('house_prices.csv')
features = df.drop('Price', axis=1).values
prices = df['Price'].values

In [None]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(features, prices, test_size = 0.2, random_state=42)

In [None]:
# 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

In [None]:
# 예측 및 평가
y_pred = model.predict(X_test)
print('MSE:', mean_squared_error(y_test, y_pred))

##이미지 인식 - 얼굴 인식
얼굴 이미지 데이터셋을 사용하여 얼굴을 인식하는 분류 모델을 구축하세요. 목표는 주어진 이미지에서 사람의 얼굴을 정확히 식별하는 것입니다. 데이터 전처리, 특성 추출(예: CNN 사용), 모델 학습 및 평가 과정을 포함해야 합니다.

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
from sklearn.model_selection import train_test_split
from tensorflow.keras.utils import to_categorical
import numpy as np

In [None]:
# 데이터셋 로딩
X = np.load('face_images.npy')
y = np.load('labels.npy')
y = to_categorical(y)

In [None]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 모델 구축
model = Sequential([
    Conv2D(32,(3,3), activation = 'relu', input_shape = (64,64,3)),
    MaxPooling2D((2,2)),
    Flatten(),
    Dense(128, activation = 'relu'),
    Dense(y.shape[1], activation = 'softmax')
])

In [None]:
# 모델 컴파일 및 학습
model.compile(optimizer = 'adam', loss = 'categorical_crossentropy', metrics = ['accuracy'])
model.fit(X_train, y_train, epochs = 10, validation_split = 0.1)

In [None]:
# 모델 평가
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Test accuracy : {accuracy}')

##시계열 분석 - 주식 가격 예측
주식 시장 데이터를 사용하여 특정 주식의 미래 가격을 예측하는 시계열 분석 모델을 구축하세요. 데이터셋에는 날짜, 개장 가격, 최고 가격, 최저 가격, 종가 등의 정보가 포함되어 있습니다. 데이터 탐색, 전처리, 특성 공학, 모델 선택(예: ARIMA, LSTM) 및 평가 과정을 포함해야 합니다.

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np

In [None]:
# 데이터셋 로딩 및 준비
df = pd.read_csv('stock_prices.csv')
prices = df['Price'].values.reshape(-1,1)

In [None]:
# 데이터 정규화
scaler = MinMaxScaler(feature_range=(0,1))
prices = scaler.fit_transform(prices)

In [None]:
# 시계열 데이터 준비 및 분할


# 시계열 데이터셋 준비 함수
def create_dataset(data, time_step=1):
  X, y = [], []
  for i in range(len(data)-time_step-1):
    a = data[i:(i+time_step), 0]
    X.append(a)
    y.append(data[i + time_step, 0])
  return np.array(X), np.array(y)

time_step = 100
train_X, train_y = create_dataset(prices[:800], time_step)
test_X, test_y = create_dataset(prices[800:], time_step)

# LSTM에 맞는 형태로 데이터 차원 변경
train_X = tain_X.reshape(train_X.shape[0], train_X.shape[1], 1)
test_X = test_X.reshape(test_X.shape[0], test_X.shape[1], 1)

In [None]:
# 모델 구축
model = Sequential([
    LSTM(50, return_sequences=False, input_shape=(train_X.shape[1], 1)),
    Dense(1)
])

In [None]:
# 모델 컴파일
model.compile(optimizer = 'adam', loss ='mean_squared_error')

In [None]:
# 모델 학습
model.fit(train_X, train_y, epochs=20, validation_data = (test_X, test_y), batch_size=32, verbose=2)

In [None]:
# 모델 평가 및 예측

# 모델 평가(예시)
train_predict = model.predict(train_X)
test_predict = model.predict(test_X)

# 예측값을 원래 스케일로 변환
train_predict = scaler.inverse_transform(train_predict)
test_predict = scaler.inverse_transform(test_predict)

# 실제 가격과 예측 가격을 비교하는 시각화
import matplotlib.pyplot as plt

# 실제 가격 그래프
plt.plot(scaler.inverse_transform(prices[time_step+1:801]))

# 훈련 데이터에 대한 예측 그래프
plt.plot(np.arange(time_step+1, 801), train_predict)

# 테스트 데이터에 대한 예측 그래프
plt.plot(np.arange(801, 1000), test_predict)
plt.show()