In [None]:
import numpy as np
from sklearn import linear_model
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# 키와 몸무게 데이터를 이용한 선형 회귀 모델
X = np.array([[164], [179], [162], [170]])  # 키 데이터 (입력데이터)
y = np.array([53, 63, 55, 59])  # 몸무게 데이터 (타겟 데이터)

regr = linear_model.LinearRegression()
regr.fit(X, y)

score = regr.score(X, y)
print("키와 몸무게 데이터에 대한 모델 점수: ", score)

input_data = np.array([[180], [185]])
result = regr.predict(input_data)
print("예측 결과:", result)

plt.scatter(X, y, color='black')
y_pred = regr.predict(X)
plt.plot(X, y_pred, color='blue', linewidth=3)
plt.title('키와 몸무게 데이터 시각화')
plt.show()

# 재배 면적과 수확량 데이터를 이용한 선형 회귀 모델
x = np.array([[2.1], [10], [3], [1], [3.5], [5], [8]])
y = np.array([64.9, 292.6, 85.9, 30.92, 110.5, 163.4, 163.4])

plt.scatter(x, y)
plt.title('재배 면적과 수확량 시각화')
plt.show()

regr = linear_model.LinearRegression()
regr.fit(x, y)

print("재배 면적과 수확량 데이터에 대한 모델 점수: ", regr.score(x, y))

input_data = np.array([[7], [12]])
pred = regr.predict(input_data)
print("예측 결과:", pred)

y_pred = regr.predict(x)
plt.plot(x, y_pred, color='blue')
plt.title('재배 면적과 수확량 예측 결과')
plt.show()

# 부모의 키 데이터를 이용한 자녀 키 그룹 예측 (결정 트리)
parents_height = [[180, 165], [175, 160], [180, 172], [165, 160], [171, 152]]
child_height = [3, 2, 1, 1, 1]

dt_model = tree.DecisionTreeClassifier()
dt_model.fit(parents_height, child_height)

dt_pred = dt_model.predict([[175, 153]])
print("부모의 키 데이터에 대한 자녀의 키 그룹 예측:", dt_pred)

# Kaggle의 Student Marks Dataset을 이용한 선형 회귀 모델
# std_df = pd.read_csv('Student_Marks.csv')  # 파일 경로를 수정해야 할 수 있음
data = {
    'number_courses': [6, 7, 8, 5, 6, 8, 7, 5, 6, 7],
    'time_study': [10.0, 11.5, 9.0, 9.5, 12.0, 9.0, 8.0, 7.0, 8.5, 9.5],
    'Marks': [78, 82, 74, 76, 85, 74, 72, 70, 75, 80]
}
std_df = pd.DataFrame(data)

print(std_df.describe())
print(std_df.info())

print(std_df.corr())

sns.scatterplot(x='number_courses', y='Marks', data=std_df)
plt.title('수강강좌수와 점수 시각화')
plt.show()
sns.scatterplot(x='time_study', y='Marks', data=std_df)
plt.title('공부시간과 점수 시각화')
plt.show()

x = std_df.drop('Marks', axis=1)
y = std_df['Marks']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

lr_model = LinearRegression()
lr_model.fit(x_train, y_train)

lr_pred = lr_model.predict(x_test)

print("Student Marks 데이터셋에 대한 모델 평가")
print("R2 Score:", r2_score(y_test, lr_pred))
print("Mean Squared Error:", mean_squared_error(y_test, lr_pred))
