# 선형 회귀

In [ ]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

# 1. 주가 데이터 프레임
All_Stock_cosine = pd.DataFrame(All_Stock_cosine)

# 2. 특성 데이터 선택 (첫 번째 컬럼 제외)
features = All_Stock_cosine.iloc[:, 1:]

# 3. 레이블 데이터 선택
labels = All_Stock_cosine['코사인_평균']

# 4. 학습 데이터, 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

# 5. 데이터 정규화
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 6. 선형 회귀 모델 학습
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# 7. 모델 평가
r2_score = model.score(X_test_scaled, y_test)
print(f"결정 계수 (R^2): {r2_score:.2f}")

# 8. 가장 큰 영향력 특성 이름 5개 출력
feature_importances = pd.Series(model.coef_, index=features.columns)
top_5_features = feature_importances.abs().nlargest(5).index.tolist()

print("가장 유사한 영향을 미치는 상위 5개 컬럼:")
for column in top_5_features:
    weight = feature_importances[column]
    print(f"{column} (가중치: {weight:.2f})")

# 릿지, 라쏘 회귀 = 다중 회귀
# 학습 데이터 = 모델 학습, 테스트 데이터 = 모델의 성능을 평가
# 일반 모델 보다 향상된 선형 회귀 모델 습득 가능

In [0]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics.pairwise import cosine_similarity

# 변수로 지정된 데이터 프레임 사용
All_Stock_cosine = pd.DataFrame(All_Stock_cosine)
target_column = '코사인_평균'
similar_columns = All_Stock_cosine.columns[1:]

# 특성과 타겟 데이터 설정
X = All_Stock_cosine[similar_columns]
y = All_Stock_cosine[target_column]

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 가장 유사한 컬럼 5개 추출
cosine_sim = cosine_similarity(X)
similar_column_indices = cosine_sim.argsort()[:, -6:-1]  # 가장 유사한 컬럼 5개의 인덱스 추출
similar_column_names = X.columns[similar_column_indices[0]]  # 첫 번째 데이터 유사 컬럼 5개 이름 추출
similar_column_scores = cosine_sim[0, similar_column_indices[0]]  # 첫 번째 데이터 유사 컬럼 5개 유사도 수치 추출

print("가장 유사한 컬럼 5개:")
for name, score in zip(similar_column_names, similar_column_scores):
    print(f"{name}: {score}")

X_train_similar = X_train[similar_column_names]
X_test_similar = X_test[similar_column_names]

# 릿지 회귀 모델 생성
ridge = Ridge(alpha=1.0)  # alpha 값 설정

# 모델 학습
ridge.fit(X_train_similar, y_train)

# 모델 예측
y_pred = ridge.predict(X_test_similar)

# 모델 평가
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# 다항 회귀 = shape 행과 열의 길이가 같아야 한다
# 비선형 관계 모델링 구축
# 곡선 학습 수행
# 다양, 복잡 데이터 패턴 포착 회귀 모델 구축

In [ ]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

# 첫 번째 컬럼을 기준 유사한 컬럼 찾기
reference_column = All_Stock_Rate.iloc[:, 0].values.reshape(-1, 1)  # 첫 번째 컬럼을 기준으로 2차원 배열로 변환
other_columns = All_Stock_Rate.iloc[:, 1:]  # 첫 번째 컬럼을 제외한 나머지 컬럼들 선택

# 다항 회귀를 위한 데이터 변환
poly = PolynomialFeatures(degree=2)  # 2차 다항식을 생성하기 위한 PolynomialFeatures 객체 생성
reference_column_poly = poly.fit_transform(reference_column)  # 첫 번째 컬럼 데이터에 다항식 적용
other_columns_poly = poly.transform(other_columns.values)  # 나머지 컬럼 데이터에 다항식 적용 (values 사용)

# 유사한 컬럼 찾기
similarity_scores = np.abs(reference_column_poly - other_columns_poly).mean(axis=0)  # 첫 번째 컬럼과 다른 컬럼들 간의 평균 절대 차이 계산
most_similar_column = other_columns.columns[np.argmin(similarity_scores)]  # 첫 번째 컬럼과 가장 유사한 컬럼 선택

print("가장 유사한 컬럼:", most_similar_column)

In [ ]:
All_Stock_Rate.shape