# 태양광 발전량 예측하기

데이터 분석 및 인공지능 기술을 활용하여 정확한 태양광 발전소의 발전량을 예측할 수 있는 능력을 갖춥니다.

데이터 전처리, 시각화, 통계적 분석, 머신러닝 및 딥러닝 모델링 등 다양한  사용기법

## 활용분야
`-` 발전량 예측으로 에너지 발전의 효율성과 운영 비용 절감 경험가능하고 태양광데이터로 농작물의 성장과 수확 기간을 예측하는 적절한 관리 방법을 택하는데 도움이 된다.

In [None]:
import pandas as pd

# train.csv, test.csv, sample_submission.csv 파일을 읽어옵니다.
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
submission = pd.read_csv('sample_submission.csv')

## 특성 상관관계확인

In [1]:
import matplotlib.pyplot as plt
import seaborn as sns

# 이번 셀에서 출력할 이미지 크기를 지정합니다. 
plt.figure(figsize = (8,4))

# annot을 False로 설정하면 각 셀의 수치가 표기되지 않습니다.
sns.heatmap(train.corr(), annot = True)
plt.show()

NameError: name 'train' is not defined

<Figure size 800x400 with 0 Axes>

### 새로운 특성 만들기 
(수평면 산란 일사량 DHI + 법선면 직달 일사량 DNI 로 새로운 특성만들기)

In [None]:
train['sunlight'] = train['DHI'] + train['DNI']
test['sunlight'] = test['DHI'] + test['DNI']

In [None]:
# 독립변수, 종속변수로 분리
train_x = train.drop(['TARGET'], axis =1)
train_y = train['TARGET']

# ID 특성 제거
train_x = train_x.drop('ID', axis = 1)
test_x = test.drop('ID', axis = 1) 

validation 만들기

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_valid, y_train, y_valid = train_test_split(train_x, train_y, test_size = 0.3, random_state = 42)

## 의사 결정 나무(Decision Tree) 모델

In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

decision = DecisionTreeRegressor(random_state = 42)
decision.fit(x_train, y_train)

decision_valid = decision.predict(x_valid)

mean_squared_error(y_valid, decision_valid, squared = True)

3.1148627367859003

## 랜덤 포레스트(RandomForest) 모델

In [None]:
from sklearn.ensemble import RandomForestRegressor

forest = RandomForestRegressor(random_state = 42)
forest.fit(x_train, y_train)

forest_valid = forest.predict(x_valid)

mean_squared_error(y_valid, forest_valid, squared = True)

1.314128829469825

## XGBoost 모델

In [None]:
from xgboost import XGBRegressor

xgb = XGBRegressor(random_state = 42)
xgb.fit(x_train, y_train)

xgb_valid = xgb.predict(x_valid)

mean_squared_error(y_valid, xgb_valid, squared = True)

1.3677757657448877

## hyperparameter

In [None]:
# 하이퍼파라미터는 모델 정의부분에서 조정합니다. 
forest_hyper = RandomForestRegressor(n_estimators = 150, max_depth = 12, min_samples_split = 2, random_state = 42)

forest_hyper.fit(x_train, y_train)

forest_hyper_valid = forest_hyper.predict(x_valid)

mean_squared_error(y_valid, forest_hyper_valid, squared = True)

## 예측하고 제출하기.

In [None]:
my_prediction = xgb.predict(test_x)

In [None]:
submission['TARGET'] = my_prediction
submission.to_csv('submission.csv', index = False)

	1.2051313397031287
