# Predykcja energii produkowanej przez panele słoneczne

Niniejszy notebook stanowi podsumowanie prac nad predykcją energii produkowanej przez panele słoneczne w oparciu o dane ze strony projektu https://www.kaggle.com/c/solarscholar/data.

## Opis

Celem projektu była predykcja energii za pomocą wybranego przez siebie modelu regresji. Całość miała być wykonana z użyciem Pythona w oparciu o biblioteki _pandas_ oraz _sci-kit_. Wyjście programu miał stanowić plik .csv zawierający parę _id_czujnika,predykcja_prod_energii_.

## Działanie skryptu

### Zaimportowanie niezbędnych bibliotek

Na początku należało zaimportować niezbędne biblioteki. Oprócz standardowych przyda się również _csv_ do obsługi plików .csv.


In [7]:
import pandas as pd
import numpy as np
from sklearn.linear_model import SGDRegressor
from sklearn import preprocessing
import csv as csv

### Import i obróbka danych

Ponieważ dostarczone z projektem pliki miały formę pliku .csv, wystarczyło użyć wbudowanej funkcji _read_csv_ z biblioteki _pandas_. Otwieramy zarówno zbiór treningowy, jak i testowy.


In [8]:
X_df = pd.read_csv("train.csv", sep=",")
test_df = pd.read_csv('test.csv', sep=",")

Czas na obróbkę danych. Zbiór wartości wyjściowej (kwh) przyda nam się w procesie tworzenia modelu, z kolei zbiór id będzie potrzebny w trakcie tworzenia wynikowego pliku .csv. Obie struktury zapisujemy w dedykowanych dla nich zmiennych:

In [9]:
value_to_predict = np.array(X_df['kwh'])
ids = test_df['id'].values

Czas na usunięcie zbędnych kolumn. Robimy to z uwagi na ich niekompatybilny typ (data) lub ich znaczenie (pcnm*). Całość została opisana w poprzednim projekcie, wiec nie będziemy się zajmować nimi w tym momencie. Usuwamy wartość wyjściową (kwh) ze zbioru treningowego (zbiór testowy ich nie zawiera). 

In [10]:
# oddzielnie usuwamy pcnm*, oddzielnie resztę
non_cat_cols = [col for col in X_df.columns if 'pcnm' not in col]
non_cat_cols_test = [col for col in test_df.columns if 'pcnm' not in col]
X_df = X_df[non_cat_cols]
test_df = test_df[non_cat_cols_test]

X_df = X_df.drop(['id', 'data', 'icon', 'idmodel', 'idbrand', 'kwh'], axis=1)
test_df = test_df.drop(['id', 'data', 'icon', 'idmodel', 'idbrand'], axis=1)
x_train = np.array(X_df)
x_test = np.array(test_df)

Dodatkowo, dane zostaną poddane skalowaniu i centrowaniu w oparciu o wbudowaną w bibliotekę _sci-kit_ klasę _StandardScaler_:

In [11]:
scaler = preprocessing.StandardScaler().fit(x_train)
scaler.fit(x_train)
x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)

### Tworzenie modelu predykcji

Biblioteka _sci-kit_ umożliwia proste tworzenie modelu regresji. W naszym przypadku użyjemy regresora SGD (Stochastic Gradient Descent) stanowiącą rozwinięcie modelu regresji liniowej. Dodatkowo stosujemy w tym miejscu sieć elastyczną (ang. elastic net) łączącą regresję grzbietową z lasso.

In [14]:
sgd = SGDRegressor(penalty='elasticnet', max_iter=1000, tol=1e-3)
sgd = sgd.fit(x_train, value_to_predict)
output = sgd.predict(x_test)

### Zapis predykcji do pliku .csv

Wynik predykcji zapisujemy do pliku za pomocą biblioteki _csv_, zgodnie z formatem zadanym na stronie projektu.

In [15]:
predictions_file = open("predict.csv", "w", newline="")
open_file_object = csv.writer(predictions_file)
open_file_object.writerow(["id", "kwh"])
open_file_object.writerows(list(zip(ids, abs(output))))
predictions_file.close()