# NSU 4. Domača naloga

## Osnovna naloga

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures

from DN4_2_podatky import *

Najprej uvozimo podatke za osnovno nalogo.

In [35]:
podatki_osnovna = pd.read_csv("DN4_1_podatki.csv")
podatki_osnovna

Unnamed: 0,Q,Tw,Ta,theta,eta
0,1.711929,53.005339,10.788147,0.321921,0.349083
1,0.067135,20.761340,12.225502,2.705824,0.821069
2,0.034759,39.546739,35.892183,1.873776,0.756082
3,0.417783,33.972185,21.385801,2.089589,0.516134
4,1.667614,50.092173,15.254621,0.328350,0.083327
...,...,...,...,...,...
495,1.327393,54.081114,30.039247,1.153132,0.708757
496,0.053967,42.933431,39.799381,1.572222,0.022975
497,0.707523,47.145488,30.707064,2.093919,0.684035
498,0.062350,39.405105,32.647363,0.311168,0.053085


Iz domenskega predznanja lahko razberemo sledeče:

- bližje vrednosti $\frac{\pi}{2}$ kot bo $\theta$ večji bo toplotni tok, *c.p.*,

- višja razlika kot bo med $T_w$ in $T_a$ večji bo toplotni tok, *c.p.*. Tok je verjetno odvisen samo od njune razlike,

- višji kot je $\eta$ nižji je toplotni tok, *c.p.*.

Te informacije uporabimo za kreiranje novih spremenljivk kot sledi:

- izračunamo sinus kota $\theta$: $ \widehat{\theta} = \sin(\theta) $ - višja kot je vrednost, večji bo toplotni tok,

- kot drugi poskus izračunamo odstopanje vrednosti $\theta$ od $\frac{\pi}{2}$: $ \widehat{\theta_2} = |\frac{\pi}{2} - \theta|$ - višja kot bo njena vrednost, večji bo toplotni tok,

- izračunamo razliko med $T_w$ in $T_a$ (pomemben predznak zaradi smeri toka): $T_r = T_w - T_a$ - višja kot bo razlika, večji bo toplotni tok,

- ker razmerje med razliko in $Q$ verjetno ni linearno, poračunamo še višje potence razlike (2,3,4) in njen koren,

- $\eta$ "obrnemo": $\hat{\eta} = \frac{1}{\eta}$ - višji kot bo njena vrednost, nižji bo toplotni tok. Poračunamo tudi kvadrat te vrednosti, $\widehat{\eta_2}$,

- poizkusimo tudi enostavno z enostavnim kvadriranjem: $\widehat{\eta_3} = \eta^2 $ - višja kot je vrednost, nižji bo toplotni tok.

In [48]:
# konstruiranje novih spremenljivk

podatki_osnovna['theta_hat'] = np.sin(podatki_osnovna['theta'])
podatki_osnovna['theta_hat_2'] = np.abs(np.pi/2 - podatki_osnovna['theta'])
podatki_osnovna['Tr'] = podatki_osnovna['Tw'] - podatki_osnovna['Ta']
podatki_osnovna['Tr2'] = podatki_osnovna['Tr']**2
podatki_osnovna['Tr3'] = podatki_osnovna['Tr']**3
podatki_osnovna['Tr4'] = podatki_osnovna['Tr']**4
podatki_osnovna['Tr_kor'] = np.sqrt(podatki_osnovna['Tr'])
podatki_osnovna['eta_hat'] = 1/podatki_osnovna['eta']
podatki_osnovna['eta_hat_2'] = 1/podatki_osnovna['eta']**2
podatki_osnovna['eta_hat_3'] = podatki_osnovna['eta']**2
podatki_osnovna

Unnamed: 0,Q,Tw,Ta,theta,eta,theta_hat,theta_hat_2,Tr,Tr2,Tr3,Tr4,Tr_kor,eta_hat,eta_hat_2,eta_hat_3
0,1.711929,53.005339,10.788147,0.321921,0.349083,0.316390,1.248875,42.217191,1782.291254,75243.331122,3.176562e+06,6.497476,2.864645,8.206192,0.121859
1,0.067135,20.761340,12.225502,2.705824,0.821069,0.422107,1.135028,8.535838,72.860533,621.925724,5.308657e+03,2.921616,1.217925,1.483341,0.674154
2,0.034759,39.546739,35.892183,1.873776,0.756082,0.954452,0.302980,3.654556,13.355782,48.809456,1.783769e+02,1.911689,1.322609,1.749294,0.571659
3,0.417783,33.972185,21.385801,2.089589,0.516134,0.868418,0.518793,12.586385,158.417075,1993.898215,2.509597e+04,3.547729,1.937483,3.753839,0.266394
4,1.667614,50.092173,15.254621,0.328350,0.083327,0.322482,1.242446,34.837551,1213.654987,42280.768004,1.472958e+06,5.902334,12.000908,144.021782,0.006943
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,1.327393,54.081114,30.039247,1.153132,0.708757,0.914039,0.417664,24.041866,578.011334,13896.471200,3.340971e+05,4.903251,1.410921,1.990698,0.502336
496,0.053967,42.933431,39.799381,1.572222,0.022975,0.999999,0.001425,3.134050,9.822271,30.783491,9.647701e+01,1.770325,43.525620,1894.479620,0.000528
497,0.707523,47.145488,30.707064,2.093919,0.684035,0.866263,0.523123,16.438423,270.221761,4442.019685,7.301980e+04,4.054433,1.461914,2.137193,0.467903
498,0.062350,39.405105,32.647363,0.311168,0.053085,0.306171,1.259628,6.757743,45.667086,308.606417,2.085483e+03,2.599566,18.837886,354.865964,0.002818


Za odkrivanje povezav med spremenljivko $Q$ in preostalimi spremenljivkami bomo najprej preizkusili regresijskia orodja za odkrivanje enačb, ki smo jih spoznali na vajah:

- linearna regresija

- ridge regresija

- lasso regresija

Najprej definirajmo funkcije za vsa 3 regresijska orodja. Meje moramo nastaviti na manjše kot na vajah, saj je problem delikatnejši.

In [107]:
# linearna regresija

def linearna_regresija(X, y, meja=1e-4):
    imena = X.columns
    beta = np.linalg.pinv(X.T.dot(X)).dot(X.T).dot(y)

    izraz = ""
    for i,b in enumerate(beta):
        if b > meja:
            if len(izraz) > 0:
                izraz += " + "
            izraz +=  f"{b:.4f}*{imena[i]}"
    return izraz

In [106]:
# ridge regresija

def ridge_regresija(X, y, lam=1, meja=1e-4):
    imena = X.columns
    beta = np.linalg.pinv(X.T.dot(X) + lam*np.identity(X.shape[1])).dot(X.T).dot(y)

    izraz = ""
    for i,b in enumerate(beta):
        if b > meja:
            if len(izraz) > 0:
                izraz += " + "
            izraz +=  f"{b:.4f}*{imena[i]}"
    return izraz

In [39]:
from scipy.optimize import minimize
def lasso_regresija(X, y, lam=1, meja=1e-4):
    imena = X.columns

    def f(beta):
        yhat = X.dot(beta)
        return np.sum((yhat-y)**2) + lam*np.sum(np.abs(beta))
    beta = minimize(f, np.random.random(X.shape[1]))["x"]
    
    izraz = ""
    for i,b in enumerate(beta):
        if b > meja:
            if len(izraz) > 0:
                izraz += " + "
            izraz +=  f"{b:.4f}*{imena[i]}"
    return izraz

Po igranju z različnimi kombinacijami, so se osnovne tri metode najbolje odrezale, ko smo večino novo generiranih spremenljivk odstranili.

Iz podatkov v tem delu odstranimo $T_w$, $T_a$, $\theta$, $\eta$, $\widehat{\theta_2}$,	$T_r$, $T_r^3$, $T_r^4$, $\sqrt{T_r}$.

Prav tako vključimo samo kvadratične kombinacije polinomskih členov - če uporabimo višje kombinacije, ali vključimo katere izmed zgoraj naštetih odstranjenih spremenljivk, so koeficienti premajhni in izbrana orodja ne najdejo nobene enačbe.

In [52]:
podatki1 = podatki_osnovna.drop(["Tw", "Ta", "theta", "eta", "theta_hat_2", "Tr", "Tr3", "Tr4", "Tr_kor"], axis = 1)

poly = PolynomialFeatures(2)
X = poly.fit_transform(podatki1.drop("Q", axis=1))

imena_stolpcev = poly.get_feature_names_out()
X_df = pd.DataFrame(X, columns=imena_stolpcev)

In [108]:
print(f"Enača, ki jo odkrije linearna regresija, pri meji 0.001: {linearna_regresija(X_df, podatki1['Q'], meja=1e-3)}")
print(f"Enača, ki jo odkrije linearna regresija, pri meji 0.0001: {linearna_regresija(X_df, podatki1['Q'], meja=1e-4)}")
print(f"Enača, ki jo odkrije linearna regresija, pri meji 0.00001: {linearna_regresija(X_df, podatki1['Q'], meja=1e-5)}")

Enača, ki jo odkrije linearna regresija, pri meji 0.001: 0.0032*theta_hat Tr2
Enača, ki jo odkrije linearna regresija, pri meji 0.0001: 0.0002*Tr2 + 0.0032*theta_hat Tr2
Enača, ki jo odkrije linearna regresija, pri meji 0.00001: 0.0002*Tr2 + 0.0032*theta_hat Tr2 + 0.0000*theta_hat eta_hat + 0.0000*theta_hat eta_hat_2 + 0.0001*Tr2 eta_hat


In [97]:
print(f"Enača, ki jo odkrije ridge regresija, pri meji 0.001: {ridge_regresija(X_df, podatki1['Q'], lam=0.5,meja=1e-3)}")
print(f"Enača, ki jo odkrije ridge regresija, pri meji 0.0001: {ridge_regresija(X_df, podatki1['Q'], lam=0.5,meja=1e-4)}")
print(f"Enača, ki jo odkrije ridge regresija, pri meji 0.00001: {ridge_regresija(X_df, podatki1['Q'], lam=0.5,meja=1e-5)}")

Enača, ki jo odkrije ridge regresija, pri meji 0.001: 0.0032*theta_hat Tr2
Enača, ki jo odkrije ridge regresija, pri meji 0.0001: 0.0002*Tr2 + 0.0032*theta_hat Tr2
Enača, ki jo odkrije ridge regresija, pri meji 0.00001: 0.0002*Tr2 + 0.0032*theta_hat Tr2 + 0.0000*theta_hat eta_hat + 0.0000*theta_hat eta_hat_2 + 0.0001*Tr2 eta_hat


In [98]:
print(f"Enača, ki jo odkrije lasso regresija, pri meji vrednosti lambda = 1000: \n {lasso_regresija(X_df, podatki1['Q'], lam=1000)}")

Enača, ki jo odkrije lasso regresija, pri meji vrednosti lambda = 1000: 
 0.3549*1 + 0.6535*theta_hat + 1.9292*Tr2 + 1.9953*eta_hat + 0.1081*eta_hat_3 + 0.1913*theta_hat^2 + 0.0958*theta_hat eta_hat_2 + 0.6264*theta_hat eta_hat_3 + 2.8426*Tr2 eta_hat + 0.7448*Tr2 eta_hat_3 + 0.3772*eta_hat eta_hat_3 + 0.0863*eta_hat_2 eta_hat_3 + 0.5499*eta_hat_3^2


Linearna in ridge regresija pri vsaki izmed mej odkrijeta enake enačbe, ki se zdijo precej enostavne in tudi smiselne. Skrb vzbuja le to, da je spremenljivka $\eta$ ali kakšna izmed spremenljivk skonstruiranih iz nje vključena le v zadnji enačbi in še tam so vrednosti koeficientov precej nizke. Po drugi strani Lasso regresija vrne precej dolgo in kompleksno enačbo, ki zagotovo ni pravilna.

V nadaljevanju za vsako izmed odkritih enačb poračunamo povprečno kvadratično napako, saj bo dober pokazatelj kako pravilna je enačba. Želimo si seveda, da bi bile vrednosti napake čim manjše. 

In [77]:
print(f"Povprečna vrednost spremenljivke Q:{np.round(np.mean(podatki_osnovna['Q']),4)}")

Povprečna vrednost spremenljivke Q:0.683


Opazimo lahko, da je povprečna vrednost spremenljivke Q 0.6830. Če želimo da je napaka približno 1 %, potem mora biti vrednosti povprečne kvadratične napake okoli 0.01. Poračunajmo vrednosti povprečne kvadratične napake za prve tri odkrite enačbe. Pri enačbah, kjer je vrednost koeficienta 0, teh členov nismo vključili, saj se je izkazalo, da ne pripomorejo k boljši natančnosti.

In [109]:
from sklearn.metrics import mean_squared_error

Q_hat1 = 0.0032 * podatki_osnovna['Tr2'] * podatki_osnovna['theta_hat']
MSE_1 = mean_squared_error(podatki_osnovna['Q'], Q_hat1)
print(f"Vrednost povprečne kvadratične napake za 1. enačbo je: {MSE_1}")

Q_hat2 = 0.0002 * podatki_osnovna['Tr2'] + 0.0032 * podatki_osnovna['Tr2'] * podatki_osnovna['theta_hat']
MSE_2 = mean_squared_error(podatki_osnovna['Q'], Q_hat2)
print(f"Vrednost povprečne kvadratične napake za 2. enačbo je: {MSE_2}")

Q_hat3 = 0.0002 * podatki_osnovna['Tr2'] + 0.0032 * podatki_osnovna['Tr2'] * podatki_osnovna['theta_hat'] + 0.0001*podatki_osnovna['Tr2'] * podatki_osnovna['eta_hat']
MSE_3 = mean_squared_error(podatki_osnovna['Q'], Q_hat3)
print(f"Vrednost povprečne kvadratične napake za 3. enačbo je: {MSE_3}")

Vrednost povprečne kvadratične napake za 1. enačbo je: 0.12573554309101834
Vrednost povprečne kvadratične napake za 2. enačbo je: 0.13360323693526674
Vrednost povprečne kvadratične napake za 3. enačbo je: 1.3348671054876422


Opazimo lahko, da sta enačbi, v katerih spremenljivka $\eta$ ni vključena precej boljši, kot zadnja enačba z vključeno $\eta$. Hkrati lahko vidimo, da je napaka precej višja od tega kar bi si želeli, kar pomeni, da formula skoraj zagotovo ni pravilna. Verjetno manjka vključitev spremenljivke $\eta$, na še kakšen drug, alternativen način. Morda je težava tudi v tem, da regresije iz vaj niso najprimernejše za odkrivanje enačb v tem problemu, zato se lotimo odkrivanja enačb z drugimi metodami - najprej s knjižnjico ProGED.

V prvem poskusu vključimo v iskanje vse generirane spremenljivke.

In [None]:
import ProGED as pg

#theta_hat = sin(theta)
# Tr2 = Tr^2
# eta_hat = 1/eta
# eta_hat_2 = eta^2

np.random.seed(1)
ED1 = pg.EqDisco(data=podatki_osnovna, 
                lhs_vars=["Q"],
                rhs_vars=["theta", "eta", "theta_hat", "theta_hat_2", "Tr", "Tr2", "Tr3", "Tr4", "Tr_kor", "eta_hat", "eta_hat_2"],
                sample_size=100)

ED1.generate_models()
ED1.fit_models()

In [117]:
ED1.get_results()

ModelBox: 1 models
-> [0.00208863155779034*Tr2], p = 2.8954996363636375e-07, error = 0.6556113356661486, time = 0.044225215911865234

Model je očitno preveč enostaven, napaka pa precej višja kot pri iskanju z regresijo, zato postopamo drugače - vključimo samo spremenljivki $\widehat{\theta}$ in $T_r^2$, za prva dva parametra in vse generirane za parameter $\eta$. Povišamo tudi parameter *sample_size* na 1000. Izpišemo tudi 3 najboljše modele.

In [None]:
#theta_hat = sin(theta)
# Tr2 = Tr^2
# eta_hat = 1/eta
# eta_hat_2 = eta^2
# eta_hat_3 = 1/eta^2

np.random.seed(1)
ED2 = pg.EqDisco(data=podatki_osnovna, 
                lhs_vars=["Q"],
                rhs_vars=["theta_hat", "Tr2", "eta_hat", "eta_hat_2", "eta_hat_3"],
                sample_size=1000)

ED2.generate_models()
ED2.fit_models()

In [118]:
ED2.get_results(3)

ModelBox: 3 models
-> [0.00326687336664677*Tr2*theta_hat], p = 3.981312000000002e-05, error = 0.35370963516084986, time = 0.15263843536376953
-> [0.00243047712091106*Tr2 - 0.00199522747619697*Tr2*eta_hat_3/eta_hat_2 + 0.00763887519493214*eta_hat_2*theta_hat**2/eta_hat], p = 6.9599471248387316e-40, error = 0.5901130169687094, time = 0.3701198101043701
-> [Tr2*theta_hat + 0.996601881774514*Tr2*(-theta_hat - 0.000500370453485273) + eta_hat_3], p = 3.8955037265127066e-16, error = 0.6239611175476883, time = 0.21396827697753906

In [120]:
Q_hat4 = 0.0032668733666467 * podatki_osnovna['Tr2'] * podatki_osnovna['theta_hat']
MSE_4 = mean_squared_error(podatki_osnovna['Q'], Q_hat4)
print(f"Vrednost povprečne kvadratične napake za 4. enačbo je: {MSE_4}")

Vrednost povprečne kvadratične napake za 4. enačbo je: 0.1251105060056215


Po popravkih, je algoritem iz knjižnjice *ProGED* kot model z najnižjo napako odkril enak model kot linearna in ridge regresija prej, le da je koeficient nekoliko drugačen. Napake naslednjih najboljših predlaganih modelov so skoraj dvakrat višje, kot ta. Morda bi torej veljalo razmisliti o tem, da je to res lahko zelo dober približek pravilne enačbe. Preizkusil sem še več različnih vnosov za desno stran enačbe, vendar se z nobenim nisem mogel niti približati napaki, ki jo da zgornji model.

Kot zadnji poskus uporabimo še eno knjižnico predlagano na vajah *pysr*.

In [121]:
from pysr import PySRRegressor

model = PySRRegressor(
    niterations= 1000,
    binary_operators=['+','*','-','^','/'],
    unary_operators=['cos', 'sin', 'sqrt', 'square'],
    loss='loss(prediction, target) = (prediction - target)^2'
)

X = podatki_osnovna.drop("Q", axis=1)
y = podatki_osnovna["Q"]

model.fit(X,y)
model.latex()
print(model)

The latest version of Julia in the `release` channel is 1.9.1+0.x64.w64.mingw32. You currently have `1.9.0+0.x64.w64.mingw32` installed. Run:

  juliaup update

to install Julia 1.9.1+0.x64.w64.mingw32 and update the `release` channel to that version.


PySRRegressor.equations_ = [
	    pick         score                                           equation  \
	0         0.000000e+00                                          theta_hat   
	1         4.348354e-01                               (0.0020884955 * Tr2)   
	2         9.306089e-08                          (sin(0.0020884955) * Tr2)   
	3         1.234184e+00                 (0.0032669827 * (Tr2 * theta_hat))   
	4         1.359078e-02    (((0.003519328 * Tr2) - eta_hat_3) * theta_hat)   
	5         1.105713e+00    (0.0038847136 * ((Tr2 * cos(eta)) * theta_hat))   
	6   >>>>  1.094360e+00  (0.0026820262 * ((Tr2 / (0.5930055 + eta_hat_3...   
	7         6.946522e-02  (((0.0020650676 * Tr2) / sqrt(eta_hat_3 - -0.1...   
	8         9.368985e-04  (((0.0020843227 * Tr2) / sqrt(eta_hat_3 - -0.1...   
	9         2.646622e-03  (((0.0020651445 * (Tr2 + cos(Tr2))) / sqrt(eta...   
	10        3.803729e-02  (((0.0020655172 * (Tr2 + (cos(Tr2) * Tr))) / s...   
	11        8.613127e-08  (((sin(0.0

In [122]:
Q_hat5 = 0.0026820262 * ((podatki_osnovna['Tr2'] / (0.5930055 + podatki_osnovna['eta_hat_3'])) * podatki_osnovna['theta_hat'])
MSE_5 = mean_squared_error(podatki_osnovna['Q'], Q_hat5)
print(f"Vrednost korena povprečne kvadratične napake za 5. enačbo je: {MSE_5}")

Vrednost korena povprečne kvadratične napake za 5. enačbo je: 0.01348992911238157


Zgornja funkcija očitno deluje precej drugače, saj je uspela odkriti popolnoma novo enačbo, ki pa je hkrati tudi precej boljša kot vse, ki smo jih odkrili prej - in to precej. Poleg tega je tudi rang napake primerljiv s tem, kar smo si želeli na začetku. Formula vključuje tudi vse 3 parametre, kar je tudi precj ugodneje glede na prejšnje odkrite enačbe. Glavni problem prejšnjih metod je bil očitno v tem, da so parameter $\eta$ lahko vključevale samo neposredno bodisi v števec bodisi v imenovalec. Funkcija iz knjižnjice *pysr* pa je odkrila obliko, kjer je $\eta$ vključena v imenovalcu in ji je dodana še konstanta A torej kot $A + \eta^2$, kar lahko popolnoma spremeni vreednosti, ki jih izračunamo z enačbo.

Enačba: $$Q = 0.0026820262 * \frac{(T_w - T_a)^2}{0.5930055 + \eta^2} * \sin(\theta)$$

Kot najbolj pravilna se mi zdi zadnja poiskana enačba, saj vključuje vse komponentne, ki smo si jih želeli in na način, da ustrezajo vsem točkam domenskega predznanja. Hkrati je tudi povprečna kvadratična napaka po tej enačbi daleč najnižja. Enačba sicer verjetno še ni popolnoma pravilna, povsem možno je da obstaja še kakšna optimizacija, morda s kakšnim drugačnim dodanim parametrom. Vsekakor pa se mi zdi, da poda enačba dovolj dober približek, da ji lahko za generiranje podatkov zaupamo.