# Višestruka linearna regresija 

Višestruka regresija u kontekstu mašinskog učenja predstavlja snažan algoritam koji se koristi za modeliranje složenih veza između zavisne promenljive i više nezavisnih karakteristika ili osobina. Ovaj metod spada u nadgledano učenje, gde model uči iz podataka kako bi predvideo vrednosti ciljne promenljive na osnovu unapred poznatih karakteristika.

Suština višestruke regresije u mašinskom učenju ogleda se u tome da omogućava modeliranje realnosti koja često obuhvata više faktora uticaja na ciljni rezultat. Na primer, u analizi cena nekretnina, višestruka regresija može uzeti u obzir ne samo kvadraturu stana već i lokaciju, broj soba, prisustvo parkinga i druge karakteristike kako bi bolje predvidela vrednost nekretnine.

Ključna prednost višestruke regresije u mašinskom učenju leži u sposobnosti modela da automatski identifikuje i kvantifikuje uticaj svake nezavisne promenljive na ciljni rezultat. Ovo omogućava analitičarima i inženjerima da razumeju kompleksne odnose među promenljivama, a samim tim i da donose informisane odluke zasnovane na analizi podataka.

## Primer - predviđanje emisije CO2 automobila

Uz pomoć linearne regresije možemo predvideti emisiju CO2 automobila na osnovu veličine motora, ali sa višestrukom regresijom možemo ubaciti više varijabli, poput težine automobila, da bi predviđanje bilo preciznije.


### Uvoz Biblioteka
Uvoz biblioteka pandas za rad sa podacima i linear_model iz scikit-learn za implementaciju linearnog modela regresije.

In [1]:
import pandas
from sklearn import linear_model

### Čitanje Podataka iz CSV Fajla
Koristimo odgovarajući skup podataka koji sadrži informacije o veličini motora, težini automobila i emisiji CO2.

In [2]:
import pandas as pd

df = pd.read_csv("../datasets/data_CO2.csv")
df.head()

Unnamed: 0,Car,Model,Volume,Weight,CO2
0,Toyoty,Aygo,1000,790,99
1,Mitsubishi,Space Star,1200,1160,95
2,Skoda,Citigo,1000,929,95
3,Fiat,500,900,865,90
4,Mini,Cooper,1500,1140,105


### Definisanje Ulaznih (X) i Izlaznih (y) Promenljivih
Odabir kolona "Weight" (težina) i "Volume" (zapremina) kao ulaznih promenljivih X i "CO2" kao izlazne promenljive y.


In [3]:
X = df[['Weight', 'Volume']]
y = df['CO2']

### Inicijalizacija i prilagođavanje modela linearne regresije
Inicijalizacija objekta linearne regresije (regr) i prilagođavanje modela na osnovu ulaznih i izlaznih podataka.

In [4]:
regr = linear_model.LinearRegression()
regr.fit(X, y)

LinearRegression()

### Predviđanje i ispisi predviđenih vrednosti CO2
Korišćenje treniranog modela da se predviđa emisija CO2 za novi automobil sa težinom od 2300 kg i zapreminom od 1300 cm³.

In [5]:
predikcija_za_CO2 = regr.predict([[2300, 1300]])
print(predikcija_za_CO2)

[107.2087328]


### Koeficijent

Koeficijent je matematički faktor koji opisuje odnos s nepoznatom promenljivom. Na primer, ako je 
k nepoznata promenljiva, izraz 2k znači da je k udvostručen. Ovde, broj 2 predstavlja koeficijent.

U kontekstu analize emisije CO2 u automobilima, tražimo vrednosti koeficijenata za težinu i zapreminu motora u odnosu na emisiju CO2. Ovi koeficijenti nam govore kako će se emisija CO2 promeniti kada povećamo ili smanjimo te nezavisne promenljive.

In [6]:
print(regr.coef_)


[0.00755095 0.00780526]


Niz rezultata predstavlja vrednosti koeficijenata za težinu i zapreminu:

Težina: 0,00755095
Zapremina: 0,00780526

Ove vrednosti nam govore da ako se težina poveća za 1 kg, emisija CO2 će se povećati za 0,00755095 g.

Ako se, s druge strane, zapremina motora (veličina) poveća za 1 cm³, emisija CO2 će se povećati za 0,00780526 g.

Već smo predvideli da će emisija CO2 za automobil sa motorom zapremine 1300 cm³ i težinom 2300 kg biti otprilike 107 g.

Proverite šta se dešava ako povećamo težinu za 1000 kg?

In [7]:
import pandas as pd
from sklearn import linear_model

df = pd.read_csv("../datasets/data_CO2.csv")

X = df[['Weight', 'Volume']]
y = df['CO2']

regr = linear_model.LinearRegression()
regr.fit(X, y)

predikcija_za_CO2 = regr.predict([[3300, 1300]])

print(predikcija_za_CO2)


[114.75968007]


Predvideli smo da će automobil sa motorom od 1,3 litara i težinom od 3300 kg osloboditi oko 115 grama CO2 za svaki pređeni kilometar.

Što pokazuje da je koeficijent 0,00755095 tačan:

107,2087328 + (1000 * 0,00755095) = 114,75968

### Tačnost modela

In [8]:
import pandas as pd
#train_test_split se koristi za podelu podataka na trening i test skup
from sklearn.model_selection import train_test_split  
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Učitavanje podataka
df = pd.read_csv("../datasets/data_CO2.csv")

# Definisanje ulaznih (X) i izlazne (y) promenljivih
X = df[['Weight', 'Volume']]
y = df['CO2']

# Podela podataka na trening i test skup
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicijalizacija i treniranje modela
# Inicijalizuje se linearni regresijski model (regr) i trenira na trening skupu (X_train, y_train)
regr = LinearRegression()
regr.fit(X_train, y_train)

# Predviđanje na test skupu
# Model se koristi za predviđanje izlaznih vrednosti na test skupu (X_test), 
# čime se dobija niz predviđenih vrednosti (y_pred)

y_pred = regr.predict(X_test)

# Evaluacija modela
"""Koristi se funkcija srednje kvadratne greške (mean_squared_error)
i koeficijenta determinacije (r2_score) kako bi se izmerila razlika između stvarnih vrednosti (y_test) i
predviđenih vrednosti (y_pred)."""

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Ispis rezultata evaluacije, uključujući srednju kvadratnu grešku (MSE) i koeficijent determinacije (R-squared)
print(f"Srednja kvadratna greška (MSE): {mse}")
print(f"Koeficijent determinacije (R-squared): {r2}")


Srednja kvadratna greška (MSE): 58.07928583657765
Koeficijent determinacije (R-squared): 0.3294110962401282
