# Lineáris Regresszió 

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
from sklearn.linear_model import LinearRegression

### Adatok beolvasása

In [None]:
df = pd.read_csv('gdp_kisajatitas.csv')
df.head()

### Adatok ábrázolása

In [None]:
plt.style.use('seaborn')

plt.figure(figsize=(10, 10))
plt.title("Országok kizsákmányolhatósága", size=20)
plt.scatter(x='logpgp95', y='avexpr', data=df)
plt.ylabel('Kizsákmányolhatóság', size=15)
plt.xlabel("GDP", size=15)
plt.show()

### Adatok tisztítása

In [None]:
df_clean = df.dropna().copy()
df_clean['const'] = 1 # az y tengelymetszet nem lehet 0, mert nincs 0 GDP ország

# Változók felvétele
x = df_clean.loc[:, 'logpgp95']
y = df_clean.loc[:, 'avexpr']
labels = df_clean.loc[:, 'shortnam']

df_clean.head()

### Rergressziós modell felállítása

In [None]:
reg1 = sm.OLS(endog=y, exog=df_clean[['const', 'avexpr']]) #endog: függő változó, exog: független változó

print("Reg1 type:")
print(type(reg1))

# A tanítás eljárása
results = reg1.fit()

type(results)

# A modell
print(results.summary())

### Lineáris trendvonal illesztése

In [None]:
fig, ax = plt.subplots(figsize=(10,10))
ax.scatter(x, y, marker='')

for i, label in enumerate(labels):
    ax.annotate(label, (x.iloc[i], y.iloc[i]))
    
line = np.poly1d(np.polyfit(x, y, 1))(np.unique(x))
ax.plot(np.unique(x), line, color='black')

ax.set_title("Lineáris modell", size=20)
ax.set_xlabel("GDP", size=15)
ax.set_ylabel("Kizsákmányolhatóság", size=15)
plt.show()

### Predikciók készítése

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

ax.scatter(df_clean['avexpr'], results.predict(), alpha=0.8, label='predicted')

ax.scatter(df_clean['avexpr'], df_clean['logpgp95'], alpha=0.8, label='observed')

ax.legend()
ax.set_title("Egyedi pontokhoz tartozó predikciók", size=20)
ax.set_xlabel("GDP", size=15)
ax.set_ylabel("Kizsákmányolhatóság", size=15)
plt.show()

### Gradiens ereszkedés: a kezdeti egyenes felvétele

In [None]:
#Egyenes ábrázolása
def plotf():
    plt.figure(figsize=(10, 10))
    plt.scatter(x, y)
    plt.plot(x, f, color='red')

In [None]:
# Paraméterek felvétele
b0 = 0
b1 = 0

#Egyenes egyenlete
f = b0 + b1*x

#Eltérés-négyzet
print("Hiba:", np.sum((f - y)**2))

plotf()

### b0 és b1 közelítése az optimálishoz

In [None]:
#Tanulási sebesség
alpha = 0.00001

b0 = b0 - np.sum(2*(b0 + b1*x - y))*alpha
b1 = b1 - np.sum(2*(b0 + b1*x - y)*x)*alpha

print('b0: ', b0, ' b1: ', b1)
print('Hiba:', np.sum((f - y)**2))

# Regresszió fgv újraszámolása
f = b0 + b1*x

plotf()

### Hiba számolása ciklikusan

In [None]:
b0=0
b1=0

hibakovetes = []
alpha = 0.00001

for i in range(1000):
    b0 = b0 - np.sum(2*(b0 + b1*x - y))*alpha
    b1 = b1 - np.sum(2*(b0 + b1*x - y)*x)*alpha
    hibakovetes.append(np.sum((b0 + b1*x - y)**2))
    
    
f = b0 + b1*x
print('b0: ', b0, ' b1: ', b1)
print('Hiba: ', np.sum((f - y)**2))
plotf()

### A számolt hiba ábrázolása

In [None]:
plt.figure(figsize=(10, 10))
plt.scatter(np.linspace(0, len(hibakovetes), len(hibakovetes)), hibakovetes)

### Hiba változása százalékban kifejezve, az első száz elemre

In [None]:
hibaszazalek = []
for i in range(1, len(hibakovetes)):
    hibaszazalek.append(hibakovetes[i-1] / hibakovetes[i])

hibaszazalek = hibaszazalek[:100]
plt.scatter(np.linspace(0, len(hibaszazalek), len(hibaszazalek)), hibaszazalek)