# **წრფივი რეგრესია**
წრფივი რეგრესია არის სტატისტიკური მეთოდი, რომელიც გამოიყენება დამოკიდებულ ცვლადსა (y) და ერთ ან მეტ დამოუკიდებელ ცვლადს (x) შორის წრფივი ურთიერთობის მოდელირებისთვის. მისი მიზანია იპოვოს საუკეთესო წრფივი ფუნქცია, რომელიც აღწერს ამ ურთიერთობას.
მათემატიკურად, მარტივი წრფივი რეგრესია შეიძლება გამოისახოს შემდეგნაირად:

y = βₒ + β₁x + ε

სადაც:

y არის დამოკიდებული ცვლადი

*   x არის დამოუკიდებელი ცვლადი

*   βₒ არის y-ღერძთან გადაკვეთის წერტილი

*   β₁ არის დახრილობა

*   ε არის შემთხვევითი შეცდომა


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# შემთხვევითი
np.random.seed(42)

# მაგალითი წერტილების შექმნა
X = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]).reshape(-1, 1)
y = 2 * X + 1 + np.random.randn(10, 1) * 2

# გრაფიკი მორგების გარეშე
plt.figure(figsize=(12, 5))
plt.subplot(121)
plt.scatter(X, y, color='blue')
plt.title('მონაცემთა წერტილები მორგების გარეშე')
plt.xlabel('X')
plt.ylabel('y')

# წრფივი რეგრესიის მოდელის შექმნა და მორგება
model = LinearRegression()
model.fit(X, y)

# პროგნოზირება
y_pred = model.predict(X)

# გრაფიკი მორგებით
plt.subplot(122)
plt.scatter(X, y, color='blue', label='რეალური მონაცემები')
plt.plot(X, y_pred, color='red', label='მორგებული ხაზი')
plt.title('წრფივი რეგრესია მორგებით')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()

plt.tight_layout()
plt.show()

# მოდელის პარამეტრების ჩვენება
print(f"დახრილობა (β₁): {model.coef_[0][0]:.2f}")
print(f"y-გადაკვეთა (βₒ): {model.intercept_[0]:.2f}")

ეს მაგალითი გვიჩვენებს, თუ როგორ მუშაობს წრფივი რეგრესია პრაქტიკაში. მორგებული ხაზი ცდილობს საუკეთესოდ წარმოადგინოს ზოგადი ტენდენცია მონაცემებში, მინიმუმამდე დაიყვანოს საშუალო კვადრატული ცდომილება ყველა წერტილისთვის.

ზემოთ კოდში:


*  პირველ რიგში, ჩვენ ვქმნით მაგალითის მონაცემებს. X არის 1-დან 10-მდე მნიშვნელობები, ხოლო y არის გამოთვლილი ფორმულით y = 2X + 1, დამატებული შემთხვევითი ხმაური.

*  პირველი გრაფიკი ("მონაცემთა წერტილები მორგების გარეშე") უბრალოდ აჩვენებს გაფანტულ წერტილებს მორგებული ხაზის გარეშე.
შემდეგ ჩვენ ვიყენებთ sklearn-ის LinearRegression კლასს მოდელის შესაქმნელად და მოსარგებად.

*  მეორე გრაფიკი ("წრფივი რეგრესია მორგებით") აჩვენებს იგივე გაფანტულ წერტილებს, მაგრამ ამჯერად წითელი ხაზით, რომელიც წარმოადგენს მორგებულ წრფივ მოდელს.

*  ბოლოს, ჩვენ ვბეჭდავთ მოდელის პარამეტრებს - დახრილობას (β₁) და y-გადაკვეთას (βₒ).

# პარამეტრები
წრფივი რეგრესიის მოდელში პარამეტრები არის βₒ (ინტერცეპტი) და β₁ (დახრილობა). ეს პარამეტრები განსაზღვრავენ წრფის პოზიციას და ორიენტაციას მონაცემთა წერტილებთან მიმართებაში.

βₒ (ინტერცეპტი): ეს არის წერტილი, სადაც რეგრესიის ხაზი კვეთს y-ღერძს (როდესაც x = 0).

β₁ (დახრილობა): ეს გვიჩვენებს, თუ რამდენით იცვლება y, როდესაც x იცვლება ერთი ერთეულით.

# დანაკარგის ფუნქცია

დანაკარგის ფუნქცია არის მეთოდი, რომელიც გამოიყენება მოდელის პროგნოზებსა და რეალურ მნიშვნელობებს შორის განსხვავების გასაზომად. წრფივი რეგრესიისთვის ყველაზე ხშირად გამოიყენება საშუალო კვადრატული ცდომილება (Mean Squared Error - MSE).
MSE განისაზღვრება შემდეგნაირად:
MSE = (1/n) Σ(yᵢ - ŷᵢ)²
სადაც:

n არის დაკვირვებების რაოდენობა
yᵢ არის რეალური მნიშვნელობა
ŷᵢ არის პროგნოზირებული მნიშვნელობა

მოდით, შევქმნათ ფუნქცია MSE-ს გამოსათვლელად და გრაფიკულად გამოვსახოთ ის:

In [None]:
def mse(y_true, y_pred):
    return np.mean((y_true - y_pred)**2)

# მონაცემების გენერირება
np.random.seed(0)
X = np.linspace(0, 10, 100).reshape(-1, 1)
y = 2 * X + 1 + np.random.randn(100, 1)

# მოდელის მორგება
model = LinearRegression()
model.fit(X, y)

# პროგნოზირება
y_pred = model.predict(X)

# MSE-ს გამოთვლა
mse_value = mse(y, y_pred)

# გრაფიკის დახაზვა
plt.figure(figsize=(10, 6))
plt.scatter(X, y, color='blue', label='რეალური მონაცემები')
plt.plot(X, y_pred, color='red', label='პროგნოზირებული ხაზი')
plt.title(f'წრფივი რეგრესია (MSE = {mse_value:.2f})')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

MSE ყოველთვის არაუარყოფითია. რაც უფრო ახლოსაა ის ნულთან, მით უკეთესია მოდელი.
ის მგრძნობიარეა დიდი შეცდომების მიმართ, რადგან ის აკვადრატებს შეცდომებს.

# მორგება (Fitting)
მორგება არის პროცესი, როდესაც ვპოულობთ საუკეთესო პარამეტრებს (βₒ და β₁) ჩვენი მოდელისთვის. ეს ხშირად კეთდება უმცირესი კვადრატების მეთოდით, რომელიც ცდილობს მინიმუმამდე დაიყვანოს MSE.
მათემატიკურად, უმცირესი კვადრატების შემფასებლები მოიცემა შემდეგნაირად:
β₁ = Σ((xᵢ - x̄)(yᵢ - ȳ)) / Σ((xᵢ - x̄)²)
βₒ = ȳ - β₁x̄
სადაც x̄ და ȳ არის X-ისა და y-ის საშუალო მნიშვნელობები შესაბამისად.

# R-კვადრატი (R-squared)
R-კვადრატი, ასევე ცნობილი როგორც დეტერმინაციის კოეფიციენტი, არის სტატისტიკური საზომი, რომელიც გვიჩვენებს, თუ რამდენად კარგად ერგება მოდელი მონაცემებს.
R² = 1 - (Σ(yᵢ - ŷᵢ)² / Σ(yᵢ - ȳ)²)
სადაც ȳ არის y-ის საშუალო მნიშვნელობა.
მნიშვნელობა:

* R² მერყეობს 0-დან 1-მდე.
* R² = 1 ნიშნავს იდეალურ მორგებას.
* R² = 0 ნიშნავს, რომ მოდელი არ არის უკეთესი, ვიდრე უბრალოდ y-ის საშუალო მნიშვნელობის გამოყენება.

მოდით, გამოვთვალოთ და გრაფიკულად გამოვსახოთ R-კვადრატი:

In [None]:
from sklearn.metrics import r2_score

r2 = r2_score(y, y_pred)

plt.figure(figsize=(10, 6))
plt.scatter(X, y, color='blue', label='რეალური მონაცემები')
plt.plot(X, y_pred, color='red', label='პროგნოზირებული ხაზი')
plt.title(f'წრფივი რეგრესია (R² = {r2:.2f})')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

სტატისტიკური თვალსაზრისით, წრფივი რეგრესია ეფუძნება რამდენიმე ძირითად დაშვებას:

წრფივობა: დამოკიდებულ და დამოუკიდებელ ცვლადებს შორის არსებობს წრფივი ურთიერთობა.

დამოუკიდებლობა: დაკვირვებები დამოუკიდებელია ერთმანეთისგან.

ჰომოსკედასტურობა: (yᵢ - ŷᵢ) - ამ სხვაობის ვარიაცია მუდმივია ყველა დამოუკიდებელი ცვლადის მნიშვნელობისთვის.

ნორმალურობა: (yᵢ - ŷᵢ) ეს სხვაობები ნორმალურად არის განაწილებული.

ეს დაშვებები მნიშვნელოვანია მოდელის ვალიდურობისა და შედეგების ინტერპრეტაციისთვის.

მოდით, შევამოწმოთ ზოგიერთი ეს დაშვება ჩვენი მოდელისთვის:

In [None]:
residuals = y - y_pred

plt.figure(figsize=(12, 4))

# ნარჩენების გრაფიკი
plt.subplot(121)
plt.scatter(y_pred, residuals)
plt.xlabel('პროგნოზირებული მნიშვნელობები')
plt.ylabel('ნარჩენები')
plt.title('ნარჩენების გრაფიკი')
plt.axhline(y=0, color='r', linestyle='--')

# ნარჩენების ჰისტოგრამა
plt.subplot(122)
plt.hist(residuals, bins=20)
plt.xlabel('ნარჩენები')
plt.ylabel('სიხშირე')
plt.title('ნარჩენების ჰისტოგრამა')

plt.tight_layout()
plt.show()

წრფივი რეგრესია არის მძლავრი სტატისტიკური ინსტრუმენტი, რომელიც გვეხმარება გავიგოთ და გავაანალიზოთ ურთიერთობა ცვლადებს შორის. ის გვაძლევს საშუალებას გავაკეთოთ პროგნოზები და შევაფასოთ მოდელის ეფექტურობა სხვადასხვა მეტრიკის გამოყენებით, როგორიცაა MSE და R-კვადრატი. თუმცა, მნიშვნელოვანია გვახსოვდეს მისი ძირითადი დაშვებები და შეზღუდვები რეალურ სამყაროში გამოყენებისას.

# მრავალცვლადიანი წრფივი რეგრესია
მრავალცვლადიანი წრფივი რეგრესია არის წრფივი რეგრესიის გაფართოება, რომელიც საშუალებას გვაძლევს გამოვიყენოთ ერთზე მეტი დამოუკიდებელი ცვლადი (პრედიქტორი) დამოკიდებული ცვლადის პროგნოზირებისთვის. ეს მეთოდი გვეხმარება უფრო რთული ურთიერთობების მოდელირებაში რეალურ სამყაროში, სადაც ხშირად ერთზე მეტი ფაქტორი გავლენას ახდენს შედეგზე.
მრავალცვლადიანი წრფივი რეგრესიის მათემატიკური მოდელი:
y = βₒ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε
სადაც:


y არის დამოკიდებული ცვლადი

x₁, x₂, ..., xₙ არიან დამოუკიდებელი ცვლადები
βₒ არის y-გადაკვეთა

β₁, β₂, ..., βₙ არიან შესაბამისი კოეფიციენტები (დახრილობები) თითოეული დამოუკიდებელი ცვლადისთვის

ε არის შემთხვევითი შეცდომა

მოდით, შევქმნათ მაგალითი მრავალცვლადიანი წრფივი რეგრესიისთვის და ვიზუალიზაცია გავუკეთოთ შედეგებს:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.linear_model import LinearRegression

# შემთხვევითი თესლის დაყენება
np.random.seed(42)

# მონაცემების გენერირება
n_samples = 100
X = np.random.rand(n_samples, 2) * 10
y = 2 * X[:, 0] + 3 * X[:, 1] + 1 + np.random.randn(n_samples) * 2

# მოდელის შექმნა და მორგება
model = LinearRegression()
model.fit(X, y)

# პროგნოზირება
y_pred = model.predict(X)

# 3D გრაფიკის შექმნა
fig = plt.figure(figsize=(12, 8))
ax = fig.add_subplot(111, projection='3d')

# მონაცემთა წერტილების დახაზვა
ax.scatter(X[:, 0], X[:, 1], y, c='blue', label='რეალური მონაცემები')

# პროგნოზირებული სიბრტყის დახაზვა
x1_surf, x2_surf = np.meshgrid(np.linspace(0, 10, 100), np.linspace(0, 10, 100))
y_surf = model.intercept_ + model.coef_[0] * x1_surf + model.coef_[1] * x2_surf
ax.plot_surface(x1_surf, x2_surf, y_surf, alpha=0.3, color='red')

ax.set_xlabel('X1')
ax.set_ylabel('X2')
ax.set_zlabel('y')
ax.legend()
plt.title('მრავალცვლადიანი წრფივი რეგრესია')
plt.show()

# მოდელის პარამეტრების ჩვენება
print(f"y-გადაკვეთა (βₒ): {model.intercept_:.2f}")
print(f"X1-ის კოეფიციენტი (β₁): {model.coef_[0]:.2f}")
print(f"X2-ის კოეფიციენტი (β₂): {model.coef_[1]:.2f}")

ამ მაგალითში:

ჩვენ ვქმნით ორ დამოუკიდებელ ცვლადს (X1 და X2) და ერთ დამოკიდებულ ცვლადს (y).

y გამოითვლება ფორმულით: y = 2X1 + 3X2 + 1 + შემთხვევითი ხმაური.

ვიყენებთ sklearn-ის LinearRegression კლასს მოდელის შესაქმნელად და მოსარგებად.

ვქმნით 3D გრაფიკს, სადაც:

* ლურჯი წერტილები წარმოადგენს რეალურ მონაცემებს
* წითელი სიბრტყე წარმოადგენს მორგებულ მოდელს


ვბეჭდავთ მოდელის პარამეტრებს (y-გადაკვეთას და თითოეული ცვლადის კოეფიციენტს).


**მრავალცვლადიანი წრფივი რეგრესიის უპირატესობები:**

კომპლექსურობა: საშუალებას გვაძლევს მოვახდინოთ უფრო რთული ურთიერთობების მოდელირება.

პროგნოზის სიზუსტე: ხშირად უზრუნველყოფს უფრო ზუსტ პროგნოზებს, ვიდრე მარტივი წრფივი რეგრესია.

ცვლადების მნიშვნელობის შეფასება: გვეხმარება გავიგოთ, თუ რომელი ცვლადები ახდენენ ყველაზე დიდ გავლენას შედეგზე.

**გამოწვევები და გასათვალისწინებელი საკითხები:**

მულტიკოლინეარობა: როდესაც დამოუკიდებელი ცვლადები ძლიერ კორელირებულია ერთმანეთთან, ეს შეიძლება პრობლემური იყოს მოდელისთვის.

ინტერპრეტაცია: მეტი ცვლადის დამატებით, მოდელის ინტერპრეტაცია შეიძლება უფრო რთული გახდეს.

გადაჭარბებული მორგება: ძალიან ბევრი ცვლადის გამოყენებამ შეიძლება გამოიწვიოს გადაჭარბებული მორგება, განსაკუთრებით მცირე მონაცემთა ნაკრებებისთვის.


მრავალცვლადიანი წრფივი რეგრესია არის მძლავრი ინსტრუმენტი, რომელიც ფართოდ გამოიყენება სხვადასხვა სფეროში, მათ შორის ეკონომიკაში, სოციალურ მეცნიერებებში, ბიოლოგიაში და ინჟინერიაში.