### Modele liniowe: regresja liniowa, regresja logistyczna

#### Regresja liniowa

- Definicja:
 - Regresja liniowa jest metodą statystyczną używaną do modelowania zależności między zmienną zależną (zmienną objaśnianą) a jedną lub więcej zmiennych niezależnych (zmiennych objaśniających). Celem regresji liniowej jest znalezienie liniowej funkcji, która najlepiej opisuje zależność między zmiennymi.

 - Równanie:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 +
+ \beta_n x_n + \epsilon
$$

gdzie:

$y$ to zmienna zależna,
$x_1$, $x_2$,…, $x_n$ to zmienne niezależne,
$β_0$, $β_1$,…,$β_n$ to współczynniki regresji, $ϵ$ to błąd losowy.

- Zastosowania:

 - Prognozowanie cen nieruchomości.
 - Analiza trendów ekonomicznych.
 - Modelowanie zależności między zmiennymi w naukach przyrodniczych.

In [4]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

# Przykładowe dane
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2.1, 3.04, 4.2, 5.0, 5.99])

# Podział danych na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Utworzenie modelu regresji liniowej
model = LinearRegression()

# Trenowanie modelu
model.fit(X_train, y_train)

# Przewidywanie
y_pred = model.predict(X_test)

print(y_pred, y_test)

# Ocena modelu
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')


[3.11428571] [3.04]
Mean Squared Error: 0.00551836734693871


Regresja logistyczna
Definicja:
Regresja logistyczna jest metodą używaną do klasyfikacji binarnej, gdzie zmienna zależna może przyjmować jedną z dwóch wartości (0 lub 1). Model używa funkcji logistycznej (sigmoidalnej) do przewidywania prawdopodobieństwa, że dana obserwacja należy do danej klasy.

Równanie:

$$
\log{\frac{P(y = 1 | x)}{1 - P(y = 1 | x)}} =
 \beta_0 + \beta_1 x_1 + \beta_2 x_2 +
+ \beta_n x_n
$$

gdzie:

 - $P(y = 1 | x)$
to prawdopodobieństwo, że $y$
jest równe 1 przy danym wektorze cech
$x$.

- $β_0$, $β_1$,…,$β_n$ to współczynniki regresji

- Zastosowania:

 - Klasyfikacja spamu w emailach.
 - Diagnozowanie chorób.

In [7]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# Przykładowe dane
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
y = np.array([0, 0, 1, 1, 1])

# Podział danych na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

# Utworzenie modelu regresji logistycznej
model = LogisticRegression()

# Trenowanie modelu
model.fit(X_train, y_train)

# Przewidywanie
y_pred = model.predict(X_test)

print(y_pred, y_test)

# Ocena modelu
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')


[1 1] [0 1]
Accuracy: 0.5


### Drzewa decyzyjne, lasy losowe, algorytmy typu XGBoost

#### Drzewa decyzyjne

1. Definicja:
- Drzewa decyzyjne są modelem uczenia maszynowego, który dzieli zbiór danych na podzbiory na podstawie wartości cech.
- Drzewo decyzyjne składa się z węzłów, gdzie każdy węzeł reprezentuje test "na cechę", a gałęzie reprezentują wyniki testów.

2. Zastosowania:

- Klasyfikacja i regresja.
- Analiza decyzyjna w biznesie.
- Diagnozowanie medyczne.

In [8]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# Przykładowe dane
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
y = np.array([0, 0, 1, 1, 1])

# Podział danych na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

# Utworzenie modelu drzewa decyzyjnego
model = DecisionTreeClassifier()

# Trenowanie modelu
model.fit(X_train, y_train)

# Przewidywanie
y_pred = model.predict(X_test)

# Ocena modelu
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')


Accuracy: 1.0


### Lasy losowe (Random Forest)

1. Definicja:
- Lasy losowe to zespół metod uczenia maszynowego, które konstruują wiele drzew decyzyjnych podczas treningu i wykonują klasyfikację lub regresję na podstawie najczęściej występującej wartości, czyli mody (w przypadku klasyfikacji) lub średniej (w przypadku regresji) przewidywań poszczególnych drzew.

2. Zastosowania:

- Klasyfikacja i regresja.
- Analiza danych finansowych.
- Przewidywanie wyników sportowych.

In [9]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# Przykładowe dane
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
y = np.array([0, 0, 1, 1, 1])

# Podział danych na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Utworzenie modelu lasu losowego
model = RandomForestClassifier(n_estimators=100)

# Trenowanie modelu
model.fit(X_train, y_train)

# Przewidywanie
y_pred = model.predict(X_test)

print(y_pred, y_test)

# Ocena modelu
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')


[0] [0]
Accuracy: 1.0


### XGBoost

1. Definicja:
- XGBoost (Extreme Gradient Boosting) to zaawansowany algorytm "gradient boosting", który jest używany do klasyfikacji i regresji. XGBoost jest znany z wysokiej wydajności i skalowalności.

2. Zastosowania:

- Klasyfikacja i regresja.
- Konkursy Kaggle.
- Analiza danych finansowych.

In [12]:
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# Przykładowe dane
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
y = np.array([0, 0, 1, 1, 1])

# Podział danych na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

# Utworzenie modelu XGBoost
model = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')

# Trenowanie modelu
model.fit(X_train, y_train)

# Przewidywanie
y_pred = model.predict(X_test)

print(y_pred, y_test)

# Ocena modelu
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')


[1 1] [0 1]
Accuracy: 0.5


Parameters: { "use_label_encoder" } are not used.

