# Machine Learning - Topic 4

**Regression** - **Регрессия**

Линейная и логистическая регрессия — два широко используемых алгоритма машинного обучения, которые оба являются примерами обучения с учителем. 

Линейную регрессию можно использовать для прогнозирования непрерывной зависимой переменной по шкале значений.
Логистическая регрессия используется, когда ожидается результат бинарной операции (например, «да» или «нет»).

### Линейная регрессия

Линейная регрессия предполагает, что между зависимыми и независимыми переменными существует линейная связь. Цель линейной регрессии — найти наиболее подходящую линию/плоскость, которая может точно предсказать результат для непрерывных зависимых переменных, например, цены на жилье, возраст.

Простая (парная) линейная регрессия — это модель регрессии, которая оценивает взаимосвязь между одной независимой переменной и одной зависимой переменной с помощью прямой линии.
Множественная линейная регрессия  — если независимых переменных более двух.

### Логистическая регрессия

Логистическая регрессия — это модель классификации, которая использует входные переменные (признаки) для прогнозирования категориальной выходной переменной, которая может принимать одно из ограниченного набора значений класса.

Биномиальная логистическая регрессия ограничена двумя категориями двоичных выходных данных.
Полиномиальная логистическая регрессия допускает более двух классов.


1. Что такое регрессия. Введение.
2. Линейная регрессия. Постановка задачи.
3. Предположения линейной регрессии.
4. Парная (простая) линейная регрессия: критерий оптимальности, метод наименьших квадратов, примеры, проверка предположений.
5. Парная нелинейная регрессия, примеры.
6. Множественная линейная регрессия: аналитическое решение, сингулярное разложение, приближенное решение, стохастический градиентный спуск.
7. Регуляризация: гребневая регрессия, регрессия LASSO, эластичные сети.
8. Метрики качества линейной регрессии.
9. Множественная линейная регрессия: ранжирование признаков, ошибки прогноза, визуализация остатков.
10. Классификаторы для задачи регрессии: регрессия SVM, регрессия на основе KNN, регрессия на основе CART, регрессия на основе Random Forest.
11. Линейная регрессия. Применение.
12. Логистическая регрессия: введение, типы логистической регрессии.
13. Связь линейной и логистической регрессий
14. Метод максимального правдоподобия: максимизация функции правдоподобия, градиентный спуск, метод Ньютона-Рафсона.
15. Регуляризация логистической регрессии.
16. Бинарная логистическая регрессия.
17. Мультиномиальная логистическая регрессия.
18. Ординальная логистическая регрессия.
19. Логистическая регрессия. Применение.
20. Отбор информативных признаков.

In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression, Ridge, RidgeCV, Lasso, LassoCV, ElasticNet, ElasticNetCV, LogisticRegression
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.datasets import load_diabetes, fetch_california_housing, load_breast_cancer, load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, accuracy_score

In [None]:
# Load dataset. Take the first two features
diabetes = load_diabetes()
diabetes_X = diabetes.data[:, np.newaxis, 2]

# Create train and test split
X_train = diabetes_X[:-40]
X_test = diabetes_X[-40:]
y_train = diabetes.target[:-40]
y_test = diabetes.target[-40:]

# Fit the model
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

In [None]:
# Generate a non -linear dataset with a quadratic relationship
np.random.seed(42)
x = np.linspace(-10, 10, 100).reshape(-1, 1)
y = 0.5 * x ** 2 + np.random.normal(0, 20, size=100)
y = y.reshape(-1, 1)

# Fit linear regression model
linear_model = LinearRegression()
linear_model.fit(x, y)
y_pred_linear = linear_model.predict(x)

# Fit polynomial regression model(degree = 2)
poly_features = PolynomialFeatures(degree=2, include_bias=False)
x_poly = poly_features.fit_transform(x)
poly_model = LinearRegression()
poly_model.fit(x_poly, y)
y_pred_poly = poly_model.predict(x_poly)

In [None]:
housing = fetch_california_housing ()
data = pd.DataFrame(housing.data, columns=housing.feature_names)
data['AveCostHouse'] = housing.target.tolist()

data = pd.DataFrame(housing.data, columns=housing.feature_names)
X = data[['MedInc', 'AveBedrms', 'AveRooms', 'Latitude', 'Longitude']]
Xtrain, Xtest, ytrain, ytest = train_test_split(X, housing.target, test_size=0.2, random_state=42)

sc = StandardScaler().fit(X)
Xtrain_std, Xtest_std = sc.transform(Xtrain), sc.transform(Xtest)

modelRidge = Ridge(alpha=10.0, fit_intercept=True)
modelRidge.fit(Xtrain_std, ytrain)

yR = modelRidge.predict(Xtest_std)
RMSE_Ridge = mean_squared_error(ytest, yR, squared=False)
MAE_Ridge = mean_absolute_error(ytest, yR)
R2_Riddge = r2_score(ytest, yR)

alphasR = np.linspace(0.1, 10.0, num=1000)
modelRidgeCV = RidgeCV(alphas=alphasR)
modelRidgeCV.fit(Xtrain_std, ytrain)
yRCV = modelRidgeCV.predict(Xtest_std)
RMSE_RidgeCV = mean_squared_error(ytest, yRCV, squared=False)
MAE_RidgeCV = mean_absolute_error(ytest, yRCV)
R2_RiddgeCV = r2_score(ytest, yRCV)

modelLasso = Lasso(alpha=0.3, fit_intercept=True)
modelLasso.fit(Xtrain_std, ytrain)
yL = modelLasso.predict(Xtest_std)
RMSE_Lasso = mean_squared_error(ytest, yL, squared=False)
MAE_Lasso = mean_absolute_error(ytest, yL)
R2_Lasso = r2_score(ytest, yL)
###
alphasL = np.linspace(0.1, 2.0, num =1000)
modelLassoCV = LassoCV(cv=5, random_state=0)
modelLassoCV.fit(Xtrain_std, ytrain)
yLCV = modelLassoCV.predict(Xtest_std)
RMSE_LassoCV = mean_squared_error(ytest, yLCV, squared=False)
MAE_LassoCV = mean_absolute_error(ytest, yLCV)
R2_LassoCV = r2_score(ytest, yLCV)

modelElast = ElasticNet(alpha=0.5, l1_ratio=0.5)
modelElast.fit(Xtrain_std, ytrain)
yE = modelElast.predict(Xtest_std)
RMSE_Elast = mean_squared_error(ytest, yE, squared=False)
MAE_Elast = mean_absolute_error(ytest, yE)
R2_Elast = r2_score(ytest , yE)
###
modelElastCV = ElasticNetCV(cv=5, random_state=0)
modelElastCV.fit(Xtrain_std, y_train)
yECV = modelElastCV.predict(Xtest_std)
RMSE_ElastCV = mean_squared_error(ytest, yECV, squared=False)
MAE_ElastCV = mean_absolute_error(ytest, yECV)
R2_ElastCV = r2_score(ytest, yECV)

In [None]:
X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=23)

# Standardization
sc = StandardScaler().fit(X)
X_std = sc.transform(X)
X_train_std, X_test_std = sc.transform(X_train), sc.transform(X_test)

# Binomial Logistic regression. Fit the model
clf = LogisticRegression(random_state=0)
clf.fit(X_train_std, y_train)

# Prediction
y_pred = clf.predict(X_test_std)
acc = accuracy_score(y_test, y_pred)

In [None]:
# Load IRIS dataset . Take the first two features
iris = load_iris()
X, y = iris.data[:, [0 ,1]], iris.target

# Create train and test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Fit the model (lbfgs - L2 regularization, Multinomial regression)
clf = LogisticRegression(random_state=0, solver='lbfgs', multi_class='multinomial')
model = clf.fit(X_train, y_train)

# Prediction
y_pred = model.predict(X_test)
model.score(X_test, y_test)