# Логистическая регрессия


### *1)Теория*

Для начала поговорим о *контролируемом обучении*.

**Контролируемое обучение** – это обучение, где у вас есть входные переменные (х) и выходная переменная (Y) и вы используете алгоритм, чтобы узнать функцию отображения от входа к выходу.
y = f (X)

Намерение состоит в том, чтобы обучить функцию так, чтобы всякий раз, когда у нас были какие-либо новые входные данные (x), вы могли легко предсказать выходные переменные (Y) для этого заданного набора входных данных.
Таким образом, здесь обучение проходит под наблюдением учителя/помощника, который уже знает правильные ответы, а алгоритм итеративно делает прогнозы по данным обучения и корректируется супервизором. 

Одними из задач контролируемого машинного обучения является регрессия и классификация.

**Задачи регрессии** - это задачи, в которых мы пытаемся сделать прогноз в непрерывном масштабе. Примерами могут быть прогнозирование цены акций компании или прогнозирование температуры на основе исторических данных. 

В отличие от обычной регрессии, в методе логистической регрессии не производится предсказание значения числовой переменной исходя из выборки исходных значений. Вместо этого, значением функции является вероятность того, что данное исходное значение принадлежит к определенному классу. Для простоты, давайте предположим, что у нас есть только два класса.

Основная идея логистической регрессии заключается в том, что пространство исходных значений может быть разделено линейной границей (т.е. прямой) на две соответствующих классам области. Итак, что же имеется в виду под линейной границей? В случае двух измерений — это просто прямая линия без изгибов. В случае трех — плоскость, и так далее. Эта граница задается в зависимости от имеющихся исходных данных и обучающего алгоритма. Чтобы все работало, точки исходных данных должны разделяться линейной границей на две вышеупомянутых области. Если точки исходных данных удовлетворяют этому требованию, то их можно назвать линейно разделяемыми.

Применять классификацию можно во многих областях науки и техники. Например, алгоритмы классификации текста используются для разделения легитимных писем и спама, а также положительных и отрицательных комментариев. Другие примеры включают медицинские приложения, биологическую классификацию, кредитный рейтинг и многое другое. Задачи распознавания изображений часто представляют как задачи классификации.

### *2) Понятие логистической регрессии*

Для лучшего понимания приведём несколько определений:

**Логистическая регрессия** (логит-модель) — статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой. Эта регрессия выдаёт ответ в виде вероятности бинарного события (1 или 0).

**Логистическая кривая** – график логистической функции:

<img src="Image1.png">

**Логистическая регрессия** - это статистический метод для анализа набора данных, в котором есть одна или несколько независимых переменных, которые определяют результат. Результат измеряется с помощью дихотомической переменной (в которой есть только два возможных результата). Он используется для прогнозирования двоичного результата (1/0, Да / Нет, Истина / Ложь) с учетом набора независимых переменных.

Также можно рассматривать логистическую регрессию как особый случай линейной регрессии, когда исходная переменная является категориальной, где мы используем логарифм шансов в качестве зависимой переменной. Проще говоря, он предсказывает вероятность возникновения события путем подгонки данных к logit функции.

### *3) Математика*

Логистическая регрессия — это линейный классификатор, поэтому вы будете использовать линейную функцию также называемую logit <img src="Image2.png">

Переменные <img src="Image3.png"> являются оценками коэффициентов регрессии, которые также называются прогнозируемыми весами или просто коэффициентами. Функция логистической регрессии p(x) является сигмоидой f(x). <img src="Image4.png">


Функция p(x) часто интерпретируется как прогнозируемая вероятность того, что выход для данного равен 1. Следовательно, 1 - p(x) — это вероятность того, что выход равен 0.

Логистическая регрессия определяет наилучшие предсказанные веса так, чтобы функция p(x) была как можно ближе ко всем фактическим ответам y из наблюдений. Процесс вычисления лучших весов с использованием имеющихся наблюдений называется обучением модели или подгонкой.

После определения наилучших весов, которые определяют функцию p(x), вы можете получить прогнозируемые выходные данные p(xi) для любого заданного входа xi. Для каждого наблюдения прогнозируемый результат равен 1, если p(xi) > 0,5p и 0 в противном случае.

Порог не обязательно должен быть 0,5, но обычно это так. Вы можете определить более низкое или более высокое значение, если это более удобно для вашей ситуации.

Есть еще одно важное соотношение между p(x) и f(x): <img src="Image5.png">

Это равенство объясняет, почему f(x) является logit.

Чтобы получить лучший вес, обычно максимизируют функцию логарифма правдоподобия (LLF) для всех наблюдений. Этот метод называется оценкой максимального правдоподобия и представляется уравнением <img src="Image6.png">

### *4) Эффективность классификации*

Бинарная классификация имеет четыре возможных типа результатов:

**Истинно отрицательные**: правильно предсказанные негативы (нули) \
**Истинно положительные**: правильно предсказанные положительные (единицы) \
**Ложно отрицательные**: неверно предсказанные отрицания (нули)\
**Ложно положительные**: неверно предсказанные срабатывания (единицы).

Обычно точность классификатора оценивается, сравнивая фактические и прогнозируемые результаты и подсчитывая правильные и неправильные прогнозы.

Самый простой индикатор точности классификации — это отношение количества правильных предсказаний к общему количеству предсказаний (или наблюдений). 

Другие индикаторы бинарных классификаторов включают следующее:

**Прогнозирующая ценность положительного результата** — это отношение количества истинных положительных результатов к сумме количества истинных и ложных положительных результатов.\
**Прогнозирующая ценность отрицательного результата** — это отношение количества истинно отрицательных результатов к сумме количества истинных и ложных отрицаний.\
**Чувствительность** (также известная как отзыв или истинно положительный результат) — это отношение количества истинных положительных результатов к количеству фактических положительных результатов.\
**Специфичность** (или истинно отрицательный показатель) — это отношение количества истинных негативов к количеству реальных негативов.

### *5) Регулязация*

Переобучение — одна из самых серьезных проблем, связанных с машинным обучением. Переобученные модели, как правило, имеют хорошую точность с данными, используемыми для их соответствия (данные обучения), но они плохо себя ведут с невидимыми данными (или тестовыми данными, которые не используются для соответствия модели). Переобучение обычно происходит со сложными моделями. Регуляризация обычно пытается уменьшить сложность модели или снизить ее. 

Методы регуляризации, применяемые с логистической регрессией, в основном имеют тенденцию штрафовать за большие коэффициенты (к примеру штрафование LLF).
Регуляризация может значительно улучшить точность модели для невидимых данных.

### *6) Примеры использования логистической регрессии в Python*

Предлагаю рассмотреть два способа решения. Один с ипользованием математических формул, другой с использованием библиотек.
 

#### **1) Набор данных диабета индейцев пима и  стохастический градиентный спуск**

В этой задаче рассмотрим прогнозирование диабета в течение 5 лет у индейцев пима с учетом основных медицинских данных.

Это проблема бинарной классификации, где прогноз - 0 (нет диабета) или 1 (диабет).

И первым нашим шагом будет объявление необходимых нам библиотек:

In [236]:
from random import randrange
from csv import reader
from math import exp

Ниже представленна формула для расчёта логит функции:

yhat = 1.0 / (1.0 + e^(-(b0 + b1 * x1)))

Реализуюм ее в коде:\
(row: Независимые переменные \
coefficients: Известные на данный момент весы)

In [237]:
def predict(row, coefficients):
	z = coefficients[0]
	for i in range(len(row)-1):
		z += coefficients[i + 1] * row[i]
	return 1.0 / (1.0 + exp(-z))

Для подсчета лучших весов будем использовать *стохастический градиентный спуск* (извините, но нужно пояснить еще немного математики, ноо чуть-чуть)

**Градиентный спуск** - это процесс минимизации функции, следуя градиентам функции стоимости.

Стохастический градиентный спуск заменяет реальный градиент, вычисленный из полного набора данных его оценкой, вычисленной из случайно выбранного подмножества данных. Это сокращает задействованные вычислительные ресурсы и помогает достичь более высокой скорости итераций в обмен на более низкую скорость сходимости.Особенно большой эффект достигается в приложениях связанных с обработкой больших данных.

Этот алгоритм оптимизации работает так, что каждый обучающий экземпляр показывается модели по одному. Модель делает прогноз для обучающего экземпляра, вычисляется ошибка, и модель обновляется, чтобы уменьшить ошибку для следующего прогнозирования.

Эта процедура может использоваться для нахождения лучших весов. На каждой итерации коэффициенты (b) в языке машинного обучения обновляются с использованием уравнения:

**b1(t+1) = b1(t) + learning_rate * (y(t) - yhat(t)) * yhat(t) * (1 - yhat(t)) * x1(t)**

b - это i-ый вес, \
learning_rate - скорость обучения, которую вы должны настроить (например, 0,01), \
(y(i) - yhat(i)) - ошибка прогноза для модели на тренировочных данных, отнесенных к весу, \
yhat(i) - прогноз, сделанный коэффициентами известныим до этого и x1(i) - это входные данные.

Специальный коэффициент в начале списка, также называемый перехватом, обновляется аналогичным образом, за исключением того, что он не связан с конкретным входным значением:

**b0(t+1) = b0(t) + learning_rate * (y(t) - yhat(t)) * yhat(t) * (1 - yhat(t))**

Реализация в коде: \
(train: Тренировочные данные \
l_rate: Используется для ограничения суммы, каждый коэффициент корректируется при каждом обновлении. \
n_epoch: Количество раз, которое нужно пройти через данные обучения при обновлении коэффициентов)

In [238]:
def coefficients_sgd(train, l_rate, n_epoch):
	coef = [0.0 for i in range(len(train[0]))]
	for epoch in range(n_epoch):
		sum_error = 0
		for row in train:
			yhat = predict(row, coef)
			error = row[-1] - yhat
			sum_error += error**2
			coef[0] = coef[0] + l_rate * error * yhat * (1.0 - yhat)
			for i in range(len(row)-1):
				coef[i + 1] = coef[i + 1] + l_rate * error * yhat * (1.0 - yhat) * row[i]
        #Можно использовать, чтобы проследить как меняется ошибка каждую эпоху
		#print('>epoch=%d, lrate=%.3f, error=%.3f' % (epoch, l_rate, sum_error))  
	return coef

Теперь нужно определить откуда мы возьмем данные для обучения и теста и как их будем передавать. Сперва разберемся откуда.

Сначала загружается набор данных (набор данных в формате CSV находится в текущем рабочем каталоге с именем файла **pima-indians-diabetes.csv**). Строковые значения преобразуются в числовые, и каждый столбец нормализуется до значений в диапазоне от 0 до 1. Это достигается с помощью вспомогательных функций: ***load_csv()*** , а также ***str_column_to_float()***.
Загрузика и подготовка набора данных реализуется через ***dataset_minmax()*** и ***normalize_dataset()***.

Мы будем использовать перекрестную проверку в k-кратном размере для оценки эффективности изученной модели на невидимых данных. Это означает, что мы будем строить и оценивать k моделей и оценивать производительность как среднюю производительность модели. Точность классификации будет использоваться для оценки каждой модели. Эти поведения представлены в ***cross_validation_split()***, ***accuracy_metric()***, а также ***evaluate_algorithm()*** .

In [239]:
# Загружаем CSV файл
def load_csv(filename):
	dataset = list()
	with open(filename, 'r') as file:
		csv_reader = reader(file)
		for row in csv_reader:
			if not row:
				continue
			dataset.append(row)
	return dataset

# Конвертирует строчки из колонок в вещественные числа
def str_column_to_float(dataset, column):
	for row in dataset:
		row[column] = float(row[column].strip())

# Находит минимальные и максимальные значения для каждой колонки
def dataset_minmax(dataset):
	minmax = list()
	for i in range(len(dataset[0])):
		col_values = [row[i] for row in dataset]
		value_min = min(col_values)
		value_max = max(col_values)
		minmax.append([value_min, value_max])
	return minmax

# Изменяет значение столбцов набора данных до диапазона 0–1 
def normalize_dataset(dataset, minmax):
	for row in dataset:
		for i in range(len(row)):
			row[i] = (row[i] - minmax[i][0]) / (minmax[i][1] - minmax[i][0])

# Разделяет набор данных на k моделей
def cross_validation_split(dataset, n_folds):
	dataset_split = list()
	dataset_copy = list(dataset)
	fold_size = int(len(dataset) / n_folds)
	for i in range(n_folds):
		fold = list()
		while len(fold) < fold_size:
			index = randrange(len(dataset_copy))
			fold.append(dataset_copy.pop(index))
		dataset_split.append(fold)
	return dataset_split

# Рассчитывает процент точности 
def accuracy_metric(actual, predicted):
	correct = 0
	for i in range(len(actual)):
		if actual[i] == predicted[i]:
			correct += 1
	return correct / float(len(actual)) * 100.0

Осталось понять, куда мы передаем данные, чтобы расчитать результат работы данного метода реализации логистической регрессии.

In [240]:
def evaluate_algorithm(dataset, algorithm, n_folds, *args):
	folds = cross_validation_split(dataset, n_folds)
	scores = list()
	for fold in folds:
		train_set = list(folds)
		train_set.remove(fold)
		train_set = sum(train_set, [])
		test_set = list()
		for row in fold:
			row_copy = list(row)
			test_set.append(row_copy)
			row_copy[-1] = None
		predicted = algorithm(train_set, test_set, *args)
		actual = [row[-1] for row in fold]
		accuracy = accuracy_metric(actual, predicted)
		scores.append(accuracy)
	return scores

def logistic_regression(train, test, l_rate, n_epoch):
	predictions = list()
	coef = coefficients_sgd(train, l_rate, n_epoch)
	for row in test:
		yhat = predict(row, coef)
		yhat = round(yhat)
		predictions.append(yhat)
	return(predictions)

Осталось всего несколько строчек, чтобы запустить наш метод и просмотреть результаты его работы.

In [241]:
# Загрузка и подготовка данных
filename = 'pima-indians-diabetes.csv'
dataset = load_csv(filename)
for i in range(len(dataset[0])):
	str_column_to_float(dataset, i)
    
# нормализация
minmax = dataset_minmax(dataset)
normalize_dataset(dataset, minmax)

n_folds = 5
l_rate = 0.1
n_epoch = 100
scores = evaluate_algorithm(dataset, logistic_regression, n_folds, l_rate, n_epoch)
print('Scores: %s' % scores)
print('Mean Accuracy: %.3f%%' % (sum(scores)/float(len(scores))))

n_folds = 5
l_rate = 0.0001
n_epoch = 100
scores = evaluate_algorithm(dataset, logistic_regression, n_folds, l_rate, n_epoch)
print('Scores: %s' % scores)
print('Mean Accuracy: %.3f%%' % (sum(scores)/float(len(scores))))

n_folds = 5
l_rate = 0.1
n_epoch = 50
scores = evaluate_algorithm(dataset, logistic_regression, n_folds, l_rate, n_epoch)
print('Scores: %s' % scores)
print('Mean Accuracy: %.3f%%' % (sum(scores)/float(len(scores))))

n_folds = 5
l_rate = 0.1
n_epoch = 150
scores = evaluate_algorithm(dataset, logistic_regression, n_folds, l_rate, n_epoch)
print('Scores: %s' % scores)
print('Mean Accuracy: %.3f%%' % (sum(scores)/float(len(scores))))

Scores: [77.77777777777779, 80.3921568627451, 67.97385620915033, 80.3921568627451, 77.12418300653596]
Mean Accuracy: 76.732%
Scores: [59.47712418300654, 60.78431372549019, 64.70588235294117, 67.97385620915033, 71.89542483660131]
Mean Accuracy: 64.967%
Scores: [75.16339869281046, 81.69934640522875, 73.20261437908496, 73.8562091503268, 77.77777777777779]
Mean Accuracy: 76.340%
Scores: [75.16339869281046, 77.77777777777779, 79.08496732026144, 74.50980392156863, 77.77777777777779]
Mean Accuracy: 76.863%


Выполнение этого примера печатает оценки для каждого из 5 сгибов перекрестной проверки, а затем печатает среднюю точность классификации.

Выше приведены несколько примеров с разными значениями l_rate и  n_epoch. 

Можно заметить, что с разной комбинацией этих величин можно получить разную точность предсказаний.

#### **2) Реализация через библиотеки**

Ну и начальным нашим шагом конечно будет обьевление библиотек

In [None]:
from sklearn import preprocessing
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

Расмотрим, как использовать библиотеки.

In [None]:
#classifier = LogisticRegression(solver='sag',random_state=0)
#classifier.fit(x_train, y_train)
#print('Accuracy: {:.2f}'.format(classifier.score(x_test, y_test)))

При их использовании независимые и зависимые переменные нужно подавать в разных списках. Кроме того стоит отметить, что функция LogisticRegression имеет много параметров. 

Теперь посмотрим, как выглядит прогнозирование диабета индейцев пима с нашим новым методом:

In [243]:
filename = 'pima-indians-diabetes.csv'
dataset = load_csv(filename)
for i in range(len(dataset[0])):
	str_column_to_float(dataset, i)
    
minmax = dataset_minmax(dataset)
normalize_dataset(dataset, minmax)

folds = cross_validation_split(dataset, 2)
for fold in folds:
    train_set = list(folds)
    train_set.remove(fold)
    train_set = sum(train_set, [])
    test_set = list()
    for row in fold:
        row_copy = list(row)
        test_set.append(row_copy)
        
        
    x_train = list()
    y_train = list()
    for i in range(len(train_set)):
        if (len(train_set[i]) == 9):
            x_train.append(train_set[i])
            y_train.append(train_set[i][-1])
            del(x_train[i][-1])
    
    x_test = list()
    y_test = list()
    for i in range(len(test_set)):
        if (len(test_set[i]) == 9):
            x_test.append(test_set[i])
            y_test.append(test_set[i][-1])
            del(x_test[i][-1])
            
    
    if (len(x_test) != 0):
    
        classifier = LogisticRegression(solver='sag',random_state=0)
        classifier.fit(x_train, y_train)
        print('Accuracy: {:.2f}'.format(classifier.score(x_test, y_test)))

Accuracy: 0.79


Да реализовано не без костылей, но сейчас главное было показать, как работает логистическая регрессия из библиотек.

И работает это довольно просто. У логистической регрессии из библиотек довольно высокая точность и есть не мало настроек, поэтому достижение максимальной точности достигается через правильную обработку входных данных.