### Учебный проект курса "Теория вероятностей и математическая статистика"
## Оценка возможности предсказания вероятности заключения сделки на предоставленных данных с достаточной надежностью 
**(по проектам малого производственного предприятия типа job-shop )**

In [560]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

pd.options.display.max_columns = 100

In [561]:
data = pd.read_csv('job-projects.csv', sep=";")

In [562]:
data.head()

Unnamed: 0,project_id,in_work,Summ,work_summ,Sebest,o_pl,o_rent,Manager,client_projects,client_projects_calc,client_orders,client_konv,client_bill_middle,client_bill_middle_dc,client_pl_middle,client_projects_rent_middle,client_valid
0,12087,0,62135.88,45976.02,19393.98,26913.7,58.5,23.0,1,1,1,71.43,46388.94,33679.28,18724.43,54.92,1
1,11259,1,225455.78,120758.54,49676.97,74720.11,61.9,23.0,0,0,0,20.0,225455.78,120758.54,74720.11,61.9,1
2,12089,1,3700.0,3083.33,2228.09,855.24,27.7,22.0,0,0,0,91.43,50717.51,41792.53,21277.71,18.8,0
3,11803,1,4618.99,3849.16,1966.02,1883.14,48.9,22.0,1,0,0,91.43,50717.51,41792.53,21277.71,18.8,0
4,12150,1,16167.78,8478.55,4453.69,4310.27,50.8,23.0,74,70,64,85.71,16673.53,9724.47,4786.17,49.4,1


In [563]:
data.shape

(1150, 17)

## Разбиение на тестовый и валидационный сеты, подготовка данных

In [586]:
df = data.loc[:]
df.loc[df["in_work"]==0, "in_work"]=-1
#df.describe()

In [587]:
#Не берем поле Менеджер - оно категориальное и требует дополнительной обработки
fields=["Summ", "work_summ", "Sebest", "o_pl", "o_rent", "client_projects", "client_projects_calc", "client_orders", "client_konv", "client_bill_middle", "client_pl_middle", "client_projects_rent_middle", "client_valid"]

Разобьем данные на обучающий и валидационный сеты

In [588]:
from sklearn.model_selection import train_test_split

train, valid, y_train, y_valid = train_test_split(df.loc[:, fields], df.loc[:, ["in_work"]], test_size=0.3, random_state=7)
train.shape, valid.shape,  y_train.shape, y_valid.shape

((805, 13), (345, 13), (805, 1), (345, 1))

In [589]:
#train.head()

Нормализуем значения параметров

In [590]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

def prepare_data(data, isTrain):
    if isTrain is True:
        scaled = scaler.fit_transform(data)
    else: 
        scaled = scaler.transform(data)
        
    ones = np.ones((scaled.shape[0], 1))
    x = np.hstack([ones, scaled])  
    return  x


In [591]:
x=prepare_data(train.loc[:, fields], True)
y=y_train.values.T[0]

x2=prepare_data(valid.loc[:, fields], False)
y2=y_valid.values.T[0]
x.shape, y.shape, x2.shape, y2.shape

  return self.partial_fit(X, y)
  return self.fit(X, **fit_params).transform(X)
  


((805, 14), (805,), (345, 14), (345,))

Построим модель логистической регрессии методом градиентного спуска.

In [592]:
#В качестве расстояния берем евклидово между векторами
from scipy.spatial.distance import euclidean

In [593]:
def sigmoid(x):
    """Сигмоида.
    """
    return 1 / (1 + np.exp(-x))

In [594]:
def partial_derivative(j, b, x, y):
    """Частная производная функционала Q по переменной b_j.
    """
    return -sum(
        x[i, j] * y[i] * (1 - sigmoid(b.dot(x[i]) * y[i]))
        for i in range(x.shape[0])
    )

In [595]:
def gradient(b, x, y):
    """Вектор градиента.
    """
   
    return np.array([
        partial_derivative(j, b, x, y)
        for j in range(b.shape[0])
    ])

In [596]:
def gradient_descent_step(lambda_, b, x, y):
    """Один шаг градиентного спуска.
    """
    minus=lambda_ * gradient(b, x, y)
    
    return b - minus

In [597]:
#В качестве стартового берем вектор с нулями
b_0 = np.zeros(x.shape[1])
b = b_0

for i in range(1, 10 ** 5):
    lambda_=0.01/i
    
    b_new = gradient_descent_step(lambda_, b, x, y)
    diff = euclidean(b, b_new)
    if diff < 0.001:
        print(f'success on step {i}\n')
        
        break
    b = b_new

b = b_new.reshape(-1, 1)
b

success on step 90



array([[-0.3900818 ],
       [-0.53387022],
       [-0.49039695],
       [-0.28148672],
       [-0.61341543],
       [-0.30067757],
       [-0.02913996],
       [ 0.03231162],
       [-0.02741305],
       [ 2.69923751],
       [ 0.21203123],
       [ 0.0660471 ],
       [ 0.04790598],
       [ 0.14083599]])

In [598]:
z = np.array([sigmoid(z_i) for z_i in x.dot(b)])
z2 = np.array([sigmoid(z_i) for z_i in x2.dot(b)])

In [599]:
z_train = np.array([
    1 if z_ > 0.5 else -1
    for z_ in z
])
z_valid = np.array([
    1 if z_ > 0.5 else -1
    for z_ in z2
])

In [600]:
from sklearn.metrics import accuracy_score

In [601]:
accuracy_score(y, z_train), accuracy_score(y2, z_valid)


(0.8472049689440994, 0.8521739130434782)

Модель выдает хорошие показатели как на учебном сете, так и для валидационных данных. 
Более подробный анализ прогностической модели на отдельных проектах показал, что для новых клиентов вероятность продажи проекта оценивается как низкая и уровень выставляемой цены большого влияния не оказывает - возможно, будет правильно сделать отдельные модели для новых клиентов и клиентов заказывавших ранее.