# Обнаружение страхового мошенничества с использованием машинного обучения

## Описание проекта
Проект направлен на обнаружение потенциального страхового мошенничества в данных о страховых убытках. В проекте используются различные методы машинного обучения для анализа данных и предсказания вероятности мошенничества.

## Цели проекта
- Проведение анализа и предварительной обработки данных.
- Обучение модели машинного обучения для предсказания вероятности мошенничества.
- Оптимизация процесса проверки убытков, с минимизацией количества проверок, при этом снижением количества выявленных мошеннических убытков не более чем на 20%.

## Данные
Данные представляют собой набор записей о страховых убытках, связанных с автомобильными авариями. В данных содержится информация о типе убытка, дате регистрации претензии, сумме убытка и других деталях.

In [1]:
from google.colab import drive

drive.mount('/content/MyDrive')

Mounted at /content/MyDrive


In [2]:
file_path = "/content/MyDrive/MyDrive/study_datasets/Тестовое задание 2024-04.csv"

In [3]:
import chardet
import pandas as pd

with open('/content/MyDrive/MyDrive/study_datasets/Тестовое задание 2024-04.csv', 'rb') as rawdata:
    result = chardet.detect(rawdata.read(10000))

insurance_data = pd.read_csv(file_path, encoding=result['encoding'], sep=';')

In [4]:
insurance_data.head()

Unnamed: 0,тип убытка,Номер убытка,Номер претензии,Дата события,Время ДТП,Место ДТП,Вид извещения о событии,Характер события,Оформлено сотрудниками ГИБДД,Адрес ДТП: Страна,...,Риск,Объект,Основание для претензии,Характер ущерба,Форма воозмещения,Основание для регресса,Дата предотсавления полного пакета документов,сумма,проверка,мошенник
0,У,У-000-01799744/16,У-000-01799744/16/3,20.06.2012,13:00:00,Автомагистраль,Заявление,ДТП с участием 2-х ТС с пострадавшими,ДА,Россия,...,Риски ОСАГО,Man TGA,Судебное решение,Смерть в результате ДТП,Денежная,,,12 500,Да,0.0
1,У,У-000-01799744/16,У-000-01799744/16/1,20.06.2012,13:00:00,Автомагистраль,Заявление,ДТП с участием 2-х ТС с пострадавшими,ДА,Россия,...,Риски ОСАГО,Man TGA,Судебное решение,Смерть в результате ДТП,Денежная,,,12 500,Да,0.0
2,У,У-000-01799744/16,У-000-01799744/16/2,20.06.2012,13:00:00,Автомагистраль,Заявление,ДТП с участием 2-х ТС с пострадавшими,ДА,Россия,...,Риски ОСАГО,Man TGA,Заявление от потерпевшего,Прочие повреждения,Денежная,,19.10.2016,120 000,Да,0.0
3,ПВУ,ПВУ-991-077356/15,ПВУ-991-077356/15/1,17.03.2013,10:10:00,В пределах дорог (кроме автомагистралей),Заявление,ДТП с участием 2-х ТС без пострадавших,ДА,Россия,...,Риски ОСАГО,Porsche Cayenne S <K438KH177>,Заявление от потерпевшего,Прочие повреждения,,,01.04.2015,33 788,,
4,У,У-991-01781532/16,У-991-01781532/16/1,26.03.2013,18:00:00,В пределах дорог (кроме автомагистралей),Заказное письмо,ДТП с участием более 2-х ТС с пострадавшими,ДА,Россия,...,Риски ОСАГО,Chevrolet Niva,Заявление от потерпевшего,Прочие повреждения,Денежная,,18.03.2016,120 000,Да,0.0




In [5]:
insurance_data.describe()

Unnamed: 0,тип убытка,Номер убытка,Номер претензии,Дата события,Время ДТП,Место ДТП,Вид извещения о событии,Характер события,Оформлено сотрудниками ГИБДД,Адрес ДТП: Страна,...,Риск,Объект,Основание для претензии,Характер ущерба,Форма воозмещения,Основание для регресса,Дата предотсавления полного пакета документов,сумма,проверка,мошенник
count,14491,14491,14491,14491,14491,14491,14491,14491,14491,14491,...,14491,14491,14488,14486,11597,436,10971,13243,6434,6434
unique,2,10748,14476,1305,803,10,5,16,2,1,...,1,9024,7,20,2,12,847,9705,1,3
top,ПВУ,У-991-01850093/17,У-991-01742715/15/2,22.01.2016,13:00:00,В пределах дорог (кроме автомагистралей),Заявление,ДТП с участием 2-х ТС без пострадавших,ДА,Россия,...,Риски ОСАГО,Kia Rio 0 <>,Заявление от потерпевшего,Прочие повреждения,Денежная,"Алкогольное, наркотическое или иное токсическо...",23.01.2017,400 000,Да,0
freq,12320,9,2,40,226,11006,11223,12498,11870,14491,...,14491,102,13537,12937,11456,148,35,570,6434,5828


In [6]:
insurance_data = insurance_data.rename(columns={
    "Дата предотсавления полного пакета документов": "Дата предоставления полного пакета документов",
    "Форма воозмещения": "Форма возмещения"
})

# Исправляем пропущенные значения (Missing Values)


In [7]:
missing_values = insurance_data.isnull().sum()
missing_values

тип убытка                                           0
Номер убытка                                         0
Номер претензии                                      0
Дата события                                         0
Время ДТП                                            0
Место ДТП                                            0
Вид извещения о событии                              0
Характер события                                     0
Оформлено сотрудниками ГИБДД                         0
Адрес ДТП: Страна                                    0
Дата регистрации претензии                           0
Договор                                              0
Риск                                                 0
Объект                                               0
Основание для претензии                              3
Характер ущерба                                      5
Форма возмещения                                  2894
Основание для регресса                           14055
Дата предо

In [8]:
most_frequient_complaints_data = insurance_data["Основание для претензии"].value_counts().idxmax()
insurance_data["Основание для претензии"].fillna(most_frequient_complaints_data, inplace=True)

most_frequient_damage = insurance_data["Характер ущерба"].value_counts().idxmax()
insurance_data["Характер ущерба"].fillna(most_frequient_damage, inplace=True)

most_frequient_refund_form = insurance_data["Форма возмещения"].value_counts().idxmax()
insurance_data["Форма возмещения"].fillna(most_frequient_refund_form, inplace=True)

most_frequient_grounds_for_recourse = insurance_data["Основание для регресса"].value_counts().idxmax()
insurance_data["Основание для регресса"].fillna(most_frequient_grounds_for_recourse, inplace=True)

insurance_data['Дата предоставления полного пакета документов'].fillna(method='bfill', inplace=True)
insurance_data['Дата предоставления полного пакета документов'].fillna(method='ffill', inplace=True)

def remove_spaces(value):
  if isinstance(value, str):
    return value.replace(" ", "")
  else:
    return value

insurance_data["сумма"] = insurance_data["сумма"].apply(remove_spaces)
insurance_data['сумма'] = pd.to_numeric(insurance_data['сумма'], errors='coerce')
mean_sum_value = insurance_data["сумма"].mean()
insurance_data["сумма"].fillna(mean_sum_value, inplace=True)

def transform_element(element):
  if isinstance(element, str):
    mapping = {"да": 1, "нет": 0}
    return mapping.get(element.lower(), element)
  elif pd.isnull(element):
    return 0
  else:
    return element

insurance_data["проверка"] = insurance_data["проверка"].apply(transform_element)
insurance_data["мошенник"] = insurance_data["мошенник"].apply(transform_element)

In [9]:
missing_values = insurance_data.isnull().sum()
missing_values

тип убытка                                       0
Номер убытка                                     0
Номер претензии                                  0
Дата события                                     0
Время ДТП                                        0
Место ДТП                                        0
Вид извещения о событии                          0
Характер события                                 0
Оформлено сотрудниками ГИБДД                     0
Адрес ДТП: Страна                                0
Дата регистрации претензии                       0
Договор                                          0
Риск                                             0
Объект                                           0
Основание для претензии                          0
Характер ущерба                                  0
Форма возмещения                                 0
Основание для регресса                           0
Дата предоставления полного пакета документов    0
сумма                          

In [10]:
insurance_data.head()

Unnamed: 0,тип убытка,Номер убытка,Номер претензии,Дата события,Время ДТП,Место ДТП,Вид извещения о событии,Характер события,Оформлено сотрудниками ГИБДД,Адрес ДТП: Страна,...,Риск,Объект,Основание для претензии,Характер ущерба,Форма возмещения,Основание для регресса,Дата предоставления полного пакета документов,сумма,проверка,мошенник
0,У,У-000-01799744/16,У-000-01799744/16/3,20.06.2012,13:00:00,Автомагистраль,Заявление,ДТП с участием 2-х ТС с пострадавшими,ДА,Россия,...,Риски ОСАГО,Man TGA,Судебное решение,Смерть в результате ДТП,Денежная,"Алкогольное, наркотическое или иное токсическо...",19.10.2016,12500.0,1,0
1,У,У-000-01799744/16,У-000-01799744/16/1,20.06.2012,13:00:00,Автомагистраль,Заявление,ДТП с участием 2-х ТС с пострадавшими,ДА,Россия,...,Риски ОСАГО,Man TGA,Судебное решение,Смерть в результате ДТП,Денежная,"Алкогольное, наркотическое или иное токсическо...",19.10.2016,12500.0,1,0
2,У,У-000-01799744/16,У-000-01799744/16/2,20.06.2012,13:00:00,Автомагистраль,Заявление,ДТП с участием 2-х ТС с пострадавшими,ДА,Россия,...,Риски ОСАГО,Man TGA,Заявление от потерпевшего,Прочие повреждения,Денежная,"Алкогольное, наркотическое или иное токсическо...",19.10.2016,120000.0,1,0
3,ПВУ,ПВУ-991-077356/15,ПВУ-991-077356/15/1,17.03.2013,10:10:00,В пределах дорог (кроме автомагистралей),Заявление,ДТП с участием 2-х ТС без пострадавших,ДА,Россия,...,Риски ОСАГО,Porsche Cayenne S <K438KH177>,Заявление от потерпевшего,Прочие повреждения,Денежная,"Алкогольное, наркотическое или иное токсическо...",01.04.2015,33788.0,0,0
4,У,У-991-01781532/16,У-991-01781532/16/1,26.03.2013,18:00:00,В пределах дорог (кроме автомагистралей),Заказное письмо,ДТП с участием более 2-х ТС с пострадавшими,ДА,Россия,...,Риски ОСАГО,Chevrolet Niva,Заявление от потерпевшего,Прочие повреждения,Денежная,"Алкогольное, наркотическое или иное токсическо...",18.03.2016,120000.0,1,0




# Преобразование категориальных переменных с помощью Label Encoding

В этом блоке происходит преобразование категориальных переменных в данных в числовые значения с использованием метода Label Encoding. Это необходимо, чтобы модели машинного обучения могли работать с этими данными, так как они могут обрабатывать только числовые значения.

Для выполнения этого преобразования используется LabelEncoder из библиотеки sklearn.preprocessing. Для каждого столбца создается экземпляр LabelEncoder, который обучается на данных из этого столбца и применяется для преобразования данных. Каждый экземпляр LabelEncoder сохраняется в словаре для последующего использования для обратного преобразования, если это будет необходимо.

In [11]:
from sklearn.preprocessing import LabelEncoder


label_encoders = {} # для хранения экземпляров LabelEncoder для каждого столбца
insurance_data_encoded = insurance_data.copy() # copy

# Применяем LabelEncoder ко всем столбцам, кроме числовых
for col in insurance_data.columns:
    if insurance_data[col].dtype == 'object' or insurance_data[col].dtype == 'bool':

        # Преобразуем все значения в столбце в строки
        insurance_data_encoded[col] = insurance_data_encoded[col].astype(str)

        # Создаем и обучаем LabelEncoder для этого столбца
        le = LabelEncoder()
        insurance_data_encoded[col] = le.fit_transform(insurance_data_encoded[col])

        label_encoders[col] = le # Сохраняем LabelEncoder в словаре

        print(f"Столбец '{col}' был обработан.")

Столбец 'тип убытка' был обработан.
Столбец 'Номер убытка' был обработан.
Столбец 'Номер претензии' был обработан.
Столбец 'Дата события' был обработан.
Столбец 'Время ДТП' был обработан.
Столбец 'Место ДТП' был обработан.
Столбец 'Вид извещения о событии' был обработан.
Столбец 'Характер события' был обработан.
Столбец 'Оформлено сотрудниками ГИБДД' был обработан.
Столбец 'Адрес ДТП: Страна' был обработан.
Столбец 'Дата регистрации претензии' был обработан.
Столбец 'Договор' был обработан.
Столбец 'Риск' был обработан.
Столбец 'Объект' был обработан.
Столбец 'Основание для претензии' был обработан.
Столбец 'Характер ущерба' был обработан.
Столбец 'Форма возмещения' был обработан.
Столбец 'Основание для регресса' был обработан.
Столбец 'Дата предоставления полного пакета документов' был обработан.
Столбец 'мошенник' был обработан.


In [12]:
column_names = insurance_data.columns
print(column_names)

Index(['тип убытка', 'Номер убытка', 'Номер претензии', 'Дата события',
       'Время ДТП', 'Место ДТП', 'Вид извещения о событии', 'Характер события',
       'Оформлено сотрудниками ГИБДД', 'Адрес ДТП: Страна',
       'Дата регистрации претензии', 'Договор', 'Риск', 'Объект',
       'Основание для претензии', 'Характер ущерба', 'Форма возмещения',
       'Основание для регресса',
       'Дата предоставления полного пакета документов', 'сумма', 'проверка',
       'мошенник'],
      dtype='object')


In [13]:
column_names = insurance_data_encoded.columns
print(column_names)

Index(['тип убытка', 'Номер убытка', 'Номер претензии', 'Дата события',
       'Время ДТП', 'Место ДТП', 'Вид извещения о событии', 'Характер события',
       'Оформлено сотрудниками ГИБДД', 'Адрес ДТП: Страна',
       'Дата регистрации претензии', 'Договор', 'Риск', 'Объект',
       'Основание для претензии', 'Характер ущерба', 'Форма возмещения',
       'Основание для регресса',
       'Дата предоставления полного пакета документов', 'сумма', 'проверка',
       'мошенник'],
      dtype='object')


In [14]:
label_encoders

{'тип убытка': LabelEncoder(),
 'Номер убытка': LabelEncoder(),
 'Номер претензии': LabelEncoder(),
 'Дата события': LabelEncoder(),
 'Время ДТП': LabelEncoder(),
 'Место ДТП': LabelEncoder(),
 'Вид извещения о событии': LabelEncoder(),
 'Характер события': LabelEncoder(),
 'Оформлено сотрудниками ГИБДД': LabelEncoder(),
 'Адрес ДТП: Страна': LabelEncoder(),
 'Дата регистрации претензии': LabelEncoder(),
 'Договор': LabelEncoder(),
 'Риск': LabelEncoder(),
 'Объект': LabelEncoder(),
 'Основание для претензии': LabelEncoder(),
 'Характер ущерба': LabelEncoder(),
 'Форма возмещения': LabelEncoder(),
 'Основание для регресса': LabelEncoder(),
 'Дата предоставления полного пакета документов': LabelEncoder(),
 'мошенник': LabelEncoder()}

In [19]:
print(insurance_data_encoded['мошенник'].value_counts())

мошенник
0    13885
1      606
Name: count, dtype: int64


In [20]:
!pip install imbalanced-learn



In [21]:
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
X_res, y_res = smote.fit_resample(X, y)

# Проверка баланса классов
print(y_res.value_counts())

мошенник
0    13885
1    13885
Name: count, dtype: int64


In [22]:
X_res

Unnamed: 0,тип убытка,Номер убытка,Номер претензии,Дата события,Время ДТП,Место ДТП,Вид извещения о событии,Характер события,Оформлено сотрудниками ГИБДД,Адрес ДТП: Страна,...,Договор,Риск,Объект,Основание для претензии,Характер ущерба,Форма возмещения,Основание для регресса,Дата предоставления полного пакета документов,сумма,проверка
0,1,9751,12348,834,154,0,2,7,0,0,...,10,0,3859,6,14,0,0,515,12500.000000,1
1,1,9751,12346,834,154,0,2,7,0,0,...,10,0,3859,6,14,0,0,515,12500.000000,1
2,1,9751,12347,834,154,0,2,7,0,0,...,10,0,3859,4,10,0,0,515,120000.000000,1
3,0,4808,6446,693,34,1,2,4,0,0,...,5,0,6027,4,10,0,0,7,33788.000000,0
4,1,10631,14199,1079,373,1,0,9,0,0,...,13,0,955,4,10,0,0,469,120000.000000,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27765,0,2672,3874,228,510,1,3,4,0,0,...,2619,0,6014,4,2,0,0,218,120906.404997,1
27766,0,1166,1803,865,399,1,2,4,0,0,...,8713,0,8910,4,10,0,0,559,31143.922232,1
27767,0,5151,6818,520,163,1,2,4,0,0,...,829,0,4244,4,10,0,0,310,400000.000000,1
27768,0,662,1119,748,247,1,1,4,0,0,...,4789,0,2629,4,10,0,0,93,76941.445296,1


In [23]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# Разделение данных
X_res_train, X_res_test, y_res_train, y_res_test = train_test_split(X_res, y_res, test_size=0.2, random_state=42)

# Выбор модели
model_res = RandomForestClassifier()

# Обучение модели
model_res.fit(X_res_train, y_res_train)

# Оценка модели
predictions_res = model_res.predict(X_res_test)
print(classification_report(y_res_test, predictions_res))

              precision    recall  f1-score   support

           0       0.99      0.96      0.98      2779
           1       0.96      0.99      0.98      2775

    accuracy                           0.98      5554
   macro avg       0.98      0.98      0.98      5554
weighted avg       0.98      0.98      0.98      5554



In [26]:
# Создание DataFrame из сбалансированных данных
resampled_data = pd.DataFrame(X_res, columns=X.columns)
resampled_data['мошенник'] = y_res

# Сравнение исходных и сбалансированных данных
original_data = insurance_data_encoded[insurance_data_encoded['мошенник'] == 1]
synthetic_data = resampled_data[~resampled_data.index.isin(original_data.index)]

print(synthetic_data)

       тип убытка  Номер убытка  Номер претензии  Дата события  Время ДТП  \
0               1          9751            12348           834        154   
1               1          9751            12346           834        154   
2               1          9751            12347           834        154   
3               0          4808             6446           693         34   
4               1         10631            14199          1079        373   
...           ...           ...              ...           ...        ...   
27765           0          2672             3874           228        510   
27766           0          1166             1803           865        399   
27767           0          5151             6818           520        163   
27768           0           662             1119           748        247   
27769           0          1251             1945            49        615   

       Место ДТП  Вид извещения о событии  Характер события  \
0           

In [28]:
from sklearn.metrics import recall_score
import numpy as np

# Получение вероятностей принадлежности к классу "мошенничество"
probs = model.predict_proba(X_test)[:, 1]

# Сортировка вероятностей и истинных меток
thresholds = np.sort(probs)
y_true_sorted = y_test[np.argsort(probs)]

for threshold in thresholds:
    y_pred = probs > threshold
    recall = recall_score(y_true_sorted, y_pred)
    if recall <= 0.8:
        break

print(f"Оптимальный порог: {threshold}")


KeyError: '[161, 680, 77, 2679, 2490, 1982, 2842, 1080, 2027, 1020, 1300, 1481, 2467, 1901, 2155, 2644, 2433, 634, 97, 1445, 2491, 1036, 2806, 2729, 480, 694, 1773, 1401, 1089, 2358, 1230, 1308, 1131, 2575, 721, 1423, 2583, 2749, 2489, 1637, 1813, 2010, 617, 470, 1301, 1782, 2017, 2454, 1919, 636, 2263, 2393, 2007, 838, 961, 2307, 128, 780, 2131, 1455, 2752, 81, 1904, 2761, 312, 329, 403, 957, 730, 1071, 767, 1074, 2251, 1125, 344, 567, 2743, 207, 471, 2028, 2514, 2457, 2625, 1859, 814, 1211, 1538, 212, 359, 2383, 976, 391, 1867, 1931, 1988, 585, 758, 190, 191, 1633, 2422, 1241, 2656, 2063, 1140, 853, 1967, 2076, 2797, 418, 1990, 2822, 1550, 796, 2460, 1979, 942, 165, 342, 912, 2810, 1521, 591, 678, 2689, 1110, 183, 66, 905, 748, 972, 1216, 227, 1400, 1541, 1959, 2637, 818, 1719, 1780, 2787, 2195, 1917, 1268, 2599, 2709, 728, 1587, 953, 1661, 2293, 2445, 1254, 2688, 594, 301, 2776, 1841, 285, 661, 1409, 1456, 1873, 2340, 1668, 2313, 491, 1105, 1877, 2577, 829, 1651, 2006, 2720, 826, 2328, 1283, 2516, 2088, 1751, 2327, 2178, 2508, 1956, 2830, 2083, 1558, 2738, 973, 1090, 2322, 507, 1120, 2529, 1309, 731, 1647, 1133, 2429, 316, 1765, 1184, 1502, 211, 2544, 224, 32, 1172, 756, 627, 2074, 402, 2767, 933, 2524, 2018, 848, 852, 1652, 2801, 2414, 65, 2003, 1696, 654, 706, 1127, 302, 2033, 897, 1144, 2208, 1590, 2768, 1122, 571, 26, 922, 460, 1555, 501, 201, 2793, 2152, 2783, 716, 2660, 1259, 249, 2260, 563, 442, 805, 1872, 2871, 281, 257, 1687, 913, 1834, 1756, 2070, 1245, 1264, 2697, 1485, 2484, 2450, 2833, 2823, 1656, 1830, 104, 2072, 1910, 1467, 277, 1371, 1849, 916, 1434, 2275, 2672, 1031, 941, 2667, 1316, 1206, 918, 374, 139, 2496, 2199, 2187, 2222, 1325, 2350, 1554, 469, 71, 386, 1344, 2175, 783, 1678, 1066, 1471, 497, 641, 936, 809, 751, 1585, 51, 1612, 1321, 2059, 695, 943, 778, 2302, 1460, 1019, 1792, 454, 1480, 1474, 1354, 1519, 2587, 1187, 1464, 1564, 2878, 112, 2339, 2694, 635, 1905, 155, 1793, 2240, 2700, 1486, 2476, 1501, 2143, 891, 2373, 2747, 25, 650, 572, 2811, 319, 2318, 777, 954, 426, 67, 642, 1928, 2229, 242, 2557, 1833, 2683, 1942, 1642, 2526, 1677, 2139, 2464, 844, 1975, 2555, 1536, 1878, 2737, 1523, 1252, 2762, 2174, 929, 1103, 1939, 798, 1888, 1113, 1790, 1447, 672, 406, 291, 2154, 1314, 323, 770, 1986, 1961, 928, 2784, 2408, 1750, 79, 644, 1291, 400, 1510, 2097, 512, 723, 519, 619, 260, 2014, 2896, 1906, 116, 2258, 1800, 164, 604, 294, 1524, 702, 193, 1758, 153, 222, 1257, 1285, 2652, 2897, 520, 2416, 134, 687, 2221, 272, 2827, 625, 2361, 1299, 1897, 1318, 238, 2289, 2077, 425, 1924, 2770, 1843, 1932, 89, 528, 1695, 2756, 1926, 1591, 2535, 156, 1311, 1205, 1104, 1996, 656, 1075, 2362, 1228, 2588, 2780, 1610, 864, 2449, 58, 2164, 1298, 705, 2571, 1918, 1484, 395, 797, 2226, 1741, 2623, 2035, 1955, 76, 1353, 1098, 1348, 1858, 29, 589, 766, 416, 2153, 2277, 133, 235, 141, 2600, 1332, 362, 1828, 693, 1596, 256, 689, 275, 2290, 186, 598, 2763, 2230, 2659, 1397, 2673, 1535, 1826, 564, 2126, 2699, 1081, 899, 2509, 523, 2415, 581, 1128, 2517, 2556, 2613, 409, 2255, 2224, 847, 1767, 21, 2838, 691, 819, 904, 2728, 1838, 377, 1191, 1725, 1322, 2837, 2686, 1927, 842, 1699, 1881, 623, 2632, 1635, 1136, 1091, 2216, 513, 1812, 1505, 1561, 746, 2426, 2812, 305, 2836, 1452, 2540, 2048, 1084, 1476, 1998, 1238, 1934, 2777, 1329, 522, 9, 393, 2451, 62, 154, 345, 1789, 1672, 1560, 1636, 2705, 1067, 389, 236, 802, 60, 2790, 2295, 2246, 2336, 1499, 1514, 2545, 163, 552, 2635, 1279, 308, 1504, 2335, 1359, 1601, 2285, 980, 2169, 815, 1546, 1686, 2518, 1173, 516, 1100, 2245, 2883, 659, 1050, 2773, 187, 532, 1853, 861, 1895, 270, 2181, 886, 603, 2431, 2237, 835, 760, 1608, 1243, 2568, 38, 2553, 2481, 1375, 2815, 2311, 1232, 1065, 1565, 2115, 2550, 2739, 1056, 226, 464, 2135, 854, 2331, 587, 2741, 159, 2044, 931, 1064, 1654, 2292, 2834, 1093, 737, 1037, 105, 106, 118, 578, 459, 55, 2742, 1736, 787, 228, 1892, 788, 2202, 784, 2493, 2345, 2564, 1874, 40, 1137, 1886, 2841, 1977, 2073, 2359, 1869, 2364, 355, 2539, 175, 45, 768, 204, 628, 779, 2605, 995, 2867, 2740, 2170, 919, 2046, 2808, 2225, 237, 2158, 1494, 1044, 34, 2098, 1088, 1734, 1468, 1391, 629, 2294, 1240, 2008, 117, 174, 439, 841, 1239, 1013, 138, 2401, 2110, 1340, 544, 1759, 646, 1896, 1796, 2860, 545, 1051, 1576, 2558, 877, 2873, 2634, 1360, 1030, 194, 981, 982, 2238, 1005, 1620, 1609, 1274, 463, 2262, 1552, 2092, 1306, 681, 2580, 1997, 2176, 1537, 1212, 1949, 2082, 948, 521, 414, 1231, 1417, 774, 620, 2845, 1754, 1163, 2163, 1851, 2247, 2872, 1649, 1195, 309, 1940, 2355, 2443, 365, 1700, 1155, 1159, 987, 1193, 0, 2668, 2023, 1645, 2724, 1972, 2788, 2602, 2647, 1246, 2854, 2282, 298, 2479, 887, 1970, 1818, 341, 496, 1847, 2712, 1971, 785, 2061, 2488, 2305, 597, 2462, 2397, 1069, 2880, 2280, 2657, 2591, 1207, 596, 2877, 1618, 1673, 1657, 539, 231, 1017, 2166, 1749, 96, 671, 1898, 1632, 1726, 2674, 504, 1079, 2268, 1810, 2, 2620, 1709, 2423, 338, 2341, 466, 880, 1132, 2142, 2330, 1616, 1249, 1161, 1622, 548, 255, 1797, 2386, 2402, 882, 1966, 2168, 2392, 727, 1781, 2368, 1060, 1721, 1702, 1691, 753, 1374, 433, 2472, 896, 2156, 1242, 1802, 1405, 269, 57, 1690, 2121, 675, 1473, 1876, 1296, 743, 349, 22, 1631, 2468, 1160, 1525, 934, 1761, 80, 1583, 2051, 1969, 909, 1752, 2687, 595, 845, 2718, 832, 1287, 2579, 1507, 1045, 865, 2617, 958, 2304, 2584, 1235, 1029, 2474, 639, 566, 90, 1680, 2522, 2212, 2586, 2825, 810, 1549, 1947, 1024, 583, 87, 2134, 401, 1376, 1004, 2562, 1057, 2279, 2223, 988, 2561, 220, 292, 803, 1158, 2259, 347, 2314, 1356, 2385, 2560, 2410, 1551, 1915, 1835, 1176, 2716, 288, 843, 2096, 631, 2643, 413, 1281, 1388, 2427, 1543, 1466, 1936, 2685, 1614, 356, 775, 2162, 384, 320, 1174, 2795, 1914, 1805, 1883, 1248, 2102, 78, 1664, 588, 392, 2413, 1118, 326, 1871, 2681, 166, 1958, 609, 2748, 2866, 878, 1728, 879, 1559, 289, 2590, 1937, 579, 940, 2316, 2218, 2563, 1117, 427, 1342, 1809, 1808, 2242, 643, 782, 1038, 2011, 1319, 82, 2627, 331, 658, 851, 855, 2574, 1059, 2179, 1884, 2207, 849, 2004, 1648, 792, 994, 960, 2573, 717, 160, 259, 1129, 261, 2875, 1307, 565, 1276, 690, 2220, 1619, 561, 682, 1446, 837, 1429, 1553, 1814, 1846, 1588, 857, 1539, 688, 1854, 498, 1399, 2781, 2641, 997, 1776, 2050, 1913, 205, 2265, 527, 1742, 2395, 1227, 2052, 2148, 733, 2016, 197, 2458, 372, 924, 2549, 2233, 1269, 2211, 2278, 632, 23, 2533, 2151, 2559, 1920, 397, 1150, 1527, 1640, 2601, 1324, 2159, 1168, 2066, 2857, 126, 2192, 2890, 432, 381, 2691, 1899, 2210, 1605, 2665, 1817, 2269, 1141, 1798, 1164, 2015, 20, 1804, 2332, 2160, 1925, 1887, 2520, 2775, 1012, 494, 1706, 2500, 2725, 1054, 2581, 2428, 2349, 1192, 1930, 2113, 1785, 975, 2528, 2835, 2814, 670, 1801, 1929, 283, 64, 1900, 992, 1821, 1556, 2711, 1893, 18, 1215, 2090, 1689, 2566, 1745, 1671, 870, 2419, 964, 1305, 645, 180, 2862, 550, 1335, 996, 1194, 2892, 1021, 1, 1008, 551, 1993, 1613, 662, 85, 776, 1941, 69, 314, 1016, 1415, 267, 1676, 2799, 959, 371, 790, 2548, 4, 2661, 1885, 1003, 577, 52, 541, 2105, 324, 2116, 2165, 2537, 444, 1343, 686, 769, 492, 1025, 1023, 703, 525, 179, 1394, 1461, 1717, 2274, 1469, 952, 2396, 2765, 1138, 1284, 752, 822, 1694, 1349, 2824, 1963, 2209, 1444, 2243, 1431, 917, 2219, 1033, 1234, 2666, 2300, 1822, 2735, 1829, 2593, 5, 630, 2898, 616, 1774, 232, 131, 1775, 122, 1994, 266, 1729, 1126, 2734, 1336, 2640, 2690, 1811, 144, 890, 618, 1860, 1574, 1106, 1416, 2064, 2608, 739, 1582, 502, 1337, 1154, 124, 100, 2409, 2597, 1577, 53, 300, 2049, 1156, 17, 452, 2732, 2486, 472, 1387, 1946, 1641, 935, 178, 2804, 821, 1770, 2041, 2480, 1425, 1727, 575, 92, 966, 2234, 1028, 633, 307, 652, 88, 142, 1108, 137, 2669, 580, 1032, 1568, 1760, 1438, 2436, 1597, 86, 2800, 1865, 2506, 485, 1531, 1333, 649, 1256, 816, 2642, 701, 963, 1992, 1220, 1831, 1186, 252, 1968, 2870, 253, 1273, 318, 1001, 1052, 2466, 2546, 2538, 1428, 1479, 500, 2047, 417, 143, 1072, 823, 569, 2198, 2053, 962, 1628, 336, 813, 1815, 1304, 990, 773, 1852, 1377, 2863, 1681, 2369, 1708, 2648, 375, 926, 2670, 1868, 1832, 435, 1862, 1439, 2086, 2889, 1976, 1875, 2118, 1149, 72, 1778, 2757, 13, 2492, 1600, 660, 893, 176, 216, 2363, 574, 2296, 648, 1410, 350, 2895, 2266, 296, 115, 7, 612, 1263, 1148, 310, 2482, 1443, 503, 2338, 2333, 2032, 1094, 956, 2190, 1379, 2309, 1933, 1735, 1449, 254, 2438, 607, 2283, 2774, 2297, 871, 2071, 162, 834, 2138, 1177, 1764, 989, 42, 1146, 125, 2865, 440, 622, 1487, 1842, 1589, 667, 2249, 679, 1545, 540, 2256, 606, 2228, 1203, 514, 1223, 2037, 2882, 534, 1145, 889, 2621, 1339, 685, 712, 1607, 1912, 202, 955, 2821, 1757, 983, 2399, 2149, 745, 1604, 493, 2710, 361, 2353, 1420, 1755, 2888, 358, 1395, 517, 2367, 2299, 1380, 2610, 2108, 2430, 1840, 1076, 1594, 765, 2387, 869, 2306, 1784, 2137, 1382, 2893, 2717, 2612, 2440, 1999, 1511, 295, 1573, 2497, 1856, 203, 2839, 529, 1827, 1302, 2461, 1364, 2188, 2792, 2886, 584, 2755, 2354, 1548, 710, 467, 132, 2829, 1472, 2107, 2329, 2503, 152, 2598, 1101, 1629, 951, 2378, 378, 1255, 2853, 524, 363, 2062, 1219, 2819, 213, 2881, 1435, 451, 1711, 2161, 1658, 1432, 127, 2193, 274, 74, 2646, 939, 2778, 825, 436, 3, 1704, 337, 537, 1794, 1055, 2101, 2532, 148, 2389, 1693, 684, 2541, 2171, 2056, 1625, 1578, 610, 2618, 1040, 1167, 883, 390, 1278, 233, 536, 1058, 2846, 2624, 182, 1290, 1109, 44, 477, 699, 1092, 209, 2722, 423, 120, 2521, 876, 49, 2437, 453, 1572, 923, 75, 376, 2094, 505, 2772, 757, 2060, 1313, 28, 1196, 2173, 2379, 1210, 547, 2005, 1518, 2515, 481, 969, 1062, 2111, 495, 1513, 246, 570, 1948, 2658, 43, 2432, 1503, 1421, 2604, 947, 2654, 1027, 722, 892, 2849, 2298, 1824, 2000, 2317, 364, 806, 1392, 1857, 1437, 1334, 2499, 1367, 2042, 1152, 2203, 1660, 1046, 1532, 2079, 443, 2868, 1384, 1646, 130, 1569, 486, 1630, 1200, 2592, 2855, 1049, 2786, 1267, 2607, 2831, 2572, 437, 846, 265, 1096, 456, 2352, 1124, 789, 1517, 258, 664, 1712, 1422, 2125, 328, 458, 2817, 351, 462, 448, 1442, 6, 1916, 1882, 490, 1567, 1663, 2394, 2381, 1879, 1258, 271, 1820, 771, 10, 2651, 2463, 938, 2078, 2372, 1162, 2707, 264, 2026, 1902, 1864, 755, 991, 2217, 145, 1362, 1528, 1653, 229, 1436, 313, 2346, 1908, 2272, 2733, 1526, 1497, 1495, 1000, 2089, 2038, 2380, 2891, 1951, 1135, 2146, 2663, 1675, 1627, 199, 98, 1419, 655, 352, 1960, 1378, 140, 56, 1737, 2084, 2377, 1221, 1861, 2024, 808, 2731, 2065, 800, 121, 366, 2281, 1233, 1189, 1787, 2447, 1724, 2630, 243, 2257, 1777, 2606, 1448, 946, 1806, 2650, 2649, 2446, 1639, 2693, 2191, 239, 1404, 1341, 1490, 1991, 234, 136, 2542, 297, 2441, 1500, 24, 11, 2851, 2785, 557, 888, 515, 556, 12, 2576, 2547, 1855, 1571, 334, 894, 1099, 2045, 601, 1698, 1289, 881, 250, 2147, 2186, 1692, 1836, 867, 1312, 287, 171, 614, 2194, 2759, 1222, 317, 1229, 1330, 2374, 1477, 1407, 2043, 1478, 626, 1771, 2847, 2832, 368, 715, 2068, 2844, 602, 2185, 2745, 2552, 195, 54, 1903, 1426, 1266, 1638, 1440, 2513, 1823, 1317, 170, 192, 1985, 279, 2475, 354, 2356, 1365, 1361, 1557, 1202, 208, 93, 278, 422, 1112, 1185, 306, 2551, 1733, 2136, 576, 1147, 2196, 419, 1048, 340, 998, 1082, 697, 949, 1506, 1542, 1357, 2494, 1271, 482, 2213, 804, 2465, 415, 1544, 1922, 1262, 1165, 559, 1169, 985, 1338, 1850, 2730, 2382, 1788, 2803, 2093, 1441, 282, 1014, 2809, 2840, 1816, 906, 1424, 430, 2702, 1581, 2022, 901, 1753, 2543, 2343, 2828, 2645, 1295, 172, 478, 1179, 968, 1837, 2241, 1762, 1563, 2794, 2603, 707, 2287, 2411, 920, 2469, 1458, 2141, 1265, 37, 1515, 151, 1894, 475, 711, 1204, 268, 240, 786, 1644, 1907, 449, 2887, 860, 404, 2569, 441, 984, 2120, 793, 370, 2639, 1251, 2371, 2675, 2723, 1115, 734, 421, 2682, 2736, 974, 2276, 1119, 1345, 830, 1007, 1825, 91, 2253, 791, 1679, 488, 2273, 2244, 858, 910, 1463, 2239, 2013, 1406, 2040, 1244, 669, 1214, 2505, 2321, 1366, 2104, 1529, 560, 1130, 1974, 2578, 2523, 2510, 1592, 799, 615, 2252, 1863, 2248, 1352, 2200, 2205, 1763, 2384, 665, 866, 94, 325, 2114, 1667, 2789, 206, 1987, 2852, 638, 2764, 831, 1707, 506, 1077, 840, 1412, 719, 827, 1293, 1465, 244, 1772, 2744, 48, 509, 225, 600, 950, 2779, 1143, 348, 1331, 2653, 911, 2132, 2001, 196, 1973, 2502, 2885, 726, 2091, 698, 223, 1938, 1682, 1171, 1584, 1685, 742, 2403, 489, 2703, 2421, 824, 2261, 1198, 2671, 1218, 198, 2080, 2434, 781, 2869, 2750, 873, 1041, 2418, 276, 1294, 382, 599, 677, 2235, 593, 2391, 885, 2291, 1980, 1389, 801, 1224, 1866, 1042, 621, 1459, 663, 1779, 1603, 666, 1718, 2204, 189, 1280, 1540, 30, 1151, 61, 761, 412, 446, 2633, 1674, 1738, 2284, 108, 1116, 2594, 1363, 1180, 2398, 859, 1848, 16, 1909, 1819, 109, 369, 2758, 2511, 438, 2696, 1170, 2698, 1845, 725, 2326, 1260, 407, 262, 2250, 1015, 2719, 1403, 759, 2570, 2726, 2324, 2782, 1386, 84, 1292, 408, 2706, 1181, 915, 1715, 2850, 526, 1381, 549, 555, 1134, 2565, 343, 157, 713, 709, 2103, 2684, 1073, 2721, 1509, 1615, 2567, 999, 1462, 73, 2636, 380, 2376, 692, 2843, 2826, 1070, 1209, 546, 2129, 146, 215, 428, 158, 1095, 1102, 1666, 2713, 1890, 1390, 754, 2530, 508, 2172, 129, 2197, 2504, 986, 1995, 241, 405, 1492, 2370, 383, 674, 2031, 965, 2123, 1286, 2130, 2695, 2424, 2365, 1522, 2106, 332, 1272, 2708, 874, 2180, 2100, 1063, 863, 445, 147, 1716, 807, 945, 1009, 531] not in index'

In [15]:
# Обратное преобразование столбца 'тип убытка'
# insurance_data_encoded['тип убытка'] = label_encoders['тип убытка'].inverse_transform(insurance_data_encoded['тип убытка'])
# insurance_data_encoded['тип убытка']

# Обучение модели Random Forest

In [16]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# Разделение данных
X = insurance_data_encoded.drop('мошенник', axis=1)
y = insurance_data_encoded['мошенник']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Выбор модели
model = RandomForestClassifier()

# Обучение модели
model.fit(X_train, y_train)

# Оценка модели
predictions = model.predict(X_test)
print(classification_report(y_test, predictions))

              precision    recall  f1-score   support

           0       0.98      1.00      0.99      2802
           1       1.00      0.34      0.51        97

    accuracy                           0.98      2899
   macro avg       0.99      0.67      0.75      2899
weighted avg       0.98      0.98      0.97      2899



# Проверка на сгенерированных данных

В этом разделе происходит проверка на новых, сгенерированных данных. Данные были подготовлены и закодированы таким же образом, как и обучающие данные. Затем обученная модель использовалась для предсказания на этих новых данных.

Предсказание представляет собой бинарное значение:
- **0** означает, что, согласно модели, это **не мошенник**.
- **1** означает, что, согласно модели, это **мошенник**.

```python
predictions = model.predict(new_data_encoded)
print(predictions)


In [17]:
# Генерация новых данных
new_data = pd.DataFrame({
    'тип убытка': ['У'],
    'Номер убытка': ['У-000-01799744/16'],
    'Номер претензии': ['У-000-01799744/16/3'],
    'Дата события': ['20.06.2012'],
    'Время ДТП': ['13:00:00'],
    'Место ДТП': ['Автомагистраль'],
    'Вид извещения о событии': ['Заявление'],
    'Характер события': ['ДТП с участием 2-х ТС с пострадавшими'],
    'Оформлено сотрудниками ГИБДД': ['ДА'],
    'Адрес ДТП: Страна': ['Россия'],
    'Дата регистрации претензии': ['29.11.2016'],
    'Договор': ['ВВВ-0603579000'],
    'Риск': ['Риски ОСАГО'],
    'Объект': ['Man TGA'],
    'Основание для претензии': ['Судебное решение'],
    'Характер ущерба': ['Смерть в результате ДТП'],
    'Форма возмещения': ['Денежная'],
    'Основание для регресса': ['Алкогольное, наркотическое или иное токсическое опьянение, отказ от прохождении медицинского освидетельствования на состояние опьянения'],
    'Дата предоставления полного пакета документов': ['19.10.2016'],
    'сумма': [12500.0],
    'проверка': 0
})

# Кодирование новых данных таким же образом, как и обучающие данные
new_data_encoded = new_data.copy()
for col in new_data.columns:
    if new_data[col].dtype == 'object' or new_data[col].dtype == 'bool':
        new_data_encoded[col] = label_encoders[col].transform(new_data_encoded[col].astype(str))

# Предсказание с использованием обученной модели
predictions = model.predict(new_data_encoded)
print(predictions)

[0]


# Обучение модели Gradient Boosting

In [18]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import classification_report

# Разделение данных
X = insurance_data_encoded.drop('мошенник', axis=1)
y = insurance_data_encoded['мошенник']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Выбор модели
model = GradientBoostingClassifier()

# Обучение модели
model.fit(X_train, y_train)

# Оценка модели
predictions = model.predict(X_test)
print(classification_report(y_test, predictions))

              precision    recall  f1-score   support

           0       0.97      1.00      0.98      2802
           1       0.62      0.08      0.15        97

    accuracy                           0.97      2899
   macro avg       0.79      0.54      0.56      2899
weighted avg       0.96      0.97      0.96      2899

