<img src="https://files.cdn.thinkific.com/file_uploads/133292/images/d57/1b0/1a9/P03.jpg">

`MCSDSC02P03V3______`

`MCSDSELIMC02P03V2250621`

`MCSDSELIMC02P03V1130621`

## Постановка задачи

Заказчик исследования — страховая компания. Необходимо выяснить, как разные страховые случаи, возраст клиента и его доход влияют на статус выплаты страховой компенсации.

## Импорт данных и библиотек

Импортируем библиотеки, прочитаем файл `insurance.csv` и получим общую информацию о данных.

In [1]:
import pandas as pd
ins_data =  pd.read_csv('https://raw.githubusercontent.com/cvetacea/insurance/main/insurance.csv')

In [2]:
ins_data.head(10)

Unnamed: 0,id,perc_of_compensation_paid,age_in_days,age_id,age_group,income,count_3-6_months_late,count_6-12_months_late,count_more_than_12_months_late,cause
0,649,0.001,27384.0,4,Пожилой,,0,0,0,повреждение автомобиля
1,81136,0.124,23735.0,4,пожилой,285140.0,0,0,0,упало дерево на автомобиль
2,70762,1.0,17170.0,3,Зрелый,-186030.0,0,0,0,сломала ногу в отпуске
3,53935,0.198,16068.0,3,Зрелый,-123540.0,0,0,0,хищение автомобиля (каско)
4,15476,0.041,10591.0,2,Молодой,-200020.0,1,0,0,несчастный случай в отпуске
5,64797,0.112,16065.0,3,Зрелый,,0,0,0,врезались в автомобиль
6,67412,0.325,17167.0,3,ЗРЕЛЫЙ,388050.0,6,0,0,травма во время отдыха
7,44241,0.362,20085.0,4,ПОЖИЛОЙ,-99880.0,3,0,0,повреждение автомобиля
8,5069,0.115,23008.0,4,Пожилой,360040.0,0,0,0,сгорела квартира
9,16615,0.021,21906.0,4,Пожилой,510040.0,0,0,0,сгорел дом


In [3]:
ins_data.info

<bound method DataFrame.info of           id  perc_of_compensation_paid  age_in_days  age_id age_group  \
0        649                      0.001      27384.0       4   Пожилой   
1      81136                      0.124      23735.0       4   пожилой   
2      70762                      1.000      17170.0       3    Зрелый   
3      53935                      0.198      16068.0       3    Зрелый   
4      15476                      0.041      10591.0       2   Молодой   
...      ...                        ...          ...     ...       ...   
2296  109416                      0.413      17525.0       3    Зрелый   
2297    4268                      0.109      21906.0       4   Пожилой   
2298   85708                      0.036      25925.0       4   Пожилой   
2299  105186                      0.010      23370.0       4   Пожилой   
2300   84594                      1.000      21914.0       4   Пожилой   

        income  count_3-6_months_late  count_6-12_months_late  \
0          NaN

Столбцы содержат следующую информацию:

* **id** — ID держателя полиса
* **perc_of_compensation_paid** — процент выплаченной компенсации
* **age_in_days** — возраст держателя полиса в днях
* **age_id** — ID возрастной группы
* **age_group** — возрастная группа 
* **income** — доход держателя полиса
* **count_3-6_months_late** — полис оформлен не позднее 3-6 месяцев
* **count_6-12_months_late** — полис оформлен не позднее 6-12 месяцев
* **count_more_than_12_months_late** — полис оформлен больше года назад
* **cause** — причина страхового случая

### Выводы

* В таблице 10 столбцов и 2301 строка
* 5 стобцов (ID держателя, ID возрастной группы, столбцы с временем оформление полиса) содержат данные типа **integer**,  3 столбца (процент компенсации, возраст держателя карты, доход) типа **float**, 2 столбца (возрастная группа, причина страхового случая) типа **object**
* Отсутсвуют данные по доходу держателя в 65 строках
* В предпросмотре таблицы уже заметны дубликаты, которые нужно будет исправить


## Предобработка данных

**Обработка пропусков**

Проверим данные на наличие пропусков, просуммировав их.

In [4]:
ins_data.isnull().sum()

id                                 0
perc_of_compensation_paid          0
age_in_days                        0
age_id                             0
age_group                          0
income                            65
count_3-6_months_late              0
count_6-12_months_late             0
count_more_than_12_months_late     0
cause                              0
dtype: int64

Заполним пропуски в столбце `income`.

In [5]:
ins_data['income'] = ins_data['income'].fillna(0)

Проверяем, что пропусков в `income` не осталось.

In [6]:
ins_data.isnull().sum()

id                                0
perc_of_compensation_paid         0
age_in_days                       0
age_id                            0
age_group                         0
income                            0
count_3-6_months_late             0
count_6-12_months_late            0
count_more_than_12_months_late    0
cause                             0
dtype: int64

**Замена типа данных**

Проверяем, что в столбцах `age_in_days` и `income` вещественный тип данных.

In [7]:
ins_data.dtypes

id                                  int64
perc_of_compensation_paid         float64
age_in_days                       float64
age_id                              int64
age_group                          object
income                            float64
count_3-6_months_late               int64
count_6-12_months_late              int64
count_more_than_12_months_late      int64
cause                              object
dtype: object

Для этих столбцов нужен целочисленный тип, поэтому переведем их, а также избавимся от отрицательных значений в `income`.

In [8]:
ins_data = ins_data.astype({'age_in_days':'int','income':'int'})
ins_data.dtypes

id                                  int64
perc_of_compensation_paid         float64
age_in_days                         int32
age_id                              int64
age_group                          object
income                              int32
count_3-6_months_late               int64
count_6-12_months_late              int64
count_more_than_12_months_late      int64
cause                              object
dtype: object

In [9]:
ins_data['income'] = abs(ins_data['income'])

**Поиск дубликатов с учетом регистра**

Проверим уникальные категории в столбце `age_group`.

In [10]:
ins_data['age_group'].unique()

array(['Пожилой', 'пожилой', 'Зрелый', 'Молодой', 'ЗРЕЛЫЙ', 'ПОЖИЛОЙ',
       'зрелый', 'молодой', 'МОЛОДОЙ'], dtype=object)

Приведем их к нижнему регистру.

In [11]:
ins_data['age_group'] = ins_data['age_group'].str.lower()
ins_data['age_group'].unique()

array(['пожилой', 'зрелый', 'молодой'], dtype=object)

**Обработка дубликатов**

Установим количество явных дубликатов. Если найдутся, то удалим и снова проверим, что их не осталось.

In [13]:
ins_data.duplicated().sum()

7

In [14]:
ins_data = ins_data.drop_duplicates().reset_index(drop = True)

In [15]:
ins_data.duplicated().sum()

0

**Стэмминг**

Посчитаем уникальные значения в столбце `cause`.

In [16]:
ins_data['cause'].value_counts()

кража автомобиля               112
травма во время отдыха         107
сломала ногу в отпуске          95
упало дерево на автомобиль      94
украли багаж в отпуске          94
травма в отпуске                94
сгорел дом                      93
замкнуло электричество дома     91
сгорела квартира                91
врезались в автомобиль          91
несчастный случай в отпуске     91
сотрясение во время отдыха      90
проникли в жилье                89
повреждение автомобиля          89
потоп в квартире                88
хищение автомобиля (каско)      88
несчастный случай на отдыхе     85
повреждение авто                85
кража авто                      82
обокрали дачу                   81
поломка авто                    81
кража в квартире                79
украли авто                     78
взломали квартиру               77
дтп                             76
затопило дом                    73
Name: cause, dtype: int64

Выделим очевидные разные стеммы:

- автомобиль, авто, дтп
- отпуск, отдых
- жилье, дом, дача, квартира

Из них можно выделить следующие виды страхования:

- **Страховой случай с авто** (повреждение автомобиля, упало дерево на автомобиль, повреждение авто, поломка авто, дтп, врезались в автомобиль,  хищение автомобиля (каско), кража автомобиля, дтп)
- **Страховой случай с недвижимостью** (сгорела квартира, сгорел дом, потоп в квартире, проникли в жилье, обокрали дачу, замкнуло электричество дома, взломали квартиру, затопило дом)
- **Страховой случай на отдыхе** (сломала ногу в отпуске, несчастный случай в отпуске, травма во время отдыха, сотрясение во время отдыха, несчастный случай на отдыхе, травма в отпуске, украли багаж в отпуске)

Напишем функцию, которая принимает неизменяемую часть слова и возвращает все названия категорий с ним. Сначала попробуем стемминг и если не поймаем «чужих» названий — значит этот метод подойдет.

In [17]:
from nltk.stem import SnowballStemmer
russian_stemmer = SnowballStemmer('russian')

def category(stem_word):
    ins_data_stem = ins_data['cause'].drop_duplicates() #удаляем дубликаты стеммов, получаем названия уникальные категорий
    cat_list = [] #создаем список куда будут вноситься все совпадающие случаи

    for cat in ins_data_stem: #перебираем по категориям
        for word in cat.split(): #перебор по словам в категориях
            stemmed_word = russian_stemmer.stem(word) #поиск заданого стема в словах
            if stemmed_word == stem_word:
                cat_list.append(cat) #содержащие стеммы категории добавляем в список
    return cat_list

category('дом') #проверяем как работает на примере одного из стеммов

['сгорел дом', 'замкнуло электричество дома', 'затопило дом']

**Категоризация данных**

Cловарь — распространенный способ хранения информации, который помогает убрать текстовые параметры из основной таблицы и увеличить эффективность работы с данными. Выделим словарь для возрастных групп.

In [18]:
pd.pivot_table(ins_data, 
               index='age_group', 
               values='age_id')

Unnamed: 0_level_0,age_id
age_group,Unnamed: 1_level_1
зрелый,3
молодой,2
пожилой,4


Категоризируем причины выплаты страховых платежей с помощью лемматизации.

In [19]:
pip install pymystem3

Note: you may need to restart the kernel to use updated packages.


In [20]:
from pymystem3 import Mystem
m = Mystem()

def lem(row):
    lemmas = m.lemmatize(row)
    print(lemmas)
    if 'авто' in lemmas or 'дтп' in lemmas or 'автомобиль' in lemmas : return 'Cтраховой случай с авто'
    elif 'дом' in lemmas or 'квартира' in lemmas or 'дача' in lemmas or 'жилье' in lemmas : return 'Страховой случай с недвижимостью'
    elif 'отпуск' in lemmas or 'отдых' in lemmas : return 'Страховой случай на отдыхе'
        
ins_data['cause'] = ins_data['cause'].apply(lem)

['повреждение', ' ', 'автомобиль', '\n']
['упасть', ' ', 'дерево', ' ', 'на', ' ', 'автомобиль', '\n']
['сломать', ' ', 'нога', ' ', 'в', ' ', 'отпуск', '\n']
['хищение', ' ', 'автомобиль', ' (', 'каско', ')\n']
['несчастный', ' ', 'случай', ' ', 'в', ' ', 'отпуск', '\n']
['врезаться', ' ', 'в', ' ', 'автомобиль', '\n']
['травма', ' ', 'во', ' ', 'время', ' ', 'отдых', '\n']
['повреждение', ' ', 'автомобиль', '\n']
['сгорать', ' ', 'квартира', '\n']
['сгорать', ' ', 'дом', '\n']
['травма', ' ', 'во', ' ', 'время', ' ', 'отдых', '\n']
['кража', ' ', 'автомобиль', '\n']
['украсть', ' ', 'авто', '\n']
['потоп', ' ', 'в', ' ', 'квартира', '\n']
['украсть', ' ', 'багаж', ' ', 'в', ' ', 'отпуск', '\n']
['травма', ' ', 'во', ' ', 'время', ' ', 'отдых', '\n']
['травма', ' ', 'во', ' ', 'время', ' ', 'отдых', '\n']
['повреждение', ' ', 'авто', '\n']
['проникать', ' ', 'в', ' ', 'жилье', '\n']
['повреждение', ' ', 'автомобиль', '\n']
['украсть', ' ', 'авто', '\n']
['сгорать', ' ', 'дом', '\n']
[

Категоризируем статус выплаты компенсации — 0 выплат, выплачена часть, полностью выплачена.

In [56]:
def compensation_status(payment): 
    
    if payment == 1:                   
        return 'Полностью выплачено'
    elif payment == 0: 
        return '0 выплачено'
    else: 
        return 'Выплачена часть'

ins_data['perc_of_compensation_paid'] = ins_data['perc_of_compensation_paid'].apply(compensation_status)

Категоризируем `income`, разбив данные по квантилям.

In [57]:
ins_data['quant'] = pd.qcut(ins_data['income'], 5)

## Результаты

Подготовим 3 таблицы и изучим результат.

*ответьте на вопрос — есть ли зависимость между возрастной группой и статусом выплаты?*

Прямой зависимости между возрастной группой и статусом выплат не видно. Можно только сказать, что в процентом соотношении у пожилой возрастной группой больше случаев, выплаченных полностью.

In [58]:
pd.pivot_table(ins_data, values='id', index='age_group', columns='perc_of_compensation_paid', aggfunc='count')

perc_of_compensation_paid,0 выплачено,Выплачена часть,Полностью выплачено
age_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
зрелый,62,884,100
молодой,31,206,52
пожилой,57,698,204


*есть ли зависимость между причиной страхового случая и статусом выплаты?*

Больше всего полностью вылачено компенсации в случаях связанных с авто. Но разницам между другими случаями несущественная.

In [59]:
pd.pivot_table(ins_data, values='id', index='cause', columns='perc_of_compensation_paid', aggfunc='count')

perc_of_compensation_paid,0 выплачено,Выплачена часть,Полностью выплачено
cause,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Cтраховой случай с авто,54,640,182
Страховой случай на отдыхе,42,536,78
Страховой случай с недвижимостью,54,612,96


*есть ли зависимость между доходом клиента и статусом выплаты?*

Так же, как и в предыдущих случаях, ощутимой зависимости не наблюдается. 

In [60]:
pd.pivot_table(ins_data, values='id', index='quant', columns='perc_of_compensation_paid', aggfunc='count')

perc_of_compensation_paid,0 выплачено,Выплачена часть,Полностью выплачено
quant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(-0.001, 90060.0]",43,326,94
"(90060.0, 135758.0]",30,356,69
"(135758.0, 189668.0]",33,366,59
"(189668.0, 269868.0]",19,371,69
"(269868.0, 2700040.0]",25,369,65
