In [39]:
import pandas as pd
import numpy as np
import warnings
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
import scipy.stats as st
import copy



##### Для начала сделаем анализ для каждого штата, дла каждого гендера одновременно

In [63]:
# Загрузка данных из файла Excel
file_path = 'Автострахование.xlsx'
df = pd.read_excel(file_path)
df

Unnamed: 0,STATE,CLASS,GENDER,AGE,PAID
0,STATE 14,C6,M,97,1134.44
1,STATE 15,C6,M,96,3761.24
2,STATE 15,C11,M,95,7842.31
3,STATE 15,F6,F,95,2384.67
4,STATE 15,F6,M,95,650.00
...,...,...,...,...,...
6768,STATE 15,C71,M,50,39.31
6769,STATE 02,C71,M,50,35.00
6770,STATE 17,C7B,F,50,27.46
6771,STATE 01,C71,F,50,25.00


In [64]:
# Разделение данных на группы по полу и географическому критерию
grouped_data = data.groupby(['GENDER', 'STATE'])

In [65]:
# Расчет мер риска для каждой группы
risk_measures = grouped_data['PAID'].agg([
    np.var,                           # Дисперсия
    np.std,                           # Стандартное отклонение (СКО)
    lambda x: np.var(x[x >= 0]),      # Положительная полудисперсия
    lambda x: np.var(x[x < 0]),       # Отрицательная полудисперсия
    lambda x: np.median(np.abs(x - np.median(x))),  # Среднее абсолютное отклонение
    np.max,                           # Максимальный ущерб
    lambda x: np.quantile(x, 0.95)    # 95%-ная квантиль (VaR)
])

In [66]:
# Вывод результатов
print(risk_measures)

                          var          std    <lambda_0>  <lambda_1>  \
GENDER STATE                                                           
F      STATE 01  3.017817e+06  1737.186552  2.958644e+06         NaN   
       STATE 02  5.237317e+06  2288.518475  5.225277e+06         NaN   
       STATE 03  1.268172e+07  3561.139769  1.258708e+07         NaN   
       STATE 04  4.378821e+06  2092.563259  4.360188e+06         NaN   
       STATE 06  8.129335e+06  2851.198821  8.095321e+06         NaN   
       STATE 07  3.476531e+07  5896.211520  3.446300e+07         NaN   
       STATE 10  6.725159e+06  2593.291076  6.667679e+06         NaN   
       STATE 11  2.599745e+06  1612.372421  2.079796e+06         NaN   
       STATE 12  8.093093e+06  2844.836191  8.006996e+06         NaN   
       STATE 13  1.530977e+07  3912.770266  1.510833e+07         NaN   
       STATE 14  4.035363e+06  2008.821271  3.947638e+06         NaN   
       STATE 15  5.087018e+06  2255.441951  5.080815e+06        

In [67]:
result_df = pd.DataFrame({
    'Дисперсия': risk_measures['var'],
    'Стандартное отклонение (СКО)': risk_measures['std'],
    'Положительная полудисперсия': risk_measures['<lambda_0>'],
    'Отрицательная полудисперсия': risk_measures['<lambda_1>'],
    'Среднее абсолютное отклонение': risk_measures['<lambda_2>'],
    'Максимальный ущерб': risk_measures['amax'],
    '95%-ная квантиль (VaR)': risk_measures['<lambda_3>']
})

result_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Дисперсия,Стандартное отклонение (СКО),Положительная полудисперсия,Отрицательная полудисперсия,Среднее абсолютное отклонение,Максимальный ущерб,95%-ная квантиль (VaR)
GENDER,STATE,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
F,STATE 01,3017817.0,1737.186552,2958644.0,,460.46,8144.41,4959.805
F,STATE 02,5237317.0,2288.518475,5225277.0,,542.97,16155.5,5743.66
F,STATE 03,12681720.0,3561.139769,12587080.0,,473.9,23344.38,8581.2485
F,STATE 04,4378821.0,2092.563259,4360188.0,,452.02,15279.68,5240.5
F,STATE 06,8129335.0,2851.198821,8095321.0,,781.46,19348.67,7506.043
F,STATE 07,34765310.0,5896.21152,34463000.0,,513.03,60000.0,7212.349
F,STATE 10,6725159.0,2593.291076,6667679.0,,585.95,21404.96,6053.39
F,STATE 11,2599745.0,1612.372421,2079796.0,,666.47,4635.0,3999.0
F,STATE 12,8093093.0,2844.836191,8006996.0,,995.595,11916.58,9659.142
F,STATE 13,15309770.0,3912.770266,15108330.0,,483.935,33137.5,4772.825


##### Теперь сделаем отдельно

In [86]:
# создаем функцию:
def semivar(data):
    # считаем среднее значение:
    mu = np.mean(data)
    # создаем массивы отдельно положительных и отрицательных отклонений от среднего в каждой строке датасета:
    pos = np.maximum(data - mu, 0)
    neg = np.maximum(mu - data, 0)
    # рассчитываем положительную и отрицательную полудисперсии:
    pos_var = np.mean(pos ** 2)
    neg_var = np.mean(neg ** 2)
    # возвращаем рассчиатнные значения:
    return pos_var, neg_var

In [87]:
# создаем сводную таблицу:
groups = df.pivot_table(index='gender', values='paid', 
                        aggfunc=['var', 
                                 'std', 
                                 lambda x: semivar(x)[0], 
                                 lambda x: semivar(x)[1], 
                                 'max', 
                                 lambda x: np.percentile(x, 95)]).reset_index()
# переименовываем столбцы:
groups.columns = ['Пол', 'Дисперсия', 'СКО', 'Положительная полудисперсия', 
                  'Отрицательная полудисперсия', 'Максимальный ущерб', 'Рисковый капитал']
# выводим сводную таблицу:
groups

Unnamed: 0,Пол,Дисперсия,СКО,Положительная полудисперсия,Отрицательная полудисперсия,Максимальный ущерб,Рисковый капитал
0,F,7620810.0,2760.581523,6603872.0,1013987.0,60000.0,6448.3935
1,M,6629054.0,2574.694894,5696383.0,931088.8,59113.78,6303.465


##### Исходя из представленных данных, можно сделать некоторые выводы:
1. В результате расчета различных мер риска, женщины оказались более рисковой группой. 
2. Однако, с учетом контекста автострахования, лучшей мерой риска для выделенных групп, а также в общем контексте, будет рисковый капитал. Эта мера лучше всего объясняет возможные потери с вероятностью 95%, не страдает так сильно от выбросов, поскольку представляет собой квантиль, и отличается от оценок, основанных на средних значениях, таких как дисперсия, стандартное отклонение и полудисперсии.

In [88]:
# создаем функцию:
def semivar(data):
    # считаем среднее значение:
    mu = np.mean(data)
    # создаем массивы отдельно положительных и отрицательных отклонений от среднего в каждой строке датасета:
    pos = np.maximum(data - mu, 0)
    neg = np.maximum(mu - data, 0)
    # рассчитываем положительную и отрицательную полудисперсии:
    pos_var = np.mean(pos ** 2)
    neg_var = np.mean(neg ** 2)
    # возвращаем рассчиатнные значения:
    return pos_var, neg_var

In [89]:
# создаем сводную таблицу:
groups = df.pivot_table(index='state', values='paid', 
                        aggfunc=['var', 
                                 'std', 
                                 lambda x: semivar(x)[0], 
                                 lambda x: semivar(x)[1], 
                                 'max', 
                                 lambda x: np.percentile(x, 95)]).reset_index()
# переименовываем столбцы:
groups.columns = ['Штат', 'Дисперсия', 'СКО', 'Положительная полудисперсия', 
                  'Отрицательная полудисперсия', 'Максимальный ущерб', 'Рисковый капитал']
# выводим сводную таблицу:
groups

Unnamed: 0,Штат,Дисперсия,СКО,Положительная полудисперсия,Отрицательная полудисперсия,Максимальный ущерб,Рисковый капитал
0,STATE 01,3941779.0,1985.391511,3279568.0,638465.9,15845.0,4462.175
1,STATE 02,5450391.0,2334.607321,4584938.0,860595.1,23231.54,5837.7055
2,STATE 03,8952699.0,2992.106079,7839452.0,1087521.0,23344.38,7470.8455
3,STATE 04,7332263.0,2707.815109,6462816.0,858437.6,28593.49,6041.3425
4,STATE 06,5947683.0,2438.787106,4771203.0,1166917.0,19348.67,7273.656
5,STATE 07,16946450.0,4116.606786,15718860.0,1164593.0,60000.0,6414.968
6,STATE 10,5324949.0,2307.585095,4371115.0,934540.3,21404.96,6000.625
7,STATE 11,2141788.0,1463.484925,1243637.0,660175.1,4635.0,3941.144
8,STATE 12,7211720.0,2685.464616,5561995.0,1620528.0,16161.53,8471.525
9,STATE 13,9847573.0,3138.08426,8670503.0,1129726.0,33137.5,6744.788


#### Исходя из представленных данных, можно сделать некоторые выводы:

1. Штат 07 имеет наибольшую дисперсию и стандартное отклонение (СКО), что может указывать на более значительные различия в уровне ущерба.
2. Положительная полудисперсия также выше у штата 07, что указывает на более высокие потери в данной категории ущерба.
3. Максимальный ущерб также превышает другие штаты в штате 07.
4. Рисковый капитал в штате 12 также является одним из высоких, что означает больший показатель уровня риска.

### Значит:

##### 1. Штаты с наибольшим риском: 
Наиболее рисковыми штатами можно считать 12 и 07, где штат 07 в большинстве случаев выступает в роли лидера по мерам риска.

##### 2. Предпочтение в использовании меры риска: 
Отдать предпочтение можно рисковому капиталу из-за его универсальности и простоты применения. Однако, следует отметить, что дисперсия и стандартное отклонение (СКО) не всегда являются надежными мерами риска, а полудисперсии могут давать различные оценки.

##### 3. Максимальное значение риска:
Оценка риска на основе максимальных значений имеет право на существование, однако она может быть не слишком объективной и подвержена влиянию выбросов.

##### 4. 95%-ная квантиль (VaR): 
Квантиль, основанная на 95% уровне, более устойчива к выбросам и обладает гибкой политикой оценки риска.

Таким образом, для более точной и надежной оценки риска рекомендуется использовать несколько мер, включая рисковый капитал и квантиль, чтобы учесть различные аспекты и сделать более обоснованный вывод о степени риска для каждого штата.