In [1]:
# импортирую библиотеки
import pandas as pd
from tqdm import tqdm

In [2]:
# загружаю ГБД ФЛ в датафрейм
df = pd.read_csv('data/inter/gbd_fl.csv', index_col=0, parse_dates=['birth_date', 'death_date'])
df

Unnamed: 0_level_0,birth_date,sex,nationality,citizenship,death_date,life_status,birth_country,birth_oblast,birth_rayon,birth_town,address_country,address_oblast,address_rayon,address_town,address_temp_country,address_temp_oblast,address_temp_rayon,address_temp_town,work_status,lifetime
iin,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
0,1937-07-17,2,3,1,2020-12-06,2,1,12,15,3,1,12,15,3,1,12,15,3,1,30458.0
1,1958-09-18,1,1,1,2002-02-18,2,1,5,9,1,1,5,9,1,1,5,9,1,1,15859.0
2,1955-01-20,1,1,1,2021-05-16,2,1,13,6,6,1,13,6,6,1,13,6,6,2,24223.0
3,2004-06-18,1,1,3,NaT,1,1,3,7,8,1,3,7,8,1,3,7,8,2,
4,1927-02-18,1,1,1,1992-02-14,2,3,6,13,2,3,6,13,2,3,6,13,2,2,23737.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
499995,1990-01-19,2,1,1,NaT,1,1,7,18,6,1,7,18,6,1,7,18,6,2,
499996,1921-06-22,1,2,3,1949-10-02,2,1,11,15,9,1,11,15,9,1,11,15,9,1,10329.0
499997,1960-10-28,1,1,1,2010-03-22,2,1,7,19,6,1,7,19,6,1,7,19,6,2,18042.0
499998,1966-10-18,1,2,1,NaT,1,1,3,3,0,1,3,3,0,1,3,3,0,1,


## Ожидаемая продолжительность жизни

Показатели таблицы смертности представляют систему упорядоченных по возрасту и взаимосвязанных между собой рядов чисел, организованных как описание процесса уменьшения с возрастом под действием смертности некоторого теоретического поколения с фиксированной начальной численностью. Таблицы смертности строятся для оценки показателя «Ожидаемая продолжительность жизни».

Различают полные и краткие таблицы смертности. В полных таблицах смертности возраст принимает все целые значения, шаг изменения возраста - 1 год от 0 до 100 лет. В кратких таблицах смертности возраст меняется с шагом 5, с выделением первых пяти лет жизни погодно: 0, 1, 2, 3, 4, 5-9, 10-14, ..., 80-84, 85 лет и старше или 0, 1-4, 5-9, 10-14, ..., 80-84, 85 лет и старше. 

В качестве исходных статистических данных для расчета таблиц смертности служат возрастные коэффициенты смертности, которые рассчитываются как отношение числа умерших в данном возрасте в течение календарного года к среднегодовой численности лиц данного возраста:

$$m_{x, n} = \frac{M_{x, n}}{P_{x, n}},$$

где:
- $m_{x, n}$ – коэффициент смертности в интервале возрастов $[x, x+n)$;
- $M_{x, n}$ – число умерших в интервале возрастов $[x, x+n)$;
- $P_{x, n}$ – средняя численность населения в интервале возрастов $[x, x+n)$.

Далее считаются вероятности смертей:

$$q_{x, n} = \frac{n \cdot m_{x, n}}{1 + (n - a_{x, n}) \cdot m_{x, n}},$$

где:
- $q_{x, n}$ – вероятность смерти в интервале возрастов $[x, x+n)$;
- $n$ – интервал возраста;
- $m_{x, n}$ – коэффициент смертности в интервале возрастов $[x, x+n)$;
- $a_{x, n}$ – среднее число человеко-лет, прожитых в интервале возрастов $[x, x+n)$.

Каждое $q_{x, n}$ представляет собой вероятность того, что человек, достигший точного возраста $x$ лет, не доживет до возраста $x+n$ лет. На основе полученных вероятностей рассчитываются все остальные показатели таблицы смертности.  

In [3]:
def death_probability(df, x, n, year):
    """
    Входные данные:
        df: датафрейм с физлицами
        x: начало интервала возраста
        n: длина интервала возраста
        year: год для которого рассчитывается статистика
    Выходные данные:
        q: вероятность смерти в интервале возрастов [x; x+n)
        m: коэффициент смертности в интервале возрастов [x; x+n)
    """
    
    def population_by_age(month, day):
        """
        Входные данные:
            month, day: месяц и день
        Выходные данные:
            H: число людей возраст которых был в интервале [x, x+n)
            в момент времени year-month-day
        """
        H = df[(df.birth_date <= pd.Timestamp(year - x, month, day)) &
               (df.birth_date >  pd.Timestamp(year - x - n, month, day)) &
              ((df.death_date >  pd.Timestamp(year, month, day)) | 
               (df.life_status == 1))].shape[0]
        return H

    # средняя численность населения в интервале возрастов [x; x+n)
    P = (population_by_age(1, 1) + \
         population_by_age(12, 31)) / 2
    
    if P == 0: return 1, 1
    
    # люди умершие в год year
    df_died = df[df.death_date.dt.year == year]
    
    # люди умершие в интервале [x; x+n) в год year
    df_died_int = df_died[
        ((df_died.lifetime >= int(x * 365.25))) &
        ((df_died.lifetime < int((x + n) * 365.25)))
    ]
    
    # число умерших в интервале [x; x+n) в год year
    M = df_died_int.shape[0]
    if M == 0: return 0, 1
    
    # коэффициент смертности в интервале возрастов [x; x+n)
    m = M / P
    
    # среднее число человеко-лет, прожитых в интервале возрастов [x; x+n)
    a = df_died_int.lifetime.mean() / 365.25 - x
    
    # вероятность смерти в интервале возрастов [x; x+n)
    q = (n * m) / (1 + (n - a) * m)
    
    return q, m

Посчитаем число доживших и умерших в наших интервалах возрастов. Первоначальной численностью поколения (корень таблицы) $l_0$ принимается за $100, 000$.

$$l_{x + n} = l_x \cdot (1 - q_{x, n})= l_x - d_{x, n},$$

$$d_{x, n} = l_x - l_{x+n} = l_x \cdot q_{x, n},$$

$$L_{x, n} = \frac{d_{x, n}}{m_{x, n}},$$

где:
- $l_x$ – число доживших до точного возраста $x$ из начальной численности когорты;
- $q_{x, n}$ – вероятность смерти в интервале возрастов $[x; x+n)$;
- $d_{x, n}$ – число умерших в интервале возрастов $[x; x+n)$;
- $L_{x, n}$ – число живущих в интервале возрастов от $[x; x+n)$.

Далее считаем число человеко-лет жизни:

$$T_{x, n} = \sum_{x=0}^{\mathrm{end\ of\ table}} L_{x, n},$$
где:
- $T_x$ – число человеко-лет жизни в возрастах $x$ лет и старше.

Ожидаемая продолжительность жизни, достигших возраста $х$ лет представляет число лет, которое предстоит прожить достигшим данного возраста при сохранении в каждом следующем возрасте современного уровня смертности.

$$e_x^0 = \frac{T_x}{l_x},$$
где:
- $e_x^0$ – ожидаемая продолжительность жизни, достигших возраста $х$ лет.

Ожидаемая продолжительность жизни при рождении ($e_0^0$) представляет число лет, которое в среднем предстоит прожить одному человеку из поколения родившихся при условии, что на протяжении всей жизни этого поколения уровень смертности в каждом возрасте останется таким, как в год для которых вычислен показатель.

In [4]:
def life_table(df, year, short=True):
    """
    Входные данные:
        df: датафрейм с людьми
        year: год для счета таблицы смертности
        short: выдать краткую или длинную таблицу
    Выходные данные:
        df_table: датафрейм с таблицей смертности
    """
    table = {
        'int':  [], 'm':    [],
        'q':    [], 'l':    [int(1e5)],
        'd':    [], 'L':    [],
        'T':    [], 'e':    [],
    }
    
    def helper(table, start_age, max_age, n):
        for x in range(start_age, max_age, n):
            q, m = death_probability(df, x, n, year)
            if 0 < x < 100:
                interval = f'{x}-{x + n}' if n > 1 else f'{x}'
            else:
                interval = '<1' if x == 0 else '100+'
            table['int'].append(interval)
            table['m'].append(m)
            table['q'].append(q)
            table['l'].append(int(table['l'][-1] * (1 - q)))
            table['d'].append(table['l'][-2] - table['l'][-1])
            table['L'].append(int(table['d'][-1] / m))
        return table
    
    if short:
        table = helper(table, 0, 5, 1)
        table = helper(table, 5, 100, 5)
    else:
        table = helper(table, 0, 100, 1)
    table = helper(table, 100, 200, 100)
    
    table['l'].pop(-1)
    
    table['T'] = [sum(table['L'])]
    for l in table['L']:
        table['T'].append(table['T'][-1] - l)
    table['T'].pop(-1)
    
    table['e'] = [T / max(l, 1) for T, l in zip(table['T'], table['l'])]
    
    df_table = pd.DataFrame.from_dict(table) \
                 .set_index('int')
    
    return df_table

life_table(df, 2010)

Unnamed: 0_level_0,m,q,l,d,L,T,e
int,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
<1,0.040519,0.039546,100000,3955,97608,5657832,56.57832
1,0.014774,0.014651,96045,1408,95305,5560224,57.891863
2,0.003022,0.003019,94637,286,94635,5464919,57.746114
3,0.003688,0.003682,94351,348,94359,5370284,56.918146
4,0.005457,0.005445,94003,512,93829,5275925,56.12507
5-10,0.003418,0.016948,93491,1585,463715,5182096,55.428822
10-15,0.004057,0.020101,91906,1848,455490,4718381,51.339205
15-20,0.004495,0.02225,90058,2004,445829,4262891,47.334951
20-25,0.004025,0.019924,88054,1755,436045,3817062,43.349104
25-30,0.005454,0.026911,86299,2323,425941,3381017,39.177939


In [5]:
def save_life_tables(df, start_year, end_year):
    years = range(start_year, end_year)
    writer_short = pd.ExcelWriter(
        f'results/life_tables/short.xlsx', engine='xlsxwriter'
    )
    writer_long = pd.ExcelWriter(
        f'results/life_tables/long.xlsx', engine='xlsxwriter'
    )
    for year in tqdm(years):
        # сохраняю краткую таблицу смертности в формате .xlsx
        life_table(df, year).to_excel(writer_short, sheet_name=f'{year}')
        # сохраняю длинную таблицу смертности в формате .xlsx
        life_table(df, year, short=False).to_excel(writer_long, sheet_name=f'{year}')
    writer_short.save(); writer_long.save()

In [6]:
save_life_tables(df, 1950, 2021)

100%|██████████| 71/71 [06:05<00:00,  5.15s/it]
