In [1]:
#load ipython-sql
%load_ext sql

<h3>Criação de conexão com o Banco de dados</h3>

In [2]:
from sqlalchemy import create_engine

%sql postgresql://postgres:1234@localhost:5432/playground
engine = create_engine('postgresql://postgres:1234@localhost:5432/playground')


<h3> Query para análise de contratos </h3>
Retorna todos os contratos por beneficiário, mês e ano. Query está sendo utilizada no Power BI

In [None]:
%%sql

with benefs as (
	select *,
CASE
			when idade >= 18 and idade < 29 then '18-28'
			when idade >= 29 and idade < 40 then '29-39'
			when idade >= 40 and idade < 51 then '40-50'
			when idade >= 51 and idade < 62 then '51-61'
			when idade >= 61 and idade < 72 then '61-71'
			else '72+'
		END as faixa_etaria
        from beneficiario
)
select b.id_beneficiario, 
	b.faixa_etaria, 
	b.genero,
	p.nome, 
	c.date_created as criacao_contrato, 
	c.valor as valor_contrato,
	p.cobertura, 
	p.tipo_acomodacao,
	date_part('month', c.date_created) as month,
	date_part('year', c.date_created) as year
from Contratos c
	inner join benefs b on b.id_beneficiario = c.id_cliente
	left JOIN Planos p on c.id_plano = p.id_plano

<h3>Query para análise de média móvel dos sinistros e da sinistralidade</h3>
Utilizada no Power BI

In [None]:
%%sql

SELECT sub2.mes, 
sub2.ano, 
concat(sub2.mes, '/', sub2.ano) as mes_ano,
round(sum(sub2.sinistralidade_total)::numeric,2) as total,
round(avg(sum(sub2.sinistralidade_total)::numeric) over (order by sub2.mes 
	rows between 2 preceding and current row)::NUMERIC,2) as media_movel_sinistralidade,
total_sinistro_por_mes.total_sinistro, 
total_sinistro_por_mes.media_movel_valor_sinistro_3meses
from
    (select *, 
        round((total_sinistro / total_contratos)::numeric, 2) as sinistralidade_total
        from(
            select 
            date_part('month', e.data_evento) as mes,
            date_part('year', e.data_evento) as ano,
            e.id_beneficiario,
            sum(e.valor_sinistro) as total_sinistro,
            c.total_contratos
            from Eventos e
            inner join (
                select id_cliente, sum(valor) as total_contratos from contratos
                group by id_cliente
            ) c on c.id_cliente = e.id_beneficiario 
            group by e.id_beneficiario, ano, mes, c.total_contratos
    )sub) sub2
inner join (
	select *,
	round(avg(total_sinistro) over (order by mes 
	rows between 2 preceding and current row)::NUMERIC,2) as media_movel_valor_sinistro_3meses 
	from(
        select date_part('month', data_evento) as mes, sum(valor_sinistro) as total_sinistro 
        from Eventos 
        group by mes
    ) sub
) total_sinistro_por_mes on total_sinistro_por_mes.mes = sub2.mes
group by sub2.mes, sub2.ano, mes_ano, total_sinistro_por_mes.total_sinistro, total_sinistro_por_mes.media_movel_valor_sinistro_3meses
order by sub2.mes

<h4>Query para análise de sinistralidade por beneficiário </h4>
Utilizada no Power BI

In [None]:
%%sql
with benefs as (
	select *,
CASE
			when idade >= 18 and idade < 29 then '18-28'
			when idade >= 29 and idade < 40 then '29-39'
			when idade >= 40 and idade < 51 then '40-50'
			when idade >= 51 and idade < 62 then '51-61'
			when idade >= 61 and idade < 72 then '61-71'
			else '72+'
		END as faixa_etaria
        from beneficiario
)
select *, 
round((total_sinistro / total_contratos)::numeric, 2) as sinistralidade_total
from(
	select 
    concat(date_part('month', e.data_evento), '/',date_part('year', e.data_evento)) as mes,
    e.id_beneficiario, b.faixa_etaria, 
    b.genero,
    s.tipo,
	sum(e.valor_sinistro) as total_sinistro,
	c.total_contratos
	from Eventos e
	inner join (
		select id_cliente, sum(valor) as total_contratos from contratos
		group by id_cliente
	) c on c.id_cliente = e.id_beneficiario 
    inner join Benefs b on e.id_beneficiario = b.id_beneficiario
    left join Servicos s on e.id_servico = s.id_servico
	group by e.id_beneficiario, b.faixa_etaria, mes, s.tipo, c.total_contratos, b.genero
    order by id_beneficiario
)sub

<h3> Query para análise de sinistros </h3>
A seguinte query retorna todos os sinistros, distribuídos por faixa etária, tipo do serviço,
especialidade e plano do beneficiário.

In [300]:
%%sql

with benefs as (
	select *,
CASE
			when idade >= 18 and idade < 29 then '18-28'
			when idade >= 29 and idade < 40 then '29-39'
			when idade >= 40 and idade < 51 then '40-50'
			when idade >= 51 and idade < 62 then '51-61'
			when idade >= 61 and idade < 72 then '61-71'
			else '72+'
		END as faixa_etaria
        from beneficiario
)
select e.id_evento, b.id_beneficiario, b.faixa_etaria, e.data_evento, e.valor_sinistro,
s.tipo, s.especialidade as especialidade_servico,
planos_cliente.nome as plano
from eventos e
left join servicos s on s.id_servico = e.id_servico
inner join Benefs b on b.id_beneficiario = e.id_beneficiario
inner join (
		select c.id_cliente, p.* 
		from contratos c 
		inner join (
			select id_plano, nome, 
		CASE
			when nome like 'Odonto%' then 'Odonto'
			else 'Geral'
		END as categoria
		from planos
		) p on p.id_plano = c.id_plano
) planos_cliente on planos_cliente.id_cliente = e.id_beneficiario and 
planos_cliente.categoria = case
	when s.especialidade like 'Odonto%' then 'Odonto'
    else 'Geral'
end
order by id_beneficiario
limit 20

 * postgresql://postgres:***@localhost:5432/playground
20 rows affected.


id_evento,id_beneficiario,faixa_etaria,data_evento,valor_sinistro,tipo,especialidade_servico,plano
34,1,18-28,2023-08-05,913.0,Internações,Geral,Classico
70,1,18-28,2023-08-27,110.0,Consulta,Dermatologia,Classico
173,1,18-28,2023-10-14,110.0,Consulta,Dermatologia,Classico
89,1,18-28,2023-12-07,120.0,Consulta,Odontologia,Odonto 1
101,2,18-28,2023-10-06,110.0,Consulta,Oftalmologia,Executivo
99,2,18-28,2023-08-05,308.0,Pronto Socorro,Geral,Executivo
140,2,18-28,2023-08-08,371.0,Pronto Socorro,Geral,Executivo
198,2,18-28,2023-10-30,120.0,Consulta,Odontologia,Odonto 2
22,3,18-28,2023-11-14,120.0,Consulta,Odontologia,Odonto 2
13,3,18-28,2023-11-26,110.0,Consulta,Dermatologia,Premium


In [3]:
import pandas as pd
import psycopg2

host = 'localhost'
port = '5432'
database = 'playground'
user = 'postgres'
password = '1234'

conn = psycopg2.connect(host=host, port=port, database=database, user=user, password=password)

query = '''
    with benefs as (
	select *,
CASE
			when idade >= 18 and idade < 29 then '18-28'
			when idade >= 29 and idade < 40 then '29-39'
			when idade >= 40 and idade < 51 then '40-50'
			when idade >= 51 and idade < 62 then '51-61'
			when idade >= 61 and idade < 72 then '61-71'
			else '72+'
		END as faixa_etaria
        from beneficiario
)
select e.id_evento, 
b.id_beneficiario, 
b.faixa_etaria, 
e.data_evento, 
e.valor_sinistro,
s.tipo, 
s.especialidade as especialidade_servico,
planos_cliente.nome as plano
from eventos e
left join servicos s on s.id_servico = e.id_servico
inner join Benefs b on b.id_beneficiario = e.id_beneficiario
inner join (
		select c.id_cliente, p.* 
		from contratos c 
		inner join (
			select id_plano, nome, 
		CASE
			when nome like 'Odonto%' then 'Odonto'
			else 'Geral'
		END as categoria
		from planos
		) p on p.id_plano = c.id_plano
) planos_cliente on planos_cliente.id_cliente = e.id_beneficiario 
and planos_cliente.categoria = case
	when s.especialidade like 'Odonto%' then 'Odonto'
    else 'Geral'
end
order by id_beneficiario;
'''


sinistros = pd.read_sql(query, conn)


conn.close()


sinistros.head()

  sinistros = pd.read_sql(query, conn)


Unnamed: 0,id_evento,id_beneficiario,faixa_etaria,data_evento,valor_sinistro,tipo,especialidade_servico,plano
0,34,1,18-28,2023-08-05,913.0,Internações,Geral,Classico
1,173,1,18-28,2023-10-14,110.0,Consulta,Dermatologia,Classico
2,70,1,18-28,2023-08-27,110.0,Consulta,Dermatologia,Classico
3,89,1,18-28,2023-12-07,120.0,Consulta,Odontologia,Odonto 1
4,140,2,18-28,2023-08-08,371.0,Pronto Socorro,Geral,Executivo


<h4>Visualização do dataframe como tabela dinâmica.</h4>
<p>Valores: Valor do sinistro<br>
Colunas: Planos<br>
Indexes (linhas): Faixa etária e tipo do serviço</p>

In [4]:
import numpy as np

sinistros_pivot = sinistros.pivot_table(values='valor_sinistro', columns='plano', 
                                        index=['faixa_etaria', 'tipo'], fill_value=0,
                                        aggfunc=np.sum, margins=True)


print(sinistros_pivot.sum(axis='columns').to_frame())
print(sinistros_pivot.sum(axis='index').to_frame())

sinistros_pivot

                                   0
faixa_etaria tipo                   
18-28        Consulta         3180.0
             Exame            6560.0
             Internações      2520.0
             Procedimento     1100.0
             Pronto Socorro   2706.0
29-39        Consulta         3580.0
             Exame            8120.0
             Internações      6190.0
             Procedimento     1320.0
             Pronto Socorro   3192.0
40-50        Consulta         3860.0
             Exame            5440.0
             Internações      4216.0
             Procedimento     3300.0
             Pronto Socorro   6608.0
51-61        Consulta         1820.0
             Exame            3800.0
             Internações      7266.0
             Procedimento     3080.0
             Pronto Socorro    690.0
61-71        Consulta         1560.0
             Exame            3380.0
             Internações       708.0
             Procedimento      880.0
             Pronto Socorro    276.0
7

Unnamed: 0_level_0,plano,Classico,Executivo,Odonto 1,Odonto 2,Odonto 3,Premium,All
faixa_etaria,tipo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
18-28,Consulta,220,550,240,360,0,220,1590.0
18-28,Exame,0,1490,0,0,0,1790,3280.0
18-28,Internações,913,0,0,0,0,347,1260.0
18-28,Procedimento,0,0,330,220,0,0,550.0
18-28,Pronto Socorro,0,899,0,0,0,454,1353.0
29-39,Consulta,880,220,0,360,0,330,1790.0
29-39,Exame,2770,500,0,0,0,790,4060.0
29-39,Internações,3095,0,0,0,0,0,3095.0
29-39,Procedimento,0,0,0,660,0,0,660.0
29-39,Pronto Socorro,1016,261,0,0,0,319,1596.0


<h5>Segunda versão da tabela dinâmica. Nessa, os valores representados são as frequências dos eventos</h5>

In [5]:
def count_percentage(x):
    return str(round((x.count() / sinistros['id_evento'].count())*100,2))+"%"

sinistros_pivot_freq = sinistros.pivot_table(values='id_evento', columns='plano', 
                                        index=['faixa_etaria', 'tipo'], fill_value=0,
                                        aggfunc=count_percentage, margins=True)

sinistros_pivot_freq


Unnamed: 0_level_0,plano,Classico,Executivo,Odonto 1,Odonto 2,Odonto 3,Premium,All
faixa_etaria,tipo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
18-28,Consulta,1.0%,2.5%,1.0%,1.5%,0,1.0%,7.0%
18-28,Exame,0,4.0%,0,0,0,4.0%,8.0%
18-28,Internações,0.5%,0,0,0,0,0.5%,1.0%
18-28,Procedimento,0,0,1.0%,0.5%,0,0,1.5%
18-28,Pronto Socorro,0,2.0%,0,0,0,1.0%,3.0%
29-39,Consulta,4.0%,1.0%,0,1.5%,0,1.5%,8.0%
29-39,Exame,6.5%,1.0%,0,0,0,2.0%,9.5%
29-39,Internações,2.0%,0,0,0,0,0,2.0%
29-39,Procedimento,0,0,0,2.0%,0,0,2.0%
29-39,Pronto Socorro,1.5%,0.5%,0,0,0,0.5%,2.5%


<h4>Simulação do valor total de sinistro anual por plano e faixa etária</h4>

In [6]:
import random
import warnings


warnings.filterwarnings('ignore')


def get_EV(faixa_etaria: str, plano: str, qtd_simulacoes_anos: int, freq_anual_consultas: int):
    try:
        sinistros_sub = sinistros.set_index(['faixa_etaria','plano'])
        total_sinistros = sinistros_sub.loc[(faixa_etaria,plano)]
        list_size = len(total_sinistros)
        probs = [1/list_size] * list_size
        valores_sinistro = np.array(total_sinistros.loc[:, 'valor_sinistro'])
        eventos = []
        soma_eventos_anuais = []
        for x in range(qtd_simulacoes_anos):
            eventos = []
            for x in range(freq_anual_consultas): #suposição de 4 consultas por ano
                eventos.extend(random.choices(valores_sinistro, weights=probs, k=1))
            soma_eventos_anuais.append(sum(eventos))

        np_simulacoes = np.array(soma_eventos_anuais)
        return {
            "Faixa Etária": faixa_etaria,
            "Plano": plano,
            "Valor Mínimo": round(np_simulacoes.min(),2),
            "Valor Máximo": round(np_simulacoes.max(),2),
            "Média": round(np_simulacoes.mean(),2),
            "Desvio Padrão": round(np_simulacoes.std(),2)
        }
    except:
        return 0
    

pivot_table_aux = sinistros.pivot_table(values='valor_sinistro', columns='plano', 
                                        index='faixa_etaria', fill_value=0,
                                        aggfunc=np.sum)

planos = pivot_table_aux.columns.to_list()

lista_valores = []

for lab, row in pivot_table_aux.iterrows():
    for plano in planos:
        result = get_EV(faixa_etaria=lab, plano=plano, freq_anual_consultas = 4, qtd_simulacoes_anos=10000)
        if (result != 0):
            lista_valores.append(result)

lista_valores = pd.DataFrame(lista_valores)
lista_valores = lista_valores.set_index(['Faixa Etária', "Plano"])
lista_valores


Unnamed: 0_level_0,Unnamed: 1_level_0,Valor Mínimo,Valor Máximo,Média,Desvio Padrão
Faixa Etária,Plano,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
18-28,Classico,440.0,3652.0,1513.85,758.28
18-28,Executivo,357.0,1421.0,691.79,170.93
18-28,Odonto 1,440.0,880.0,568.51,90.26
18-28,Odonto 2,480.0,880.0,580.31,86.65
18-28,Premium,380.0,1341.0,865.0,168.2
29-39,Classico,360.0,4120.0,1111.28,510.7
29-39,Executivo,440.0,1044.0,784.1,141.95
29-39,Odonto 2,440.0,880.0,583.15,94.04
29-39,Premium,360.0,1276.0,717.79,176.45
40-50,Classico,360.0,4036.0,944.04,538.93
