In [1]:
import pandas as pd # pandas
import numpy as np # numpy
import matplotlib.pyplot as plt  # matplotlib
import seaborn as sns  # seaborn

In [None]:
df = pd.read_csv("../data_updated_clustered_kmeans.csv")
df['cluster'].value_counts()

In [15]:
features_encoded = ['Faixa-Etária Nova Sinistro', 'Doença relacionada', 'Tipo de Serviço', 'Sexo Sinistro', 'Descricao Servico Sinistro', 'Valor Pago Sinistro']
df_cluster1 = df[df['cluster'] == 1]

### Features do Modelo

#### Valor Pago Sinistro

&emsp;Para avaliar o valor pago por sinistro, foram utilizadas estatísticas descritivas a fim de identificar dados relevantes para a análise.

In [None]:
df_cluster1["Valor Pago Sinistro"].describe()

In [None]:
sns.boxplot(x=df_cluster1['Valor Pago Sinistro'])
plt.show()

&emsp;A análise descritiva dos valores pagos por sinistro revela uma distribuição assimétrica, com a maioria dos sinistros concentrando-se em valores baixos. A mediana de R$ 31,58 indica que metade dos sinistros pagam até esse valor, enquanto a média mais elevada, de R$ 104,24, sugere que alguns sinistros de alto valor estão puxando essa média para cima. O desvio padrão de R$ 697,09 reflete a grande variação nos pagamentos, com o valor máximo atingindo R$ 68.000. Esses dados mostram que, embora a maioria dos sinistros tenha valores reduzidos, existe uma parcela significativa de sinistros com pagamentos muito elevados, o que contribui para a alta variabilidade.

#### Faixa-Etária

In [None]:
df_cluster1["Faixa-Etária Nova Sinistro"].value_counts()

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(30, 7))
ax[0].hist(df_cluster1[features_encoded[0]], bins=50, width=0.4)
ax[0].set_title('Faixa Etária - Cluster 5')
ax[0].set_ylim(0, 8000)
ax[1].hist(df[features_encoded[0]], bins=50, width=0.4)
ax[1].set_title('Faixa Etária - Geral')
ax[1].set_ylim(0, 20000)

for axis in ax:
    for tick in axis.get_xticklabels():
        tick.set_rotation(45)  # Rotaciona os rótulos em 45 graus
        tick.set_ha('right')    # Alinha os rótulos à direita


plt.show()

&emsp;A distribuição de sinistros no cluster revela uma concentração maior nas faixas "0 a 18 anos" (5.978 sinistros) e "59 anos ou mais" (3.978 sinistros), indicando que esse grupo inclui muitos indivíduos jovens e idosos, que demandam mais cuidados médicos. As faixas intermediárias (34 a 58 anos) também têm uma participação relevante, mas menor, enquanto os jovens adultos (19 a 33 anos) apresentam menos sinistros. Isso sugere que o cluster é dominado por extremos de idade, o que influencia os padrões de sinistros e pode direcionar estratégias de atenção para esses grupos.

#### Doença Relacionada

In [None]:
df_cluster1["Doença relacionada"].value_counts()

&emsp;A análise dos sinistros relacionados a doenças neste _cluster_ destaca a predominância de condições crônicas e de longo prazo, como Sífilis (436 casos), Transtorno do Espectro Autista (267 casos) e Glaucoma (258 casos). Também se observam ocorrências significativas de Alergias (160), Toxoplasmose (159) e Rubéola (134). Em contraste, doenças graves como Câncer (46 casos) e COVID-19 (13 casos) têm uma frequência menor, enquanto condições raras, como Asma e Artrite reumatoide, apresentam apenas 3 casos cada. Essa distribuição sugere que intervenções de saúde pública devem ser direcionadas para as condições mais comuns identificadas nesse grupo.

#### Sexo

In [None]:
df_cluster1["Sexo Sinistro"].value_counts()

&emsp;Com relação aos gêneros presentes no _cluster_ 1, a maioria é do gênero feminino, cerca de 18.060 ocorrências, representando cerca de 62% dos casos, embora a presença do gênero masculino também seja expressiva, com 10.641 casos que representam aproximadamente 38% dos acontecimentos. 

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(12, 6))

counts_cluster = df_cluster1['Sexo Sinistro'].value_counts()
counts_geral = df['Sexo Sinistro'].value_counts()

ax[0].bar(counts_cluster.index, counts_cluster.values, color=['pink', 'blue'])
ax[0].set_title('Cluster 3')
ax[0].set_ylabel('Número de Sinistros')
ax[0].set_ylim(0, counts_cluster.max() + 2000)  # Limite do eixo Y para melhor visualização

# Gráfico de barras empilhadas (opcional)
ax[1].bar(counts_geral.index, counts_geral.values, color=['pink', 'blue'])
ax[1].set_title('Geral')
ax[1].set_ylabel('Número de Sinistros')
ax[1].set_ylim(0, counts_geral.max() + 2000)  # Limite do eixo Y para melhor visualização

plt.tight_layout()
plt.show()


#### Tipo de serviço

In [None]:
df_cluster1["Tipo de Serviço"].value_counts()

&emsp;A análise dos tipos de serviço relacionados aos sinistros mostra uma clara predominância dos exames laboratoriais, com o **Exame Laboratorial Bioquímico** (9.203 ocorrências), seguido por **Exame Laboratorial** (5.997) e **Exame Laboratorial Hormonal** (3.555). Isso indica uma alta demanda por diagnósticos laboratoriais essenciais para o monitoramento da saúde. Os exames de imagem também são relevantes, totalizando 3.362 casos, e serviços terapêuticos como **Terapia** (3.477) e **Fisioterapia** (121) ressaltam a importância do tratamento e reabilitação. Em contrapartida, procedimentos cirúrgicos e exames menos comuns têm frequências baixas, o que sugere que a prioridade deve ser dada ao acesso a exames laboratoriais e terapias, fundamentais para a população atendida.

#### Descrição Serviço Sinistro

In [None]:
df_cluster1["Descricao Servico Sinistro"].value_counts()

&emsp;A análise dos serviços de sinistro em df_cluster1 mostra uma alta demanda por "SESSAO DE PSICOTERAPIA INDIVIDUAL POR PSICOLOGO" (2213 registros) e exames laboratoriais, como "TIREOESTIMULANTE, HORMONIO (TSH)" (1863 registros). Essa predominância indica uma preocupação com a saúde mental e condições metabólicas.

### Insights

#### Sífilis

In [None]:
df_dsts = df_cluster1[df_cluster1["Doença relacionada"] == "Sífilis"]
pd.crosstab(index=df_dsts['Faixa-Etária Nova Sinistro'], columns='count')

In [None]:
counts = df_dsts['Faixa-Etária Nova Sinistro'].value_counts()

base_color = '#000c38'

colors = [plt.cm.Greens(1.0 - (i*0.7)/len(counts)) for i in range(len(counts))] 

bars = counts.plot(kind='bar', color=colors, width=0.7)

plt.yticks(color="#001707")
plt.xticks(rotation=45, color="#001707")

plt.grid(True, axis='y', alpha=0.4, color="gray")

plt.title('Incidência de sinistros envolvendo sífilis', fontsize=12, color='#001707', pad=10)

plt.xlabel('Faixa-etária', fontsize=10, color="#001707")  
plt.ylabel('Frequência', fontsize=10, color="#001707")

plt.show()

&emsp;A distribuição dos sinistros relacionados à sífilis revela que a maior incidência ocorre entre adultos jovens e de meia-idade, especialmente na faixa de 34 a 38 anos (107 registros). As faixas de 29 a 33 anos (61 registros) e 39 a 43 anos (58 registros) também apresentam números significativos, enquanto as faixas mais jovens (0 a 18 anos) e mais velhas (54 anos ou mais) têm menor incidência.

#### Exame laboratorial bioquímico

In [None]:
df_exame_bioquimico = df_cluster1[df_cluster1['Tipo de Serviço'] == 'Exame Laboratorial Bioquímico']
pd.crosstab(index=df_exame_bioquimico['Elegibilidade Sinistro'], columns='count')

In [77]:
df_exame_bioquimico = df_exame_bioquimico.query("`Elegibilidade Sinistro` != 'DEPENDENTE'")
df_exame_bioquimico = df_exame_bioquimico.query("`Elegibilidade Sinistro` != 'AGREGADO'")

&emsp;A análise da elegibilidade dos sinistros revela que a maioria dos registros está associada a dependentes, com 5.553 sinistros, seguida por titulares, com 3.643 registros. Apenas 7 sinistros foram registrados como pertencentes a agregados. Com o intuito de compreender a hipótese de que o número de exames laboratoriais bioquímicos tem relação com a posição ocupada pelos colaboradores da Unipar, os dados de dependentes e agregados foram excluidos.

In [None]:
pd.crosstab(index=df_exame_bioquimico['Descricao Servico Sinistro'], columns='count')

&emsp;Os exames de transaminase piruvica (aminotransferase de alanina) e transaminase oxalacética (aminotransferase aspártica) são os mais frequentes, com 632 e 622 registros, respectivamente. Outros exames comuns incluem ureia (711 registros) e triglicerídeos (577 registros). Em contraste, alguns exames, como vitamina B3 e vitamina B2, têm contagens muito baixas, indicando que são menos solicitados. Essa distribuição destaca a relevância dos exames de função hepática e metabolismo, sugerindo uma demanda maior por monitoramento desses parâmetros de saúde em comparação a vitaminas e minerais, que são menos frequentemente avaliados.

#### Psicoterapia

In [None]:
df_psicoterapia = df_cluster1[df_cluster1["Descricao Servico Sinistro"] == "SESSAO DE PSICOTERAPIA INDIVIDUAL POR PSICOLOGO"]
pd.crosstab(index=df_psicoterapia['Faixa-Etária Nova Sinistro'], columns='count')

In [None]:
counts = df_psicoterapia['Faixa-Etária Nova Sinistro'].value_counts()

base_color = '#000c38'

colors = [plt.cm.Greens(1.0 - (i*0.7)/len(counts)) for i in range(len(counts))] 

bars = counts.plot(kind='bar', color=colors, width=0.7)

plt.yticks(color="#001707")
plt.xticks(rotation=45, color="#001707")

plt.grid(True, axis='y', alpha=0.4, color="gray")

plt.title('Incidência de sinistros de psicoterapia', fontsize=12, color='#001707', pad=10)

plt.xlabel('Faixa-etária', fontsize=10, color="#001707")  
plt.ylabel('Frequência', fontsize=10, color="#001707")

plt.show()

&emsp;A análise dos sinistros relacionados a sessões de psicoterapia revela que a faixa etária mais afetada é a de 0 a 18 anos, com 507 registros, indicando uma significativa demanda por apoio psicológico entre os mais jovens. As faixas de 34 a 38 anos (412 registros) e 29 a 33 anos (271 registros) também apresentam um número considerável de sinistros, sugerindo que adultos jovens e de meia-idade estão igualmente buscando terapia. Em contraste, as faixas etárias mais velhas, como 54 a 58 anos (47 registros) e 59 anos ou mais (42 registros), mostram uma baixa frequência de sinistros. Essa distribuição sugere que a psicoterapia é mais buscada entre os jovens e adultos jovens, enquanto as pessoas mais velhas parecem ter uma procura menos frequente por esse tipo de atendimento.

## Conclusão

&emsp;A análise descritiva do cluster revela uma concentração de sinistros em faixas etárias extremas, com predominância de indivíduos jovens (0 a 18 anos) e idosos (59 anos ou mais), que demandam mais cuidados médicos. A maioria dos sinistros envolve valores baixos, refletidos pela mediana de R$ 31,58, enquanto poucos sinistros de valores elevados aumentam a média. Há uma prevalência de condições crônicas, como Sífilis, Transtorno do Espectro Autista e Glaucoma, com menor incidência de doenças graves como Câncer e COVID-19. Além disso, o cluster é majoritariamente feminino e a maior parte dos sinistros está relacionada a exames laboratoriais e serviços terapêuticos, sugerindo que o foco dos cuidados deve ser em diagnóstico e reabilitação.