In [1]:
import pandas as pd # pandas
import numpy as np # numpy
import matplotlib.pyplot as plt  # matplotlib
import seaborn as sns  # seaborn

In [None]:
df = pd.read_csv("../data_updated_clustered_kmeans.csv")
df['cluster'].value_counts()

In [3]:
features_encoded = ['Faixa-Etária Nova Sinistro', 'Doença relacionada', 'Tipo de Serviço', 'Sexo Sinistro', 'Descricao Servico Sinistro', 'Valor Pago Sinistro']
df_cluster3 = df[df['cluster'] == 3]

### Features do Modelo

#### Valor Pago Sinistro

&emsp;Para avaliar o valor pago por sinistro, foram utilizadas estatísticas descritivas a fim de identificar dados relevantes para a análise.

In [None]:
df_cluster3['Valor Pago Sinistro'].describe()

In [None]:
sns.boxplot(x=df_cluster3['Valor Pago Sinistro'])
plt.show()

&emsp;As estatísticas descritivas do valor pago por sinistros de saúde indicam uma distribuição assimétrica, com a maioria dos sinistros concentrada em valores baixos. A mediana de R$ 32,00 reflete melhor essa concentração, enquanto a média de R$ 68,04 é elevada pela presença de outliers, como o valor máximo de R$ 11.514,05. O desvio padrão alto (R$ 267,25) confirma a grande variabilidade nos valores pagos. Os quartis mostram que 75% dos sinistros têm custos até R$ 47,40, enquanto poucos casos excepcionalmente altos influenciam a dispersão dos dados.

#### Faixa Etária Sinistro

&emsp;A tabela apresenta a distribuição da variável "Faixa-Etária Nova Sinistro", que categoriza os sinistros em diferentes faixas etárias. Essa análise é fundamental para compreender quais grupos etários estão mais envolvidos em sinistros e pode ajudar na formulação de políticas de seguros e estratégias de prevenção.

In [None]:
pd.crosstab(index=df_cluster3['Faixa-Etária Nova Sinistro'], columns='count')

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(20, 7))
ax[0].hist(df_cluster3[features_encoded[0]], bins=25)
ax[0].set_title('Faixa Etária - Cluster 3')
ax[0].set_ylim(0, 2000)
ax[1].hist(df[features_encoded[0]], bins=25)
ax[1].set_title('Faixa Etária - Geral')
ax[1].set_ylim(0, 20000)

for axis in ax:
    for tick in axis.get_xticklabels():
        tick.set_rotation(45)  # Rotaciona os rótulos em 45 graus
        tick.set_ha('right')    # Alinha os rótulos à direita

plt.show()

&emsp;As faixas etárias "0 a 18 anos" e "34 a 38 anos" são as mais frequentes, cada uma com 1266 registros. Isso indica que esses grupos têm uma presença significativa entre os sinistros analisados. A faixa etária "59 anos ou mais" também apresenta um número considerável de sinistros, com 1181 registros, o que sugere que os idosos estão frequentemente envolvidos em sinistros. Em contraste, as faixas etárias "24 a 28 anos" e "19 a 23 anos" apresentam as menores frequências, com 320 e 433 registros, respectivamente. Isso pode indicar uma menor incidência de sinistros entre esses jovens adultos.

#### Sexo

&emsp;A tabela apresenta a distribuição do sexo dos sinistros, dividindo os registros entre homens (M) e mulheres (F). Essa análise é importante para entender como as características de gênero podem influenciar a ocorrência de sinistros e pode informar decisões estratégicas em áreas como seguros e saúde pública.

In [None]:
pd.crosstab(index=df_cluster3['Sexo Sinistro'], columns='count')

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(20, 7))
ax[0].hist(df_cluster3[features_encoded[3]], bins=25)
ax[0].set_title('Sexo Sinistro - Cluster 5')
ax[0].set_ylim(0, 10000)
ax[1].hist(df[features_encoded[3]], bins=25)
ax[1].set_title('Sexo Sinistro - Geral')
ax[1].set_ylim(0, 100000)
plt.show()

&emsp;A variável "Sexo Sinistro" revela que 5282 sinistros são atribuídos a mulheres (F), enquanto 2899 são atribuídos a homens (M). Essa diferença é significativa, com o número de sinistros entre mulheres superando o de homens em cerca de 2383 registros. Para entender a proporção de cada grupo, podemos calcular a frequência relativa. As mulheres representam aproximadamente 64,6% do total de sinistros, enquanto os homens correspondem a cerca de 35,4%.

#### Doença Relacionada

In [None]:
df_cluster3["Doença relacionada"].value_counts()

&emsp;A análise dos dados de doenças relacionadas a sinistros de saúde revela uma concentração em poucas condições, com algumas doenças ocorrendo com muito mais frequência do que outras. As anemias são a principal causa, com 2045 registros, seguidas por diabetes mellitus (1527) e hepatite B (1260). Doenças hepáticas e doenças cardíacas também aparecem com relevância, mas com frequência significativamente menor (1002 e 366, respectivamente). 

#### Tipo de serviço

In [None]:
df_cluster3["Tipo de Serviço"].value_counts()

&emsp;A análise dos tipos de serviço relacionados a sinistros de saúde mostra uma predominância esmagadora de exames laboratoriais, que totalizam 7595 registros, representando a grande maioria dos casos. Os demais serviços aparecem em quantidades muito menores, com exames cardiológicos (367) e exames oftalmológicos (52) ocupando as próximas posições, ainda que distantes em frequência. Essa concentração em exames laboratoriais pode refletir a natureza preventiva ou diagnóstica dos atendimentos.

### Insights

#### Diabetes

&emsp;Em uma análise inicial, é fundamental compreender o perfil das pessoas que utilizam serviços relacionados a diabetes, que é a segunda doença relacionada mais presente nas ocorrências, incluindo fatores como faixa etária, principais serviços acessados e outros elementos relevantes. Essas informações são essenciais para extrair insights que ajudem a entender profundamente o grupo afetado pelo cluster.

In [None]:
df_diabetes = df_cluster3[df_cluster3["Doença relacionada"] == "Diabetes mellitus"]
pd.crosstab(index=df_diabetes['Descricao Servico Sinistro'], columns='count')

&emsp;Os sinistros de hemoglobina glicada mostram maior demanda pelo exame "HEMOGLOBINA GLICADA (FRACAO A1C)", com 834 registros, em comparação com 693 registros para "HEMOGLOBINA GLICADA (A1 TOTAL)", destacando a relevância do monitoramento glicêmico.

In [None]:
df_diabetes = df_cluster3[df_cluster3["Doença relacionada"] == "Diabetes mellitus"]
pd.crosstab(index=df_diabetes['Faixa-Etária Nova Sinistro'], columns='count')

In [None]:
counts = df_diabetes['Faixa-Etária Nova Sinistro'].value_counts()

base_color = '#000c38'

colors = [plt.cm.Greens(1.0 - (i*0.7)/len(counts)) for i in range(len(counts))] 

bars = counts.plot(kind='bar', color=colors, width=0.7)

plt.yticks(color="#001707")
plt.xticks(rotation=45, color="#001707")

plt.grid(True, axis='y', alpha=0.4, color="gray")

plt.title('Incidência de sinistros relacionados a diabetes', fontsize=12, color='#001707', pad=10)

plt.xlabel('Faixa-etária', fontsize=10, color="#001707")  
plt.ylabel('Frequência', fontsize=10, color="#001707")

plt.show()

&emsp;A análise dos sinistros relacionados a diabetes mostra maior incidência entre idosos ("59 anos ou mais", com 326 casos) e crianças/adolescentes ("0 a 18 anos", com 204 casos). As faixas intermediárias, como "34 a 38 anos" e "39 a 43 anos", também têm números expressivos, enquanto jovens adultos ("19 a 28 anos") apresentam as menores frequências. Esses dados indicam que o diabetes afeta principalmente idosos e jovens, com impacto relevante em algumas faixas de meia-idade.

In [None]:
sns.boxplot(x=df_diabetes['Valor Pago Sinistro'])
plt.show()

In [None]:
df_diabetes["Valor Pago Sinistro"].describe()

&emsp;A análise dos sinistros por diabetes mostra uma média de R$ 32,19 pagos por sinistro, com valores variando de R$ 3,42 a R$ 98,70. A mediana é de R$ 35,92, e a maioria dos sinistros está concentrada entre R$ 16,71 e R$ 42,14, indicando uma distribuição de valores baixos a moderados, sem grandes outliers.

#### Exames cardiológicos

&emsp;Na segunda etapa de análise, é importante avaliar o perfil das pessoas que realizam exames cardiológicos, uma vez que esta é a segundo tipo de serviço mais recorrente nas ocorrências.

In [None]:
df_cardio = df_cluster3[df_cluster3["Tipo de Serviço"] == "Exame cardiológico"]
pd.crosstab(index=df_cardio['Descricao Servico Sinistro'], columns='count')

&emsp;A análise dos sinistros relacionados a ecodopplercardiogramas revela que o "ECODOPPLERCARDIOGRAMA TRANSTORACICO" é o mais solicitado, com 362 registros, enquanto o "ECODOPPLERCARDIOGRAMA COM ESTRESSE FARMACOLOGICO" teve apenas 4 registros e o "EST ELETROFIS CARDIACO C/" apresentou 1 registro.

In [None]:
pd.crosstab(index=df_cardio['Faixa-Etária Nova Sinistro'], columns='count')

In [None]:
counts = df_cardio['Faixa-Etária Nova Sinistro'].value_counts()

base_color = '#000c38'

colors = [plt.cm.Greens(1.0 - (i*0.7)/len(counts)) for i in range(len(counts))] 

bars = counts.plot(kind='bar', color=colors, width=0.7)

plt.yticks(color="#001707")
plt.xticks(rotation=45, color="#001707")

plt.grid(True, axis='y', alpha=0.4, color="gray")

plt.title('Incidência de sinistros envolvendo exames cardiológicos', fontsize=12, color='#001707', pad=10)

plt.xlabel('Faixa-etária', fontsize=10, color="#001707")  
plt.ylabel('Frequência', fontsize=10, color="#001707")

plt.show()

&emsp;A análise dos sinistros para exames cardiológicos mostra maior incidência entre idosos ("59 anos ou mais", com 78 registros) e jovens ("0 a 18 anos", com 53 registros). As faixas de meia-idade também têm uma participação relevante, enquanto os adultos jovens ("19 a 28 anos") apresentam as menores frequências. Isso indica que exames cardiológicos são mais comuns nos extremos etários e em grupos intermediários.

In [None]:
sns.boxplot(x=df_cardio['Valor Pago Sinistro'])
plt.show()

In [None]:
df_cardio["Valor Pago Sinistro"].describe()

&emsp;Os sinistros de exames cardiológicos têm uma média de R$ 303,26, com valores variando de R$ 29,93 a R$ 1.360,00. A maioria dos sinistros está concentrada entre R$ 266,99 e R$ 287,52, com pouca variação significativa, como indicado pelo desvio padrão de R$ 110,27.

## Conclusão

&emsp;A partir das análises realizadas, conclui-se que os sinistros de saúde apresentam uma forte concentração de valores baixos, com poucos casos extremos elevando a média. A maior parte dos sinistros é registrada em faixas etárias jovens e idosas, destacando grupos populacionais com maior necessidade de atendimento. Além disso, as mulheres representam uma proporção maior dos sinistros, com aproximadamente 64,6% do total. As principais causas de sinistro são doenças como anemias e diabetes, enquanto exames laboratoriais dominam os tipos de serviço solicitados, sugerindo uma alta demanda por diagnósticos preventivos e controle de condições crônicas.