In [25]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [26]:
df = pd.read_csv('../data_updated_clustered_kmeans.csv')

In [None]:
df['cluster'].value_counts()

### Análise: Features do Modelo

In [28]:
features_encoded = ['faixa-etaria_encoded', 'doenca_relacionadas_encoded', 'tipo_servico_encoded', 'sexo_encoded', 'descricao_servico_sinistro_encoded', 'Valor Pago Sinistro']
df_cluster0 = df[df['cluster'] == 0]

Para entender como a divisão do _cluster 0_ foi feita, será feita uma relação gráfica entre cada _feature_ dele e comparada com a disposição dos dados gerais dessa mesma _feature_.

#### Faixa-Etária

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(20, 7))
ax[0].hist(df_cluster0[features_encoded[0]], bins=50)
ax[0].set_title('Faixa Etária - Cluster 0')
ax[0].set_ylim(0, 20000)
ax[1].hist(df[features_encoded[0]], bins=50)
ax[1].set_title('Faixa Etária - Geral')
ax[1].set_ylim(0, 20000)
plt.show()

Visualizando os padrões dos dados e comparando os dados gerais, sem dividir os dados, podemos inferir que para o _cluster 0_ a faixa-etária não foi um fator deisivo de divisão, uma vez que teve proporções semelhantes aos dados gerais, e apresentou valores bem distribuídos de faixas-etárias. 

#### Doenças Relacionadas

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(20, 7))
ax[0].hist(df_cluster0[features_encoded[1]], bins=50)
ax[0].set_title('Doenças Relacionadas - Cluster 0')
ax[0].set_ylim(0, 90000)
ax[1].hist(df[features_encoded[1]], bins=50)
ax[1].set_title('Doenças Relacionadas - Geral')
ax[1].set_ylim(0, 90000)
plt.show()

In [None]:
df_cluster0[features_encoded[1]].value_counts().head(6)

O valor de 220, na coluna 'doenca_relacionada_encoded', que possui 21724 linhas no DataFrame é referente a valores não existentes na coluna 'Doença relacionada', isso acontece pois como essa é uma coluna criada por uma IA generativa com uma taxa de criatividade baixíssima e altamente analítica, logo, caso ela não tenha certeza sobre a relação da descrição do serviço com alguma doença específica a coluna 'Doença relacionada' ficaria em branco. Por fim, pode-se afirmar que o _cluster 0_ agrupou 21 mil linhas que possuiam essa coluna em branco, algo esperado, pois na base de dados principal, os valores inexistentes dessa coluna são de mais de 80 mil.

In [None]:
df_cluster0['Doença relacionada'].value_counts().head(5)

Os valores de doenças relacionadas restantes estão majoritariamente divididos entre Dislipidemia com 4000, Infecção Urinária com 400 e outras diversas outras doenças com valores menores.

In [None]:
tipo = df_cluster0[df_cluster0['Doença relacionada'] == 'Dislipidemia']['Tipo de Serviço'].value_counts()
desc = df_cluster0[df_cluster0['Doença relacionada'] == 'Dislipidemia']['Descricao Servico Sinistro'].value_counts()

print(tipo)
print(desc)

Pode-se confirmar que os valores associados a doença de Dislipidemia são os valores associados a testes de colesterol, presente nas colunas de descrição. Além disso, na coluna tipo, eles foram categorizados como exames laboratoriais.

#### Tipo de Serviço Sinistro

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(20, 7))
ax[0].hist(df_cluster0[features_encoded[2]], bins=50)
ax[0].set_title('Tipo de Serviço - Cluster 0')
ax[0].set_ylim(0, 35000)
ax[0].set_xlim(0, 160)
ax[1].hist(df[features_encoded[2]], bins=50)
ax[1].set_title('Tipo de Serviço - Todos os Clusters')
ax[1].set_ylim(0, 35000)
ax[1].set_xlim(0, 160)
plt.show()

In [None]:
df_cluster0[features_encoded[2]].value_counts().head(5)

- Correção de um erro de grammatical

In [None]:
df_cluster0['Tipo de Serviço'] = df_cluster0['Tipo de Serviço'].replace('Exame laboratorial', 'Exame Laboratorial')

In [None]:
df_cluster0['Tipo de Serviço'].value_counts().head(5)

Os principais valores de Tipos de serviço que estão no _cluster_ são principalmente de Consulta e Exame Laboratorial. Logo o _cluster 0_ dividiu principalmente, levando em consideração a coluna 'Tipo de Serviço', por tipos de serviço como Consultas genéricas e Exames Laboratoriais, totalizando, mais de dois terços dos dados do _cluster_. 

#### Sexo

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(20, 7))
ax[0].hist(df_cluster0[features_encoded[3]], bins=50)
ax[0].set_title('Sexo - Cluster 0')
ax[0].set_ylim(0, 65000)
ax[1].hist(df[features_encoded[3]], bins=50)
ax[1].set_title('Sexo - Geral')
ax[1].set_ylim(0, 65000)
plt.show()

In [None]:
proporcao_sexo_cluster0 = df_cluster0['Sexo Sinistro'].value_counts(normalize=True)
proporcao_sexo_geral = df['Sexo Sinistro'].value_counts(normalize=True)

print('Proporção de Homens e Mulheres no Cluster 0:')
print(proporcao_sexo_cluster0)
print('Proporção de Homens e Mulheres no Geral:')
print(proporcao_sexo_geral)

O sexo está igualmente dividido seguindo a proporção dos dados gerais. Nenhuma divisão que distingua o _cluster_ dos dados gerais.

#### Descrição Serviço Sinistro

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(20, 7))
ax[0].hist(df_cluster0[features_encoded[4]], bins=50)
ax[0].set_title('Descrição Serviço Sinistro - Cluster 0')
ax[0].set_ylim(0, 20000)
ax[1].hist(df[features_encoded[4]], bins=50)
ax[1].set_title('Descrição Serviço Sinistro - Geral')
ax[1].set_ylim(0, 20000)
plt.show()

In [None]:
df_cluster0[features_encoded[4]].value_counts().head(7)

In [None]:
df_cluster0['Descricao Servico Sinistro'].value_counts().head(7)

Os principais valores de descrição do serviço foi a maior parcela relacionada a consulta em consultório, algo natural uma vez que esse é o sinistro com maior incidência durante toda a base de dados. Além disso, observa-se que os valores relacionados a colesterol, que somados são mais de 6 mil, são um dado importante nesse cluster, pois somam aproximadamente um quinto dos valores totais da coluna de descrição de serviço.

- Análise de Despesa Hospitalar

In [None]:
df_cluster0[df_cluster0['Descricao Servico Sinistro'] == 'DESPESA HOSPITALAR']['Valor Pago Sinistro'].describe()

In [None]:
soma_hospitalar = df_cluster0[df_cluster0['Descricao Servico Sinistro'] == 'DESPESA HOSPITALAR']['Valor Pago Sinistro'].sum()
soma_total = df_cluster0['Valor Pago Sinistro'].sum()
proporcao_hospitalar = soma_hospitalar / soma_total
proporcao_hospitalar


Apesar de possuir em sua maioria valores abaixo de 200 reais, esse pequeno grupo de despesas hospitalares, equivalente a 2% do _cluster_, somam um valor de 83% da coluna "Valor Pago Sinistro" do _cluster_. Logo, é algo a se pontuar, pois essa categoria de serviços de sinistro somam um valor significativo de custo, apesar de sua quantidade.

#### Faixas de preço (Valor Pago Sinistro)

In [None]:
bins = [0, 50, 100, 200, 400, 1000, 5000, 10000, 50000, 100000, 250000]
labels = ['0-50', '50-100', '100-200', '200-400', '400-1000', '1000-5000', '5000-10000', '10000-50000', '50000-100000', '100000-250000']

df_cluster0['Faixas-de-preco'] = pd.cut(df_cluster0['Valor Pago Sinistro'], bins=bins, labels=labels)
df['Faixas-de-preco'] = pd.cut(df['Valor Pago Sinistro'], bins=bins, labels=labels)

counts_cluster0 = df_cluster0['Faixas-de-preco'].value_counts(sort=False)
counts_df = df['Faixas-de-preco'].value_counts(sort=False)

fig, ax = plt.subplots(2, 1, figsize=(20, 14))

ax[0].bar(counts_cluster0.index, counts_cluster0.values)
ax[0].set_title('Faixas de Preço - Cluster 0')
ax[0].set_ylim(0, 60000)

ax[1].bar(counts_df.index, counts_df.values)
ax[1].set_title('Faixas de Preço - Geral')
ax[1].set_ylim(0, 60000)

for a in ax:
    a.set_xticklabels(labels, rotation=45, ha='right')

plt.show()

Ao observar os gráficos, pode-se entender que o _cluster_ teve como resultado do agrupamento valores menores de sinistro, mantendo sua maioria entre 0-200 reais, algo que se reflete também nas colunas 'Descrição Serviço Sinistro' e 'Tipo Serviço' pois esse _cluster_ apresenta em sua maioria agrupamentos de serviços com valores/custos mais baixos.

Apesar disso, apresentam-se valores de faixas de preço bem mais elevadas, chegando até a faixa de preço mais elevada, de 100000-250000, algo que ocorre pois dentro desse _cluster_ existe a presença de um grupo de utilização de sinsitro de 'DESPESAS HOSPITALARES' que contém um valor muito elevado de custo.

### Insights

- _Insights_ relacionados à exames de colesterol

In [None]:
copia = df_cluster0.copy()

colunas_colesterol = ['COLESEROL TOTAL - PESQUISA E/OU DOSAGEM', 
                      'COLESTEROL (HDL) - PESQUISA E/OU DOSAGEM', 
                      'COLESTEROL (LDL) - PESQUISA E/OU DOSAGEM', 
                      'COLESTEROL (VLDL) - PESQUISA E/OU DOSAGEM']

copia.loc[copia['Descricao Servico Sinistro'].isin(colunas_colesterol), 'Tipo de Serviço'] = 'Exame de Colesterol'

df_colesterol = copia[copia['Tipo de Serviço'] == 'Exame de Colesterol']

copia['Tipo de Serviço'].value_counts().head(5)

O exame de colesterol foi algo que se destacou por ser uma infomação específica - diferentemente de outros tipos de serviço mais genéricos como exames laboratoriais, consultas e exames de imagens -, por isso será feita uma análise em cima das colunas que categorizam o tipo de usuário do plano de saúde, contido no _cluster_ que tem esse padrão de uso do plano de saúde. 

In [None]:
sexo_colesterol = df_colesterol['Sexo Sinistro'].value_counts(normalize=True)

print('Proporção de Homens e Mulheres nos Exames de Colesterol:')
print(sexo_colesterol)
print('Proporção de Homens e Mulheres no Cluster 0:')
print(proporcao_sexo_cluster0)
print('Proporção de Homens e Mulheres no Geral:')
print(proporcao_sexo_geral)

In [None]:
ordem = ['0 a 18 anos', '19 a 23 anos', '24 a 28 anos', '29 a 33 anos', '34 a 38 anos', '39 a 43 anos', '44 a 48 anos', '49 a 53 anos', '54 a 58 anos', '59 anos ou mais']
sns.catplot(x='Faixa-Etária Nova Sinistro', kind='count', data=df_colesterol, order=ordem, hue='Sexo Sinistro', width=0.5, height=7, aspect=1.75)
plt.ylabel('Quantidade')
plt.title('Faixa Etária - Exames de Colesterol')
plt.show()

Ao visualizar as proporções acima, mostra que existe uma maior tendência de mulheres nos dados em geral, algo que se cumpriu dentro desse _cluster_, como foi pontuado anteriormente, o sexo não foi algo tratado como relevante por esse _cluster_, no geral. Ainda na mesma cédula, pode ser visto também que a proporção de mulheres e homens foi mantida nos exames de colesterol. Apesar disso, dividir o uso de exames de colesterol por faixa-etária e sexo na visualização do gráfico, pode-se ver que em e algumas faixas etárias os valores não são apenas discrepantes, mas também não obrigatoriamente seguem as proporções vistas anteriormente.

Dito isso, pode-se afirmar que os valores de faixa-etária de '0-18 anos', e de '59 ou mais' apresentam valores bem acima da média na incidência em exames de colesterol. Além disso, ao observar atentamente a divisão por sexo dessas faixas, pode-se ver que eles não seguem a proporção definida, sendo o inclusive o número de homens de 0-18 anos que frequentaram exames de colesterol maior do que o número de mulheres, algo extremamente imporvável, uma vez que o número de mulheres que fazem exames no geral é aproximadamente o dobro do de homens.

Logo, um grupo para se ter em mente são os jovens e idosos com probelmas de colesterol, pois eles apresentam uma incidência maior do que qualquer outra faixa-etária. Além disso, analisando mais a fundo o grupo de jovens (0-18 anos) deve-se atentar e tentar entender o porque de os homens, mesmo estando em menor número nesses conjuntos de dados específicos, apresentarem valores mais significativos de uso de colesterol do que as mulheres.


### Conclusão

Para o desenvolvimento deste _cluster_, diferenças de sexo e faixa etária não foram informações relevantes, pois seguiram a proporção dos gráficos gerais. No entanto, o _cluster_ apresentou divergências significativas em outras _features_, como faixas de preço, descrição de serviço, tipo de serviço e doenças relacionadas. Essas características diferenciam o _cluster 0_ dos dados gerais, e serão analisadas para identificar os elementos mais distintivos.

A descrição de serviço se divide principalmente entre consultas genéricas e exames de colesterol e creatinina, o que se reflete nas colunas de tipo de serviço e doença relacionada. O elevado número de valores 'NaN' na coluna de doenças se deve às descrições genéricas de serviço, como consultas, que não especificam uma doença clara. Outro ponto relevante é a presença da doença de dislipidemia, identificada a partir de exames de colesterol, já que está diretamente ligada aos hormônios.

Nos exames de colesterol, apesar de a proporção de homens e mulheres ter sido mantida, algumas faixas etárias, como 0 a 18 anos e 59 ou mais, apresentam incidências acima da média. O número de homens de 0 a 18 anos que realizaram exames de colesterol é maior que o de mulheres, um dado incomum, já que a maioria dos exames é realizada por mulheres. Isso sugere que jovens e idosos com problemas de colesterol são grupos relevantes para esse _cluster_, e uma análise mais detalhada sobre o maior uso de exames de colesterol por homens jovens é necessária.

Por fim, os valores de sinistro estão concentrados na faixa de 0 a 200 reais, refletindo o uso de serviços mais baratos, como consultas e exames hormonais. Ainda assim, 'DESPESA HOSPITALAR' representou 83% do valor pago em sinistros, apesar de corresponder a apenas 2% das ocorrências.
