## Cluster 4

- Importar bibliotecas

In [45]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

- Leitura do _DataFrame_

In [None]:
# Carregar o dataset
df = pd.read_csv('../data_updated_clustered_kmeans.csv')
print(df.head())

In [None]:
# Verificando informações gerais do DataFrame
print(df.info())

# Checando os valores únicos na coluna 'cluster', são 6 clusters
print(df['cluster'].unique())

### Filtrando Dados para o Cluster 4

- Filtrando o DataFrame para obter apenas os dados do cluster 4

In [None]:
# Filtrando o DataFrame para obter apenas os dados do cluster 4
df_cluster4 = df[df['cluster'] == 4]

# Exibindo as primeiras 5 linhas do cluster 4
print(df_cluster4.head())

In [None]:
# Estatísticas descritivas para o cluster 4
print(df_cluster4.describe())

### Visualizando Dados do Cluster 4

In [None]:
# Definindo as features a serem analisadas
features_encoded = ['faixa-etaria_encoded', 'tipo_servico_encoded']

# Plotando histogramas
plt.figure(figsize=(15, 5))
for i, feature in enumerate(features_encoded):
    plt.subplot(1, len(features_encoded), i + 1)
    sns.histplot(df_cluster4[feature], bins=30, kde=True)
    plt.title(f'Distribuição de {feature} - Cluster 4')
    plt.xlabel(feature)
    plt.ylabel('Frequência')
plt.tight_layout()
plt.show()

In [None]:
# Filtra apenas os dados do Cluster 4
df_cluster4 = df[df['cluster'] == 4]

# Exibe a contagem de ocorrências para 'faixa-etaria_encoded' no Cluster 4
faixa_etaria_contagem_cluster4 = df_cluster4['faixa-etaria_encoded'].value_counts()
print(faixa_etaria_contagem_cluster4)

# Exibe os valores únicos da coluna original e da coluna codificada no Cluster 4
print(df_cluster4[['Faixa-Etária Nova Sinistro', 'faixa-etaria_encoded']].drop_duplicates())

In [None]:
# Filtrando o DataFrame para o Cluster 4
df_cluster4 = df[df['cluster'] == 4]

# Value counts para obter a frequência de cada tipo de serviço codificado no Cluster 4
value_counts_servicos_cluster4 = df_cluster4['tipo_servico_encoded'].value_counts()

# Exibindo os tipos de serviço únicos associados a cada código
servicos_unicos_cluster4 = df_cluster4[['Tipo de Serviço', 'tipo_servico_encoded']].drop_duplicates()

print("Frequência de cada tipo de serviço codificado no Cluster 4:")
print(value_counts_servicos_cluster4)

print("\nServiços correspondentes aos códigos:")
print(servicos_unicos_cluster4)

In [None]:
# Frequência de cada tipo de serviço codificado no Cluster 4
frequencias_servicos_cluster4 = {
    37: 5041,
    22: 3793,
    73: 1651,
    140: 783,
    54: 262,
    139: 183,
    77: 162,
    64: 129,
}

# Mapeando os códigos para seus respectivos serviços
servicos_info = df[df['tipo_servico_encoded'].isin(frequencias_servicos_cluster4.keys())][['Tipo de Serviço', 'tipo_servico_encoded']].drop_duplicates()

# Exibindo a frequência e o nome do serviço correspondente
for codigo, frequencia in frequencias_servicos_cluster4.items():
    nome_servico = servicos_info[servicos_info['tipo_servico_encoded'] == codigo]['Tipo de Serviço'].values[0]
    print(f"Código: {codigo}, Serviço: {nome_servico}, Frequência: {frequencia}")

**1. Distribuição de Faixa Etária (faixa-etaria_encoded) - Cluster 4:**
 
&emsp; A distribuição das faixas etárias no Cluster 4 revela alguns pontos importantes:

- **0 a 18 anos (codificado como 0)** é a faixa etária com maior incidência, apresentando aproximadamente 1835 ocorrências. Isso destaca uma alta demanda por serviços de saúde entre jovens e crianças nesse cluster.
- **59 anos ou mais (codificado como 9)** segue de perto, com 1697 sinistros, também mostrando uma grande concentração de ocorrências nessa faixa etária, o que é esperado dado o maior uso de serviços de saúde por idosos.
- Outras faixas etárias, como **34 a 38 anos (codificado como 4) e 39 a 43 anos (codificado como 5)**, também têm uma representatividade considerável, com aproximadamente 1600 e 1412 sinistros, respectivamente.
- As faixas **24 a 28 anos (codificado como 2) e 19 a 23 anos (codificado como 1)** têm uma incidência bem menor, com 452 e 750 sinistros.
  
&emsp; **Interpretação**: Observa-se que tanto jovens (0 a 18 anos) quanto idosos (59 anos ou mais) têm alta incidência de sinistros no Cluster 4. Isso pode indicar uma alta demanda de serviços de saúde em ambos os extremos etários, com a população jovem possivelmente acessando serviços relacionados a cuidados pediátricos ou acidentes, enquanto a população idosa pode estar lidando com condições crônicas.



**2. Distribuição de Tipo de Serviço (tipo_servico_encoded) - Cluster 4:**

- O tipo de serviço mais frequente no Cluster 4 é o **"Exame Laboratorial"** (codificado como 37), com **5041 sinistros** registrados. 

- Em segundo lugar, temos a **"Consulta Médica"** (codificada como 22), que apresenta uma frequência de **3793 sinistros**.

- Outros serviços significativos incluem o **"Exame Laboratorial"** (codificado como 73), com **1651 sinistros**, e **"Terapia Alternativa"** (codificada como 140), com **783 sinistros**.

- Serviços como **"Exame Audiológico"** (codificado como 54) e **"Terapia"** (codificado como 139) têm frequências menores, com **262** e **183 sinistros**, respectivamente. Além disso, o **"Exame Oftalmológico"** (codificado como 77) e o **"Exame de Composição Corporal"** (codificado como 64) aparecem com **162** e **129 sinistros**.

&emsp; **Interpretação**: A predominância de exames laboratoriais e consultas médicas no Cluster 4 pode indicar um maior foco em diagnósticos e acompanhamento de condições de saúde, possivelmente associadas a um perfil de pacientes que buscam intervenções mais detalhadas. A frequência relativamente menor de serviços como terapia sugere que, embora haja necessidade de apoio psicológico, a demanda por intervenções mais diretas e diagnósticas ainda é predominante. Essa distribuição pode refletir a natureza das condições de saúde tratadas nesse cluster, que pode incluir doenças crônicas ou complexas que exigem monitoramento e avaliação contínuos.

**Conclusão Geral**

&emsp; O **Cluster 4** é caracterizado por uma predominância de **faixas etárias mais jovens** (com destaque para o grupo de 0 a 18 anos) e a utilização frequente de **exames laboratoriais** e **consultas médicas**. Esses serviços, altamente recorrentes no cluster, indicam que a maior parte dos sinistros está relacionada a diagnósticos e acompanhamento de saúde. Serviços menos frequentes, como **terapias** e **exames específicos** (como audiológicos e oftalmológicos), refletem uma menor demanda por intervenções mais especializadas ou focadas em tratamento. No geral, o cluster parece concentrar pacientes que estão em busca de cuidados de saúde preventivos e diagnósticos, com menor foco em procedimentos complexos, o que sugere um perfil mais generalista em termos de necessidades médicas.


In [None]:
# Análise de variáveis categóricas - Apenas para sexo_encoded
categorical_feature = 'sexo_encoded'

# Gráfico de barras para variável categórica de gênero
plt.figure(figsize=(10, 5))
sns.countplot(data=df_cluster4, x=categorical_feature, palette='Blues')
plt.title(f'Distribuição de {categorical_feature} - Cluster 4')
plt.xlabel(categorical_feature)
plt.ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Exiba os valores únicos das colunas relacionadas ao sexo
print(df[['Sexo Sinistro', 'sexo_encoded']].drop_duplicates())

# Para descobrir o que o código 1 e o código 0 representam na coluna de sexo
sexo_codigo_1 = df[df['sexo_encoded'] == 1]['Sexo Sinistro'].unique()
sexo_codigo_0 = df[df['sexo_encoded'] == 0]['Sexo Sinistro'].unique()

In [None]:
df_cluster4["sexo_encoded"].value_counts(())

### Análise da variável **sexo_encoded** - Cluster 4

**Distribuição:**
- **0 (feminino)**: 7136 ocorrências
- **1 (masculino)**: 5138 ocorrências

**Interpretação:**

- **Maior participação feminina**: A maior parte dos sinistros no Cluster 4 está associada ao sexo feminino, com aproximadamente 7.136 ocorrências, representando uma participação mais significativa do que a masculina.
  
- **Distribuição relativamente equilibrada**: Apesar da predominância feminina, a diferença entre os gêneros não é extrema, com os homens representando 5.138 ocorrências. Isso sugere que o Cluster 4 tem uma distribuição relativamente balanceada em termos de gênero, embora haja uma ligeira concentração de sinistros entre as mulheres.

**Possível explicação:**

&emsp; Essa distribuição pode estar relacionada ao tipo de serviços mais utilizados neste cluster, como procedimentos médicos mais invasivos ou tratamentos crônicos. Em certos setores da saúde, como o de exames laboratoriais ou cirurgias vasculares (que predominaram na análise anterior), as mulheres podem ter uma taxa mais alta de utilização desses serviços, refletindo a predominância feminina no cluster.

&emsp; Entretanto, a diferença entre os gêneros é relativamente pequena, o que indica que tanto homens quanto mulheres estão quase igualmente representados em termos de sinistros.

### Comparando com outros _clusters_

In [None]:
# Boxplot para faixa-etaria_encoded por cluster
plt.figure(figsize=(8, 6))
sns.boxplot(data=df, x='cluster', y='faixa-etaria_encoded', palette='Set3')
plt.title('Boxplot de Faixa Etária por Cluster')
plt.xlabel('Cluster')
plt.ylabel('Faixa Etária Codificada')
plt.show()

&emsp; O boxplot de Faixa Etária por Cluster apresenta a distribuição das faixas etárias codificadas em diferentes clusters. Observa-se que o Cluster 0 possui uma distribuição ampla, com faixas etárias variando de 0 (0 a 18 anos) até 8 (54 a 58 anos), sendo que a mediana está próxima de 5 (39 a 43 anos). Isso sugere uma presença significativa de pessoas em todas as faixas etárias, com uma leve predominância de indivíduos de meia-idade. Já o Cluster 1 apresenta a mediana em torno de 6 (44 a 48 anos), indicando uma maior concentração de pessoas de meia-idade, mas ainda com certa variação entre faixas mais jovens e mais velhas.

&emsp; No Cluster 2, a faixa etária codificada vai de valores mais jovens até cerca de 8, com a mediana posicionada mais próxima das faixas etárias intermediárias, sugerindo uma ligeira concentração de pessoas entre 44 e 48 anos. O Cluster 3, por outro lado, parece ser mais homogêneo em termos de faixas etárias, com uma menor dispersão e uma mediana em torno de 5, o que indica uma prevalência de pessoas em torno dos 39 a 43 anos.

&emsp; O Cluster 4 também apresenta uma distribuição relativamente concentrada em torno de faixas intermediárias, com uma mediana próxima de 5, sugerindo um comportamento semelhante ao Cluster 3. Finalmente, o Cluster 5 tem uma distribuição mais uniforme, mas com uma leve tendência para faixas etárias mais jovens, já que a mediana está um pouco abaixo do valor de 5, indicando uma prevalência de indivíduos entre 34 e 38 anos.

&emsp; De forma geral, o boxplot revela que a maioria dos clusters tem uma concentração de indivíduos nas faixas etárias de meia-idade, embora alguns clusters apresentem maior dispersão entre faixas etárias mais jovens e mais velhas.

In [None]:
# Detectando outliers usando quartis
Q1 = df_cluster4['valor-pago-sinistro_standardized'].quantile(0.25)
Q3 = df_cluster4['valor-pago-sinistro_standardized'].quantile(0.75)
IQR = Q3 - Q1
outliers = df_cluster4[(df_cluster4['valor-pago-sinistro_standardized'] < Q1 - 1.5 * IQR) | (df_cluster4['valor-pago-sinistro_standardized'] > Q3 + 1.5 * IQR)]
print(outliers)

In [None]:
# Contagem de tipos de doenças relacionadas
contagem_doencas = df_cluster4['Doença relacionada'].value_counts()
print(contagem_doencas)

**Análise dos Dados de Doenças Relacionadas**:

A análise dos dados de doenças relacionadas revela informações significativas sobre a prevalência de diferentes condições de saúde. 

- **Câncer de Próstata** é a doença mais frequente, com **419** registros, indicando uma alta incidência entre os casos analisados.
- As **Doenças Autoimunes da Tireoide** e a **Tireoidite de Hashimoto** também se destacam, com **328** e **300** registros, respectivamente, sugerindo uma prevalência significativa de condições autoimunes.

Observa-se uma diminuição acentuada no número de registros nas doenças seguintes:
- **Doença Celíaca**: **197** registros
- **Câncer**: **155** registros
- **Síndrome Antifosfolípide**: **127** registros

As doenças menos frequentes, como **Artrite Reumatoide** e **Apendicite**, têm apenas **3** registros cada, o que sugere que essas condições podem ser menos relevantes no conjunto de dados.

&emsp; Esses dados têm implicações importantes para a saúde pública, uma vez que a alta incidência de câncer e doenças autoimunes pode indicar a necessidade de políticas de saúde focadas na prevenção e tratamento dessas condições. Além disso, a identificação de doenças raras pode ser crucial para a pesquisa e o desenvolvimento de tratamentos adequados.

&emsp; É importante considerar que a distribuição desigual de casos pode afetar análises estatísticas e modelos preditivos, sendo necessário utilizar técnicas de balanceamento de dados. A relação entre idade, sexo e tipo de doença também poderia ser explorada para entender melhor o perfil dos pacientes afetados.

&emsp; Em conclusão, os dados refletem uma prevalência significativa de certas doenças, especialmente câncer e condições autoimunes, destacando áreas de atenção para futuras intervenções em saúde pública.

In [None]:
# Definir as faixas de preço
bins = [0, 200, 400, 600, 800, 1000, 2000, 5000, 10000, 20000, float('inf')]
labels = ['0-200', '200-400', '400-600', '600-800', '800-1k', '1k-2k', '2k-5k', '5k-10k', '10k-20k', '20k+']

# Criar uma nova coluna 'faixa_preco' apenas para os dados do Cluster 4
df_cluster4.loc[:, 'faixa_preco'] = pd.cut(df_cluster4['Valor Pago Sinistro'], bins=bins, labels=labels, right=False)

# Contar a quantidade de sinistros por faixa de preço no Cluster 4
contagem_faixa_preco_cluster4 = df_cluster4['faixa_preco'].value_counts().sort_index()

# Plotar o gráfico de barras para o Cluster 4
plt.figure(figsize=(10, 6))
sns.barplot(x=contagem_faixa_preco_cluster4.index, y=contagem_faixa_preco_cluster4.values, palette='Blues')
plt.title('Contagem de Sinistros por Faixa de Preço - Cluster 4')
plt.xlabel('Faixa de Preço')
plt.ylabel('Contagem de Sinistros')
plt.xticks(rotation=45)
plt.ylim(0, contagem_faixa_preco_cluster4.max() + 10)  # Ajustar o limite do eixo y
plt.show()

&emsp; A análise da contagem de sinistros por faixa de preço no Cluster 4 revela que a maioria dos sinistros está concentrada nas faixas de preço mais baixas. A faixa de 0 a 200 tem uma quantidade esmagadora de sinistros, com mais de 8000 ocorrências, indicando que a maioria dos sinistros nesse cluster envolve valores mais baixos.

&emsp; Há uma redução significativa na frequência conforme o valor dos sinistros aumenta. A faixa de 200 a 400 apresenta pouco mais de 1000 sinistros, seguida pela faixa de 400 a 600, com cerca de 2000 sinistros. A partir daí, o número de sinistros em faixas de preço mais altas diminui drasticamente, com as faixas entre 600 e 1000 sendo pouco representadas, e as faixas de 1k a 5k e acima disso com contagens quase insignificantes.

&emsp; Isso sugere que os sinistros no Cluster 4, em sua maioria, estão relacionados a eventos de menor custo, e é raro encontrar sinistros de valores mais elevados.

### Conclusão

&emsp; O Cluster 4 se destaca por uma alta demanda por exames laboratoriais e consultas médicas, com ênfase em diagnósticos e acompanhamento contínuo de saúde, principalmente em populações jovens (0 a 18 anos) e idosas. A maioria dos sinistros registrados possui valores baixos, indicando que eventos de custo elevado são menos frequentes. A distribuição de gênero é relativamente equilibrada, com uma leve predominância de pacientes do sexo feminino (7 mil) em relação ao masculino (5 mil). Além disso, o cluster apresenta um foco em condições crônicas e tratamentos especializados, o que define o perfil desse grupo de usuários, que necessitam de cuidados regulares e monitoramento de saúde.
