# **Bibliotecas Necessárias**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
from sklearn.preprocessing import LabelEncoder
bd = pd.read_csv('bd_unipar.csv', decimal=',')

# **Exploração de dados**

A exploração de dados tem como objetivo facilitar a percepção e manipulação de informações, permitindo a extração de conhecimento e inferência por parte de usuários que não possuem expertise técnica na área. No contexto do projeto UniData, desenvolvido pelo grupo SGESP, a exploração de dados busca apresentar visual e descritivamente a correlação entre diferentes informações relativas à sinistralidade dos colaboradores da Unipar.

Para a análise dos dados, foram utilizadas diversas ferramentas computacionais e matemáticas, com ênfase na linguagem de programação Python. O uso de bibliotecas de manipulação, visualização e análise de dados, como Pandas, Matplotlib, e Scikit-Learn, entre outras, foi fundamental nesse processo.

**Python:**

A linguagem de programação Python foi escolhida para o processo de exploração de dados devido à sua fácil legibilidade, ampla disponibilidade de bibliotecas, e suporte documental robusto. Essas características fazem do Python uma ferramenta poderosa para análises complexas de dados.

**Bibliotecas:**

Bibliotecas são coleções de código reutilizável que facilitam o trabalho dos programadores, fornecendo funções e módulos comumente utilizados, o que reduz a necessidade de se desenvolver soluções do zero para problemas recorrentes (HARVARD CS50, 2018).

A seguir, destacam-se algumas das bibliotecas utilizadas no projeto:

- **Pandas**: É uma biblioteca poderosa para análise e manipulação de dados. O Pandas se destaca por seus inúmeros métodos que facilitam o tratamento e a análise de _DataFrames_, permitindo operações eficientes de limpeza, filtragem, e transformação de dados.

- **Matplotlib**: Essa biblioteca é amplamente utilizada para criar visualizações gráficas, tanto estáticas quanto dinâmicas, dos dados analisados em Python. O Matplotlib é uma ferramenta essencial para representar graficamente os padrões e tendências dos dados, ajudando a tornar as análises mais compreensíveis e intuitivas.

O uso dessas ferramentas e bibliotecas permitiu que o projeto UniData obtivesse uma análise de dados mais eficiente e profunda, possibilitando uma melhor compreensão das relações entre diferentes variáveis associadas à sinistralidade dos colaboradores da Unipar.

### **Resumo das informações encontradas na base de dados**


Para a análise inicial do banco de dados, sem qualquer tratamento prévio, dois comandos principais se destacam:

1. **`pd.read_csv`**: O primeiro passo é incluir o banco de dados ao _DataFrame_. Isso permite que os dados sejam manipulados e analisados diretamente no Python.

2. **`.info()`**: Em seguida, o método `.info()` é utilizado para gerar um resumo informativo sobre o _DataFrame_. Esse comando fornece informações essenciais, como:

   - **Número de entradas (linhas)**: Indica a quantidade de registros presentes no _DataFrame_.
   - **Colunas (categorias de informação)**: Mostra todas as colunas disponíveis e seus respectivos nomes.
   - **Tipos de dados de cada coluna**: Exibe o tipo de dado contido em cada coluna, como `int64` (números inteiros), `float64` (números decimais), ou `object` (strings).
   - **Número de dados não nulos**: Aponta a quantidade de entradas não nulas em cada coluna.
   - **Quantidade de memória ocupada pelo _DataFrame_**: Indica a quantidade de memória que o _DataFrame_ consome, o que é útil para avaliar o impacto no desempenho.

Essa análise inicial é crucial para entender a estrutura e a qualidade dos dados antes de aplicar qualquer técnica de limpeza ou transformação.

In [None]:
bd.info()

### **Estatística descritiva das colunas**

Para realizar a estatística descritiva das colunas, utilizamos o método `.describe()` do Pandas. Estatísticas descritivas são basicamente ferramentas que usamos para resumir e entender os principais aspectos de um conjunto de dados. Então, ao invés de olhar dado por dado, a estatística descritiva nos dá uma visão geral do que está acontecendo com os dados.

Com a utilização do método `.describe()`, percebe-se o retorno de algumas estatísticas descritivas interessantes, como:

1. **Count**: O número de valores não nulos em cada coluna.
2. **Mean**: A média (valor médio) de cada coluna numérica.
3. **Std**: O desvio padrão, que indica a dispersão dos dados em relação à média.
4. **Min**: O valor mínimo em cada coluna.
5. **25%**: O primeiro quartil, ou o valor abaixo do qual 25% dos dados caem.
6. **50%**: A mediana, ou o valor central dos dados (também conhecido como segundo quartil).
7. **75%**: O terceiro quartil, ou o valor abaixo do qual 75% dos dados caem.
8. **Max**: O valor máximo em cada coluna.

Para colunas não numéricas, o `describe` pode fornecer informações sobre:
- **Contagem (`count`)**: O número total de valores não nulos.
- **Número de valores únicos (`unique`)**: O número de valores únicos na coluna.
- **Valor mais frequente (`top`)**: O valor que aparece com mais frequência.
- **Contagem do valor mais frequente (`freq`)**: O número de vezes que o valor mais frequente aparece.

Essas estatísticas ajudam a entender a distribuição e a variabilidade dos dados em seu DataFrame.

In [None]:
bd.describe(include='all')

A análise descritiva dos dados de sinistros de seguros, utilizando o método describe(), permite identificar padrões significativos nos dados

1. **Análise de Distribuição de Custos de Sinistros**: A média do "Valor Pago Sinistro" é de 295,34, enquanto o desvio padrão é bastante alto (2996,82). Isso sugere uma grande variabilidade nos valores pagos, indicando a presença de sinistros com valores pagos muito baixos e alguns com valores excepcionalmente altos. A mediana (36,9) é bem menor que a média, o que sugere uma distribuição enviesada para a direita, indicando a presença de alguns valores extremamente altos (outliers).

2. **Perfil Demográfico dos Sinistrados**: A coluna "Sexo Sinistro" indica que há apenas 2 categorias ("M" e "F"), e o mais frequente é o sexo feminino com 62.333 registros. A faixa etária mais frequente é "0 a 18 anos", com 18.762 registros.

### **Identificação das colunas numéricas e categóricas**

A identificação de colunas numéricas e categóricas e a diferenciação entre elas se faz extremamente importante, especialmente em termos de análise, visualização e modelagem de dados, uma vez que requerem distintas abordagens durante o tratamento dessas informações.

A distinção entre estas duas identificações de dados pode ser definida como abaixo:

##### **Variáveis categóricas**

Dados categóricos possuem uma quantidade limitada de categorias ou grupos distintos, como métodos de pagamento, materiais ou códigos de produtos.

Dentro das variáveis categóricas, existem duas principais subdivisões: **variáveis nominais** e **variáveis ordinais**.

Variáveis categóricas nominais são caracterizadas por não terem uma ordem ou hierarquia intrínseca. Exemplos incluem cor dos olhos, gênero, ID e nome.

Por outro lado, variáveis categóricas ordinais são aquelas que têm uma ordem ou classificação. Exemplos incluem tamanhos de roupas (P, M, G) e classificações de risco (baixo, médio, alto). Essas variáveis permitem a comparação entre categorias com base em sua ordem.


A partir desse resultado, nota-se que as colunas foram identificadas da seguinte maneira:

**Identificação de variáveis categóricas na base da dados**<br>

| NOME DA COLUNA  | DESCRIÇÃO | VARIÁVEL | SUBGRUPO |
| ------------- | ------------- | ----------- | ------------ |
| Nome Empresa Sinistro | Nome da empresa relacionada ao uso do sinistro | Categórica | Nominal |
| Elegibilidade Sinistro | Indica qual é a relação do colaborador com o seguro de saúde | Categórica | Nominal |
| Sexo Sinistro  | Indica qual é o gênero do segurado | Categórica | Nominal |
| Faixa-Etária Nova Sinistro | Mostra a faixa etária do titular, dependente ou agregado. | Categórica | Ordinal |
| Descricao Plano Sinistro | O tipo do plano de saúde do segurado | Categórica | Nominal |
| Descricao Servico Sinistro | O tipo de serviço utilizado pelo segurado | Categórica | Nominal |
| Tipo Utilização Sinistro | Política de pagamento do sinistro | Categórica | Nominal |
| Dt Data Sinistro  | Data em que o serviço foi realizado | Categórica | Nominal |
| Nome Prestador Sinistro | O nome do ambiente em que o serviço foi realizado | Categórica | Nominal |
| Nome Grupo Empresa | Nome da empresa "UNIPAR CARBOCLORO S.A"| Categórica | Nominal |


**Observações**:

- **"Nome Empresa Sinistro"**: Esta coluna apresenta três tipos de dados: "UNIPAR INDUPA DO BRASIL S.A", "UNIPAR CARBOCLORO S.A" e uma inconsistência a ser tratada na etapa de pré-processamento, "UNIPAR INDUPA DO BRASIL S.A." com um ponto adicional no final.

- **"Elegibilidade Sinistro"**: Contém três valores distintos: TITULAR, DEPENDENTE e AGREGADO.

- **"Sexo Sinistro"**: Apresenta dois valores: "F" para feminino e "M" para masculino.

- **"Faixa-Etária Nova Sinistro"**: As faixas etárias estão descritas textualmente, como "0 a 18 anos" e "19 a 23 anos".

- **"Descricao Plano Sinistro"**: Inclui identificadores como "TP8X", "TQN2" e "NP6X".

- **"Descricao Servico Sinistro"**: Contém descrições de serviços como consulta, teste, exame e atendimento.

- **"Tipo Utilização Sinistro"**: Apresenta "REDE" para serviços realizados em espaços credenciados e "REEMBOLSO" para serviços em locais não credenciados, mas reembolsáveis pelo convênio.

- **"Dt Data Sinistro"**: Armazenada como texto, o que a classifica como categórica, apesar de representar uma data.

- **"Nome Prestador Sinistro"**: Inclui nomes de consultórios, hospitais, laboratórios e outros prestadores de serviços.


A baixa incidência de **variáveis categóricas ordinais** sugere que a modelagem preditiva no projeto UniData não se beneficiará de hierarquias de atributos para identificação de padrões, já que alguns modelos, como árvores de decisão, podem aproveitar essas hierarquias. Por outro lado, a presença de várias **variáveis categóricas nominais** indica alta dimensionalidade no _DataFrame_, o que exige técnicas de codificação, como _One Hot Encoding_ e _Label Encoding_. Isso pode aumentar significativamente a complexidade computacional e o uso de memória necessários para a análise dos dados.


##### **Variáveis Numéricas**

Variáveis numéricas envolvem dados que podem ser representados por valores numéricos.

Dentro das variáveis numéricas, podemos distinguir duas principais subdivisões: variáveis contínuas e variáveis discretas.

Variáveis numéricas contínuas são aquelas cujos valores são representados por números reais (_float_). Elas podem assumir um intervalo infinito de valores e são usadas para medir quantidades que podem ser fracionadas, como temperatura, altura, peso e salário.

Variáveis numéricas discretas, por sua vez, têm valores que são inteiros e não podem ser fracionados. Elas geralmente representam contagens ou quantidades que são finitas e não possuem partes decimais. Exemplos incluem o número de filhos, o número de produtos vendidos e a quantidade de itens em estoque.


Sua diferença também pode ser percebida no pré-processamento de dados, onde geralmente os dados numéricos passam por processos de normalização ou padronização, enquanto dados categóricos são codificados ou até mesmo reorganizados e agrupados em outras categorias para serem utilizados nos modelos de machine learning.

Com o método ".dtypes", é possível avaliar se os dados aquela coluna são "int64" ou "object" assim como foi citado anteriormente.

**Identificação das variáveis numéricas na base de dados**

| NOME DA COLUNA  | DESCRIÇÃO | VARIÁVEL | SUBGRUPO |
| ------------- | ------------- | ----------- | ------------ |
| Apolice Sinistro | Código numérico para associar a apólice ao contrato do seguro | Numérica | Discreta |
| Codigo Empresa Sinistro | Código da empresa da qual o titular, dependente ou agregado é associado. Deve-se considerar diferenças entre sede, filiais e localidades | Numérica | Discreta |
| SEGURADO  | Código que identifica quem utilizou o serviço, ou seja, o segurado | Numérica | Discreta |
| Codigo Especialidade Sinistro | Código referente ao tema/especialidade envolvida no serviço utiizado pelo segurado | Numérica | Discreta |
| Codigo Servico Sinistro | Código referente ao tipo de serviço, seja consulta, atendimento, exame, entre outros | Numérica | Discreta |
| Codigo Prestador | Código associado ao prestador daquele serviço | Numérica | Discreta |
| No Ano Mes | Representa o ano e o mês em que aquele serviço foi realizado | Numérica | Discreta |
| Codigo Grupo Empresa  | Representa o grupo associado àquele sinistro | Numérica | Discreta |
| Valor Pago Sinistro | O valor pago pelo serviço acionado | Numérica | Contínua |
| Quantidade | Quantidade de serviços prestados àquele sinistro | Numérica | Discreta |

É importante destacar que, na nossa base de dados, a maioria dos dados numéricos refere-se a códigos de identificação, com poucas exceções relacionadas à quantidade de serviços prestados, à data do serviço e ao valor pago no sinistro. Portanto, como a maioria das variáveis numéricas é **discreta**, o tratamento desses dados é facilitado, uma vez que não há necessidade de padronização de dados do tipo _float_.

A identificação de grande quantidade de variáveis numéricas discretas também impacta a escolha do algoritmo de modelagem para o projeto UniData. Dados discretos, que se limitam a números inteiros, podem apresentar baixa granularidade, o que pode afetar a precisão das previsões do modelo ao identificar tendências.

In [None]:
bd.dtypes

### **Gráficos da exploração de dados**

O processo de identificação de perfis de colaboradores e de padrões no uso dos serviços de saúde pode ser facilitado com o uso de diversos gráficos que melhorem a visualização dos dados, a fim de colaborar para análises mais completas da equipe responsável pela criação dos programas e/ou iniciativas citadas anteriormente.

Segundo ValueHost, a visualização de dados é a prática de representar informações e dados complexos de maneira visual, usando gráficos, mapas e outros elementos. O objetivo é tornar os dados mais acessíveis, compreensíveis e utilizáveis, permitindo que as pessoas identifiquem padrões, tendências e insights que não seriam tão facilmente percebidos em um formato puramente numérico.

A partir disso, observa-se os seguintes gráficos que foram criados a partir da relação entre algumas das variáveis disponíveis na base de dados para que insigths valiosos possam ser fornecidos.

**1. Número de titulares e dependentes**

Com o método ```.drop_duplicates() ``` é possível retirar as linhas duplicadas de um DataFrame. Utilizando sua função, foi possível filtrar o número de titulares e o número de dependentes para, a partir de gráficos, compreender o quanto cada uma dessas elegibilidades contribuiu para a base de dados.

In [None]:
# Filtrando os segurados que são dependentes
bd_dependentes = bd[bd['Elegibilidade Sinistro'] == 'DEPENDENTE'].drop_duplicates(subset='SEGURADO')

# Filtrando os segurados que são titulares
bd_titulares = bd[bd['Elegibilidade Sinistro'] == 'TITULAR'].drop_duplicates(subset='SEGURADO')

In [None]:
print(len(bd_dependentes), 'dependentes')
print(len(bd_titulares), 'titulares')

A partir desse processo, nota-se que existem **`1638 dependentes e 1053 titulares na base de dados`**. Tal fato pode ser visualizado e compreendido a partir do seguinte gráfico de contagem:

In [None]:
# Remover duplicatas de segurados (considerando a coluna que identifica o segurado, como 'SEGURADO')
bd_unique_segurados = bd.drop_duplicates(subset='SEGURADO')

# Contar a quantidade de titulares e dependentes
elegibilidade_counts = bd_unique_segurados['Elegibilidade Sinistro'].value_counts()

# Tamanho do gráfico
plt.figure(figsize=(10, 6))

# Gráfico de barras com a cor #008a26
elegibilidade_counts.plot(kind='bar', color='#008a26')

# Adicionar títulos e rótulos aos eixos
plt.title('Quantidade de Titulares e Dependentes Únicos')
plt.xlabel('Elegibilidade')
plt.ylabel('Quantidade')

# Mostrar o gráfico
plt.tight_layout()
plt.show()

Considerando os números acima, compreende-se que o uso de sinistro também seja impactado pela participação significativa de dependentes na base dados, sendo conveniente analisar esse tópico e visualizar a grandeza de seu impacto:

1.1. **Uso de sinistro de acordo com Elegibilidade**

In [None]:
# Configuração do tamanho do gráfico (opcional)
plt.figure(figsize=(10, 6))

# Gráfico de contagem com a cor #008a26
sns.countplot(x='Elegibilidade Sinistro', data=bd, color='#008a26')

# Configurando o título e os rótulos dos eixos
plt.title('Uso do sinistro de acordo com elegibilidade')
plt.xlabel('Elegibilidade')
plt.ylabel('Contagem')

# Exibindo o gráfico
plt.show()

Com os dois gráficos acima, é possível concluir que a participação de dependentes na base de dados é maior do que a de titulares, em número de segurados e de serviços utilizados, sendo assim, é necessário atentar-se ao pedido do parceiro em focar nos titulares - que são o público-alvo principal-, principalmente na produção de novos gráficos, na limpeza de gráficos e em análises posteriores.

**2. Sinistros de titulares por faixa-etária e gênero**



O gráfico abaixo foi criado com a intenção de observar qual é o engajamento dos titulares, em número de sinistros, separando-os por faixa-etária e gênero. Analisando os titulares, obtêm-se o seguinte gráfico:

In [None]:
# Filtrando os dados para incluir apenas os titulares
bd_titulares = bd[bd['Elegibilidade Sinistro'] == 'TITULAR']

# Agrupar os dados por faixa etária e sexo para contar a quantidade de titulares
faixa_etaria_sexo_counts = bd_titulares.groupby(['Faixa-Etária Nova Sinistro', 'Sexo Sinistro']).size().unstack(fill_value=0)

# Ordenar as faixas etárias para facilitar a visualização
faixa_etaria_sexo_counts = faixa_etaria_sexo_counts.sort_index()

# Configurar o tamanho do gráfico
plt.figure(figsize=(10, 6))

# Gráfico de barras agrupadas com os dois tons de verde
faixa_etaria_sexo_counts.plot(kind='bar', stacked=False, color=['#008a26', '#00ff3c'])

# Adicionar títulos e rótulos aos eixos
plt.title('Distribuição de Titulares por Faixa Etária e Sexo')
plt.xlabel('Faixa Etária')
plt.ylabel('Quantidade de Sinistros')

# Ajustar a posição da legenda
plt.legend(title='Sexo', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar o gráfico
plt.tight_layout()
plt.show()

# Configuração do Seaborn
sns.set()

Com base nas informações obtidas, é possível observar:

1. **Participação por Gênero e Faixa Etária**: A participação masculina na quantidade de sinistros registrados pelos titulares é predominante em quase todas as faixas etárias, especialmente na faixa de "44 a 48 anos". As únicas exceções são as faixas etárias de "19 a 23 anos" e "24 a 28 anos", onde a participação feminina é mais expressiva.

2. **Faixa Etária e Uso de Sinistros**: Titulares na faixa etária de "59 anos ou mais", independentemente do gênero, apresentaram um maior número de registros de sinistros.

O gráfico a seguir, **um gráfico de dispersão entre faixa etária e quantidade de titulares**, ilustra a quantidade exata de titulares em cada faixa etária. Esse gráfico permite correlacionar a quantidade de titulares com a quantidade de sinistros registrados, ajudando a classificar o engajamento dos titulares nos serviços de saúde com base em suas idades.

In [None]:
# Filtrando apenas os segurados que são TITULARES e removendo duplicatas na coluna 'SEGURADO'
bd_segurados_unicos_titulares = bd[bd['Elegibilidade Sinistro'] == 'TITULAR'].drop_duplicates(subset=['SEGURADO'])

# Obter as contagens de cada faixa etária
faixa_etaria_counts = bd_segurados_unicos_titulares['Faixa-Etária Nova Sinistro'].value_counts()

# Ordenar os dados por ordem crescente da faixa etária
faixa_etaria_counts = faixa_etaria_counts.sort_index(ascending=True)

# Alterar o rótulo da última faixa etária
faixas = faixa_etaria_counts.index.tolist()
faixas[-1] = "59 anos +"  # Modificar o último rótulo

# Criar a paleta de cores "viridis" e inverter a ordem
cores = sns.color_palette("viridis", len(faixas))[::-1]

# Criar o gráfico de barras
plt.figure(figsize=(14, 8))
barplot = sns.barplot(x=faixas, y=faixa_etaria_counts.values, palette=cores)

# Adicionar rótulos acima de cada barra com texto em negrito
for p in barplot.patches:
    barplot.annotate(format(int(p.get_height()), '.0f'),
                     (p.get_x() + p.get_width() / 2., p.get_height()),
                     ha='center', va='center', 
                     xytext=(0, 7),  # Posição do texto em relação à barra
                     textcoords='offset points',
                     fontsize=16, fontweight='bold')  # Tamanho e negrito nos rótulos

# Adicionar títulos e rótulos com tamanho de fonte maior e negrito
plt.title('Distribuição de Titulares por Faixa Etária', fontsize=24, fontweight='bold', pad=15) 
plt.xlabel('Faixa Etária', fontsize=18, labelpad=15) 
plt.ylabel('Quantidade de Titulares Únicos', fontsize=18, labelpad=15) 

# Ajustar a formatação dos rótulos dos ticks
barplot.tick_params(axis='x', labelsize=14, labelrotation=0, width=2)
barplot.tick_params(axis='y', labelsize=14, width=2)

# Exibir o gráfico
plt.tight_layout()
plt.show()

Observa-se que a faixa etária com o maior número de titulares é a de "34 a 38 anos", seguida pela faixa etária de "39 a 43 anos". Ao relacionar esses dados com o gráfico de **sinistros de titulares por faixa-etária e gênero**, destacam-se as seguintes observações:

1. As faixas etárias com o maior número de titulares ("59 anos ou mais", "34 a 38 anos" e "39 a 43 anos") também são as que apresentam o maior número de sinistros registrados. Isso segue a lógica esperada: quanto maior o número de titulares, maior a utilização dos serviços.

2. A baixa quantidade de titulares na faixa "0 a 18 anos" reflete não apenas os pré-requisitos para ser titular, mas também o fato de que essa faixa etária é predominantemente composta por **dependentes**. Isso é corroborado pelo gráfico a seguir.

In [None]:
# Filtrando os dados para incluir apenas os dependentes
bd_dependentes = bd[bd['Elegibilidade Sinistro'] == 'DEPENDENTE']

# Agrupar os dados por faixa etária e sexo para contar a quantidade de titulares
faixa_etaria_sexo_counts = bd_dependentes.groupby(['Faixa-Etária Nova Sinistro', 'Sexo Sinistro']).size().unstack(fill_value=0)

# Ordenar as faixas etárias para facilitar a visualização
faixa_etaria_sexo_counts = faixa_etaria_sexo_counts.sort_index()

# Configurar o tamanho do gráfico
plt.figure(figsize=(10, 6))

# Criar o gráfico de barras agrupadas com as cores verde #008a26 e #00ff3c
faixa_etaria_sexo_counts.plot(kind='bar', stacked=False, color=['#008a26', '#00ff3c'])

# Adicionar títulos e rótulos aos eixos
plt.title('Distribuição de Dependentes por Faixa Etária e Sexo')
plt.xlabel('Faixa Etária')
plt.ylabel('Quantidade de Sinistros')

# Ajustar a posição da legenda
plt.legend(title='Sexo', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar o gráfico
plt.tight_layout()
plt.show()

# Configuração do Seaborn
sns.set()

Entre os dependentes, além de a faixa-etária mais frequente ser de "0 a 18 anos", logo acompanhado pela "49 a 53 anos", percebe-se que a participação do gênero feminino é mais significativa e impactante do que entre os titulares.

Dessa forma, nota-se que existe uma tendência de criação e desenvolvimento de perfil entre titular e dependente que usam seus sinistros com frequência, por exemplo:

1. Titular: de 34 a 38 anos, homem;

2. Dependente: 0 a 18 anos, mulher.

Sendo assim, entende-se que, de acordo com as variáveis trabalhadas acima, como elegibilidade de sinistro, faixa-etária e gênero, os públicos mudam consideravelmente suas características e, por consequência, os seus perfis de uso de sinistralidade também.

3. **Comparação do Uso dos 10 Serviços Mais Utilizados por Gênero**

Além de compreender sobre o perfil dos colaboradores em questões de gêneros, uso do sinistro e faixa-etária, também é essencial levar em consideração quais são os tipos de serviço mais utilizados pelos colaboradores para que os insights sejam direcionados para áreas relevantes ou de defasagem.

Para analisar os tipos de serviço e filtrar de uma forma simples, têm-se o gráfico de quais são os dez serviços mais utilizados dividindo os seus usos pelos respectivos gêneros que fizeram o uso.

In [None]:
# Agrupando os dados para encontrar os 10 serviços mais utilizados
top_10_services = bd['Descricao Servico Sinistro'].value_counts().nlargest(10).index

# Filtrando o DataFrame para apenas esses 10 serviços
bd_top_10 = bd[bd['Descricao Servico Sinistro'].isin(top_10_services)]

# Agrupando os dados por serviço e sexo para contar o número de utilizações
bd_grouped = bd_top_10.groupby(['Descricao Servico Sinistro', 'Sexo Sinistro']).size().unstack(fill_value=0)

# Configuração do tamanho do gráfico
plt.figure(figsize=(12, 8))

# Criando o gráfico de barras empilhadas ou agrupadas
bd_grouped.plot(kind='barh', stacked=True, color=['#66b3ff', '#ff9999'])

# Adicionando título e rótulos aos eixos
plt.title('Top 10 Serviços Mais Utilizados por Gênero')
plt.xlabel('Número de Utilizações')
plt.ylabel('Serviço')

# Ajustando a posição da legenda
plt.legend(title='Gênero', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrando o gráfico
plt.tight_layout()
plt.show()

Por meio da análise do gráfico acima, é notável que os **serviços mais utilizados são consultas, hemogramas e sessão de psicoterapia.**

No geral, o uso do sinistro de todos os tipos dos serviços mais frequentes são bem divididos entre o gênero feminino e masculino, com exceção da linha de consulta/consultorio, que conta com maior uso feminino.



# **Pré-processamento**

O pré-processamento de dados é uma etapa muito importante no desenvolvimento de modelos de machine learning. Ele envolve a preparação dos dados brutos, tornando-os mais adequados para a análise. Dados que não foram processados podem conter inconsistências, valores faltantes, outliers, que são valores muito maiores ou menores do que a maior parte da amostra, e podem estar em formatos inadequados para as técnicas de machine learning. A fase de pré-processamento aborda essas questões para melhorar a qualidade dos dados e, consequentemente, a performance do modelo.

Essa etapa inclui a limpeza de dados, onde se tratam inconsistências, valores ausentes (missing values), e outliers. Inconsistências são corrigidas para uniformizar os dados; valores ausentes são preenchidos ou removidos; e outliers, que podem distorcer a análise, são identificados e tratados. Após a limpeza, realiza-se a codificação das variáveis, convertendo categorias em números e normalizando variáveis numéricas para uma escala comum, facilitando a análise pelos algoritmos de machine learning.

## **Limpeza de dados**

Começando a limpeza de dados, usa-se o método `info()`, da biblioteca pandas, que é muito útil para obter um resumo das informações de um DataFrame.

Utilizar o método `info()` é uma boa prática ao começar a limpeza de dados, pois ajuda a identificar problemas como valores ausentes e tipos de dados incorretos.

In [None]:
bd.info()

O método info() revelou que o DataFrame contém 100.820 entradas e 21 colunas, todas com dados não nulos, indicando ausência de valores faltantes. As colunas estão distribuídas entre tipos de dados int64 (10 colunas), object (10 colunas) e float64 (1 coluna), com uma utilização de memória de aproximadamente 16.2 MB.

A ausência de dados faltantes no DataFrame é um fator positivo significativo para o processo de limpeza de dados, uma vez que elimina a necessidade de realizar etapas de tratamento de valores ausentes, como imputação ou remoção de linhas e colunas.

Com a ausência de dados faltantes, o próximo passo é remover os dados duplicados do banco de dados, para isso utiliza-se o método `drop_duplicates()`, usando o argumento keep='first' para manter a primeira aparição do dado. Dessa forma, evita-se a distorção dos resultados, assegurando que cada observação contribua apenas uma vez na análise, o que melhora a precisão dos modelos de machine learning e reduz o tempo de processamento, mantendo a integridade do dataset. Porém, anteriormente à utilização desse comando, vamos visualizar a quantidade de linhas duplicadas no banco de dados, para isso utilizaremos o comando ``.duplicated().sum``:

In [None]:
print(bd.duplicated().sum(), 'linhas duplicadas')

Com isso, descobre-se que 342 linhas do banco de dados estão duplicadas e devem ser removidas:

In [None]:
duplicados = bd[bd.duplicated(keep='first')]
bd.drop_duplicates(keep='first', inplace=True)
bd.duplicated().sum()

Dessa forma, evita-se a distorção dos resultados, assegurando que cada observação contribua apenas uma vez na análise, o que melhora a precisão dos modelos de machine learning e reduz o tempo de processamento, mantendo a integridade do dataset.

### Padronização da codificação


Tendo sido removido os dados duplicados, agora deve-se empregar o método `.nunique()`, que contabiliza o número de valores distintos em cada coluna do DataFrame. Este procedimento é importatnte para avaliar a diversidade dos dados e identificar possíveis redundâncias ou valores atípicos, o que contribui para uma limpeza mais eficaz e uma análise subsequente mais precisa.

In [None]:
bd.nunique()

Ao aplicar esse método ao banco de dados, foram identificadas algumas discrepâncias que necessitam de atenção:

- **Descrições vs. Códigos**: Observou-se que há 1.242 descrições distintas, mas 1.265 códigos diferentes. Isso sugere que alguns códigos podem estar associados a descrições duplicadas ou que existem códigos sem uma descrição correspondente.

- **Nomes de Prestadores vs. Códigos de Identificação**: O banco de dados apresenta 1.356 nomes de prestadores únicos e 1.642 códigos de identificação distintos. Essa discrepância pode indicar que alguns prestadores estão vinculados a mais de um código ou que há códigos que não têm um prestador correspondente.

- **Nomes de Empresas vs. Códigos Identificadores**: Encontram-se apenas 3 nomes de empresas únicos, mas 6 códigos identificadores diferentes. Isso pode indicar a existência de múltiplos códigos para uma única empresa ou a presença de códigos identificadores sem uma empresa associada.

Para corrigir inconsistências entre descrições e códigos no banco de dados e garantir que cada descrição tenha apenas um código associado, utiliza-se a função `replace_codes`.

1. **Contagem de Códigos Únicos por Descrição:**
   Primeiro, a função agrupa os dados pela coluna que contém as descrições. Para cada grupo de descrições, ela conta quantos códigos únicos estão associados. Essa contagem ajuda a identificar se há descrições que têm múltiplos códigos diferentes associados a elas.

2. **Identificação de Descrições com Múltiplos Códigos:**
   A função então filtra e exibe as descrições que estão associadas a mais de um código. Essa etapa é importante para destacar quais descrições estão com problemas de consistência, mostrando aquelas que precisam ser revisadas e corrigidas.

3. **Determinação do Código Mais Frequente:**
   Para cada descrição, a função calcula qual código aparece com mais frequência. Ela faz isso agrupando novamente os dados pela descrição e, para cada grupo, identifica o código que mais aparece. Isso é feito através de uma contagem de frequência e seleção do código mais comum.

4. **Atualização dos Códigos no Banco de Dados:**
   Finalmente, a função substitui todos os códigos na coluna original pelo código mais frequente correspondente a cada descrição. Isso garante que todas as entradas com uma mesma descrição tenham o mesmo código, resolvendo as inconsistências identificadas e padronizando os dados.


In [None]:
def replace_codes(bd, descricao_column, codigo_column):
  repeticoes_descricoes = bd.groupby(descricao_column)[codigo_column].nunique()
  descricoes_com_multiplos_codigos = repeticoes_descricoes[repeticoes_descricoes > 1]
  print(descricoes_com_multiplos_codigos)

  codigo_mais_frequente = (
    bd.groupby(descricao_column)[codigo_column]
    .agg(lambda x: x.value_counts().idxmax())
  )
  bd[codigo_column] = bd[descricao_column].map(codigo_mais_frequente)



Com a função `replace_codes` criada, o próximo passo é utilizá-la para corrigir todas as discrepâncias no banco de dados, começando pela inconsistência entre a descrição do serviço e seu código associado. Após a aplicação da função, vamos verificar novamente as inconsistências utilizando o método `nunique()` para garantir que todas as correções foram efetivas.

In [None]:
replace_codes(bd, 'Descricao Servico Sinistro', 'Codigo Servico Sinistro')
bd[['Codigo Servico Sinistro','Descricao Servico Sinistro']].nunique()

As divergências entre as colunas 'Descrição Serviço Sinistro' e 'Código Servico Sinistro' foram corrigidas.

In [None]:
replace_codes(bd, 'Nome Empresa Sinistro', 'Codigo Empresa Sinistro')
bd[['Nome Empresa Sinistro','Codigo Empresa Sinistro']].nunique()

As divergências entre as colunas 'Nome Empresa Sinistro' e 'Código Empresa Sinistro' foram corrigidas.

In [None]:
replace_codes(bd, 'Nome Prestador Sinistro', 'Codigo Prestador')
bd[['Nome Prestador Sinistro','Codigo Prestador']].nunique()

Após a aplicação da função replace_codes nas colunas 'Nome Prestador Sinistro' e 'Codigo Prestador', observou-se um comportamento inesperado. Inicialmente, havia mais códigos do que nomes, mas após a correção, o número de códigos agora é menor do que o número de nomes. Isso sugere que, após a aplicação da função, há códigos associados a mais de um nome, em vez de nomes associados a mais de um código.

Para corrigir essa discrepância, aplicaremos a função novamente, desta vez invertendo as colunas:

In [None]:
replace_codes(bd, 'Codigo Prestador', 'Nome Prestador Sinistro')
bd[['Codigo Prestador','Nome Prestador Sinistro']].nunique()

Feito isso, todas inconformidades foram corrigidas.

### Correções de incongruências encontradas na Exploração

Durante a exploração de dados, o uso do método `.nunique()` permitiu a revisão de gráficos e a identificação de inconsistências que foram efetivamente corrigidas. No entanto, essa análise também revelou a presença de colunas que contêm apenas um valor em todas as suas linhas. Essas colunas não são úteis para um modelo preditivo, pois não fornecem variação ou informações adicionais. Portanto, é importante removê-las para otimizar a análise e melhorar o desempenho do modelo.

Para remover essas colunas irrelevantes, utiliza-se o método `drop()` do Pandas, que permite excluir colunas específicas de um _DataFrame_, limpando-o de dados redundantes e focando apenas nas informações relevantes para a análise.

In [None]:
colunas_com_valor_unico = ['Apolice Sinistro', 'Valor Usuario Sinistro','Codigo Grupo Empresa', 'Nome Grupo Empresa']
bd.drop(columns=colunas_com_valor_unico, inplace=True)


Além da existência dessas colunas de valores únicos, surgem alguns questionamentos a partir do método `nunique()`. Sabe-se que apenas duas unidades da Unipar estão sendo levadas em conta neste gráfico; entretanto, na coluna "Nome Empresa Sinistro", constam três nomes e códigos diferentes. Devido a essa incoerência, deve-se realizar uma investigação utilizando o método `unique()`, que mostra todos os valores únicos de uma determinada coluna do banco de dados.

In [None]:
bd['Nome Empresa Sinistro'].unique()

In [None]:
bd['Codigo Empresa Sinistro'].unique()

Além disso, durante que um erro de digitação resultou na separação de dois valores que deveriam ser iguais. Portanto, há a necessidade de padronizar e unificar os dados correspondentes.

In [None]:
bd['Nome Empresa Sinistro'] = bd['Nome Empresa Sinistro'].replace('UNIPAR INDUPA DO BRASIL S.A.', 'UNIPAR INDUPA DO BRASIL S.A')

bd[['Nome Empresa Sinistro','Codigo Empresa Sinistro']].nunique()

Para além dessa correção, nota-se que na coluna 'Elegibilidade Sinistro', aparecem três valores únicos. Porém, visualmente, ao olhar o banco de dados, vê-se apenas duas elegibilidades: Titulares e dependentes. Assim, cabe investigar qual será o terceiro valor da coluna:

In [None]:
bd['Elegibilidade Sinistro'].unique()

Nota-se que há um terceiro valor: "agregado". Agora, é necessário analisar a presença desse valor no banco de dados para entender sua proporção em relação às outras categorias. Para isso, utiliza-se o método value_counts(), que conta a frequência de cada valor na coluna.

In [None]:
bd['Elegibilidade Sinistro'].value_counts()

A utilização desse método revela que a quantidade de sinistros classificados como "Agregado" é mínima, totalizando 83 linhas em um banco de dados com mais de 100.000 registros. Com essa informação, procede-se ao tratamento desse dado, substituindo-o pelo valor mais frequente, que é "Dependente".

In [None]:
bd['Elegibilidade Sinistro'] = bd['Elegibilidade Sinistro'].replace('AGREGADO', 'DEPENDENTE')
bd['Elegibilidade Sinistro'].unique()


Essa análise aprimora a compreensão da natureza do sinistro, identificando se ele pertence ao titular ou a uma pessoa associada, que no caso está agrupada como dependente.

### Tratamento de Outliers

O tratamento de outliers envolve identificar e lidar com valores que se desviam significativamente dos demais dados no dataset. Esses valores atípicos podem surgir por erros de medição ou variabilidade natural e, se não tratados, podem distorcer análises e modelos preditivos, como regressões e algoritmos sensíveis a distâncias.

Primeiro, será utilizado o boxplot, que é um gráfico onde são exibidas as distribuições de uma variável numérica, ajudando a estudar a simetria dos dados, facilitando a identificação de outliers, para visualizar a distribuição da variável "Valor Pago Sinistro" e identificar possíveis outliers no dataset. Essa ferramenta estatística resume a distribuição dos dados, destaca a mediana, os quartis e os valores extremos. Essa visualização facilita a detecção de outliers que se encontram fora dos limites interquartis, permitindo uma melhor compreensão da dispersão dos valores e a identificação de pontos que podem requerer tratamento adicional para evitar distorções nas análises subsequentes.



In [None]:
plt.figure(figsize=(10,5))
plt.boxplot(bd['Valor Pago Sinistro'], vert=False)
plt.title('Gráfico Boxplot - Identificando Outliers')
plt.xlabel('Valor Pago Sinistro')
plt.show()

Com base na visualização do gráfico, percebe-se que alguns valores se distanciam significativamente do padrão da maioria dos dados, sendo esses classificados como outliers. Para melhorar a qualidade da análise e obter uma distribuição mais representativa, é recomendável tratar esses valores atípicos.

Neste código, a técnica de winsorização será aplicada na coluna `Valor Pago Sinistro` do DataFrame `bd` para tratar esses outliers. A winsorização é uma técnica que substitui os valores extremos de um conjunto de dados por valores mais próximos dos limites definidos, reduzindo assim o impacto dos outliers. A partir da identificação desses outliers, são definidos os limites inferior e superior com base nos percentis 0.01% e 99.99%, utilizando o método `quantile`.

Em seguida, a função `clip` ajusta os valores da coluna para que fiquem dentro desses limites. Assim, valores abaixo do percentil inferior são elevados para o valor do percentil 0.01%, enquanto valores acima do percentil superior são reduzidos ao valor do percentil 99.99%. Esse processo visa minimizar o impacto dos outliers, tornando a análise dos dados mais robusta e confiável.

In [None]:
lower_quantile = bd['Valor Pago Sinistro'].quantile(0.0001)
upper_quantile = bd['Valor Pago Sinistro'].quantile(0.9999)

bd['Valor Pago Sinistro'] = bd['Valor Pago Sinistro'].clip(lower=lower_quantile, upper=upper_quantile)


Ao fazer isso, o range de valores é reduzido, permitindo que o padrão dos dados seja mantido e fornecendo uma visão mais precisa e coerente do comportamento típico dos sinistros.

Essa abordagem facilita a identificação de tendências e padrões mais consistentes nos dados, eliminando o impacto desproporcional dos outliers.

**Coluna Categoria**

Outra coluna numérica ordinal na base de dados é a 'Quantidade', que também apresenta outliers, assim como a coluna 'Valor Pago Sinistro'. Contudo, ainda é necessário entender melhor o significado dessa coluna e seu impacto potencial no modelo. Portanto, decidiu-se mantê-la inalterada por enquanto, a fim de aprofundar a compreensão sobre a natureza desses dados.

### Categorização dos Sinistros

Durante o processo de limpeza dos dados, foi identificado que a codificação dos sinistros seguia o padrão estabelecido pela tabela TUSS. Essa padronização é valiosa, pois facilita a busca de relações entre os códigos e permite uma categorização mais refinada dos tipos de descrição.

Com base nessa oportunidade, foram exploradas e incorporadas duas tabelas adicionais que aprimoram ainda mais a categorização. Essas tabelas fornecem informações complementares e contribuem para uma análise mais detalhada e organizada dos sinistros, promovendo uma compreensão mais abrangente dos dados.

In [None]:
tuss = pd.read_csv('tuss.csv')
tuss.head()


A primeira ação a ser realizada com a nova base de dados é a separação das atividades médicas dos serviços associados à medicina, como fisioterapia e procedimentos odontológicos. Essa distinção permitirá uma organização mais clara e uma análise mais eficiente dos dados, facilitando a categorização e o processamento subsequente das informações.

In [None]:
servicos = ['FISIOTERAPIA', 'PSICOLOGIA','NUTRIÇÃO', 'FONOAUDIOLOGIA', 'TERAPIA OCUPACIONAL', 'OUTROS SERVIÇOS', 'ENFERMAGEM', 'PROCEDIMENTOS ODONTOLÓGICOS']
tuss_servicos = tuss[tuss['categoria'].isin(servicos)]
tuss = tuss[~tuss['categoria'].isin(servicos)]

Essa separação resultou em duas tabelas distintas, armazenadas nas variáveis tuss e tuss_servicos. A tabela tuss contém os procedimentos médicos, enquanto a tabela tuss_servicos abrange os serviços associados à medicina.

Com a separação concluída, inicia-se o processo de categorização dos serviços médicos. Primeiramente, é necessário converter os valores das colunas 'Codigo Servico Sinistro' do banco de dados principal e 'codigo' do banco de dados tuss para o formato de string.

Dado que a padronização de categorização é feita com base nos 5 primeiros algarismos da string, esses 5 algarismos serão extraídos e adicionados a uma nova coluna chamada codigo_prefixo.

Com isso feito, utiliza-se o método `.merge()` do pandas para combinar as duas tabelas com base na nova coluna codigo_prefixo. Esse método realiza uma junção entre os dataframes, permitindo que se associe cada entrada da tabela principal com a tabela tuss usando o prefixo do código como chave de correspondência.

O método `.merge()` do pandas é altamente versátil e pode ser configurado para realizar diferentes tipos de junções, como junção interna (inner join), junção externa (outer join), junção à esquerda (left join) ou junção à direita (right join). No contexto desta operação, utiliza-se uma junção à esquerda (left join).

In [None]:
bd['Codigo Servico Sinistro'] = bd['Codigo Servico Sinistro'].astype(str)
tuss['codigo'] = tuss['codigo'].astype(str)
bd['codigo_prefixo'] = bd['Codigo Servico Sinistro'].str[:5]
tuss['codigo_prefixo'] = tuss['codigo'].str[:5]


bd = pd.merge(bd, tuss[['codigo_prefixo', 'categoria']], on='codigo_prefixo', how='left')
bd.head(3)

Com a utilização do método `.merge()`, foi possível adicionar uma coluna chamada categoria ao dataframe, a qual fornece uma categorização para os sinistros com base nos dados da tabela tuss. No entanto, ainda é necessário incorporar as categorias que não pertencem estritamente à medicina, mas que estão associadas a ela. Essas categorias estão presentes na tabela tuss_servicos.

Para realizar essa adição, o próximo passo é combinar o dataframe resultante da junção anterior com a tabela tuss_servicos. Isso permitirá que as categorias associadas, como fisioterapia e procedimentos odontológicos, sejam integradas ao dataframe final.

Para isso utiza-se o seguinte código para realizar a integração das categorias de serviços associados aos sinistros através de um processo estruturado. Nesse código, o método `.merge()` é utilizado para combinar o dataframe `bd` com `tuss_servicos`, com base na correspondência entre as colunas `Codigo Servico Sinistro` (do `bd`) e `codigo` (do `tuss_servicos`). A junção é feita com a opção `how='left'`, o que preserva todas as entradas do dataframe `bd` e adiciona apenas as correspondências da tabela `tuss_servicos`.

Após a junção, surgem as colunas `categoria_x` e `categoria_y` no dataframe resultante. Essas colunas são geradas porque ambos os dataframes possuem uma coluna chamada `categoria`. Para distinguir a origem dos dados, o pandas adiciona os sufixos `_x` e `_y`: `categoria_x` refere-se à coluna `categoria` do dataframe `bd`, enquanto `categoria_y` refere-se à coluna `categoria` do dataframe `tuss_servicos`. A nova coluna `categoria` no dataframe `bd` é então preenchida utilizando a função `combine_first()`, que prioriza os valores da coluna `categoria_x` e preenche com os valores da coluna `categoria_y` somente quando `categoria_x` está ausente.

In [None]:
tuss_servicos['codigo'] = tuss_servicos['codigo'].astype(int).astype(str)
df_merged = pd.merge(bd, tuss_servicos, left_on='Codigo Servico Sinistro', right_on='codigo', how='left')
bd['categoria'] = df_merged['categoria_x'].combine_first(df_merged['categoria_y'])
bd.head()

Por fim, ainda sobraram alguns códigos sem categoria definida, a princípio, esses códigos serão enquadrados na categoria 'OUTROS'. Para a correção utiliza-se a função ```fillna()``` do pandas, que preenche as linhas com o valor NaN com um valor deterteminado, que no caso foi o "OUTROS".

In [None]:
bd['categoria'] = bd['categoria'].fillna('OUTROS')

In [None]:
bd.head()

Com todas as categorias da tabela definidas, é possível remover as linhas que contêm categorias que aparecem apenas uma vez. Isso é justificável, pois o modelo a ser desenvolvido busca identificar padrões entre os sinistros, e categorias que ocorrem uma única vez podem ser consideradas exceções, não contribuindo de forma relevante para o modelo.

In [None]:
bd = bd[bd['categoria'].map(bd['categoria'].value_counts()) > 1]
bd['categoria'].value_counts()

### Padronização e Boas Práticas

Para facilitar a manipulação dos dados, aplicaremos técnicas de boas práticas na nomeação das colunas. Utilizaremos o método snake_case, que padroniza a nomeação em letras minúsculas, separadas por underlines (_), além de padronizar os títulos no singular.

In [None]:
bd.columns

In [None]:
bd.columns = ['codigo_empresa_sinistro', 'nome_empresa_sinistro', 'segurado',
       'codigo_especialidade_sinistro', 'elegibilidade_sinistro',
       'sexo_colaborador_sinistro', 'faixa_etaria_colaborador_sinistro',
       'descricao_plano_sinistro', 'codigo_servico_sinistro',
       'descricao_servico_sinistro', 'tipo_utilizacao_sinistro',
       'data_ocorrencia_sinistro', 'codigo_prestador', 'nome_prestador_sinistro',
       'valor_pago_sinistro', 'quantidade', 'ano_mes', 'codigo_prefixo','categoria']
bd.columns

## Transformação de Colunas

A transformação de dados é uma etapa dentro do processamento de dados, onde as variáveis são modificadas para se tornarem adequadas para análise e modelagem. Isso pode incluir a normalização ou padronização de variáveis numéricas, ajustando-as para uma escala comum, o que é importante para algoritmos que dependem de comparações de magnitude. A codificação de variáveis categóricas, como transformar categorias de texto em valores numéricos, é outra parte importante desse processo.

In [None]:
bd.info()

As variáveis categóricas são aquelas que contêm valores qualitativos e precisam ser convertidas em um formato numérico para que os algoritmos de machine learning possam processá-las. A codificação assegura que as variáveis categóricas sejam compreendidas pelos modelos de forma adequada.

Para identificar variáveis categóricas no DataFrame, é necessário distinguir entre diferentes tipos de dados, já que os algoritmos de machine learning geralmente requerem que todas as variáveis estejam em formato numérico. Para isso será usado o método `select_dtypes` para selecionar todas as colunas do DataFrame que são do tipo object, que normalmente indica dados textuais ou categóricos.

In [None]:
categorical_columns = bd.select_dtypes(include=['object']).columns

print("Variáveis categóricas identificadas:")
print(categorical_columns)

As variáveis numéricas são aquelas que representam quantidades e podem assumir valores contínuos ou discretos. Para que modelos de machine learning possam processar essas variáveis de maneira eficaz, é fundamental garantir que elas estejam no formato correto e preparadas para análise. Ao contrário das variáveis categóricas, as variáveis numéricas geralmente não necessitam de codificação complexa, mas podem requerer processamento adicional, como normalização ou padronização, para assegurar que estejam na mesma escala.

Para identificar e preparar variáveis numéricas em um DataFrame, é necessário distinguir entre diferentes tipos de dados. O primeiro passo para preparar variáveis numéricas é identificar quais colunas no seu DataFrame são do tipo numérico. Isso permite saber exatamente com quais variáveis trabalhar e quais tipos de processamento podem ser necessários.

In [None]:
# Selecionar variáveis numéricas do DataFrame

numerical_columns = bd.select_dtypes(include=['int64', 'float64']).columns

print("Variáveis numéricas identificadas:")
print(numerical_columns)

### Codificação das Variáveis Categóricas




Com as variáveis categóricas identificadas para determinar a técnica de codificação adequada, é essencial identificar a natureza de cada variável. As variáveis categóricas podem ser classificadas como nominais ou ordinais. Variáveis nominais não possuem uma ordem específica entre seus valores, como nomes de empresas ou descrições de serviços. Já variáveis ordinais têm uma ordem ou hierarquia implícita, como faixas etárias ou classificações.

A começar pela primeira variável categórica 'nome_empresa_sinistro' o primeiro passo é explorar para entender melhor a distribuição dos valores e como codificá-la.



In [None]:
bd['nome_empresa_sinistro'].unique()

Para a variável que possui duas categorias distintas, foi escolhida a codificação binária, uma técnica apropriada para lidar com variáveis categóricas de duas classes. Essa codificação transforma os valores categóricos em 0 e 1, o que simplifica a interpretação pelo modelo de machine learning e contribui para a simplicidade do modelo. Isso assegura que a variável seja representada de forma eficiente para que o modelo possa utilizá-la diretamente na predição, mantendo uma conexão clara entre a entrada (como o nome da empresa) e a saída desejada (resultado preditivo).

Para aplicar a codificação binária à variável `nome_empresa_sinistro`, é necessário definir um mapeamento que converta os valores categóricos em valores numéricos binários. Neste caso, os valores 'UNIPAR CARBOCLORO S.A' e 'UNIPAR INDUPA DO BRASIL S.A' são mapeados para 0 e 1, respectivamente. Essa codificação pode ser implementada utilizando a função `map()` do Pandas, que substitui os valores da coluna original pelos valores numéricos definidos no mapeamento.

In [None]:
# Definir o mapeamento
mapeamento_nome_empresa = {
    'UNIPAR CARBOCLORO S.A': 0,
    'UNIPAR INDUPA DO BRASIL S.A': 1
}

# Aplicar o mapeamento à coluna 'nome_empresa_sinistro'
bd['nome_empresa_sinistro'] = bd['nome_empresa_sinistro'].map(mapeamento_nome_empresa)

In [None]:
bd['nome_empresa_sinistro'].unique()

A saída array indica que a coluna nome_empresa_sinistro foi codificada corretamente utilizando a codificação binária. Os valores únicos 0 e 1 representam as duas categorias distintas presentes na coluna original, que foram convertidas para uma representação numérica binária.

Dessa mesma forma, as próximas variáveis numéricas serão codificadas.

In [None]:
# Verificar valores únicos da coluna 'elegibilidade_sinistro'
print(bd['elegibilidade_sinistro'].unique())


A variável elegibilidade_sinistro contém dois valores categóricos: 'TITULAR' e 'DEPENDENTE'. Para convertê-los em uma representação numérica adequada para análise, vai ser adotada a codificação binária.

In [None]:
# Definir o mapeamento para a codificação binária
mapeamento_elegibilidade = {
    'TITULAR': 0,
    'DEPENDENTE': 1
}

# Aplicar a codificação binária
bd['elegibilidade_sinistro'] = bd['elegibilidade_sinistro'].map(mapeamento_elegibilidade)

In [None]:
# Verificar os valores únicos após a codificação
bd['elegibilidade_sinistro'].unique()


Prosseguindo para a próxima variável categórica: sexo_colaborador_sinistro.

In [None]:
# Verificar valores únicos
print(bd['sexo_colaborador_sinistro'].unique())

 Os valores únicos da variável foram identificados, resultando em 'M' e 'F'.

In [None]:
# Criar o mapeamento
mapeamento_sexo = {'M': 0, 'F': 1}

# Aplicar o mapeamento
bd['sexo_colaborador_sinistro'] = bd['sexo_colaborador_sinistro'].map(mapeamento_sexo)

Optou-se pela codificação binária, uma vez que a variável possui apenas duas categorias. Esta abordagem foi escolhida para simplificar o modelo, evitando a criação de múltiplas colunas adicionais.

A variável foi transformada em uma coluna com valores binários, onde 'M' foi mapeado para 0 e 'F' para 1.

In [None]:
# Verificar a transformação
print(bd['sexo_colaborador_sinistro'].unique())

*Abaixo encontra-se uma célula que exporta o dataframe que será utilizado no notebook `sprint4_model_comparison_and_tuning`*

In [None]:
bd.to_csv('bd_cleaned.csv', index = False)

A próxima variável a ser codificada é faixa_etaria_colaborador_sinistro.

In [None]:
# Identificar valores únicos da variável faixa_etaria_colaborador_sinistro
valores_unicos = bd['faixa_etaria_colaborador_sinistro'].unique()
print(valores_unicos)

 A variável `faixa_etaria_colaborador_sinistro` possui várias categorias distintas, como '59 anos ou mais', '49 a 53 anos', e assim por diante. Essas categorias representam intervalos de idade e não têm uma ordem numérica implícita ou hierárquica que poderia ser utilizada para criar uma ordem ordinal. Portanto, cada categoria é tratada como uma entidade separada.

Se utilizássemos codificação binária (como 0 e 1), estaríamos assumindo uma relação ordinal entre as faixas etárias, o que não é apropriado neste caso. A codificação binária poderia induzir o modelo a interpretar uma ordem entre as faixas etárias que não existe de fato. Por exemplo, '19 a 23 anos' não é de fato menor ou maior que '24 a 28 anos' em um sentido ordinal relevante para a análise.

Com o **one-hot encoding**, cada faixa etária é representada por uma coluna binária separada. Isso garante que o modelo não faça suposições sobre a relação entre as categorias e que cada faixa etária seja tratada como uma característica independente. Isso é crucial para evitar qualquer tipo de interpretação errônea dos dados pelo modelo.

Portanto, a escolha do one-hot encoding para a variável `faixa_etaria_colaborador_sinistro` é fundamentada na necessidade de representar categorias não ordinais de forma clara e não ambígua. Isso garante que o modelo interprete cada faixa etária individualmente e não faça suposições incorretas sobre sua ordem ou relacionamento.

In [None]:
# Aplicar One-Hot Encoding na variável 'faixa_etaria_colaborador_sinistro'
faixa_etaria_encoded = pd.get_dummies(bd['faixa_etaria_colaborador_sinistro'], prefix='faixa_etaria')

# Converter os valores True/False para 0/1
faixa_etaria_encoded = faixa_etaria_encoded.astype(int)

# Adicionar as colunas codificadas ao DataFrame
bd = pd.concat([bd, faixa_etaria_encoded], axis=1)


Este código realiza a codificação One-Hot da variável categórica `'faixa_etaria_colaborador_sinistro'`, criando colunas binárias correspondentes a cada faixa etária. Após a codificação, os valores resultantes, inicialmente representados como `True` e `False`, são convertidos para `0` e `1`, garantindo uma representação binária adequada. Em seguida, as novas colunas codificadas são adicionadas ao DataFrame original, e a coluna original é removida, uma vez que suas informações já foram transformadas.

In [None]:
bd.columns

A variável foi corretamente codificada utilizando one-hot encoding, resultando em dez novas colunas no DataFrame, cada uma representando uma faixa etária específica.

Partindo para a variável descricao_plano_sinistro:

In [None]:
print(bd['descricao_plano_sinistro'].unique())

A saída indica que a variável descricao_plano_sinistro possui um número limitado de categorias distintas. Nesse caso, a One-Hot Encoding é uma opção adequada para codificar a variável, pois permite representar cada categoria de forma binária sem criar uma hierarquia implícita entre elas.

In [None]:
# Aplicar One-Hot Encoding na variável 'descricao_plano_sinistro'
descricao_plano_encoded = pd.get_dummies(bd['descricao_plano_sinistro'], prefix='descricao_plano')

# Converter os valores True/False para 0/1
descricao_plano_encoded = descricao_plano_encoded.astype(int)

# Adicionar as colunas codificadas ao DataFrame
bd = pd.concat([bd, descricao_plano_encoded], axis=1)


In [None]:
bd.columns

A aplicação da codificação One-Hot Encoding na variável descricao_plano_sinistro foi concluída com sucesso. A variável foi transformada em várias colunas binárias, representando cada uma das categorias distintas originais.

A próxima variável é codigo_servico_sinistro.



In [None]:
# Verificar valores únicos
bd['codigo_servico_sinistro'].unique()

In [None]:
bd['codigo_servico_sinistro'].head(10)

A variável `codigo_servico_sinistro` não será codificada de outra forma, pois já está codificada de acordo com a TUSS (Terminologia Unificada da Saúde Suplementar). A TUSS é uma tabela padronizada utilizada no Brasil para a classificação e codificação de procedimentos, serviços e diagnósticos no setor de saúde suplementar.

Nesse contexto, a `codigo_servico_sinistro` contém códigos que representam de forma única e padronizada os diferentes tipos de serviços. Como esses códigos já estão em um formato numérico e padronizado conforme a TUSS, não é necessário aplicar técnicas adicionais de codificação. A codificação existente é suficiente para representar as categorias de serviço de maneira adequada e consistente com a terminologia padronizada utilizada na área da saúde.

A próxima variável, `descricao_servico_sinistro`, também segue essa mesma lógica

In [None]:
# Verificar valores únicos
bd['codigo_servico_sinistro'].unique()

Como a variável `codigo_servico_sinistro` já está codificada de acordo com a TUSS (Tabela Unificada de Saúde Suplementar), que traduz descrições textuais em códigos numéricos, a variável `descricao_servico_sinistro` não precisa de codificação adicional. A codificação do código de serviço já representa a informação necessária de forma eficiente, tornando redundante a codificação da descrição textual correspondente.

Dessa forma, é hora de codificar a variável `tipo_utilizacao_sinistro`

In [None]:
bd['tipo_utilizacao_sinistro'].unique()

A variável `tipo_utilizacao_sinistro` possui dois valores únicos: 'REDE' e 'REEMBOLSO'. Com apenas duas categorias, a codificação binária (ou codificação de rótulo) é adequada e eficiente.

In [None]:
# Aplicar Codificação Binária na variável 'tipo_utilizacao_sinistro'
bd['tipo_utilizacao_sinistro'] = bd['tipo_utilizacao_sinistro'].map({'REDE': 0, 'REEMBOLSO': 1})

In [None]:
bd['tipo_utilizacao_sinistro'].unique()

A saída array([0, 1]) indica que a codificação foi aplicada corretamente. A variável tipo_utilizacao_sinistro foi convertida para valores binários, onde 'REDE' é representado por 0 e 'REEMBOLSO' por 1.

Em seguida, `data_ocorrencia_sinistro` representa datas e pode precisar ser transformada para facilitar a análise.

Em vez de trabalhar com uma coluna de data completa, que pode ser mais difícil de interpretar diretamente para alguns modelos, dividir a data em componentes mais granulares permite que a informação seja utilizada de forma mais flexível e eficiente. Essa decomposição pode ajudar a revelar padrões e tendências que estão associados a períodos específicos, além de facilitar a inclusão desses componentes em modelos preditivos.



Primeiro, é preciso garantir que a coluna de data esteja no formato correto

In [None]:
# Verificar os primeiros valores da coluna original
print(bd['data_ocorrencia_sinistro'].head(10))

Esse código exibiu os primeiros 10 valores da coluna data_ocorrencia_sinistro. O objetivo é visualizar o formato das datas presentes na coluna e garantir que o formato das datas está correto para a conversão subsequente. Neste caso, as datas estão no formato DD/MM/YYYY.

In [None]:
print(bd['data_ocorrencia_sinistro'].head(10))

In [None]:
# Converter a coluna 'data_ocorrencia_sinistro' para o formato datetime especificando o formato
bd['data_ocorrencia_sinistro'] = pd.to_datetime(bd['data_ocorrencia_sinistro'], format='%d/%m/%Y', errors='coerce')

A opção `format='%d/%m/%Y'` especifica que as datas estão no formato dia/mês/ano, o que garante que a conversão seja feita corretamente. A opção `errors='coerce'` transforma entradas que não correspondem ao formato especificado em NaT (Not a Time), o que ajuda a identificar e tratar possíveis dados inválidos.

In [None]:
bd['ano_ocorrencia'] = bd['data_ocorrencia_sinistro'].dt.year
bd['mes_ocorrencia'] = bd['data_ocorrencia_sinistro'].dt.month
bd['dia_ocorrencia'] = bd['data_ocorrencia_sinistro'].dt.day

O código acima extrai os componentes de ano, mês e dia da coluna data_ocorrencia_sinistro e os armazena em novas colunas chamadas ano_ocorrencia, mes_ocorrencia e dia_ocorrencia, respectivamente. Utilizando o método dt do pandas, que permite acessar atributos de data e hora, o código transforma a coluna original em três variáveis distintas.

In [None]:
print(bd[['ano_ocorrencia', 'mes_ocorrencia', 'dia_ocorrencia']].head(10))

In [None]:
bd['ano_ocorrencia'].unique()

O array [2023, 2024] indica que os anos presentes na coluna data_ocorrencia_sinistro são apenas 2023 e 2024. Isso sugere que todas as datas foram corretamente convertidas para anos e que não há anos fora desse intervalo.

In [None]:
bd['mes_ocorrencia'].unique()

Esse array, mostra que todos os meses do ano estão representados. A presença de todos os números de 1 a 12 indica que a extração dos meses das datas foi feita corretamente e que a coluna `mes_ocorrencia` cobre todo o ano de forma abrangente.

In [None]:
bd['dia_ocorrencia'].unique()

O array com valores variados como [10, 17, 15, 19, 4, ...] demonstra que os dias extraídos são consistentes com os dias válidos do calendário. A diversidade dos valores sugere que a extração dos dias também foi realizada corretamente, sem indicar problemas de conversão.

A próxima variável a ser codificada é `nome_prestador_sinistro`.

In [None]:
# Verificar os valores únicos na coluna 'nome_prestador_sinistro'
print(bd['nome_prestador_sinistro'].unique())

In [None]:
# Contar o número de prestadores únicos
num_prestadores_unicos = bd['nome_prestador_sinistro'].nunique()
print(f"Número de prestadores únicos: {num_prestadores_unicos}")

Para a variável `nome_prestador_sinistro`, que possui 1.349 prestadores únicos, o uso de Label Encoding é o mais adequado. Isso porque essa técnica atribui um número inteiro a cada categoria, o que ajuda a manter a simplicidade do DataFrame sem criar um grande número de colunas adicionais, como ocorreria com One-Hot Encoding. Além disso, como o objetivo é codificar uma variável categórica com muitas categorias distintas, o Label Encoding facilita a transformação da variável em um formato numérico sem perder a representatividade das categorias originais.

In [None]:
# Instanciar o LabelEncoder
label_encoder = LabelEncoder()

# Aplicar o Label Encoding na coluna 'nome_prestador_sinistro'
bd['nome_prestador_sinistro'] = label_encoder.fit_transform(bd['nome_prestador_sinistro'])

Este código irá transformar cada nome de prestador em um número inteiro, mantendo a variável no DataFrame original bd. O próximo passo é verificar se a codificação foi feita corretamente, conferindo as primeiras linhas da coluna codificada ou os valores únicos gerados.

In [None]:
# Verificar os valores únicos da coluna codificada
print(bd['nome_prestador_sinistro'].unique())

In [None]:
# Contar o número de prestadores únicos
num_prestadores_unicos = bd['nome_prestador_sinistro'].nunique()
print(f"Número de prestadores únicos: {num_prestadores_unicos}")

As saídas mostram que a codificação da coluna nome_prestador_sinistro foi realizada com sucesso, convertendo os nomes dos prestadores em números inteiros únicos. A verificação revelou 1349 prestadores distintos, confirmando que o número de categorias únicas foi mantido após a aplicação do Label Encoding.

Por fim, faltam duas variáveis, `codigo_prefixo` e `categoria`

A coluna `codigo_prefixo` foi criada para identificar os prefixos dos códigos de serviço, e essa identificação já é consistente com o padrão da TUSS. Além disso, a coluna `categoria` foi preenchida com base na correspondência com a tabela TUSS e, posteriormente, com a tabela tuss_servicos, que inclui categorias adicionais associadas aos serviços médicos. Dessa forma, ambas as colunas já estão adequadamente categorizadas e não necessitam de uma codificação adicional, pois a categorização fornecida pela tabela TUSS e suas complementações são suficientes para a análise dos dados.

**Conclusão**

Nesta seção, foram aplicadas diferentes técnicas de codificação para preparar as variáveis categóricas do dataset para análise e modelagem. A escolha dos métodos seguiu as características específicas de cada variável:

* **Codificação Binária:** Utilizada para variáveis com duas categorias distintas, como `nome_empresa_sinistro`, `elegibilidade_sinistro` e `sexo_colaborador_sinistro. Essa abordagem simplifica a representação, convertendo cada categoria em um valor binário (0 ou 1).

* **One-Hot Encoding:** Aplicado a variáveis com múltiplas categorias distintas, como `faixa_etaria_colaborador_sinistro` e `descricao_plano_sinistro`. Esse método cria colunas adicionais para cada categoria, evitando a introdução de ordens incorretas entre elas.

* **Label Encoding:** Escolhido para `nome_prestador_sinistro`, uma variável com alta cardinalidade. Essa técnica converte os valores em números inteiros, preservando a estrutura dos dados sem criar ordens artificiais.

* **Separação de Data:** A variável `data_ocorrencia_sinistro` foi dividida em três colunas: dia, mês e ano. Isso facilita a análise temporal e permite explorar padrões sazonais e anuais de forma mais detalhada.

* **Não Codificadas:** Algumas variáveis, como `codigo_servico_sinistro`, `descricao_servico_sinistro`, `codigo_prefixo` e `categoria`, foram mantidas em seu formato original. A codificação dessas variáveis não foi necessária pois já estavam adequadamente categorizadas com base em padrões existentes ou por suas características específicas.

### Codificação das Variáveis Numéricas



Com as variáveis identificadas anteriormente, no processo de codificação das variáveis numéricas, é importante destacar que as colunas `codigo_empresa_sinistro`, `segurado`, `codigo_especialidade_sinistro` e `codigo_prestador` já estão devidamente codificadas conforme necessário. Além disso, a variável `ano_mes`, que também é numérica, já foi tratada no contexto das variáveis categóricas, onde foi adequadamente convertida para categorias distintas. Com esses passos concluídos, as variáveis restantes a serem abordadas são `valor_pago_sinistro` e `quantidade`, que exigem uma análise mais detalhada para garantir a correta preparação dos dados para modelagem.

Com os outliers já tratados na seção 'Tratamento de Outliers', é possível prosseguir para a normalização ou padronização das variáveis numéricas, garantindo que todas as variáveis estejam em uma escala comparável e possam ser usadas efetivamente nos algoritmos de machine learning.

In [None]:
# Criar o histograma da coluna 'valor_pago_sinistro'
plt.figure(figsize=(10, 10))
plt.hist(bd['valor_pago_sinistro'].dropna(), bins=50, edgecolor='k', alpha=0.7, color='#008a26')
plt.title('Histograma de Valor Pago Sinistro')
plt.xlabel('Valor Pago')
plt.ylabel('Frequência')
plt.grid(True)
plt.show()

Com base na descrição revisada do histograma para a coluna `valor_pago_sinistro`, onde uma enorme maioria dos valores está concentrada entre 0 e 20.000 bem mais próximos de 0 e a frequência é muito alta nessa faixa. Isso é característico de muitas variáveis financeiras ou de valor onde poucos registros têm valores muito altos em comparação com a maioria.

Nesse caso, uma padronização usando a Escala Z-score é a escolha mais adequada. A padronização ajusta os dados para terem uma média de 0 e um desvio padrão de 1, o que ajuda a lidar com a alta concentração de valores baixos e valores extremos. Ao transformar os dados para uma escala comum, a padronização torna os dados menos sensíveis a essas variações extremas e a presença de valores atípicos.

A normalização por escalonamento linear, que ajusta os dados para uma faixa específica, como 0 a 1, não é ideal nesse caso devido à sua distribuição enviesada e presença de valores extremos. Em uma distribuição com muitos valores concentrados em uma faixa pequena e alguns valores muito altos, a normalização pode distorcer a análise ao comprimir os valores extremos e não representar adequadamente a dispersão dos dados. Isso pode levar a uma perda significativa de informação e afetar negativamente o desempenho dos modelos de machine learning.

In [None]:
media = bd['valor_pago_sinistro'].mean()
desvio_padrao = bd['valor_pago_sinistro'].std()

Primeiramente, foi determinado a média e o desvio padrão dos valores da coluna. Esses parâmetros são essenciais para o ajuste dos dados.

In [None]:
bd['valor_pago_sinistro'] = (bd['valor_pago_sinistro'] - media) / desvio_padrao

Em seguida, foi utilizada a fórmula de padronização para transformar os dados, ajustando os valores de forma que a média seja 0 e o desvio padrão seja 1.

Após a padronização, é necessário confirmar que a média dos valores padronizados está próxima de 0 e que o desvio padrão está próximo de 1. Utilizando os seguintes comandos para verificar:

In [None]:
print(bd['valor_pago_sinistro'].mean())
print(bd['valor_pago_sinistro'].std())

In [None]:
# Criar o histograma da coluna 'valor_pago_sinistro'
plt.hist(bd['valor_pago_sinistro'], bins=50, color='#008a26', edgecolor='k', alpha=0.7)
plt.title('Distribuição Padronizada do Valor Pago')
plt.xlabel('Valor Pago Padronizado')
plt.ylabel('Frequência')
plt.show()

Após a padronização, a maioria dos dados agora está concentrada entre 0 e 10. Isso é consistente com a transformação que a padronização faz, que é ajustar a escala dos dados para ter uma média de 0 e um desvio padrão de 1. Dados que antes tinham uma ampla gama agora são ajustados para uma faixa mais estreita.

A frequência ainda permanecendo alta, próxima de 100 mil, indica que a padronização não alterou o número de observações em diferentes faixas de valor, apenas ajustou a escala dos dados para um intervalo mais gerenciável.

O valor máximo agora é 40, que é consistente com a nova escala de padronização. Isso sugere que a padronização expandiu a escala para que valores extremos fossem ajustados para dentro de um intervalo mais gerenciável.

## Separação de titulares e dependentes

Foi compreendido que o principal foco do parceiro era entender a utilização dos sinistros por parte dos colaboradores da empresa. Dessa forma, a avaliação das colunas relacionadas aos titulares do plano tornou-se prioritária. Com isso em mente, o banco de dados foi dividido em duas tabelas: uma para os titulares e outra para os dependentes, visando segmentar a pesquisa e oferecer resultados mais eficazes para solucionar o problema real do cliente.

In [None]:
titulares = bd.loc[bd['elegibilidade_sinistro'] == 0]
dependentes = bd[bd['elegibilidade_sinistro'] == 1]

*Abaixo encontra-se uma célula que exporta o dataframe que será utilizado no notebook `sprint3_base_clustering`*

In [None]:
bd.to_csv('bd_table.csv', index=False)

In [None]:
titulares.to_csv('titulares.csv', index=False)

In [None]:
dependentes.to_csv('dependentes.csv', index=False)

# **Hipóteses**

## **Introdução**

A testagem de hipóteses é fundamental para uma análise de dados, capacitando os cientistas de dados a fazer inferências significativas sobre os dados (BHARATHI et al., 2023). Então, é a partir desta etapa que se faz possível extrair insights importantes em relação aos dados e às próximas ações.

Após o pré-processamento, que inclui o tratamento e a limpeza dos dados, são realizadas análises exploratórias para entender melhor o comportamento dos dados. A partir dessas análises, formulam-se hipóteses que guiam investigações mais aprofundadas, envolvendo desde plotagem de gráficos a cálculos matemáticos. Esse processo permite obter conclusões e interpretações mais precisas.

É importante ressaltar que as análises foram realizadas exclusivamente com os dados referentes a “titulares”, excluindo os dependentes, conforme solicitado pelo parceiro.


## **Hipótese 1: Mais sinistros são registrados durante o inverno (Junho, Julho, Agosto e Setembro).**

As pessoas ficam doentes com mais frequência durante o inverno (O GLOBO, 2022). Tendo conhecimento deste dado, é interessante interpretar como esse fenômeno se comporta dentro da população da Unipar, logo é esperado que mais sinistros sejam registrados durante o inverno.

Para esta análise é necessário gerar um novo *DataFrame* que realiza a contagem de uso de sinistro por mês/ano, utilizando as colunas “mes_ocorrencia” e “ano_ocorrencia”, dessa forma é possível realizar a plotagem de gráficos que exibirão a informação necessária para a validação da hipótese.
Após esta separação, é feita uma concatenação entre o mês e o ano, afim de se tornar o indice do gráfico e a ordenação dos valores, para que estejam ordenados de acordo com o que as datas crescem.

In [None]:
casos_por_mes = titulares.groupby(['mes_ocorrencia', 'ano_ocorrencia']).size().reset_index(name='counts')
casos_por_mes['mes/ano'] = casos_por_mes['mes_ocorrencia'].astype(str).str.zfill(2) + '/' + casos_por_mes['ano_ocorrencia'].astype(str)
casos_por_mes = casos_por_mes.sort_values(by=['ano_ocorrencia', 'mes_ocorrencia'])
casos_por_mes.head()

Utilizando a ferramenta do Matplotlib para plotagem de gráficos, é possível ter um feedback visual de como se comportam os casos de sinistralidade através dos meses, possibilitando enxergar possíveis picos de casos, por exemplo. Foi escolhido o gráfico de linha, afim de analisar a curva de crescimento ou queda dos dados de acordo com o tempo.

In [None]:
plt.figure(figsize=(10, 6))
plt.plot(casos_por_mes['mes/ano'], casos_por_mes['counts'], color='#008a26')
plt.xlabel('Meses')
plt.ylabel('Número de Casos')
plt.title('Número de Casos por Mês')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

Após analisar os dados, percebe-se que existe um pico de casos durante julho e agosto. Estes dois meses estão no meio do inverno, uma vez que existe este pico, a hipótese se mostra verdadeira.

## **Hipótese 2: A ocorrência da sinistralidade mensal possui pouca variância.**

Ao observar a curva no gráfico da hipótese 1 ("Número de Casos por Mês"), é possível perceber que grande parte dos dados tratados estão acima de 2500, existem valores muito abaixo, mas vale ressaltar que o plano foi implementado em fevereiro de 2023 e os dados que foram disponibilizados acabam no começo de junho de 2024, então existem alguns casos de outliers.

Para separar um novo DataFrame sem outliers, são definidas as condições em que se enquandram os outliers e então adiciona-se um operador de negação, tornando que a condição que procuramos é a contrária aos outliers, então é guardada em uma nova variavel, o DataFrame com as condições procuradas.

In [None]:
cond1 = ~((casos_por_mes['ano_ocorrencia'] == 2023) & (casos_por_mes['mes_ocorrencia'].isin([2, 3, 4])))
cond2 = ~((casos_por_mes['ano_ocorrencia'] == 2024) & (casos_por_mes['mes_ocorrencia'].isin([5, 6])))

casos_por_mes_tratado = casos_por_mes[cond1 & cond2]

O processo de plotagem do gráfico para esta hipótese é semelhante ao da hipótese 1, com a diferença que no caso desta análise foi optado pela utilização do gráfico de barras, por conta da maior facilidade para perceber os valores.

In [None]:
plt.figure(figsize=(10, 6))
plt.bar(casos_por_mes_tratado['mes/ano'], casos_por_mes_tratado['counts'], color='#008a26')
plt.xlabel('Meses')
plt.ylabel('Número de Casos')
plt.title('Número de Casos por Mês (Sem outliers)')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

Com os dados tratados, é possível observar uma pequena variação nos valores mensais, indicando que eles não diferem significativamente de um mês para outro.

Para validar a hipótese, o primeiro passo é calcular a média e o desvio padrão. Essas são duas medidas estatísticas bastante utilizadas para entender o comportamento de um conjunto de dados. A média representa o valor central dos acontecimentos, enquanto o desvio padrão mede a dispersão dos dados em relação à média. A variância, que é o que se deseja calcular, é obtida ao elevar o desvio padrão ao quadrado. Se o resultado da variância for maior que a média, isso indica uma alta variabilidade nos dados.

Para calcular a média, existe uma função do pandas que já calcula a média de uma coluna do DataFrame, a função em questão é a ```mean()```, e para o desvio padrão, o pandas também possui suporte, utilizando a função ```std()```.

In [None]:
media_por_mes = casos_por_mes_tratado['counts'].mean()
desvio_padrao = casos_por_mes_tratado['counts'].std()

print(f'Média de casos por mês: {media_por_mes}')
print(f'Desvio padrão de casos por mês: {desvio_padrao}')
print(f'Variância de casos por mês: {desvio_padrao**2}')

Neste caso, a variância é expressivamente maior que a média, o que leva à conclusão de que a hipótese é falsa. Embora a análise indique que a hipótese não se sustenta, os dados ainda apresentam uma certa normalidade, o que pode ser útil para futuras análises e gerar conclusões significativas.

Dado o comportamento normal dos dados, foi aplicada a técnica da distribuição normal para identificar a probabilidade mais alta de ocorrência dos casos. Para isso, calculou-se ranges da distruibção normal dos dados.

O calcúlo consiste em retirar n desvios padrões da média, a fim de entender quanto % dos dados aquela informação contempla.

In [None]:
print(f'Retirando um desvio padrão da média temos: {media_por_mes-desvio_padrao}')
print(f'Ou seja, acima de {media_por_mes-desvio_padrao} equivale a 84,13% dos valores')
print(f'E retirando dois desvios padrões da média temos: {media_por_mes-(2*desvio_padrao)}')
print(f'Ou seja, acima de {media_por_mes-(2*desvio_padrao)} equivale a 97,72% dos valores')

Sendo assim, com base no comportamento dos casos mensais, é possível concluir que se espera a ocorrência de pelo menos 2.650 casos, exceto em situações atípicas, como ocorreu em dezembro de 2023 e abril de 2024.

## **Hipótese 3: Em setembro, são registradas mais consultas em psicólogo.**

Dentre as descrições de sinistro identificadas, “sessão de psicoterapia individual por psicólogo” foi um dos tipos de sinistros mais recorrentes entre os titulares. Nesse sentido, foi desenvolvida a hipótese de que no mês de setembro, devido à campanha brasileira de prevenção ao suicídio — "Setembro Amarelo", ocorreriam mais registros de consultas em psicólogo.

Para visualização dos dados, foi gerado um gráfico de barras horizontais ("Distribuição de Sinistros por Serviço") que representa a distribuição dos diferentes serviços de sinistro que tiveram mais de 200 ocorrências de titulares. Cada barra no gráfico corresponde a uma descrição de sinistro específica, e o comprimento da barra indica o número total de registros para aquele serviço.

In [None]:
plt.figure(figsize=(10, 10))

# Filtrar as categorias com mais de 1000 ocorrências e ordena por contagem
filtered_order = titulares['descricao_servico_sinistro'].value_counts()[titulares['descricao_servico_sinistro'].value_counts() > 200].index
sns.countplot(data=titulares, y='descricao_servico_sinistro', order=filtered_order, color='#008a26')
plt.title('Distribuição de Sinistros por Serviço')
plt.xticks(rotation=0)
plt.show()

Esse tipo de visualização permite identificar facilmente quais serviços foram mais frequentemente utilizados, com destaque para serviços relacionados à saúde mental, como a 'sessão de psicoterapia individual por psicólogo', que aparece entre as categorias mais registradas.

Ainda, uma segunda investigação também foi abordada. O gráfico de barras apresentado abaixo ("Quantidade de Consultas com Psicólogos por Mês") mostra a quantidade de consultas com psicólogos por mês, conforme registrado nos dados de sinistros.

In [None]:
filtered_psico_df = titulares[titulares['descricao_servico_sinistro'].str.contains('psico', case=False, na=False)]
psico_por_mes = filtered_psico_df.groupby(['ano_ocorrencia', 'mes_ocorrencia']).size().reset_index(name='quantidade')
psico_por_mes['mes_ano'] = psico_por_mes.apply(lambda x: f"{x['mes_ocorrencia']:02d}/{x['ano_ocorrencia']}", axis=1)

# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(psico_por_mes['mes_ano'], psico_por_mes['quantidade'], color='#008a26')
plt.xticks(rotation=45, ha='right')

# Definir os rótulos do eixo x e y
plt.xlabel('Mês/Ano')
plt.ylabel('Quantidade de Ocorrências')
plt.title('Quantidade de Consultas com Psicólogos por Mês')

# Exibir o gráfico
plt.show()

Ao observar os dados, é possível perceber que, apesar das expectativas em torno do "Setembro Amarelo", o número de consultas com psicólogos não aumenta significativamente em setembro. Esse apontamento refuta a hipótese de que as consultas em psicologia aumentam no mês de conscientização sobre a importância da saúde mental.

No entanto, o gráfico revela um ponto positivo: em outubro, há um aumento notável nas consultas com psicólogos, em relação a setembro. Isso sugere que o impacto do Setembro Amarelo pode não se manifestar imediatamente, mas pode ter um efeito retardado, incentivando as pessoas a buscarem ajuda no mês seguinte.

Esse cenário aponta para uma oportunidade de melhoria nas campanhas de conscientização. Uma abordagem interessante seria investir em ações mais intensivas e bem consolidadas ao longo do mês de setembro, para que o impacto desejado ocorra dentro do período da campanha, além de ser sustentado nos meses subsequentes. Isso pode potencialmente aumentar a eficácia das iniciativas de promoção da saúde mental, garantindo que mais pessoas busquem o apoio necessário no momento em que a conscientização está em seu auge.

## **Hipótese 4: Os funcionários utilizam mais o plano a partir da segunda semana do mês.**

O parceiro informou que o plano utilizado pela Unipar é um plano de coparticipação. Nesse tipo de plano, os valores dos serviços são mais baixos em comparação com consultas sem convênio, e o custo é geralmente descontado diretamente na folha de pagamento (NOTREDAME INTERMÉDICA, 2023). Com base nisso, acredita-se que os funcionários tendem a começar a frequentar o médico apenas após a primeira semana do mês, período em que são descontadas as consultas realizadas no mês anterior, para evitar acumular custos adicionais.

Nesta análise, as semanas foram divididas considerando intervalos de 7 dias, utilizando a data da consulta para determinar a semana específica do mês. Para isso, foi desenvolvida uma função que retorna qual semana aquele dia pertence com base no raciocínio anterior; ela utiliza apenas o dia como parâmetro. Então, é adicionada a coluna 'semana_ocorrencia' no DataFrame dos titulares, e, em seguida, é criada uma nova variável com um DataFrame com as semanas e a quantidade de sinistralidade.

In [None]:
def categoriza_semana(dia):
    if dia <= 7:
        return 1
    elif dia <= 14:
        return 2
    elif dia <= 21:
        return 3
    else:
        return 4

titulares['semana_ocorrencia'] = titulares['dia_ocorrencia'].apply(categoriza_semana)
casos_por_semana = titulares.groupby('semana_ocorrencia').size().reset_index(name='counts')

O gráfico escolhido para esta análise é um gráfico de barras, que separa as semanas e indica a quantidade registrada em cada uma.

In [None]:
plt.figure(figsize=(9, 6))
plt.bar(casos_por_semana['semana_ocorrencia'], casos_por_semana['counts'], color='#008a26')
plt.xlabel('Semanas')
plt.ylabel('Número de Casos')
plt.title('Número de Casos por Semana')
plt.show()

Ao observar o gráfico, conclui-se que a hipótese é falsa, pois a segunda e a terceira semanas apresentam menos casos de uso do plano do que a primeira. No entanto, é importante destacar que na última semana do mês há uma diferença significativa em relação às outras semanas, o que sugere que os funcionários da Unipar tendem a procurar atendimento médico com mais frequência durante esse período.

# **Referências**

BIKAKIS, PAPASTEFANATOS, PAPAEMMANOUIL. Big Data Exploration, Visualization and Analytics. Disponível em: https://www.researchgate.net/profile/Nikos-Bikakis/publication/337747465_Big_Data_Exploration_Visualization_and_Analytics/links/5e208691a6fdcc10156f6663/Big-Data-Exploration-Visualization-and-Analytics.pdf?_sg%5B0%5D=started_experiment_milestone&origin=journalDetail&_rtd=e30%3D. Acesso em: 22 de ago. de 2024.

HARVARD, Libraries. Disponível em: https://cs50.harvard.edu/ap/2020/assets/pdfs/libraries.pdf. Acesso em: 23 de ago. de 2024

M. Bharathi, T. Aditya Sai Srinivas, K. Karthik Reddy, G. Sai Chand, & M. Pavan Kumar. (2024). Quantum Leap: Hypothesis Testing in Python's Data Universe. Recent Trends in Information Technology and Its Application, 7(1), 23–28. https://doi.org/10.5281/zenodo.10393801

NOTREDAME INTERMÉDICA. Como funciona a coparticipação em plano de saúde. Disponível em: https://www.gndi.com.br/blog-da-saude/como-funciona-a-coparticipacao-em-plano-de-saude. Acesso em: 29 de ago. de 2024.

O GLOBO. Por que ficamos mais doentes quando está frio? Novo estudo revela motivo biológico. Disponível em: https://oglobo.globo.com/saude/medicina/noticia/2022/12/por-que-ficamos-mais-doentes-quando-esta-frio-novo-estudo-revela-motivo-biologico.ghtml. Acesso em: 28 de ago. de 2024.

UNIVERSITY COLLEGE DUBLIN, Why Do Data Analysts Use Python? Disponível em: https://www.ucd.ie/professionalacademy/resources/why-do-data-analysts-use-python/#:~:text=Despite%20the%20vast%20range%20of,and%20impressive%20range%20of%20libraries. Acesso em: 23 de ago. de 2024.

VALUEHOST. Data visualization: o que é, como funciona e sua importância. Disponível em: https://www.valuehost.com.br/blog/data-visualization/. Acesso em: 30 de ago. de 2024.