# Análise de Custos de Saúde

## Problema / Situação


- Considerando que os custos de saúde têm aumentado muito e baixa qualidade de vida afetando a produtividade, as empresas buscam soluções de qualidade de vida que possam reduzir esses gastos em saúde(o plano de saúde é um benefício onde o reajuste anual é  baseado na utilização dos colaboradores). Com cada vez mais empresas usando a Wellbe é necessário garantir agilidade e acurácia no processo de população do banco de dados.


## Desafio
Realizar uma implementação completa dos dados, desde extração, transformação e carregamento dos dados para a construção de um dashboard.

## Extração dos Dados

- Importando a biblioteca pandas

In [1]:
import pandas as pd

- Lendo o arquivo base

In [2]:
df = pd.read_excel('Dados_Desafio.xlsx')

- Olhando as 15 primeiras linhas

In [3]:
df.head(15)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8
0,,,,,,,,,
1,,,,,,,,,
2,,,,,,,,,
3,,,,,,,,,
4,,,,,,,,,
5,,,,,,,,,
6,,,,,,,,,
7,,,,,,,,,
8,Listagem de Atestados,,,,,,,,
9,Empresa:,,,,,,,,


## Tratamendo dos dados

- Podemos ver que nossos dados começam apenas na linha 12, as linhas acima não tem informações relevantes, vamo retirar as 11 primeiras linhas do nosso dataframe:

In [4]:
df2 = df.drop(df.index[:12])

df2

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8
12,Código,Custo do afastamento,Identificação,Funcionário,Departamento,Data do Atestado,Especialidade,Motivo,Líder
13,1036743,204,,Anonimo 101,Gerente,29/05/2019,Exames,Exames,Sim
14,1036742,23,,Anonimo 1,ASSISTENTE DE IMPLANTACAO,23/05/2019,Neurologia pediátrica,Acompanhamento familiar,
15,1036741,228,,Anonimo 1,ASSISTENTE DE IMPLANTACAO,17/05/2019,,Consulta médica,
16,1036740,–-,,Anonimo 1,ASSISTENTE DE IMPLANTACAO,16/05/2019,Exames,Exames,
...,...,...,...,...,...,...,...,...,...
99,1037659,95.24,,Anonimo 21,ANALISTA SINISTROS I,04/06/2019,Oftalmologia,Acompanhamento familiar,
100,1027619,95.24,,Anonimo 21,ANALISTA SINISTROS I,13/03/2019,Pediatria,Acompanhamento familiar,
101,1036380,,,Anonimo 22,AUDITOR II,31/05/2019,Cardiologista,Exames,
102,1032392,99.16,,Anonimo 22,ANALISTA ESTUDOS E COTACAO I,23/04/2019,Odontologia,Consulta odontológica,


- Agora temos a primeira linha do dataframe com os nomes das colunas, mas queremos que elas sejam o cabeçalho do nosso dataframe, iremos também remover a coluna "Identificação", já que ela só tem valores nulos.

In [5]:
df2.columns = df2.iloc[0]  # Define os nomes das colunas com base na primeira linha

df2 = df2[1:] #remove a primeira linha que agora é o nome das colunas 

df2 = df2.drop('Identificação', axis=1) # Remove a coluna de identificação

df2.to_csv('dados_tratados.csv', index=False) # Salva o arquivo em csv


df2.head(15)

12,Código,Custo do afastamento,Funcionário,Departamento,Data do Atestado,Especialidade,Motivo,Líder
13,1036743,204,Anonimo 101,Gerente,29/05/2019,Exames,Exames,Sim
14,1036742,23,Anonimo 1,ASSISTENTE DE IMPLANTACAO,23/05/2019,Neurologia pediátrica,Acompanhamento familiar,
15,1036741,228,Anonimo 1,ASSISTENTE DE IMPLANTACAO,17/05/2019,,Consulta médica,
16,1036740,–-,Anonimo 1,ASSISTENTE DE IMPLANTACAO,16/05/2019,Exames,Exames,
17,1036739,22,Anonimo 1,ASSISTENTE DE IMPLANTACAO,06/05/2019,,Consulta médica,
18,1033172,205,Anonimo 1,ASSISTENTE DE IMPLANTACAO,24/04/2019,Pediatria,Acompanhamento familiar,
19,1032228,123,Anonimo 1,ASSISTENTE DE IMPLANTACAO,04/04/2019,Neurologia pediátrica,Acompanhamento familiar,
20,1030902,205,Anonimo 1,ASSISTENTE DE IMPLANTACAO,07/03/2019,Odontologia,Consulta odontológica,
21,1036621,321,Anonimo 2,TECNICO SEGUROS IV,21/05/2019,,,
22,1036749,99.8,Anonimo 114,Gerente,02/05/2019,,Consulta médica,Sim


- Agora que ja temos os nossos dados arrumados, vamos para uma análise mais profunda

- Vamos ler os dados salvos em csv

In [6]:
df_novo = pd.read_csv('dados_tratados.csv')

df_novo

Unnamed: 0,Código,Custo do afastamento,Funcionário,Departamento,Data do Atestado,Especialidade,Motivo,Líder
0,1036743,204,Anonimo 101,Gerente,29/05/2019,Exames,Exames,Sim
1,1036742,23,Anonimo 1,ASSISTENTE DE IMPLANTACAO,23/05/2019,Neurologia pediátrica,Acompanhamento familiar,
2,1036741,228,Anonimo 1,ASSISTENTE DE IMPLANTACAO,17/05/2019,,Consulta médica,
3,1036740,–-,Anonimo 1,ASSISTENTE DE IMPLANTACAO,16/05/2019,Exames,Exames,
4,1036739,22,Anonimo 1,ASSISTENTE DE IMPLANTACAO,06/05/2019,,Consulta médica,
...,...,...,...,...,...,...,...,...
86,1037659,95.24,Anonimo 21,ANALISTA SINISTROS I,04/06/2019,Oftalmologia,Acompanhamento familiar,
87,1027619,95.24,Anonimo 21,ANALISTA SINISTROS I,13/03/2019,Pediatria,Acompanhamento familiar,
88,1036380,,Anonimo 22,AUDITOR II,31/05/2019,Cardiologista,Exames,
89,1032392,99.16,Anonimo 22,ANALISTA ESTUDOS E COTACAO I,23/04/2019,Odontologia,Consulta odontológica,


- Depois de ler o novo csv, vamos usar a função "info" para saber os tipos de dados das colunas

In [7]:
df_novo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91 entries, 0 to 90
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Código                91 non-null     int64 
 1   Custo do afastamento  90 non-null     object
 2   Funcionário           91 non-null     object
 3   Departamento          89 non-null     object
 4   Data do Atestado      90 non-null     object
 5   Especialidade         75 non-null     object
 6   Motivo                85 non-null     object
 7   Líder                 8 non-null      object
dtypes: int64(1), object(7)
memory usage: 5.8+ KB


- Podemos ver que todas as colunas estão do tipo "object", vamos mudar a coluna "Data do Atestado" para o tipo datetime.

In [8]:
import numpy as np

# Removendo valores nulos

df_novo['Custo do afastamento'] = df_novo['Custo do afastamento'].replace("–-", np.nan)



# Transformando a coluna de data em datetime
df_novo['Data do Atestado'] = pd.to_datetime(df_novo['Data do Atestado'], dayfirst=True)


- Agora após tranformar o tipo das colunas vamos ver novamente como ficaram os tipos

In [9]:
df_novo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91 entries, 0 to 90
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Código                91 non-null     int64         
 1   Custo do afastamento  89 non-null     object        
 2   Funcionário           91 non-null     object        
 3   Departamento          89 non-null     object        
 4   Data do Atestado      90 non-null     datetime64[ns]
 5   Especialidade         75 non-null     object        
 6   Motivo                85 non-null     object        
 7   Líder                 8 non-null      object        
dtypes: datetime64[ns](1), int64(1), object(6)
memory usage: 5.8+ KB


- Agora vamos preencher a coluna de líderes seguindo o exemplo do desafio, temos líderes e todos os funcionários abaixo dele são seus liderados, até chegar no proximo lider que lidera quem está abaixo dele

In [10]:
df_novo.head(15)

Unnamed: 0,Código,Custo do afastamento,Funcionário,Departamento,Data do Atestado,Especialidade,Motivo,Líder
0,1036743,204.0,Anonimo 101,Gerente,2019-05-29,Exames,Exames,Sim
1,1036742,23.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-05-23,Neurologia pediátrica,Acompanhamento familiar,
2,1036741,228.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-05-17,,Consulta médica,
3,1036740,,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-05-16,Exames,Exames,
4,1036739,22.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-05-06,,Consulta médica,
5,1033172,205.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-04-24,Pediatria,Acompanhamento familiar,
6,1032228,123.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-04-04,Neurologia pediátrica,Acompanhamento familiar,
7,1030902,205.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-03-07,Odontologia,Consulta odontológica,
8,1036621,321.0,Anonimo 2,TECNICO SEGUROS IV,2019-05-21,,,
9,1036749,99.8,Anonimo 114,Gerente,2019-05-02,,Consulta médica,Sim


- Ex: Anonimo 101 é lider de todos até o anonimo 114, que é lider de todos abaixo dele até o anonimo 109

- Usaremos um script python para fazer o preenchimento do nome dos lideres em cada coluna dos liderados, facilitando assim a identificação do lider de cada funcionário.

In [11]:

# Preencha os valores em branco na coluna 'Líder' com 'Não'
df_novo['Líder'].fillna('Não', inplace=True)

# Itere pelas linhas do DataFrame e preencha os líderes

lider_atual = 'Não'
for index, row in df_novo.iterrows():
    if row['Líder'] == 'Sim':
        lider_atual = row['Funcionário']
    else:
        df_novo.at[index, 'Líder'] = lider_atual

# Salve o DataFrame com os líderes preenchidos
df_novo.to_csv('funcionarios_com_lideres.csv', index=False)


* Esse código em Python usando a biblioteca Pandas realiza o preenchimento dos valores em branco na coluna 'Líder' e atribui um líder com base na coluna 'Funcionário'. Vou explicar o código em detalhes:

1. `df_novo['Líder'].fillna('Não', inplace=True)`: Nesta linha, os valores em branco (NaN) na coluna 'Líder' são preenchidos com a string 'Não'. O parâmetro `inplace=True` indica que essa operação será feita no próprio DataFrame 'df_novo', ou seja, os valores em branco serão substituídos diretamente no DataFrame.

2. Em seguida, o código entra em um loop que itera por todas as linhas do DataFrame usando a função `iterrows()`. Essa função permite acessar cada linha do DataFrame uma a uma.

3. Dentro do loop, verifica-se se o valor da coluna 'Líder' na linha atual é igual a 'Sim'. Se for, significa que esta linha indica um novo líder. Nesse caso, a variável `lider_atual` é atualizada com o valor da coluna 'Funcionário' dessa linha.

4. Se o valor da coluna 'Líder' não for 'Sim', isso indica que o líder atual ainda é o mesmo da linha anterior, então a coluna 'Líder' é preenchida com o valor de 'lider_atual'.

5. Após a iteração por todas as linhas, o DataFrame 'df_novo' agora contém a coluna 'Líder' preenchida de acordo com a lógica especificada.



Esse código é útil quando você deseja preencher uma coluna com base em uma lógica específica, como atribuir líderes com base na presença do valor 'Sim' na coluna 'Líder'. Certifique-se de que seus dados originais estejam corretamente carregados no DataFrame 'df_novo' antes de executar esse código.

- Vamos analisar novamente como ficou nosso dataframe.

In [12]:

df_novo.head()

Unnamed: 0,Código,Custo do afastamento,Funcionário,Departamento,Data do Atestado,Especialidade,Motivo,Líder
0,1036743,204.0,Anonimo 101,Gerente,2019-05-29,Exames,Exames,Sim
1,1036742,23.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-05-23,Neurologia pediátrica,Acompanhamento familiar,Anonimo 101
2,1036741,228.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-05-17,,Consulta médica,Anonimo 101
3,1036740,,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-05-16,Exames,Exames,Anonimo 101
4,1036739,22.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-05-06,,Consulta médica,Anonimo 101


- Podemos ver que as linhas foram preenchidas corretamento com o nome de cada líder

- Vamos investigar se existem outliers no nosso dataframe, primeiro precisamos mudar a coluna "Custo do Afastamento" para float já que se trata de números e valores.

In [13]:
df_novo['Custo do afastamento'] = df_novo['Custo do afastamento'].str.replace(',', '.').astype(float)

- Agora vamos calcular os quartis da coluna 'Custo do afastamento' definindo limites inferiores e superiores.

In [14]:

# Calcule os quartis
q1 = df_novo['Custo do afastamento'].quantile(0.25)
q3 = df_novo['Custo do afastamento'].quantile(0.75)

# Calcule o IQR (intervalo interquartil)
iqr = q3 - q1

# Calcule os limites para identificar outliers
limite_inferior = q1 - 1.5 * iqr
limite_superior = q3 + 1.5 * iqr

# Encontre os outliers
outliers = df_novo[(df_novo['Custo do afastamento'] < limite_inferior) | (df_novo['Custo do afastamento'] > limite_superior)]

# Exiba somente os outliers
outliers


Unnamed: 0,Código,Custo do afastamento,Funcionário,Departamento,Data do Atestado,Especialidade,Motivo,Líder
0,1036743,20.4,Anonimo 101,Gerente,2019-05-29,Exames,Exames,Sim
1,1036742,23.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-05-23,Neurologia pediátrica,Acompanhamento familiar,Anonimo 101
2,1036741,22.8,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-05-17,,Consulta médica,Anonimo 101
4,1036739,22.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-05-06,,Consulta médica,Anonimo 101
5,1033172,205.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-04-24,Pediatria,Acompanhamento familiar,Anonimo 101
7,1030902,205.0,Anonimo 1,ASSISTENTE DE IMPLANTACAO,2019-03-07,Odontologia,Consulta odontológica,Anonimo 101
8,1036621,321.0,Anonimo 2,TECNICO SEGUROS IV,2019-05-21,,,Anonimo 101
10,1036762,331.0,Anonimo 3,TECNICO SEGUROS II,2019-05-09,,,Anonimo 114
16,1036729,310.0,Anonimo 108,Gerente,2019-05-27,Cardiologista,Consulta médica,Sim
17,1036730,310.0,Anonimo 8,ANALISTA INFORMACOES GERENCIAIS II,2019-05-23,Cardiologista,Exames,Anonimo 108


- Identificamos que temos vários valores fora dos limites estabelecidos, mas o que mais chama atenção é o valor da linha 69, pois o valor 310 aparece em várias ocorrências, já o 9215 só aparece uma unica vez

- Vamos procurar mais informações do funcionário "Anonimo 15"

In [15]:
func15 = df_novo[df_novo['Funcionário'] == 'Anonimo 15']

# Exiba o resultado
func15

Unnamed: 0,Código,Custo do afastamento,Funcionário,Departamento,Data do Atestado,Especialidade,Motivo,Líder
58,1036620,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-05-22,,,Anonimo 111
59,1036752,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-05-15,Ginecologia/Obstetricia,Exames,Anonimo 111
60,1036781,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-05-06,Exames,Exames,Anonimo 111
61,1033423,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-04-30,Ginecologia/Obstetricia,Consulta médica,Anonimo 111
62,1033425,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-04-17,Exames,Exames,Anonimo 111
63,1032179,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-04-10,Obstetricia,Dor/Doença,Anonimo 111
64,1032180,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-04-08,Obstetricia,Dor/Doença,Anonimo 111
65,1032181,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-04-01,Obstetricia,Exame periódico,Anonimo 111
66,1027607,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-03-21,,Exames,Anonimo 111
67,1030882,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-03-20,Outras,Consulta médica,Anonimo 111


- Através dessa análise podemos observar que todos os valores do "Anonimo 15" foram de "92.15", o que nos leva a acreditar que o valor da linha 69 foi um erro de digitação por ter dois zeros a mais, vamos trocar o valor para que fique igual aos outros, 

In [16]:

# Acessando o valor da linha 69  na coluna 'Custo do afastamento' e dividindo por 100
df_novo.loc[69, 'Custo do afastamento'] = df_novo.loc[69, 'Custo do afastamento'] / 100


- Agora podemos ver que os valores estão normalizados

In [17]:
func15 = df_novo[df_novo['Funcionário'] == 'Anonimo 15']

# Exiba o resultado
func15

Unnamed: 0,Código,Custo do afastamento,Funcionário,Departamento,Data do Atestado,Especialidade,Motivo,Líder
58,1036620,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-05-22,,,Anonimo 111
59,1036752,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-05-15,Ginecologia/Obstetricia,Exames,Anonimo 111
60,1036781,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-05-06,Exames,Exames,Anonimo 111
61,1033423,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-04-30,Ginecologia/Obstetricia,Consulta médica,Anonimo 111
62,1033425,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-04-17,Exames,Exames,Anonimo 111
63,1032179,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-04-10,Obstetricia,Dor/Doença,Anonimo 111
64,1032180,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-04-08,Obstetricia,Dor/Doença,Anonimo 111
65,1032181,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-04-01,Obstetricia,Exame periódico,Anonimo 111
66,1027607,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-03-21,,Exames,Anonimo 111
67,1030882,92.15,Anonimo 15,ANALISTA CONTABIL II,2019-03-20,Outras,Consulta médica,Anonimo 111


- Vamos alterar os nomes da colunas, para não termos problemas de sintaxe no mysql

In [18]:

novos_nomes = {
    'Código': 'Codigo',
    'Custo do afastamento': 'Custo_do_afastamento',
    'Funcionário': 'Funcionario',
    'Departamento': 'Departamento',
    'Data do Atestado': 'Data_do_Atestado',
    'Especialidade': 'Especialidade',
    'Motivo': 'Motivo',
    'Líder': 'Lider'
}

# Renomeie as colunas do DataFrame com os novos nomes (sem acentos)
df_novo.rename(columns=novos_nomes, inplace=True)

- Por fim vamos salvar nossos dados tratados em um novo csv

In [19]:
df_novo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91 entries, 0 to 90
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Codigo                91 non-null     int64         
 1   Custo_do_afastamento  89 non-null     float64       
 2   Funcionario           91 non-null     object        
 3   Departamento          89 non-null     object        
 4   Data_do_Atestado      90 non-null     datetime64[ns]
 5   Especialidade         75 non-null     object        
 6   Motivo                85 non-null     object        
 7   Lider                 91 non-null     object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 5.8+ KB


In [20]:

df_novo.to_csv('Dados_Final.csv', index=False)

## Carregamentos dos Dados

- O arquivo Sql com o INSERT dos dados está com o nome de Dados_Final.sql


## Perguntas