In [3]:
import pandas as pd

### Entendimento do Negócio e contexto

Este projeto analisa os fatores que influenciam o custo do plano de saúde corporativo de uma empresa do setor alimentício com mais de 20 mil colaboradores no Brasil.

A pesquisa foi conduzida com 1.338 colaboradores selecionados aleatoriamente e contém informações sobre índice de massa corporal (IMC), hábito de fumar e quantidade de filhos.

A análise segue a metodologia CRISP-DM, aplicando técnicas de análise exploratória, associação e regressão linear para compreender quais fatores estão mais relacionados ao aumento do custo do plano e propor ações preventivas.


### Objetivo

Quais fatores estão mais relacionados com o custo do plano de saúde?

Que ações preventivas podem ser implementadas para reduzir esse custo?

## Entendimento dos dados

### Descrição dos dados

In [5]:
# importando dados do arquivo excel
df = pd.read_excel('../data/base_plano_de_saude.xlsx', sheet_name= 'base')

In [14]:
df

Unnamed: 0,Idade,Sexo,IMC,Qte_Filhos,Fumante,Região,Custo_Saude
0,19,Feminino,27.900,0,Sim,Centro,1688.492400
1,18,Masculino,33.770,1,Não,Sudeste,172.555230
2,28,Masculino,33.000,3,Não,Sudeste,444.946200
3,33,Masculino,22.705,0,Não,Norte,2198.447061
4,32,Masculino,28.880,0,Não,Norte,386.685520
...,...,...,...,...,...,...,...
1333,50,Masculino,30.970,3,Não,Norte,1060.054830
1334,18,Feminino,31.920,0,Não,Nordeste,220.598080
1335,18,Feminino,36.850,0,Não,Sudeste,162.983350
1336,21,Feminino,25.800,0,Não,Centro,200.794500


A base contém 1.338 registros e 7 colunas. Cada linha representa um colaborador. As variáveis apresentam tipos coerentes com o esperado (numéricos para IMC e custo, inteiros para filhos e categóricos para fumante). Não há colunas extras nem inconsistências de tipo.

In [None]:
df.head() # verificando as primeiras linhas do dataframe

Unnamed: 0,Idade,Sexo,IMC,Qte_Filhos,Fumante,Região,Custo_Saude
0,19,Feminino,27.9,0,Sim,Centro,1688.4924
1,18,Masculino,33.77,1,Não,Sudeste,172.55523
2,28,Masculino,33.0,3,Não,Sudeste,444.9462
3,33,Masculino,22.705,0,Não,Norte,2198.447061
4,32,Masculino,28.88,0,Não,Norte,386.68552


In [7]:
df.columns # verificando as colunas do dataframe

Index(['Idade', 'Sexo', 'IMC', 'Qte_Filhos', 'Fumante', 'Região',
       'Custo_Saude'],
      dtype='object')

In [8]:
df.info() # verificando informações do dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Idade        1338 non-null   int64  
 1   Sexo         1338 non-null   object 
 2   IMC          1338 non-null   float64
 3   Qte_Filhos   1338 non-null   int64  
 4   Fumante      1338 non-null   object 
 5   Região       1338 non-null   object 
 6   Custo_Saude  1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


In [9]:
df.isna().sum() # verificando valores nulos no dataframe

Idade          0
Sexo           0
IMC            0
Qte_Filhos     0
Fumante        0
Região         0
Custo_Saude    0
dtype: int64

Não há nenhum valores ausentes

In [None]:
df.isnull().sum() # verificando valores nulos no dataframe

Idade          0
Sexo           0
IMC            0
Qte_Filhos     0
Fumante        0
Região         0
Custo_Saude    0
dtype: int64

In [13]:
df.duplicated().sum() # verificando valores duplicados no dataframe

1

In [15]:
df[df.duplicated(keep = False)]

Unnamed: 0,Idade,Sexo,IMC,Qte_Filhos,Fumante,Região,Custo_Saude
195,19,Masculino,30.59,0,Não,Norte,163.95631
581,19,Masculino,30.59,0,Não,Norte,163.95631


In [None]:
df.describe() # Verificando se há valores inconsistentes ou fora do esperado nas (variáveis quantitativas)

Unnamed: 0,Idade,IMC,Qte_Filhos,Custo_Saude
count,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.663397,1.094918,1327.042227
std,14.04996,6.098187,1.205493,1211.001124
min,18.0,15.96,0.0,112.18739
25%,27.0,26.29625,0.0,474.028715
50%,39.0,30.4,1.0,938.2033
75%,51.0,34.69375,2.0,1663.991252
max,64.0,53.13,5.0,6377.042801


In [None]:
# Verificando se há valores inconsistentes ou fora do esperado nas (variáveis qualitativas)
df['Sexo'].value_counts(),df['Fumante'].value_counts(),df['Região'].value_counts()


(Sexo
 Masculino    676
 Feminino     662
 Name: count, dtype: int64,
 Fumante
 Não    1064
 Sim     274
 Name: count, dtype: int64,
 Região
 Sudeste     364
 Centro      325
 Norte       325
 Nordeste    324
 Name: count, dtype: int64)