# Tratativa e merge dos dados

Neste arquivo será realizado o tratamento e o merge dos dados da operadora de saúde:

- Coleta dos dados
- Análise da estrutura e estatística dos dados
- Merge dos dados
- Missings
- Type dos dados
- Criação de colunas (id_genero, imc, class_imc)
- Ordenação das colunas

### Importando bibliotecas e verificando as versões

Importar todas as bibliotecas que serão utilizadas para o tratamento dos dados e verificar as versões para controle

In [131]:
# Importando as bibliotecas que serão utilizadas para a manipulação dos dataframes

import pandas as pd
from sklearn.preprocessing import LabelEncoder

In [133]:
# Verificação das bibliotecas usadas

print(f'''Verificando as versões das bibliotecas:\n pandas:{pd.__version__}''')

Verificando as versões das bibliotecas:
 pandas:1.5.3


### Coleta de dados

Coletando todos os dataframes para realizar a análise, tratamento e merge.

In [514]:
# Estados

estados = pd.read_csv('..\data\estados_brasileiros.csv', sep= ';', encoding= 'latin-1')

In [515]:
# Idade dos Clientes

idade = pd.read_csv('..\data\idade_clientes.csv', sep= ';')

In [516]:
# Clientes da Operadora de Saúde

clientes = pd.read_excel('..\data\clientes_operadora_saude.xlsx')

### Analisando os dados

Realizando a análise de todos os dados coletados para tratá-los

##### Estados

In [517]:
# Estrutura dos dados

estados.head()

Unnamed: 0,cod_estado,estado,sigla_estado,pais
0,1,Acre,AC,Brasil
1,2,Alagoas,AL,Brasil
2,3,Amapa,AP,Brasil
3,4,Amazonas,AM,Brasil
4,5,Bahia,BA,Brasil


In [518]:
# Estatística dos dados

estados.describe()

Unnamed: 0,cod_estado
count,27.0
mean,14.0
std,7.937254
min,1.0
25%,7.5
50%,14.0
75%,20.5
max,27.0


In [519]:
# Soma dos dados missing

estados.isna().sum()

cod_estado      0
estado          0
sigla_estado    0
pais            3
dtype: int64

In [520]:
# Informações dos dados

estados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   cod_estado    27 non-null     int64 
 1   estado        27 non-null     object
 2   sigla_estado  27 non-null     object
 3   pais          24 non-null     object
dtypes: int64(1), object(3)
memory usage: 992.0+ bytes


In [521]:
# Tamanho da base de dados

estados.shape

(27, 4)

##### Clientes

In [522]:
# Estrutura dos dados

clientes.head()

Unnamed: 0,id_cliente,altura,peso,colesterol,genero,id_estado
0,1,1.87,102.0,111,Masculino,23
1,2,1.82,87.0,135,Masculino,7
2,3,1.9,115.0,136,Masculino,4
3,4,1.9,70.0,167,Feminino,24
4,5,1.71,130.0,158,Masculino,26


In [523]:
# Estatística dos dados

clientes.describe()

Unnamed: 0,id_cliente,altura,peso,colesterol,id_estado
count,225.0,222.0,222.0,225.0,225.0
mean,113.0,1.743108,95.585586,168.733333,13.711111
std,65.096083,0.106077,27.484086,39.413671,7.562307
min,1.0,1.5,50.0,102.0,1.0
25%,57.0,1.6625,75.25,135.0,7.0
50%,113.0,1.75,92.0,168.0,14.0
75%,169.0,1.8275,113.0,204.0,20.0
max,225.0,1.97,184.0,235.0,27.0


In [524]:
# Soma dos dados missing

clientes.isna().sum()

id_cliente    0
altura        3
peso          3
colesterol    0
genero        0
id_estado     0
dtype: int64

In [525]:
# Tamanho da base de dados

clientes.shape

(225, 6)

In [526]:
# Informações dos dados

clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 225 entries, 0 to 224
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_cliente  225 non-null    int64  
 1   altura      222 non-null    float64
 2   peso        222 non-null    float64
 3   colesterol  225 non-null    int64  
 4   genero      225 non-null    object 
 5   id_estado   225 non-null    int64  
dtypes: float64(2), int64(3), object(1)
memory usage: 10.7+ KB


##### Idade

In [527]:
# Estrutura dos dados

idade.head()

Unnamed: 0,id_cliente,idade
0,1,17.0
1,2,28.0
2,3,62.0
3,4,55.0
4,5,44.0


In [528]:
# Estatística dos dados

idade.describe()

Unnamed: 0,id_cliente,idade
count,547.0,545.0
mean,274.0,42.750459
std,158.04957,15.141736
min,1.0,16.0
25%,137.5,30.0
50%,274.0,42.0
75%,410.5,55.0
max,547.0,70.0


In [529]:
# Soma dos dados missing

idade.isna().sum()

id_cliente    0
idade         2
dtype: int64

In [530]:
# Informações dos dados

idade.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 547 entries, 0 to 546
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id_cliente  547 non-null    int64  
 1   idade       545 non-null    float64
dtypes: float64(1), int64(1)
memory usage: 8.7 KB


In [531]:
# Tamanho da base de dados

idade.shape

(547, 2)

### Merge datasets

Mesclando os dataframes

In [728]:
# Realizando merge nas tabelas, unificando-as

op_saude = pd.merge(clientes, estados, right_on = 'cod_estado', left_on = 'id_estado')
op_saude = pd.merge(op_saude, idade, on= 'id_cliente').sort_values('id_cliente').reset_index(drop= True)
op_saude.head()

Unnamed: 0,id_cliente,altura,peso,colesterol,genero,id_estado,cod_estado,estado,sigla_estado,pais,idade
0,1,1.87,102.0,111,Masculino,23,23,Roraima,RR,Brasil,17.0
1,2,1.82,87.0,135,Masculino,7,7,Distrito Federal,DF,Brasil,28.0
2,3,1.9,115.0,136,Masculino,4,4,Amazonas,AM,Brasil,62.0
3,4,1.9,70.0,167,Feminino,24,24,Santa Catarina,SC,Brasil,55.0
4,5,1.71,130.0,158,Masculino,26,26,Sergipe,SE,Brasil,44.0


### Tratamento dos dados

Tratando missings com drop e substituição por moda e média por genero

##### Missings


In [729]:
# Verificando todos os dados ausentes

op_saude.isnull().sum()

id_cliente      0
altura          3
peso            3
colesterol      0
genero          0
id_estado       0
cod_estado      0
estado          0
sigla_estado    0
pais            0
idade           2
dtype: int64

##### Missing - Eliminando dados


In [730]:
# Dados ausentes do df clientes

op_saude.loc[op_saude['idade'].isnull()] # os dados ausentes do peso e altura estão nas mesmas linhas 

Unnamed: 0,id_cliente,altura,peso,colesterol,genero,id_estado,cod_estado,estado,sigla_estado,pais,idade
20,21,1.57,83.0,189,Feminino,5,5,Bahia,BA,Brasil,
48,49,1.73,67.0,154,Feminino,7,7,Distrito Federal,DF,Brasil,


In [731]:
# Eliminando os dados

op_saude.dropna(subset=['idade'], inplace = True)

In [732]:
# Verificando os dados "idade"

op_saude.idade.isnull().sum()

0

##### Missing - Substituição (média/mediana)

In [733]:
# Descobrindo a média e mediana do peso por genero feminino e masculino

op_saude.groupby('genero').peso.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Feminino,108.0,78.462963,16.769145,50.0,63.0,80.0,91.0,119.0
Masculino,112.0,112.464286,25.521914,54.0,95.75,111.5,128.25,184.0


In [734]:
# Como a média e mediana do peso e da altura são muito próximas, cria-se df com média para substituição

med_peso = op_saude.groupby('genero')['peso'].transform('mean')
med_altura = op_saude.groupby('genero')['altura'].transform('mean')

In [735]:
# Localizando os dados com o missing no peso

op_saude.loc[op_saude['peso'].isnull()]

Unnamed: 0,id_cliente,altura,peso,colesterol,genero,id_estado,cod_estado,estado,sigla_estado,pais,idade
32,33,,,188,Masculino,22,22,Rondonia,RO,Brasil,56.0
41,42,,,177,Masculino,20,20,Rio Grande do Norte,RN,Brasil,54.0
50,51,,,138,Feminino,26,26,Sergipe,SE,Brasil,23.0


In [736]:
# Alterando o peso e altura pela média por genero

op_saude['peso'].fillna(med_peso, inplace=True)
op_saude['altura'].fillna(med_altura, inplace=True)

In [737]:
# Localizando os dados que eram missing, para verificar os valores alterados

op_saude.loc[[32, 41, 50]]

Unnamed: 0,id_cliente,altura,peso,colesterol,genero,id_estado,cod_estado,estado,sigla_estado,pais,idade
32,33,1.787589,112.464286,188,Masculino,22,22,Rondonia,RO,Brasil,56.0
41,42,1.787589,112.464286,177,Masculino,20,20,Rio Grande do Norte,RN,Brasil,54.0
50,51,1.698704,78.462963,138,Feminino,26,26,Sergipe,SE,Brasil,23.0


##### Missing - Substituição (moda)

In [738]:
# Verificando os dados ausentes categóricos

op_saude.pais.unique()

array(['Brasil'], dtype=object)

In [739]:
# Criando variável com a ccorreção dos termos em "país"

correcao_pais = op_saude.pais.mode()[0]

In [740]:
# Substituição dos missings

op_saude.pais.fillna(correcao_pais, inplace= True)

In [741]:
# Verificando os dados da coluna "país"

op_saude.pais.isna().sum()

0

##### Verificando missings

In [742]:
# Verificando se todos os missings foram tratados

op_saude.isnull().sum()

id_cliente      0
altura          0
peso            0
colesterol      0
genero          0
id_estado       0
cod_estado      0
estado          0
sigla_estado    0
pais            0
idade           0
dtype: int64

### Organizando os dados

Organização e criação de colunas para enriquecer os dados para a análise exploratória

##### Transformando idade e peso em números inteiros

In [755]:
# Alterando o type das colunas 'idade' e 'peso'

op_saude['idade'] = op_saude['idade'].astype(int)
op_saude['peso'] = op_saude['peso'].astype(int)

##### Criando função para categorizar o genero

In [744]:
# Atribuindo função a uma variável

LE = LabelEncoder()

In [745]:
# Criando uma variável categórica, chamada id_genero, na transformação do LE - Label Enconder de clientes['genero']

op_saude['id_genero'] = LE.fit_transform(op_saude['genero'])

In [746]:
# Visualização dos dados

op_saude.head()

Unnamed: 0,id_cliente,altura,peso,colesterol,genero,id_estado,cod_estado,estado,sigla_estado,pais,idade,id_genero
0,1,1.87,102,111,Masculino,23,23,Roraima,RR,Brasil,17,1
1,2,1.82,87,135,Masculino,7,7,Distrito Federal,DF,Brasil,28,1
2,3,1.9,115,136,Masculino,4,4,Amazonas,AM,Brasil,62,1
3,4,1.9,70,167,Feminino,24,24,Santa Catarina,SC,Brasil,55,0
4,5,1.71,130,158,Masculino,26,26,Sergipe,SE,Brasil,44,1


##### Criando coluna IMC

In [747]:
# Criando coluna com o IMC de cada um dos clientes da operadora de saúde

op_saude['imc'] = round(op_saude.peso / (op_saude.altura * op_saude.altura), 2)
op_saude.head()

Unnamed: 0,id_cliente,altura,peso,colesterol,genero,id_estado,cod_estado,estado,sigla_estado,pais,idade,id_genero,imc
0,1,1.87,102,111,Masculino,23,23,Roraima,RR,Brasil,17,1,29.17
1,2,1.82,87,135,Masculino,7,7,Distrito Federal,DF,Brasil,28,1,26.26
2,3,1.9,115,136,Masculino,4,4,Amazonas,AM,Brasil,62,1,31.86
3,4,1.9,70,167,Feminino,24,24,Santa Catarina,SC,Brasil,55,0,19.39
4,5,1.71,130,158,Masculino,26,26,Sergipe,SE,Brasil,44,1,44.46


##### Criando coluna de classificação do IMC


In [757]:
#               IMC - tabela
#    __________________________________
#        Baixo Peso    |     < 18        
#       Normal Peso    |   18 - 24.9        
#        Sobrepeso     |   25 - 29.9
#     Obesidade Grau 1 |   30 - 34.9
#     Obesidade Grau 2 |   35 - 39.9
#     Obesidade Grau 3 |     > 40

In [748]:
# Tabela da classificação de peso de acordo com o valor do IMC de cada paciente

tabela_imc = [[0, 18, 'Baixo Peso'],
              [18, 25, 'Normal Peso'],
              [25, 30, 'Sobrepeso'],
              [30, 35, 'Obesidade Grau 1'],
              [35, 40, 'Obesidade Grau 2'],
              [40, 100, 'Obesidade Grau 3']]

In [749]:
# Estrutura de repetição para criar a classificação no dataframe

for imc in tabela_imc:
    op_saude.loc[(op_saude['imc'] > imc[0]) & (op_saude['imc'] < imc[1]), 'class_imc'] = imc[2]

In [750]:
# Visualização do dataframe

op_saude.head()

Unnamed: 0,id_cliente,altura,peso,colesterol,genero,id_estado,cod_estado,estado,sigla_estado,pais,idade,id_genero,imc,class_imc
0,1,1.87,102,111,Masculino,23,23,Roraima,RR,Brasil,17,1,29.17,Sobrepeso
1,2,1.82,87,135,Masculino,7,7,Distrito Federal,DF,Brasil,28,1,26.26,Sobrepeso
2,3,1.9,115,136,Masculino,4,4,Amazonas,AM,Brasil,62,1,31.86,Obesidade Grau 1
3,4,1.9,70,167,Feminino,24,24,Santa Catarina,SC,Brasil,55,0,19.39,Normal Peso
4,5,1.71,130,158,Masculino,26,26,Sergipe,SE,Brasil,44,1,44.46,Obesidade Grau 3


##### Dropando coluna repetida

In [751]:
# Removendo a coluna 'cod_estado'

op_saude.drop(columns= 'cod_estado', inplace= True)

##### Alterando conteúdo da variável siglas do estado

In [752]:
# Padronizando as siglas dos estados

op_saude['sigla_estado'] = op_saude.sigla_estado.str.upper()

#### Alterando disposições das colunas

In [753]:
# Alterando a ordem das colunas do dataframe

ordem_colunas = ['id_cliente', 'id_genero', 'genero', 'idade', 'colesterol', 'peso', 'altura', 'imc', 'class_imc', 'estado', 'sigla_estado', 'pais']
op_saude[ordem_colunas].head()

Unnamed: 0,id_cliente,id_genero,genero,idade,colesterol,peso,altura,imc,class_imc,estado,sigla_estado,pais
0,1,1,Masculino,17,111,102,1.87,29.17,Sobrepeso,Roraima,RR,Brasil
1,2,1,Masculino,28,135,87,1.82,26.26,Sobrepeso,Distrito Federal,DF,Brasil
2,3,1,Masculino,62,136,115,1.9,31.86,Obesidade Grau 1,Amazonas,AM,Brasil
3,4,0,Feminino,55,167,70,1.9,19.39,Normal Peso,Santa Catarina,SC,Brasil
4,5,1,Masculino,44,158,130,1.71,44.46,Obesidade Grau 3,Sergipe,SE,Brasil


### Arquivo CSV para a EDA

In [754]:
# Criando arquivo, na pasta tratativa, do dataframe 'op_saude' com todo o tratamento realizado neste arquivo

op_saude.to_csv('merged_operadora_saude.csv')