Centro de Inovação em Inteligência Artificial para a Saúde da UFMG

**Curso de Qualidade de Dados em Saúde para IA**

**Prof. Juliano Gaspar** - Faculdade de Medicina da UFMG

Mais informações: https://ciia-saude.medicina.ufmg.br/

# **Limpeza, tratamento e recodificação de Dados**

* Análise da qualidade das variáveis numéricas
* Recodificação de variáveis
* Salvando a base de dados corrigida

# Abrir a base de dados

In [None]:
# Importar as bibliotecas para trabalhar com base de dados e gráficos
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [None]:
# Endereço do arquivo com a base de dados
arquivo = 'https://ftp.medicina.ufmg.br/cursosciia/qds/BD_PARTOS_corrigida.xlsx'

# Ler todos os dados e colocar na variável dados
dados = pd.read_excel(arquivo)

# Mostrar destalhes/informações das variáveis importadas
dados.info()

In [None]:
# Mostrar um resumo dos dados (as 5 primeiras linhas e 5 últimas 5 linhas)
dados

# Análise da qualidade das variáveis numéricas - (análise descritiva)

In [None]:
# Resumo descritivo das colunas numéricas
# Observação: que o Python entendeu como númerica na importação
dados.describe()

Função para conveter tipos de uma coluna em outro (float => int), só é possível se não houver NAN (vazios, missings, nulos)

dados.PARTOS = dados.PARTOS.apply(np.int64)

**Numéricas discretas**

In [None]:
# GESTACOES
# Explorar medidas resumo - (média, desvio padrão, mínimo, 1º quartil, mediana, 3º quartil, máximo)
dados.GESTACOES.describe()

In [None]:
# Contando a quantidade de casos
dados.GESTACOES.value_counts()

In [None]:
# Histograma
sns.histplot(dados.GESTACOES)

In [None]:
# PARTOS
# Explorar medidas resumo - (média, desvio padrão, mínimo, 1º quartil, mediana, 3º quartil, máximo)
dados.PARTOS.describe()

In [None]:
# Contando a quantidade de casos
dados.PARTOS.value_counts()

In [None]:
# Histograma
sns.histplot(dados.PARTOS)

In [None]:
# Histograma
sns.histplot(dados.CESAREAS_PREVIAS)

**Numéricas discretas - com faixa de valores muito grandes**

In [None]:
# PESO_NASCER
# Explorar medidas resumo - (média, desvio padrão, mínimo, 1º quartil, mediana, 3º quartil, máximo)
dados.PESO_NASCER.describe()

In [None]:
# Histograma
sns.histplot(dados.PESO_NASCER)

In [None]:
# IG_OBSTETRA
# Explorar medidas resumo - (média, desvio padrão, mínimo, 1º quartil, mediana, 3º quartil, máximo)
dados.IG_OBSTETRA.describe()

In [None]:
# Histograma
sns.histplot(dados.IG_OBSTETRA)

In [None]:
#  Limpeza de dados - 2 casos com IG = 0
dados.IG_OBSTETRA.value_counts()

In [None]:
#  Limpeza de dados
#  Preencher com null (nan) os valores 0
dados.IG_OBSTETRA.replace(0, np.nan, inplace=True)

dados.IG_OBSTETRA.describe()

In [None]:
# Histograma
sns.histplot(dados.IG_OBSTETRA)

In [None]:
# IG_PEDIATRA
# Explorar medidas resumo - (média, desvio padrão, mínimo, 1º quartil, mediana, 3º quartil, máximo)
dados.IG_PEDIATRA.describe()

In [None]:
# Histograma
sns.histplot(dados.IG_PEDIATRA)

In [None]:
#  Limpeza de dados - 1 caso com IG = 9
dados.IG_PEDIATRA.value_counts()

In [None]:
#  Limpeza de dados
#  Preencher com null (nan) os valores 9
dados.IG_PEDIATRA.replace(9, np.nan, inplace=True)

dados.IG_PEDIATRA.describe()

In [None]:
# Histograma
sns.histplot(dados.IG_PEDIATRA)

**Numéricas continuas**

In [None]:
# DURACAO_INT
# Explorar medidas resumo - (média, desvio padrão, mínimo, 1º quartil, mediana, 3º quartil, máximo)
dados.DURACAO_INT.describe()

In [None]:
# analisar os casos
dados.DURACAO_INT

In [None]:
# Vamos arrendodar para dias inteiros
dados.DURACAO_INT = dados.DURACAO_INT.round(0)

In [None]:
# Histograma
sns.histplot(dados.DURACAO_INT)

# Recodificação de variáveis

In [None]:
# TIPO_PARTO - Contando a quantidade de casos por categoria
dados.TIPO_PARTO.value_counts()

In [None]:
# Trocar os números pelo conteúdo das categorias, o python não precisa que as categorias sejam códigos (apenas para regressão)
# Já se sabe pela documentação da Base de dados que:
# 1 = partos vaginais
# 2 = partos cesáreos

dados.TIPO_PARTO.replace(1, 'Parto Normal', inplace=True)
dados.TIPO_PARTO.replace(2, 'Parto Cesáreo', inplace=True)
dados.TIPO_PARTO.value_counts()

In [None]:
# HIPERTENSAO - Contando a quantidade de casos por categoria
dados.HIPERTENSAO.value_counts()

In [None]:
# HIPERTENSAO - recodificar ==>   0 = Não, 1 = Sim
dados.HIPERTENSAO.replace(0, 'Não', inplace=True)
dados.HIPERTENSAO.replace(1, 'Sim', inplace=True)
dados.HIPERTENSAO.value_counts()

In [None]:
# VIVO - Contando a quantidade de casos por categoria
dados.VIVO.value_counts()

In [None]:
# VIVO - recodificar ==>   0 = Nascido morto, 1 = Nascido vivo
dados.VIVO.replace(0, 'Nascido morto', inplace=True)
dados.VIVO.replace(1, 'Nascido vivo', inplace=True)
dados.VIVO.value_counts()

In [None]:
# ALTO_RISCO - Contando a quantidade de casos por categoria
dados.ALTO_RISCO.value_counts()

In [None]:
# ALTO_RISCO - Limpeza e Tratamento de dados, recodificando valores de texto
dados.ALTO_RISCO.replace('não', 'Não', inplace=True)
dados.ALTO_RISCO.replace('nao', 'Não', inplace=True)
dados.ALTO_RISCO.replace('Nao', 'Não', inplace=True)
dados.ALTO_RISCO.replace('sim', 'Sim', inplace=True)
dados.ALTO_RISCO.value_counts()

In [None]:
# SEXO - Contando a quantidade de casos por categoria
dados.SEXO.value_counts()

In [None]:
# SEXO - recodificar ==>
#  0 = missing (não preenchido), 1 = masculino, 2 = feminino, 3 = indeterminado

#  Para análise deste estudo, vamos considerar os valores 0 e 3 como missings (nulos)
#  Preencher com null (nan) os valores 0 e 3
dados.SEXO.replace(0, np.nan, inplace=True)
dados.SEXO.replace(3, np.nan, inplace=True)

# SEXO - recodificar ==>   1 = Masculino, 2 = Feminino
dados.SEXO.replace(1, 'Masculino', inplace=True)
dados.SEXO.replace(2, 'Feminino', inplace=True)

dados.SEXO.value_counts()

In [None]:
# Se precisar: esse código desabilita algumas mensagens de Warning, quando se faz recodificação de variáveis.
# pd.options.mode.chained_assignment = None
# default='warn'

# Salvar os dados atuais em um novo arquivo

In [None]:
# salvar em excel, um novo arquivo, com os dados tratados
dados.to_excel("Roteiro_QDS04_atividade7.xlsx")