Centro de Inovação em Inteligência Artificial para a Saúde da UFMG

**Curso de Qualidade de Dados em Saúde para IA**

**Prof. Juliano Gaspar** - Faculdade de Medicina da UFMG

**Aluno: Fábio C. Simões**

Mais informações: https://ciia-saude.medicina.ufmg.br/

# **Manipulação, seleção, filtros, duplicados e nulos**

* Seleção e filtros
* Verificação de registros duplicados
* Tratamento de casos nulos
* Salvando a base de dados corrigida

# Seleção e filtro de Dados

In [1]:
# Importar as bibliotecas para trabalhar com base de dados e gráficos
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [3]:
# Endereço do arquivo com a base de dados
arquivo = 'https://ftp.medicina.ufmg.br/cursosciia/qds/BD_PARTOS_original.xlsx'

# Ler os dados e colocar na variável dados
# neste caso, está lendo apenas as colunas do excel 1 a 7 (começa em zero)
dados = pd.read_excel(arquivo, usecols=[0,1,2,3,4,5,6])


In [4]:
# Mostrar destalhes/informações das variáveis importadas
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1709 entries, 0 to 1708
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   DT_INTERNACAO  1709 non-null   datetime64[ns]
 1   DT_ALTA        1709 non-null   datetime64[ns]
 2   DURACAO_INT    1709 non-null   float64       
 3   GESTACOES      1709 non-null   int64         
 4   PARTOS         1708 non-null   float64       
 5   IG_OBSTETRA    1689 non-null   float64       
 6   IG_PEDIATRA    1706 non-null   float64       
dtypes: datetime64[ns](2), float64(4), int64(1)
memory usage: 93.6 KB


In [5]:
# Mostrar um resumo dos dados (as 5 primeiras linhas e 5 últimas 5 linhas)
dados

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA
0,2014-01-20,2014-01-21,0.768750,2,1.0,38.0,38.0
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0
...,...,...,...,...,...,...,...
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0


In [6]:
# Ler todos os dados e colocar na variável dados
dados = pd.read_excel(arquivo)

# Mostrar destalhes/informações das variáveis importadas
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1709 entries, 0 to 1708
Data columns (total 34 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   DT_INTERNACAO       1709 non-null   datetime64[ns]
 1   DT_ALTA             1709 non-null   datetime64[ns]
 2   DURACAO_INT         1709 non-null   float64       
 3   GESTACOES           1709 non-null   int64         
 4   PARTOS              1708 non-null   float64       
 5   IG_OBSTETRA         1689 non-null   float64       
 6   IG_PEDIATRA         1706 non-null   float64       
 7   ALTO_RISCO          1709 non-null   object        
 8   TIPO_PARTO          1709 non-null   int64         
 9   HIPERTENSAO         1709 non-null   int64         
 10  GEMELAR             1709 non-null   int64         
 11  CESAREAS_PREVIAS    1702 non-null   float64       
 12  EPISIOTOMIA         1709 non-null   int64         
 13  ANALGESIA           1709 non-null   int64       

In [7]:
# Se deseja eliminar uma coluna da tabela
# axis = 0 para linha, axis = 1 para coluna
dados = dados.drop('UBS', axis=1)

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1709 entries, 0 to 1708
Data columns (total 33 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   DT_INTERNACAO       1709 non-null   datetime64[ns]
 1   DT_ALTA             1709 non-null   datetime64[ns]
 2   DURACAO_INT         1709 non-null   float64       
 3   GESTACOES           1709 non-null   int64         
 4   PARTOS              1708 non-null   float64       
 5   IG_OBSTETRA         1689 non-null   float64       
 6   IG_PEDIATRA         1706 non-null   float64       
 7   ALTO_RISCO          1709 non-null   object        
 8   TIPO_PARTO          1709 non-null   int64         
 9   HIPERTENSAO         1709 non-null   int64         
 10  GEMELAR             1709 non-null   int64         
 11  CESAREAS_PREVIAS    1702 non-null   float64       
 12  EPISIOTOMIA         1709 non-null   int64         
 13  ANALGESIA           1709 non-null   int64       

In [8]:
# Se deseja eliminar mais de uma coluna da tabela
# axis = 0 para linha, axis = 1 para coluna

colunas = ['LATITUDE', 'LONGITUDE']
dados = dados.drop(colunas, axis=1)

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1709 entries, 0 to 1708
Data columns (total 31 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   DT_INTERNACAO       1709 non-null   datetime64[ns]
 1   DT_ALTA             1709 non-null   datetime64[ns]
 2   DURACAO_INT         1709 non-null   float64       
 3   GESTACOES           1709 non-null   int64         
 4   PARTOS              1708 non-null   float64       
 5   IG_OBSTETRA         1689 non-null   float64       
 6   IG_PEDIATRA         1706 non-null   float64       
 7   ALTO_RISCO          1709 non-null   object        
 8   TIPO_PARTO          1709 non-null   int64         
 9   HIPERTENSAO         1709 non-null   int64         
 10  GEMELAR             1709 non-null   int64         
 11  CESAREAS_PREVIAS    1702 non-null   float64       
 12  EPISIOTOMIA         1709 non-null   int64         
 13  ANALGESIA           1709 non-null   int64       

**Tipos de variáveis**

*   **int64** = números inteiros
*   **float64** = números decimais
*   **object** = textos / strings
*   **datetime64** = datas

**Algumas designações**
* non-null = não nulos (válidos)
* null = nulos, missings, vazios, não preenchido
* NAN (Not A Number) = por alguma razão o valor da variável não é um número (tem um texto, tem um resultado inexperado)


In [9]:
# Criar uma lista com os nomes das colunas
dados.columns

Index(['DT_INTERNACAO', 'DT_ALTA', 'DURACAO_INT', 'GESTACOES', 'PARTOS',
       'IG_OBSTETRA', 'IG_PEDIATRA', 'ALTO_RISCO', 'TIPO_PARTO', 'HIPERTENSAO',
       'GEMELAR', 'CESAREAS_PREVIAS', 'EPISIOTOMIA', 'ANALGESIA', 'FORCEPS',
       'CM_LACERACAO_CANAL', 'CM_UTI', 'CM_INFECCAO', 'CM_NEARMISS',
       'CM_TRANSFUSAO', 'VIVO', 'SEXO', 'PESO_NASCER', 'APGAR1', 'APGAR5',
       'UTI_RN', 'LIGADURACORDAO', 'LC_MOTIVO', 'EQUIPAMENTO_A',
       'EQUIPAMENTO_B', 'BAIRRO'],
      dtype='object')

In [10]:
# Mostrar um resumo dos dados (as 5 primeiras linhas e 5 últimas 5 linhas)
dados

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
0,2014-01-20,2014-01-21,0.768750,2,1.0,38.0,38.0,sim,1,0,...,1,3590.0,9.0,10.0,0,2,0,3405.0,3385.0,Coqueiros
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,1,2660.0,9.0,9.0,0,1,0,2595.0,2570.0,Nossa Senhora de Fátima
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,2,3075.0,9.0,10.0,0,2,0,3910.0,3675.0,São Lucas
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,1,3505.0,9.0,10.0,0,2,0,3275.0,3300.0,Jardim Vitória
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,1,3405.0,5.0,8.0,0,1,0,620.0,,Alto dos Pinheiros
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,2,2940.0,9.0,9.0,0,1,0,,3840.0,Jardim Montanhês
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0,sim,2,0,...,1,1945.0,2.0,9.0,1,1,0,3000.0,2660.0,Letícia
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,1,2275.0,7.0,9.0,1,1,0,,2610.0,São Lucas
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0,sim,2,0,...,1,2590.0,7.0,9.0,1,1,0,2660.0,2675.0,Nossa Senhora de Fátima


**Seleção e filtro de dados**

In [11]:
# Mostrar um resumo dos dados de 10 linhas aleatórias
dados.sample(10)

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
1333,2014-05-14,2014-05-17,2.980556,2,0.0,40.0,40.0,não,1,0,...,2,3170.0,9.0,10.0,0,2,0,,,Caiçaras
1537,2014-06-24,2014-06-28,4.420139,2,0.0,37.0,37.0,não,2,0,...,1,2820.0,8.0,9.0,0,2,0,3055.0,3030.0,Cemig
1033,2014-01-06,2014-01-08,2.295139,6,4.0,38.0,38.0,sim,1,0,...,1,3535.0,9.0,10.0,0,2,0,,3240.0,Santa Rita de Cássia
1524,2014-03-08,2014-03-12,4.304167,2,1.0,40.0,40.0,não,2,0,...,2,3250.0,7.0,9.0,0,2,0,,3900.0,"Independência, Barreiro"
706,2014-05-21,2014-05-23,1.977083,2,1.0,38.0,38.0,não,2,0,...,1,3665.0,7.0,9.0,0,2,0,,3540.0,Braúnas
249,2014-02-04,2014-02-06,1.35,2,1.0,38.0,38.0,não,1,0,...,2,3110.0,8.0,9.0,0,2,0,,2810.0,Serra
753,2014-03-10,2014-03-12,2.004167,2,1.0,40.0,40.0,sim,1,0,...,1,4520.0,9.0,9.0,0,1,0,,2850.0,Caiçaras
365,2014-07-14,2014-07-16,1.514583,1,0.0,38.0,38.0,sim,1,0,...,1,2860.0,9.0,9.0,0,2,0,3335.0,3210.0,Madri
1361,2013-12-11,2013-12-14,3.036806,1,0.0,39.0,39.0,sim,2,1,...,2,3330.0,7.0,9.0,0,1,0,3290.0,3095.0,São Francisco
1199,2014-10-23,2014-10-26,2.640972,2,1.0,37.0,37.0,sim,2,1,...,2,2440.0,8.0,9.0,0,2,0,,2380.0,Vista do Sol


In [12]:
# Ver o início (topo) da lista de dados
dados.head()

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
0,2014-01-20,2014-01-21,0.76875,2,1.0,38.0,38.0,sim,1,0,...,1,3590.0,9.0,10.0,0,2,0,3405.0,3385.0,Coqueiros
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,1,2660.0,9.0,9.0,0,1,0,2595.0,2570.0,Nossa Senhora de Fátima
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,2,3075.0,9.0,10.0,0,2,0,3910.0,3675.0,São Lucas
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,1,3505.0,9.0,10.0,0,2,0,3275.0,3300.0,Jardim Vitória
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,1,3405.0,5.0,8.0,0,1,0,620.0,,Alto dos Pinheiros


In [13]:
# Ver o fim (cauda) da lista de dados
dados.tail()

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,2,2940.0,9.0,9.0,0,1,0,,3840.0,Jardim Montanhês
1705,2014-04-25,2014-06-10,45.61875,2,1.0,29.0,34.0,sim,2,0,...,1,1945.0,2.0,9.0,1,1,0,3000.0,2660.0,Letícia
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,1,2275.0,7.0,9.0,1,1,0,,2610.0,São Lucas
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0,sim,2,0,...,1,2590.0,7.0,9.0,1,1,0,2660.0,2675.0,Nossa Senhora de Fátima
1708,2014-03-12,2014-05-14,62.5375,3,2.0,39.0,39.0,não,1,0,...,1,3190.0,9.0,10.0,0,1,0,4920.0,,Vera Cruz


In [14]:
# Acessar os dados de uma Series (coluna)

# Forma simples: se a coluna for sem espaços
dados.TIPO_PARTO

0       1
1       1
2       1
3       1
4       1
       ..
1704    1
1705    2
1706    2
1707    2
1708    1
Name: TIPO_PARTO, Length: 1709, dtype: int64

In [15]:
# Forma padrão: para todo tipo de título de coluna, incluindo com espaços
dados['TIPO_PARTO']

0       1
1       1
2       1
3       1
4       1
       ..
1704    1
1705    2
1706    2
1707    2
1708    1
Name: TIPO_PARTO, Length: 1709, dtype: int64

In [16]:
# Filtrar os 5 maiores valores de uma coluna
dados.nlargest(5, 'PESO_NASCER')

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
1438,2014-03-17,2014-03-20,3.418056,1,0.0,29.0,20.0,sim,2,0,...,2,5625.0,2.0,1.0,0,1,0,,,Nova Cachoeirinha
1383,2014-04-07,2014-04-10,3.070833,5,4.0,40.0,40.0,não,2,0,...,1,4920.0,8.0,9.0,0,1,0,,2900.0,Ouro Preto
952,2014-04-09,2014-04-11,2.166667,3,2.0,40.0,40.0,não,2,1,...,1,4820.0,9.0,10.0,0,2,0,,2239.0,Inconfidência
1041,2013-11-11,2013-11-13,2.315972,3,2.0,39.0,38.0,não,2,0,...,2,4735.0,8.0,9.0,0,2,0,3275.0,3250.0,Álvaro Camargos
728,2013-12-02,2013-12-04,1.994444,2,1.0,38.0,38.0,não,1,0,...,2,4635.0,7.0,9.0,0,2,0,,3385.0,Inconfidência


In [17]:
# Filtrar os 5 menores  valores de uma coluna
dados.nsmallest(5, 'PESO_NASCER')

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
670,2014-02-13,2014-02-15,1.94375,2,1.0,23.0,23.0,sim,1,0,...,2,270.0,,0.0,0,0,0,,,Vera Cruz
260,2014-03-12,2014-03-13,1.364583,1,0.0,28.0,28.0,não,1,0,...,1,275.0,,0.0,0,1,0,2965.0,2960.0,Conjunto Confisco
26,2014-05-04,2014-05-05,0.931944,2,0.0,19.0,20.0,sim,1,0,...,1,300.0,,0.0,0,1,0,,,Monsenhor Messias
1235,2014-06-25,2014-06-28,2.717361,1,0.0,23.0,23.0,não,1,0,...,3,300.0,,0.0,0,0,0,,,Caiçaras
54,2014-04-13,2014-04-14,1.013889,2,1.0,22.0,22.0,não,1,0,...,1,350.0,1.0,1.0,0,0,0,,3410.0,Paraíso


In [18]:
# Selecionar um sub-conjunto / intervalo de dados
# Todos os recém-nascidos nascidos à Termo, ou seja, com idade gestacional >= 37
termos = dados[ (dados.IG_OBSTETRA >= 37) ]
termos

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
0,2014-01-20,2014-01-21,0.768750,2,1.0,38.0,38.0,sim,1,0,...,1,3590.0,9.0,10.0,0,2,0,3405.0,3385.0,Coqueiros
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,2,3075.0,9.0,10.0,0,2,0,3910.0,3675.0,São Lucas
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,1,3505.0,9.0,10.0,0,2,0,3275.0,3300.0,Jardim Vitória
5,2014-05-27,2014-05-28,0.827778,3,2.0,38.0,38.0,sim,1,0,...,1,2625.0,9.0,9.0,0,2,0,,2980.0,Carlos Prates
6,2013-11-30,2013-12-01,0.838889,2,1.0,38.0,38.0,não,1,0,...,1,2965.0,9.0,9.0,0,2,0,3280.0,3090.0,Novo Glória
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1701,2014-07-26,2014-08-28,32.827083,1,0.0,38.0,38.0,sim,2,0,...,1,2880.0,5.0,9.0,0,2,0,,,Jardim Montanhês
1702,2014-06-26,2014-07-29,32.916667,4,1.0,40.0,40.0,sim,1,0,...,1,3830.0,4.0,8.0,0,2,0,2960.0,2875.0,Dom Bosco
1703,2014-07-13,2014-08-15,33.122917,4,2.0,39.0,39.0,sim,2,0,...,2,2385.0,9.0,9.0,0,2,0,,3665.0,São Lucas
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,2,2940.0,9.0,9.0,0,1,0,,3840.0,Jardim Montanhês


In [19]:
# Localizar e visualizar um sub-conjunto de dados

# Todos os recém-nascidos prematuros, ou seja, com idade gestacional <= 36
prematuros = dados[ (dados.IG_OBSTETRA <= 36) ]
prematuros

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,1,2660.0,9.0,9.0,0,1,0,2595.0,2570.0,Nossa Senhora de Fátima
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,1,3405.0,5.0,8.0,0,1,0,620.0,,Alto dos Pinheiros
15,2013-12-05,2013-12-06,0.886806,1,0.0,35.0,35.0,não,1,0,...,1,2215.0,10.0,10.0,0,2,0,2900.0,2100.0,Glória
18,2014-07-28,2014-07-29,0.902778,4,3.0,36.0,36.0,sim,1,0,...,2,2325.0,9.0,10.0,0,2,0,2725.0,2790.0,Dom Bosco
22,2014-02-21,2014-02-22,0.908333,1,0.0,36.0,39.0,sim,1,0,...,1,1895.0,,0.0,0,1,0,,,Conjunto Califórnia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1689,2014-02-16,2014-03-17,29.011806,1,0.0,36.0,36.0,sim,1,0,...,1,2395.0,10.0,9.0,0,1,0,,3015.0,São Lucas
1695,2014-02-12,2014-03-17,32.364583,4,2.0,25.0,28.0,sim,1,0,...,0,1085.0,7.0,8.0,0,1,0,,3080.0,"Serra Verde, Venda Nova"
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0,sim,2,0,...,1,1945.0,2.0,9.0,1,1,0,3000.0,2660.0,Letícia
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,1,2275.0,7.0,9.0,1,1,0,,2610.0,São Lucas


In [21]:
# Selecionar um sub-conjunto / intervalo de dados
# Todos os recém-nascidos prematuros que são gemeos
prematurosGemelares = dados[ (dados.IG_OBSTETRA <= 36) & (dados.GEMELAR == 'Sim') ]
prematurosGemelares

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO


In [22]:
# Criar um subconjunto dos dados com uma parte do texto de uma variável (string)
dadosBairroSanta = dados[ dados.BAIRRO.str.contains('Santa') ]

#  Contar quantos encontrou
dadosBairroSanta.BAIRRO.value_counts()

BAIRRO
Santa Efigênia                              23
Santa Mônica                                16
Santa Maria                                  9
Santa Terezinha                              8
Santana do Cafezal                           6
Vila Barragem Santa Lúcia                    6
Santa Tereza                                 5
Santa Inês                                   4
Santa Cruz                                   3
Santa Rita de Cássia                         2
Conjunto Santa Maria                         1
Santa Lúcia                                  1
Vila Santa Rita Vale do Jatobá, Barreiro     1
Santa Rosa                                   1
Santa Amélia                                 1
Santa Sofia                                  1
Name: count, dtype: int64

# Verificando registros duplicados

In [23]:
# Verificar se existem dados duplicados, fazer uma busca por alguma coluna com identificação única
dados[dados.duplicated(['DT_INTERNACAO'], keep=False)]

# keep = False ==> mostra os duplicados

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
0,2014-01-20,2014-01-21,0.768750,2,1.0,38.0,38.0,sim,1,0,...,1,3590.0,9.0,10.0,0,2,0,3405.0,3385.0,Coqueiros
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,1,2660.0,9.0,9.0,0,1,0,2595.0,2570.0,Nossa Senhora de Fátima
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,2,3075.0,9.0,10.0,0,2,0,3910.0,3675.0,São Lucas
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,1,3505.0,9.0,10.0,0,2,0,3275.0,3300.0,Jardim Vitória
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,1,3405.0,5.0,8.0,0,1,0,620.0,,Alto dos Pinheiros
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,2,2940.0,9.0,9.0,0,1,0,,3840.0,Jardim Montanhês
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0,sim,2,0,...,1,1945.0,2.0,9.0,1,1,0,3000.0,2660.0,Letícia
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,1,2275.0,7.0,9.0,1,1,0,,2610.0,São Lucas
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0,sim,2,0,...,1,2590.0,7.0,9.0,1,1,0,2660.0,2675.0,Nossa Senhora de Fátima


In [24]:
# Verificar se existem dados duplicados, fazer uma busca por um conjunto de variáveis que possa identificar os duplicados
dados[dados.duplicated(['DT_INTERNACAO', 'DURACAO_INT', 'IG_OBSTETRA', 'PESO_NASCER'], keep=False)]

# keep = False ==> mostra os duplicados
# keep = 'first' ==> mostra o 1º duplicado
# keep = 'last' ==> mostra o último duplicado


Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
182,2013-11-28,2013-11-29,1.257639,1,0.0,39.0,39.0,não,1,0,...,1,3085.0,10.0,10.0,0,1,0,3330.0,3205.0,Barreiro
183,2013-11-28,2013-11-29,1.257639,1,0.0,39.0,39.0,não,1,0,...,1,3085.0,10.0,10.0,0,1,0,2900.0,2820.0,Pindorama
1262,2014-04-29,2014-05-02,2.788194,1,0.0,40.0,40.0,sim,1,0,...,1,3420.0,8.0,8.0,0,2,0,,3950.0,Beija Flor
1263,2014-04-29,2014-05-02,2.788194,1,0.0,40.0,40.0,sim,1,0,...,1,3420.0,8.0,8.0,0,2,0,,,Lagoa
1542,2014-10-12,2014-10-17,4.513889,1,0.0,25.0,26.0,não,1,0,...,2,490.0,0.0,4.0,1,1,2,,3255.0,São Tomáz
1543,2014-10-12,2014-10-17,4.513889,1,0.0,25.0,26.0,não,1,0,...,2,490.0,1.0,7.0,1,1,2,,3140.0,Lagoa


In [25]:
# Apaga linhas duplicadas - considera se todas as colunas são iguais
dados.drop_duplicates()

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
0,2014-01-20,2014-01-21,0.768750,2,1.0,38.0,38.0,sim,1,0,...,1,3590.0,9.0,10.0,0,2,0,3405.0,3385.0,Coqueiros
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,1,2660.0,9.0,9.0,0,1,0,2595.0,2570.0,Nossa Senhora de Fátima
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,2,3075.0,9.0,10.0,0,2,0,3910.0,3675.0,São Lucas
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,1,3505.0,9.0,10.0,0,2,0,3275.0,3300.0,Jardim Vitória
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,1,3405.0,5.0,8.0,0,1,0,620.0,,Alto dos Pinheiros
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,2,2940.0,9.0,9.0,0,1,0,,3840.0,Jardim Montanhês
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0,sim,2,0,...,1,1945.0,2.0,9.0,1,1,0,3000.0,2660.0,Letícia
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,1,2275.0,7.0,9.0,1,1,0,,2610.0,São Lucas
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0,sim,2,0,...,1,2590.0,7.0,9.0,1,1,0,2660.0,2675.0,Nossa Senhora de Fátima


In [26]:
# Apaga linhas duplicadas - considera um conjunto de variáveis para identificar os duplicados, e mantém apenas o primeiro
dados.drop_duplicates(subset=['DT_INTERNACAO', 'DURACAO_INT', 'BAIRRO', 'PESO_NASCER'], keep='first', inplace=True)

In [27]:
# Apaga linhas duplicadas - considera uma coluna para validar se é duplicado, e mantém apenas o primeiro

# dados.drop_duplicates(subset='DT_INTERNACAO', keep='first', inplace=True)

# Tratamento de casos nulos (vazios) - decisão para cada estudo

In [28]:
# saber a quantidade de casos nulos
dados.isnull().sum()

DT_INTERNACAO           0
DT_ALTA                 0
DURACAO_INT             0
GESTACOES               0
PARTOS                  1
IG_OBSTETRA            20
IG_PEDIATRA             3
ALTO_RISCO              0
TIPO_PARTO              0
HIPERTENSAO             0
GEMELAR                 0
CESAREAS_PREVIAS        7
EPISIOTOMIA             0
ANALGESIA               0
FORCEPS                 0
CM_LACERACAO_CANAL    155
CM_UTI                  0
CM_INFECCAO             0
CM_NEARMISS             0
CM_TRANSFUSAO           3
VIVO                   36
SEXO                    0
PESO_NASCER            28
APGAR1                 58
APGAR5                  6
UTI_RN                  0
LIGADURACORDAO          0
LC_MOTIVO               0
EQUIPAMENTO_A         856
EQUIPAMENTO_B         195
BAIRRO                  0
dtype: int64

In [29]:
# Mostrar linhas com valores vazios (NaN) para uma determinada coluna
dados[ dados.PARTOS.isna() ]

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
198,2013-12-04,2013-12-05,1.285417,1,,36.0,36.0,não,1,0,...,1,2710.0,8.0,10.0,0,1,0,3275.0,3230.0,União


In [30]:
# Mostrar linhas com valores vazios (NaN) para uma determinada coluna
dados[ dados.CM_TRANSFUSAO.isna() ]

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
28,2013-09-29,2013-09-30,0.9375,2,1.0,40.0,40.0,não,1,0,...,2,3220.0,9.0,10.0,0,2,0,2970.0,2960.0,Padre Eustáquio
745,2013-10-02,2013-10-04,2.0,2,0.0,40.0,39.0,não,2,1,...,0,,,0.0,0,0,0,,,Dom Bosco
1314,2013-09-28,2013-10-01,2.934722,2,1.0,41.0,41.0,não,1,0,...,2,2900.0,8.0,9.0,0,2,0,3065.0,3065.0,Pousada Santo Antônio


**Excluir os registros nulos ou com variáveis vazias**

In [31]:
# Estratégia 0: não fazer nada.
# deixar os valores com vazios e cada teste estatístico/gráfico desconsiderar os nulos específicos em cada caso

In [32]:
# Estratégia 1: apagar TODAS as linhas que tenham qualquer valor NULO/vazio/missing (NULL)
# Apaga todas as linhas com pelo menos uma coluna com valor null
dados_sem_nulos = dados.dropna(how = 'any')
dados_sem_nulos.shape

(706, 31)

In [33]:
# Apagar todas as linhas com alguma coluna com NaN
# dados_sem_nulos = dados.dropna()

In [34]:
# Estratégia 2: apagar as linhas que tenham TODAS as variáveis com NULO/vazio/missing (NULL)
# Apaga apenas as linhas com todas as coluna com valores vazios (null)
dados_sem_linhas_vazias = dados.dropna(how = 'all')
dados_sem_linhas_vazias.shape

(1709, 31)

In [35]:
# Estratégia 3: apagar as linhas que tenham variáveis ESPECÍFICAS com NULO/vazio/missing (NULL)
# Apaga linhas com valores vazios na variável IG_OBSTETRA, PESO_NASCER
dados_validos = dados.dropna(how = 'any', subset=['IG_OBSTETRA', 'PESO_NASCER'])
dados_validos.shape

(1661, 31)

**Preencher nulos/vazios com media ou mediana**

In [36]:
# Verificamos se existe nulos (NAN) para as variáveis
dados.APGAR5.isnull().sum()

6

In [37]:
# Estratégia 4: preencher os NULO/vazio/missing (NULL) com valores da MEDIANA da própria variável
# IMPORTANTE: entre preencher com MEDIANA ou MEDIA, sempre melhor escolher a mediana

# APGAR5 tem 6 casos com NULL, supondo que optamos preencher com a MEDIANA

# calular a mediana
mediana = dados.APGAR5.median()

# visualizar qual foi a mediana calculada
print(mediana)

# preenche os NAN (null) com a mediana
dados.APGAR5.fillna(mediana, inplace=True)

9.0


In [38]:
#Verificamos se NAN não existem mais
dados.APGAR5.isnull().sum()

0

In [39]:
# Conferir como ficou a variável depois de preenchida
dados.APGAR5.describe()

count    1709.000000
mean        8.851375
std         2.066552
min         0.000000
25%         9.000000
50%         9.000000
75%        10.000000
max        10.000000
Name: APGAR5, dtype: float64

In [40]:
# Verificamos se existe nulos (NAN) para as variáveis
dados.EQUIPAMENTO_B.isnull().sum()

195

In [41]:
# Estratégia 5: preencher os NULO/vazio/missing (NULL) com valores da MEDIA da própria variável
# IMPORTANTE: entre preencher com MEDIANA ou MEDIA, sempre melhor escolher a mediana

# EQUIPAMENTO_B tem 195 casos com NULL, supondo que optamos preencher com a MEDIA

# calcular a media
media = np.mean(dados.EQUIPAMENTO_B)

# visualizar qual foi a media calculada
print(media)

# preenche os NAN (null) com a media
dados.EQUIPAMENTO_B.fillna(media, inplace=True)

3078.450462351387


In [42]:
#Verificamos se NAN não existem mais
dados.EQUIPAMENTO_B.isnull().sum()

0

In [43]:
# Conferir como ficou a variável depois de preenchida
dados.EQUIPAMENTO_B.describe()

count    1709.000000
mean     3078.450462
std       422.334424
min      1990.000000
25%      2830.000000
50%      3078.450462
75%      3335.000000
max      4125.000000
Name: EQUIPAMENTO_B, dtype: float64

# Salvar os dados atuais em um novo arquivo

In [44]:
# listar o DataFrame com a Limpeza e o tratamento de dados realizado
dados

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,SEXO,PESO_NASCER,APGAR1,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,BAIRRO
0,2014-01-20,2014-01-21,0.768750,2,1.0,38.0,38.0,sim,1,0,...,1,3590.0,9.0,10.0,0,2,0,3405.0,3385.000000,Coqueiros
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,1,2660.0,9.0,9.0,0,1,0,2595.0,2570.000000,Nossa Senhora de Fátima
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,2,3075.0,9.0,10.0,0,2,0,3910.0,3675.000000,São Lucas
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,1,3505.0,9.0,10.0,0,2,0,3275.0,3300.000000,Jardim Vitória
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,1,3405.0,5.0,8.0,0,1,0,620.0,3078.450462,Alto dos Pinheiros
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,2,2940.0,9.0,9.0,0,1,0,,3840.000000,Jardim Montanhês
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0,sim,2,0,...,1,1945.0,2.0,9.0,1,1,0,3000.0,2660.000000,Letícia
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,1,2275.0,7.0,9.0,1,1,0,,2610.000000,São Lucas
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0,sim,2,0,...,1,2590.0,7.0,9.0,1,1,0,2660.0,2675.000000,Nossa Senhora de Fátima


In [45]:
# salvar em excel, um novo arquivo, com os dados tratados
dados.to_excel("Roteiro_QDS02_atividade5.xlsx")