Centro de Inovação em Inteligência Artificial para a Saúde da UFMG

**Curso de Qualidade de Dados em Saúde para IA**

**Prof. Juliano Gaspar** - Faculdade de Medicina da UFMG

Mais informações: https://ciia-saude.medicina.ufmg.br/

# **Manipulação, seleção, filtros, duplicados e nulos**

* Seleção e filtros
* Verificação de registros duplicados
* Tratamento de casos nulos
* Salvando a base de dados corrigida

# Seleção e filtro de Dados

In [1]:
# Importar as bibliotecas para trabalhar com base de dados e gráficos
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from google.colab import files

In [2]:
# Endereço do arquivo com a base de dados
arquivo = 'https://ftp.medicina.ufmg.br/cursosciia/qds/BD_PARTOS_original.xlsx'

In [3]:
# Ler todos os dados e colocar na variável dados
dados = pd.read_excel(arquivo)
dados

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
0,2014-01-20,2014-01-21,0.768750,2,1.0,38.0,38.0,sim,1,0,...,10.0,0,2,0,3405.0,3385.0,0.0,Coqueiros,-19.915533,-43.967018
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,9.0,0,1,0,2595.0,2570.0,3.0,Nossa Senhora de Fátima,-20.015308,-44.031117
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,10.0,0,2,0,3910.0,3675.0,0.0,São Lucas,-19.895012,-44.019329
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,10.0,0,2,0,3275.0,3300.0,90.0,Jardim Vitória,-19.973650,-44.024056
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,8.0,0,1,0,620.0,,1.0,Alto dos Pinheiros,-19.907129,-43.907127
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,9.0,0,1,0,,3840.0,0.0,Jardim Montanhês,-19.805260,-43.964157
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0,sim,2,0,...,9.0,1,1,0,3000.0,2660.0,3.0,Letícia,-19.952906,-43.998699
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,9.0,1,1,0,,2610.0,111.0,São Lucas,-19.890446,-43.956734
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0,sim,2,0,...,9.0,1,1,0,2660.0,2675.0,3.0,Nossa Senhora de Fátima,-19.906525,-43.889401


In [4]:
# Mostrar destalhes/informações das variáveis importadas
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1709 entries, 0 to 1708
Data columns (total 34 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   DT_INTERNACAO       1709 non-null   datetime64[ns]
 1   DT_ALTA             1709 non-null   datetime64[ns]
 2   DURACAO_INT         1709 non-null   float64       
 3   GESTACOES           1709 non-null   int64         
 4   PARTOS              1708 non-null   float64       
 5   IG_OBSTETRA         1689 non-null   float64       
 6   IG_PEDIATRA         1706 non-null   float64       
 7   ALTO_RISCO          1709 non-null   object        
 8   TIPO_PARTO          1709 non-null   int64         
 9   HIPERTENSAO         1709 non-null   int64         
 10  GEMELAR             1709 non-null   int64         
 11  CESAREAS_PREVIAS    1702 non-null   float64       
 12  EPISIOTOMIA         1709 non-null   int64         
 13  ANALGESIA           1709 non-null   int64       

**Tipos de variáveis**

*   **int64** = números inteiros
*   **float64** = números decimais
*   **object** = textos / strings
*   **datetime64** = datas

**Algumas designações**
* non-null = não nulos (válidos)
* null = nulos, missings, vazios, não preenchido
* NAN (Not A Number) = por alguma razão o valor da variável não é um número (tem um texto, tem um resultado inexperado)


In [5]:
# Criar uma lista com os nomes das colunas
dados.columns

Index(['DT_INTERNACAO', 'DT_ALTA', 'DURACAO_INT', 'GESTACOES', 'PARTOS',
       'IG_OBSTETRA', 'IG_PEDIATRA', 'ALTO_RISCO', 'TIPO_PARTO', 'HIPERTENSAO',
       'GEMELAR', 'CESAREAS_PREVIAS', 'EPISIOTOMIA', 'ANALGESIA', 'FORCEPS',
       'CM_LACERACAO_CANAL', 'CM_UTI', 'CM_INFECCAO', 'CM_NEARMISS',
       'CM_TRANSFUSAO', 'VIVO', 'SEXO', 'PESO_NASCER', 'APGAR1', 'APGAR5',
       'UTI_RN', 'LIGADURACORDAO', 'LC_MOTIVO', 'EQUIPAMENTO_A',
       'EQUIPAMENTO_B', 'UBS', 'BAIRRO', 'LATITUDE', 'LONGITUDE'],
      dtype='object')

In [6]:
# Mostrar um resumo dos dados (as 5 primeiras linhas e 5 últimas 5 linhas)
dados

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
0,2014-01-20,2014-01-21,0.768750,2,1.0,38.0,38.0,sim,1,0,...,10.0,0,2,0,3405.0,3385.0,0.0,Coqueiros,-19.915533,-43.967018
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,9.0,0,1,0,2595.0,2570.0,3.0,Nossa Senhora de Fátima,-20.015308,-44.031117
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,10.0,0,2,0,3910.0,3675.0,0.0,São Lucas,-19.895012,-44.019329
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,10.0,0,2,0,3275.0,3300.0,90.0,Jardim Vitória,-19.973650,-44.024056
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,8.0,0,1,0,620.0,,1.0,Alto dos Pinheiros,-19.907129,-43.907127
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,9.0,0,1,0,,3840.0,0.0,Jardim Montanhês,-19.805260,-43.964157
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0,sim,2,0,...,9.0,1,1,0,3000.0,2660.0,3.0,Letícia,-19.952906,-43.998699
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,9.0,1,1,0,,2610.0,111.0,São Lucas,-19.890446,-43.956734
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0,sim,2,0,...,9.0,1,1,0,2660.0,2675.0,3.0,Nossa Senhora de Fátima,-19.906525,-43.889401


**Seleção e filtro de dados**

In [7]:
# Mostrar um resumo dos dados de 10 linhas aleatórias
dados.sample(10)

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
1641,2013-10-18,2013-10-26,8.048611,3,2.0,30.0,30.0,sim,2,1,...,8.0,1,1,0,,,4.0,Pindorama,-19.875525,-43.945526
154,2013-11-19,2013-11-20,1.215278,2,1.0,38.0,38.0,não,1,0,...,10.0,0,2,0,,2000.0,1.0,Santa Rita de Cássia,-19.862499,-43.894672
1249,2014-06-28,2014-07-01,2.75,2,0.0,36.0,36.0,sim,2,0,...,10.0,0,2,0,3325.0,3275.0,33.0,Vila Oeste,-19.993711,-44.046612
394,2013-12-22,2013-12-24,1.559722,3,1.0,41.0,41.0,não,2,0,...,9.0,0,2,0,3275.0,3290.0,3.0,Ribeiro de Abreu,-19.970924,-44.016247
329,2013-12-16,2013-12-17,1.471528,1,0.0,37.0,37.0,não,1,0,...,9.0,0,1,0,2740.0,2765.0,1.0,Carlos Prates,-19.913792,-43.88139
449,2014-06-25,2014-06-27,1.659722,1,0.0,40.0,40.0,não,1,0,...,10.0,0,2,0,2325.0,2345.0,3.0,Fernão Dias,-19.944021,-43.918411
260,2014-03-12,2014-03-13,1.364583,1,0.0,28.0,28.0,não,1,0,...,0.0,0,1,0,2965.0,2960.0,0.0,Conjunto Confisco,-19.929627,-43.973209
319,2014-05-29,2014-05-30,1.454861,4,2.0,41.0,41.0,não,1,0,...,9.0,0,2,0,,2875.0,3.0,Engenho Nogueira,-19.865528,-44.016743
28,2013-09-29,2013-09-30,0.9375,2,1.0,40.0,40.0,não,1,0,...,10.0,0,2,0,2970.0,2960.0,0.0,Padre Eustáquio,-19.885691,-43.959747
238,2013-12-26,2013-12-27,1.334722,1,0.0,39.0,39.0,não,1,0,...,10.0,0,2,0,2365.0,2350.0,1.0,Santa Efigênia,-19.942602,-43.91436


In [8]:
# Ver o início (topo) da lista de dados
dados.head()

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
0,2014-01-20,2014-01-21,0.76875,2,1.0,38.0,38.0,sim,1,0,...,10.0,0,2,0,3405.0,3385.0,0.0,Coqueiros,-19.915533,-43.967018
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,9.0,0,1,0,2595.0,2570.0,3.0,Nossa Senhora de Fátima,-20.015308,-44.031117
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,10.0,0,2,0,3910.0,3675.0,0.0,São Lucas,-19.895012,-44.019329
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,10.0,0,2,0,3275.0,3300.0,90.0,Jardim Vitória,-19.97365,-44.024056
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,8.0,0,1,0,620.0,,1.0,Alto dos Pinheiros,-19.907129,-43.907127


In [9]:
# Ver o fim (cauda) da lista de dados
dados.tail()

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,9.0,0,1,0,,3840.0,0.0,Jardim Montanhês,-19.80526,-43.964157
1705,2014-04-25,2014-06-10,45.61875,2,1.0,29.0,34.0,sim,2,0,...,9.0,1,1,0,3000.0,2660.0,3.0,Letícia,-19.952906,-43.998699
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,9.0,1,1,0,,2610.0,111.0,São Lucas,-19.890446,-43.956734
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0,sim,2,0,...,9.0,1,1,0,2660.0,2675.0,3.0,Nossa Senhora de Fátima,-19.906525,-43.889401
1708,2014-03-12,2014-05-14,62.5375,3,2.0,39.0,39.0,não,1,0,...,10.0,0,1,0,4920.0,,,Vera Cruz,-19.892647,-43.900059


In [10]:
# Acessar os dados de uma Series (coluna)

# Forma simples: se a coluna for sem espaços
dados.TIPO_PARTO

Unnamed: 0,TIPO_PARTO
0,1
1,1
2,1
3,1
4,1
...,...
1704,1
1705,2
1706,2
1707,2


In [11]:
# Forma padrão: para todo tipo de título de coluna, incluindo com espaços
dados['TIPO_PARTO']

Unnamed: 0,TIPO_PARTO
0,1
1,1
2,1
3,1
4,1
...,...
1704,1
1705,2
1706,2
1707,2


In [12]:
# Filtrar os 5 maiores valores de uma coluna
dados.nlargest(5, 'PESO_NASCER')

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
1438,2014-03-17,2014-03-20,3.418056,1,0.0,29.0,20.0,sim,2,0,...,1.0,0,1,0,,,3.0,Nova Cachoeirinha,-19.993549,-44.018082
1383,2014-04-07,2014-04-10,3.070833,5,4.0,40.0,40.0,não,2,0,...,9.0,0,1,0,,2900.0,0.0,Ouro Preto,-19.919867,-43.877316
952,2014-04-09,2014-04-11,2.166667,3,2.0,40.0,40.0,não,2,1,...,10.0,0,2,0,,2239.0,1.0,Inconfidência,-19.91818,-43.931618
1041,2013-11-11,2013-11-13,2.315972,3,2.0,39.0,38.0,não,2,0,...,9.0,0,2,0,3275.0,3250.0,0.0,Álvaro Camargos,-20.018854,-44.027176
728,2013-12-02,2013-12-04,1.994444,2,1.0,38.0,38.0,não,1,0,...,9.0,0,2,0,,3385.0,,Inconfidência,-19.915436,-43.928944


In [13]:
# Filtrar os 5 menores  valores de uma coluna
dados.nsmallest(5, 'PESO_NASCER')

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
670,2014-02-13,2014-02-15,1.94375,2,1.0,23.0,23.0,sim,1,0,...,0.0,0,0,0,,,1.0,Vera Cruz,-19.892702,-43.898537
260,2014-03-12,2014-03-13,1.364583,1,0.0,28.0,28.0,não,1,0,...,0.0,0,1,0,2965.0,2960.0,0.0,Conjunto Confisco,-19.929627,-43.973209
26,2014-05-04,2014-05-05,0.931944,2,0.0,19.0,20.0,sim,1,0,...,0.0,0,1,0,,,1.0,Monsenhor Messias,-19.890909,-43.900944
1235,2014-06-25,2014-06-28,2.717361,1,0.0,23.0,23.0,não,1,0,...,0.0,0,0,0,,,1.0,Caiçaras,-19.88855,-43.897469
54,2014-04-13,2014-04-14,1.013889,2,1.0,22.0,22.0,não,1,0,...,1.0,0,0,0,,3410.0,136.0,Paraíso,-19.888601,-43.901932


In [27]:
# Localizar e visualizar um sub-conjunto de dados

# Todos os recém-nascidos prematuros, ou seja, com idade gestacional <= 36
prematuros = dados[ dados.IG_OBSTETRA <= 36 ]
prematuros

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,9.0,0,1,0,2595.0,2570.0,3.0,Nossa Senhora de Fátima,-20.015308,-44.031117
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,8.0,0,1,0,620.0,,1.0,Alto dos Pinheiros,-19.907129,-43.907127
15,2013-12-05,2013-12-06,0.886806,1,0.0,35.0,35.0,não,1,0,...,10.0,0,2,0,2900.0,2100.0,125.0,Glória,-19.933382,-44.007568
18,2014-07-28,2014-07-29,0.902778,4,3.0,36.0,36.0,sim,1,0,...,10.0,0,2,0,2725.0,2790.0,119.0,Dom Bosco,-19.915789,-43.884346
22,2014-02-21,2014-02-22,0.908333,1,0.0,36.0,39.0,sim,1,0,...,0.0,0,1,0,,,111.0,Conjunto Califórnia,-19.882975,-43.940681
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1689,2014-02-16,2014-03-17,29.011806,1,0.0,36.0,36.0,sim,1,0,...,9.0,0,1,0,,3015.0,0.0,São Lucas,-19.882309,-43.958775
1695,2014-02-12,2014-03-17,32.364583,4,2.0,25.0,28.0,sim,1,0,...,8.0,0,1,0,,3080.0,113.0,"Serra Verde, Venda Nova",-19.886316,-43.949482
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0,sim,2,0,...,9.0,1,1,0,3000.0,2660.0,3.0,Letícia,-19.952906,-43.998699
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,9.0,1,1,0,,2610.0,111.0,São Lucas,-19.890446,-43.956734


# Verificando registros duplicados

In [14]:
# Verificar se existem dados duplicados, fazer uma busca por alguma coluna com identificação única
dados[dados.duplicated(['DT_INTERNACAO'], keep=False)]

# keep = False ==> mostra os duplicados

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
0,2014-01-20,2014-01-21,0.768750,2,1.0,38.0,38.0,sim,1,0,...,10.0,0,2,0,3405.0,3385.0,0.0,Coqueiros,-19.915533,-43.967018
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,9.0,0,1,0,2595.0,2570.0,3.0,Nossa Senhora de Fátima,-20.015308,-44.031117
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,10.0,0,2,0,3910.0,3675.0,0.0,São Lucas,-19.895012,-44.019329
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,10.0,0,2,0,3275.0,3300.0,90.0,Jardim Vitória,-19.973650,-44.024056
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,8.0,0,1,0,620.0,,1.0,Alto dos Pinheiros,-19.907129,-43.907127
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,9.0,0,1,0,,3840.0,0.0,Jardim Montanhês,-19.805260,-43.964157
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0,sim,2,0,...,9.0,1,1,0,3000.0,2660.0,3.0,Letícia,-19.952906,-43.998699
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,9.0,1,1,0,,2610.0,111.0,São Lucas,-19.890446,-43.956734
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0,sim,2,0,...,9.0,1,1,0,2660.0,2675.0,3.0,Nossa Senhora de Fátima,-19.906525,-43.889401


In [15]:
# Verificar se existem dados duplicados, fazer uma busca por um conjunto de variáveis que possa identificar os duplicados
dados[dados.duplicated(['DT_INTERNACAO', 'DURACAO_INT', 'IG_OBSTETRA', 'PESO_NASCER'], keep=False)]

# keep = False ==> mostra os duplicados
# keep = 'first' ==> mostra o 1º duplicado
# keep = 'last' ==> mostra o último duplicado


Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
182,2013-11-28,2013-11-29,1.257639,1,0.0,39.0,39.0,não,1,0,...,10.0,0,1,0,3330.0,3205.0,0.0,Barreiro,-20.017695,-44.025555
183,2013-11-28,2013-11-29,1.257639,1,0.0,39.0,39.0,não,1,0,...,10.0,0,1,0,2900.0,2820.0,2.0,Pindorama,-19.95089,-43.967331
1262,2014-04-29,2014-05-02,2.788194,1,0.0,40.0,40.0,sim,1,0,...,8.0,0,2,0,,3950.0,0.0,Beija Flor,-19.86998,-43.923782
1263,2014-04-29,2014-05-02,2.788194,1,0.0,40.0,40.0,sim,1,0,...,8.0,0,2,0,,,3.0,Lagoa,-19.813814,-43.893028
1542,2014-10-12,2014-10-17,4.513889,1,0.0,25.0,26.0,não,1,0,...,4.0,1,1,2,,3255.0,0.0,São Tomáz,-19.895634,-43.891979
1543,2014-10-12,2014-10-17,4.513889,1,0.0,25.0,26.0,não,1,0,...,7.0,1,1,2,,3140.0,2.0,Lagoa,-19.891725,-43.893246


In [16]:
# Apaga linhas duplicadas - considera se todas as colunas são iguais
dados.drop_duplicates()

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
0,2014-01-20,2014-01-21,0.768750,2,1.0,38.0,38.0,sim,1,0,...,10.0,0,2,0,3405.0,3385.0,0.0,Coqueiros,-19.915533,-43.967018
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,9.0,0,1,0,2595.0,2570.0,3.0,Nossa Senhora de Fátima,-20.015308,-44.031117
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,10.0,0,2,0,3910.0,3675.0,0.0,São Lucas,-19.895012,-44.019329
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,10.0,0,2,0,3275.0,3300.0,90.0,Jardim Vitória,-19.973650,-44.024056
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,8.0,0,1,0,620.0,,1.0,Alto dos Pinheiros,-19.907129,-43.907127
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,9.0,0,1,0,,3840.0,0.0,Jardim Montanhês,-19.805260,-43.964157
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0,sim,2,0,...,9.0,1,1,0,3000.0,2660.0,3.0,Letícia,-19.952906,-43.998699
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,9.0,1,1,0,,2610.0,111.0,São Lucas,-19.890446,-43.956734
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0,sim,2,0,...,9.0,1,1,0,2660.0,2675.0,3.0,Nossa Senhora de Fátima,-19.906525,-43.889401


In [17]:
# Apaga linhas duplicadas - considera um conjunto de variáveis para identificar os duplicados, e mantém apenas o primeiro
dados.drop_duplicates(subset=['DT_INTERNACAO', 'DURACAO_INT', 'BAIRRO', 'PESO_NASCER'], keep='first', inplace=True)

In [None]:
# Apaga linhas duplicadas - considera uma coluna para validar se é duplicado, e mantém apenas o primeiro

# dados.drop_duplicates(subset='DT_INTERNACAO', keep='first', inplace=True)

# Tratamento de casos nulos (vazios) - decisão para cada estudo

In [18]:
# saber a quantidade de casos nulos
dados.isnull().sum()

Unnamed: 0,0
DT_INTERNACAO,0
DT_ALTA,0
DURACAO_INT,0
GESTACOES,0
PARTOS,1
IG_OBSTETRA,20
IG_PEDIATRA,3
ALTO_RISCO,0
TIPO_PARTO,0
HIPERTENSAO,0


In [19]:
# Mostrar linhas com valores vazios (NaN) para uma determinada coluna
dados[ dados.PARTOS.isna() ]

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
198,2013-12-04,2013-12-05,1.285417,1,,36.0,36.0,não,1,0,...,10.0,0,1,0,3275.0,3230.0,1.0,União,-19.999735,-44.014774


In [20]:
# Mostrar linhas com valores vazios (NaN) para uma determinada coluna
dados[ dados.CM_TRANSFUSAO.isna() ]

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
28,2013-09-29,2013-09-30,0.9375,2,1.0,40.0,40.0,não,1,0,...,10.0,0,2,0,2970.0,2960.0,0.0,Padre Eustáquio,-19.885691,-43.959747
745,2013-10-02,2013-10-04,2.0,2,0.0,40.0,39.0,não,2,1,...,0.0,0,0,0,,,2.0,Dom Bosco,-19.813715,-43.894764
1314,2013-09-28,2013-10-01,2.934722,2,1.0,41.0,41.0,não,1,0,...,9.0,0,2,0,3065.0,3065.0,1.0,Pousada Santo Antônio,-19.940599,-43.981941


**Excluir os registros nulos ou com variáveis vazias**

In [21]:
# Estratégia 0: não fazer nada.
# deixar os valores com vazios e cada teste estatístico/gráfico desconsiderar os nulos específicos em cada caso

In [28]:
# Estratégia 1: apagar TODAS as linhas que tenham qualquer valor NULO/vazio/missing (NULL)
# Apaga todas as linhas com pelo menos uma coluna com valor null
dados_sem_nulos = dados.dropna(how = 'any')
dados_sem_nulos.shape

(693, 34)

In [None]:
# Apagar todas as linhas com alguma coluna com NaN
# dados_sem_nulos = dados.dropna()

In [23]:
# Estratégia 2: apagar as linhas que tenham TODAS as variáveis com NULO/vazio/missing (NULL)
# Apaga apenas as linhas com todas as coluna com valores vazios (null)
dados_sem_linhas_vazias = dados.dropna(how = 'all')
dados_sem_linhas_vazias.shape

(1709, 34)

In [24]:
# Estratégia 3: apagar as linhas que tenham variáveis ESPECÍFICAS com NULO/vazio/missing (NULL)
# Apaga linhas com valores vazios na variável IG_OBSTETRA, PESO_NASCER
dados_validos = dados.dropna(how = 'any', subset=['IG_OBSTETRA', 'PESO_NASCER'])
dados_validos.shape

(1661, 34)

**Preencher nulos/vazios com media ou mediana**

In [29]:
# Verificamos se existe nulos (NAN) para as variáveis
dados.APGAR5.isnull().sum()

0

In [26]:
# Estratégia 4: preencher os NULO/vazio/missing (NULL) com valores da MEDIANA da própria variável
# IMPORTANTE: entre preencher com MEDIANA ou MEDIA, sempre melhor escolher a mediana

# APGAR5 tem 6 casos com NULL, supondo que optamos preencher com a MEDIANA

# calular a mediana
mediana = dados.APGAR5.median()

# visualizar qual foi a mediana calculada
print(mediana)

# preenche os NAN (null) com a mediana
dados.APGAR5.fillna(mediana, inplace=True)

9.0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  dados.APGAR5.fillna(mediana, inplace=True)


In [30]:
#Verificamos se NAN não existem mais
dados.APGAR5.isnull().sum()

0

In [31]:
# Conferir como ficou a variável depois de preenchida
dados.APGAR5.describe()

Unnamed: 0,APGAR5
count,1709.0
mean,8.851375
std,2.066552
min,0.0
25%,9.0
50%,9.0
75%,10.0
max,10.0


In [32]:
# Verificamos se existe nulos (NAN) para as variáveis
dados.EQUIPAMENTO_B.isnull().sum()

195

In [33]:
# Estratégia 5: preencher os NULO/vazio/missing (NULL) com valores da MEDIA da própria variável
# IMPORTANTE: entre preencher com MEDIANA ou MEDIA, sempre melhor escolher a mediana

# EQUIPAMENTO_B tem 195 casos com NULL, supondo que optamos preencher com a MEDIA

# calular a media
media = np.mean(dados.EQUIPAMENTO_B)

# visualizar qual foi a media calculada
print(media)

# preenche os NAN (null) com a media
dados.EQUIPAMENTO_B.fillna(media, inplace=True)

3078.450462351387


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  dados.EQUIPAMENTO_B.fillna(media, inplace=True)


In [34]:
#Verificamos se NAN não existem mais
dados.EQUIPAMENTO_B.isnull().sum()

0

In [35]:
# Conferir como ficou a variável depois de preenchida
dados.EQUIPAMENTO_B.describe()

Unnamed: 0,EQUIPAMENTO_B
count,1709.0
mean,3078.450462
std,422.334424
min,1990.0
25%,2830.0
50%,3078.450462
75%,3335.0
max,4125.0


# Salvar os dados atuais em um novo arquivo

In [36]:
# listar o DataFrame com a Limpeza e o tratamento de dados realizado
dados

Unnamed: 0,DT_INTERNACAO,DT_ALTA,DURACAO_INT,GESTACOES,PARTOS,IG_OBSTETRA,IG_PEDIATRA,ALTO_RISCO,TIPO_PARTO,HIPERTENSAO,...,APGAR5,UTI_RN,LIGADURACORDAO,LC_MOTIVO,EQUIPAMENTO_A,EQUIPAMENTO_B,UBS,BAIRRO,LATITUDE,LONGITUDE
0,2014-01-20,2014-01-21,0.768750,2,1.0,38.0,38.0,sim,1,0,...,10.0,0,2,0,3405.0,3385.000000,0.0,Coqueiros,-19.915533,-43.967018
1,2014-05-21,2014-05-22,0.773611,1,0.0,36.0,36.0,sim,1,0,...,9.0,0,1,0,2595.0,2570.000000,3.0,Nossa Senhora de Fátima,-20.015308,-44.031117
2,2014-04-13,2014-04-14,0.798611,2,1.0,39.0,39.0,não,1,0,...,10.0,0,2,0,3910.0,3675.000000,0.0,São Lucas,-19.895012,-44.019329
3,2013-12-04,2013-12-05,0.807639,2,1.0,41.0,41.0,não,1,0,...,10.0,0,2,0,3275.0,3300.000000,90.0,Jardim Vitória,-19.973650,-44.024056
4,2013-12-05,2013-12-06,0.815972,1,0.0,36.0,36.0,não,1,0,...,8.0,0,1,0,620.0,3078.450462,1.0,Alto dos Pinheiros,-19.907129,-43.907127
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1704,2014-07-05,2014-08-12,37.604167,2,1.0,38.0,38.0,não,1,0,...,9.0,0,1,0,,3840.000000,0.0,Jardim Montanhês,-19.805260,-43.964157
1705,2014-04-25,2014-06-10,45.618750,2,1.0,29.0,34.0,sim,2,0,...,9.0,1,1,0,3000.0,2660.000000,3.0,Letícia,-19.952906,-43.998699
1706,2013-11-04,2013-12-22,47.984028,2,1.0,26.0,32.0,sim,2,0,...,9.0,1,1,0,,2610.000000,111.0,São Lucas,-19.890446,-43.956734
1707,2013-10-04,2013-11-28,54.895833,3,0.0,27.0,34.0,sim,2,0,...,9.0,1,1,0,2660.0,2675.000000,3.0,Nossa Senhora de Fátima,-19.906525,-43.889401


In [None]:
# salvar em excel, um novo arquivo, com os dados tratados
nome_arquivo = 'Roteiro_QDS02_atividade5.xlsx'
dados.to_excel(nome_arquivo)
files.download(nome_arquivo)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>