Centro de Inovação em Inteligência Artificial para a Saúde da UFMG

**Curso de Qualidade de Dados em Saúde para IA**

**Prof. Juliano Gaspar** - Faculdade de Medicina da UFMG

Mais informações: https://ciia-saude.medicina.ufmg.br/

**Manipulação, seleção, filtros, duplicados e nulos**

* Seleção e filtros
* Verificação de registros duplicados
* Tratamento de casos nulos
* Salvando a base de dados corrigida

In [None]:
# Importar as bibliotecas para trabalhar com base de dados e gráficos
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from google.colab import files

**Base de dados BD_TEMPO.CSV**

In [None]:
# Endereço do arquivo com a base de dados
arquivo = 'https://ftp.medicina.ufmg.br/cursosciia/qds/BD_TEMPO.csv'

In [None]:
# **************** VAI DAR ERRO *********************

# Existem funções específicas para abrir cada tipo de arquivo
# Por exemplo:

# Ler os dados de um arquivo Excel
# dados = pd.read_excel(arquivo)

# Ler os dados de um arquivo CSV
dados = pd.read_csv(arquivo)

# Ler os dados de um arquivo JSON
# dados = pd.read_json(arquivo)

# Ler os dados de um arquivo XML
# dados = pd.read_xml(arquivo)

Perceba que os dados foram importandos todos juntos em uma única coluna. Mesmo nunca tendo aberto essa tabela, é possível perceber que parece ter algo errado nessa importação.

**Algumas dicas que podem ajudar:**

*   Veja se o arquivo usa a vírgula, ou ponto-virgula, ou outro caracter para separar os dados.
*   Veja se o arquivo inicial já na primeira linha com os nomes das colunas, ou direto com os dados, ou ainda se tem linhas extras de texto no inicio ou no  fim do arquivo.
*   Se a acentuação ficar com caracteres especiais, veja se usar um outro tipo de codificação de importação, não pode ajudar.


In [None]:
# Importar o arquivo, e forçar usar um separador específico (;)
dados = pd.read_csv(arquivo, sep=';')
dados

In [None]:
# Importar o arquivo, e forçar que pule a importação da primeira linha, ou de um conjunto de linhas
dados = pd.read_csv(arquivo, sep=';', skiprows=1)

dados

In [None]:
# Importar o arquivo, e forçar usar um outr tipo de codificação

# codificação = latin1 / utf8 / cp1252 / outra codificação ???   procurar na internet

dados = pd.read_csv(arquivo, sep=';', skiprows=1, encoding='latin1')
dados

In [None]:
# Você pode também optar por ler apenas algumas colunas
dados = pd.read_csv(arquivo, sep=";", skiprows=1)
dados

In [None]:
# Apaga apenas as linhas com todas as coluna com valores vazios (null)
dados = dados.dropna(how = 'all')
dados

In [None]:
dados.info()

In [None]:
# Contabilizar uma categoria para testar
dados.Impacto.value_counts()

In [None]:
# tirar espaços em braco no início e no fim do texto de uma celula
dados.loc[:, 'Impacto'] = dados.Impacto.str.strip()

# Contabilizar uma categoria para testar (após a correção)
dados.Impacto.value_counts()

In [None]:
# Remover um prefixo nos dados
dados.loc[:, 'Impacto'] = dados.Impacto.str.removeprefix("R$ ")

# conferir
dados.Impacto.value_counts()

In [None]:
# Substituir ',' por '.'
dados.loc[:, 'Impacto'] = dados.Impacto.str.replace(',', '.')

# conferir
dados.Impacto.value_counts()

In [None]:
# converter o formato da coluna toda para um valor numerico
# If ‘coerce’, then invalid parsing will be set as NaN.
dados.loc[:, 'Impacto'] = pd.to_numeric(dados['Impacto'], errors='coerce')

# conferir
dados.Impacto.value_counts()

In [None]:
# informações do dataset
dados.info()

In [None]:
# tirar espaços em braco no início e no fim do texto de uma celula
dados.loc[:, 'Vento'] = dados.Vento.str.strip()

# Substituir ',' por '.'
dados.loc[:, 'Vento'] = dados.Vento.str.replace(',', '.')

# converter o formato da coluna toda para um valor numerico
dados.loc[:, 'Vento'] = pd.to_numeric(dados['Vento'], errors='coerce')

# conferir
dados.Vento.value_counts()

In [None]:
# conferir
dados.info()

In [None]:
# Gráfico de pizza, da quantidade de casos

# 1º extrai a tabela resumo com a quantidade por uma categoria
CLIMA = dados.Aparencia.value_counts()

# 2º faz a pizza com a tabela resumo
CLIMA.plot.pie(legend=True)

In [None]:
# Retornar valores que atendam a uma condição lógica
dados.loc[ (dados['Aparencia'] == 'menos') ]

In [None]:
# Atribuir nulo à valores específicos
dados.loc[ (dados['Aparencia'] == 'menos'), ['Aparencia'] ] = np.nan
dados

In [None]:
# Gráfico de pizza, da quantidade de casos

# 1º extrai a tabela resumo com a quantidade por uma categoria
CLIMA = dados.Aparencia.value_counts()

# 2º faz a pizza com a tabela resumo
CLIMA.plot.pie(legend=True)

**Converter Object para o tipo DateTime**

In [None]:
# visualizar os tipos de cada variável
dados.info()

In [None]:
# Converter o tipo de uma coluna OBJECT para DATETIME
dados.loc[:, 'DataPrevista']  = pd.to_datetime(dados.DataPrevista, format='%d/%m/%Y')
dados.info()

In [None]:
# Converter o tipo de uma coluna OBJECT para DATETIME
dados.loc[:, 'DataJogo']  = pd.to_datetime(dados.DataJogo, format='%d/%m/%Y')
dados.info()

In [None]:
dados

In [None]:
# salvar em excel, um novo arquivo, com os dados tratados
nome_arquivo = 'Roteiro_QDS03_atividade6.xlsx'
dados.to_excel(nome_arquivo)
files.download(nome_arquivo)