In [1]:
import pandas as pd

Agora, temos um hospital que deseja acessar os dados de pacientes, mas os arquivos estão todos no formato JSON. Dessa forma, é difícil extrair informações relevantes a partir dos dados. O nosso objetivo será usar a biblioteca Pandas para ler e manipular esses arquivos.

In [2]:
dados_pacientes = pd.read_json('data/pacientes.json')
dados_pacientes

Unnamed: 0,ID_paciente,Doenca_cardiaca,IMC,Fumante,Consumo_alcool,AVC,Saude_fisica,Saude_mental,Dificuldade_caminhar,Sexo_biologico,Faixa_etaria,Raca,Diabetes,Atividade_fisica,Saude_geral,Horas_sono,Asma,Doenca_renal,Cancer_pele
0,0,Nao,16.60,Sim,Nao,Nao,3,30,Nao,Feminino,55-59,Branca,Sim,Sim,Muito boa,5,Sim,Nao,Sim
1,1,Nao,20.34,Nao,Nao,Sim,0,0,Nao,Feminino,80 ou +,Branca,Nao,Sim,Muito boa,7,Nao,Nao,Nao
2,2,Nao,26.58,Sim,Nao,Nao,20,30,Nao,Masculino,65-69,Branca,Sim,Sim,Razoavel,8,Sim,Nao,Nao
3,3,Nao,24.21,Nao,Nao,Nao,0,0,Nao,Feminino,75-79,Branca,Nao,No,Boa,6,Nao,Nao,Sim
4,4,Nao,23.71,Nao,Nao,Nao,28,0,Sim,Feminino,40-44,Branca,Nao,Sim,Muito boa,8,Nao,Nao,Nao
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,Nao,28.29,Sim,Nao,Nao,10,20,Nao,Feminino,65-69,Preta,Sim,Sim,Razoavel,8,Nao,Nao,Nao
996,996,Nao,25.69,Sim,Nao,Nao,0,0,Nao,Feminino,75-79,Branca,Nao,Sim,Excelente,8,Nao,Nao,Nao
997,997,Sim,26.99,Nao,Nao,Nao,1,0,Nao,Masculino,70-74,Branca,Nao,Sim,Muito boa,8,Nao,Nao,Nao
998,998,Nao,44.29,Nao,Nao,Nao,30,0,Sim,Feminino,70-74,Branca,Sim,No,Boa,6,Sim,Nao,Nao


O data frame é composto por mil linhas e 19 colunas com informações de pacientes. Alguns dados disponíveis são:

ID de paciente;
Se a pessoa tem alguma doença cardíaca;
O seu IMC;
Se é fumante;
Se consome álcool;
Faixa etária;
Raça/etnia.
Além destas, existe uma série de outras informações sobre a saúde física e mental de cada paciente.

In [3]:
dados_pacientes_2 = pd.read_json('data/pacientes_2.json')
dados_pacientes_2 

Unnamed: 0,Pesquisa,Ano,Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_bi..."
1,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_..."
2,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '03', 'Faixa_etaria': '65-69', 'Sexo_bi..."


O resultado é uma tabela com três colunas. A primeira coluna, intitulada "Pesquisa", tem as mesmas informações em todas as linhas, ou seja, o texto "Principais Indicadores de Doença Cardíaca". A segunda coluna exibe o ano em que a pesquisa foi feita e a última coluna, chamada "Pacientes", agrupou todas as informações de cada paciente em uma única célula.
Com isso, não conseguimos obter a separação de cada dado, tampouco ler todas as informações disponíveis, uma vez que o conteúdo da célula está cortado (conseguimos ver o ID e a faixa etária).

Este é um caso típico de informações aninhadas. Não há separação das colunas e das linhas de maneira a facilitar a leitura e a manipulação dos dados. Será que existe alguma forma de normalizar essas informações com a Biblioteca Pandas?

Anteriormente, tentamos fazer a leitura de um arquivo JSON com informações aninhadas na coluna "Paciente". Antes de normalizar os dados desta coluna, vamos entender a estrutura do arquivo JSON.

Para isso, abriremos o editor de textos em JSON jsoncrack.com  no navegador. Selecionaremos a opção "Go to editor", no centro da tela.

Seremos redirecionados a uma nova janela com o editor de texto JSON. Na lateral esquerda, selecionaremos a primeira opção, representada por um ícone de folha de papel com a ponta dobrada ("Import File"). Uma nova aba surgirá na tela e clicaremos na opção "Click Here to Upload JSON".

Em seguida, escolheremos o arquivo "pacientes_2", clicaremos em "Abrir" e depois em "Import". O arquivo JSON carregará no editor. Do lado direito, visualizaremos a estrutura do arquivo em código. Porém, o lado direito exibe uma estrutura em forma de fluxograma.

Se ampliarmos a estrutura, perceberemos há um primeiro quadrado indicando que se trata de uma pesquisa chamada "Principais Indicadores de Doença Cardíaca" feita no ano de 2020.

Neste ano, a pesquisa dispunha de informações de três pacientes (próximo item no fluxograma). Esse item se conecta a três caixas de texto, com as informações de cada paciente. Se ampliarmos uma das caixas, observaremos as seguintes informações dispostas em sequência:

ID;
Faixa etária;
Sexo biológico;
Raça;
IMC;
Se é fumante ou não;
Se consome álcool;
Indicador de saúde física;
Indicador de saúde mental;
Se ela tem dificuldade para caminhar;
Se pratica atividade física;
Seu estado de saúde geral;
Média de horas de sono por dia.
Para cada pessoa, há uma lista com os problemas de saúde. Por exemplo, a pessoa com o ID "01" tem diabetes, asma e câncer de pele.

Isso nos mostra a estrutura completa do arquivo. Sabendo disso, queremos obter as informações das pessoas, ou seja, de cada paciente.

Para normalizar esses dados, voltaremos ao Google Colab e criaremos uma variável chamada df_normalizado. Ela será igual pd., seguida de uma função que normaliza os dados em formato JSON (json_normalize()). Dentro dos parênteses da função, passaremos o data frame que desejamos normalizar (dados_pacientes_2).

Em seguida, abriremos colchetes ([]) e, dentro deles, abriremos aspas simples, para indicar qual coluna deve ser normalizada, Pacientes.


In [5]:
df_normalizado = pd.json_normalize(dados_pacientes_2['Pacientes'])
df_normalizado

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


Normalização de dados é um processo importante em ciência de dados que tem como objetivo organizar e padronizar dados para facilitar a análise e comparação entre eles. Quando se trata de dados no formato JSON (JavaScript Object Notation - Notação de Objetos JavaScript), é comum que eles estejam aninhados, o que pode dificultar sua análise e manipulação.

A biblioteca Pandas possui uma função chamada json_normalize() que permite a transformação dos dados em um formato tabular, facilitando a visualização e análise das informações. A seguir vamos aprender como usar essa função para normalizar diferentes tipos de JSON em DataFrames.

In [7]:
#Importando a biblioteca Pandas
import pandas as pd

#Importando o módulo JSON
import json

#Lendo o arquivo json usando o módulo Python JSON
with open('data/pacientes_2.json','r') as f:
    dados = json.loads(f.read())

#Normalizando os dados com os parâmetros record_path e meta
pd.json_normalize(dados, record_path='Pacientes', meta=['Pesquisa', 'Ano'])
dados

{'Pesquisa': 'Principais Indicadores de Doenca Cardiaca',
 'Ano': 2020,
 'Pacientes': [{'ID': '01',
   'Faixa_etaria': '55-59',
   'Sexo_biologico': 'Feminino',
   'RaÃ§a': 'Branca',
   'IMC': 16.6,
   'Fumante': 'Sim',
   'Consumo_alcool': 'Nao',
   'Saude_fisica': 3,
   'Saude_mental': 30,
   'Dificuldade_caminhar': 'Nao',
   'Atividade_fisica': 'Sim',
   'Saude_geral': 'Muito boa',
   'Horas_sono': 5,
   'Problemas_saude': ['Diabetes', 'Asma', 'Cancer_pele']},
  {'ID': '02',
   'Faixa_etaria': '80 ou +',
   'Sexo_biologico': 'Feminino',
   'RaÃ§a': 'Branca',
   'IMC': 20.34,
   'Fumante': 'Nao',
   'Consumo_alcool': 'Nao',
   'Saude_fisica': 0,
   'Saude_mental': 0,
   'Dificuldade_caminhar': 'Nao',
   'Atividade_fisica': 'Sim',
   'Saude_geral': 'Muito boa',
   'Horas_sono': 7,
   'Problemas_saude': ['AVC']},
  {'ID': '03',
   'Faixa_etaria': '65-69',
   'Sexo_biologico': 'Masculino',
   'RaÃ§a': 'Branca',
   'IMC': 26.58,
   'Fumante': 'Sim',
   'Consumo_alcool': 'Nao',
   'Saude_

In [9]:
df_normalizado.to_json('data/historico_pacientes_normalizado.json')

Executaremos esta célula e, se abrirmos novamente o ícone de pasta do lado esquerdo (pasta "Arquivos"), observaremos o arquivo "historico_pacientes_normalizado" em meio à lista de arquivos abertos. Clicando no ícone de três pontos, é possível fazer download, renomear o arquivo, exclui-lo, copiar o caminho ou atualizá-lo.

Clicaremos em "Copiar caminho" e fecharemos a aba esquerda. Para fazer a leitura do arquivo que acabamos de salvar, escreveremos pd.read_json('/content/historico_pacientes_normalizado.json'). Ao executar esta célula, obteremos o data frame normalizado.

Aqui vai uma dica importante: salvamos o arquivo em formato JSON, mas você também pode salvar o seu arquivo em formato CSV ou EXCEL, podendo usá-los para facilitar análises futuras. Assim, você não precisará 'salvar ou converter o mesmo arquivo várias vezes.

Para obter dados no formato JSON podemos utilizar uma API (Application Programming Interface). Ela é uma interface de programação de aplicação que permite a comunicação entre diferentes programas ou sistemas.

Existem vários formatos que podem ser usados em APIs e um dos mais comuns é o JSON (JavaScript Object Notation). O JSON é um formato leve de troca de informações entre sistemas que utiliza uma notação baseada em objetos do JavaScript.

Nós temos a seguinte situação-problema:

“Uma empresa de alimentos saudáveis está enfrentando um problema com a popularidade de seus produtos. Apesar de oferecer opções saudáveis, muitos(as) clientes estão relutantes em comprar os produtos devido à falta de informação sobre os valores nutricionais das frutas que são utilizadas na produção dos alimentos”.

Nesta situação podemos acessar uma API chamada Fruitvice para coletar informações detalhadas sobre os valores nutricionais das frutas que são usadas nos produtos. Com essas informações, a empresa pode atualizar suas embalagens e materiais de marketing para destacar os valores nutricionais das frutas e, assim, atrair mais clientes que buscam opções saudáveis. Além disso, a empresa pode utilizar as informações para desenvolver novos produtos que atendam ainda mais às necessidades nutricionais de sua clientela.

Uma maneira comum de acessar APIs é por meio da biblioteca requests. Para isso, também é necessário importar o módulo json: