In [5]:
# Criando um arquivo com codificação diferente de UTF-8
with open("dados1.csv", "w", encoding="ISO-8859-1") as f:
    f.write("nome,idade\n")
    f.write("João,25\n")
    f.write("José,30\n")
    f.write("Maçã,5\n")  # A palavra "Maçã" contém o caractere 'ç', que pode gerar um erro de codificação


In [6]:
import pandas as pd
df = pd.read_csv('dados1.csv')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe3 in position 14: invalid continuation byte

Nós podemos usar uma biblioteca chamada [**`chardet`**](https://pypi.org/project/chardet/) para detectar o encoding de um arquivo CSV.

In [8]:
import chardet
import pandas as pd

O código abre um arquivo CSV em modo de leitura binária (`rb`) e atribui o objeto de arquivo à variável `file`. Em seguida, lê o conteúdo do arquivo e passa o resultado para `chardet.detect()`, que retorna um dicionário com a codificação mais provável. O `print()` exibe a codificação e sua confiança.

In [9]:
with open('dados1.csv', 'rb') as file:
    print(chardet.detect(file.read()))

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


Para especificar a codificação correta ao carregar o arquivo CSV com a biblioteca Pandas, é possível usar um parâmetro chamado `encoding`:

- Com isso, irá carregar o arquivo CSV usando a codificação ISO-8859-1, o que vai resolver o erro de encoding.

In [10]:
df = pd.read_csv('dados1.csv', encoding='ISO-8859-1')

### Aprofundando na normalização

- Normalizando um JSON simples

In [11]:
dados = {'Pesquisa': 'Principais Indicadores de Doenca Cardiaca', 'Ano': 2020, 'Numero_Pacientes':3}

In [12]:
df = pd.json_normalize(dados)
df

Unnamed: 0,Pesquisa,Ano,Numero_Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,3


- Normalizando um JSON com vários níveis

In [13]:
json_lista = [
    { 'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_biologico': 'feminino'},
    { 'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_biologico': 'feminino'}
]

In [14]:
pd.json_normalize(json_lista)

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico
0,1,55-59,feminino
1,2,80 ou +,feminino


### Normalizando um JSON com uma lista aninhada

- Dados como um dicionário

In [15]:
json_obj = {
    'ID': '01',
    'Faixa_etaria': '55-59',
    'Sexo_biologico': 'Feminino',
    'Saude': {'Dificuldade_caminhar': 'Nao',
              'Atividade_fisica': 'Sim',
              'IMC': 16.6,
              'Doenca_cardiaca': 'Nao',
          }
      }

In [16]:
pd.json_normalize(json_obj)

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Saude.Dificuldade_caminhar,Saude.Atividade_fisica,Saude.IMC,Saude.Doenca_cardiaca
0,1,55-59,Feminino,Nao,Sim,16.6,Nao


- Dados como uma lista de dicionários

In [17]:
json_list = [
    {
    'ID': '01',
    'Faixa_etaria': '55-59',
    'Sexo_biologico': 'Feminino',
    'Saude': {'Dificuldade_caminhar': 'Nao',
              'Atividade_fisica': 'Sim',
              'IMC': 16.6,
              'Doenca_cardiaca': 'Nao',
          }
      },
      {
          'ID': '02',
          'Faixa_etaria': '80 ou +',
          'Sexo_biologico': 'Feminino',
          'Saude': {'Dificuldade_caminhar': 'Nao',
                    'Atividade_fisica': 'Sim',
                    'IMC': 20.34,
                    'Doenca_cardiaca': 'Sim'}
       }
       ]

In [18]:
pd.json_normalize(json_list)

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Saude.Dificuldade_caminhar,Saude.Atividade_fisica,Saude.IMC,Saude.Doenca_cardiaca
0,1,55-59,Feminino,Nao,Sim,16.6,Nao
1,2,80 ou +,Feminino,Nao,Sim,20.34,Sim


In [19]:
dados_dict = {
  "Pesquisa": "Principais Indicadores de Doenca Cardiaca",
  "Ano": 2020,
  "Pacientes": [
    {
      "ID": "01",
      "Faixa_etaria": "55-59",
      "Sexo_biologico": "Feminino",
      "Raça": "Branca",
      "IMC": 16.6,
      "Fumante": "Sim",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 3,
      "Saude_mental": 30,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 5,
      "Problemas_saude": [
        "Diabetes",
        "Asma",
        "Cancer_pele"
      ]
    },
    {
      "ID": "02",
      "Faixa_etaria": "80 ou +",
      "Sexo_biologico": "Feminino",
      "Raça": "Branca",
      "IMC": 20.34,
      "Fumante": "Nao",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 0,
      "Saude_mental": 0,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 7,
      "Problemas_saude": [
        "AVC"
      ]
    },
    {
      "ID": "03",
      "Faixa_etaria": "65-69",
      "Sexo_biologico": "Masculino",
      "Raça": "Branca",
      "IMC": 26.58,
      "Fumante": "Sim",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 20,
      "Saude_mental": 30,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 8,
      "Problemas_saude": [
        "diabetes",
        "Asma"
      ]
    }
  ]
}

In [20]:
pd.json_normalize(dados_dict)

Unnamed: 0,Pesquisa,Ano,Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,"[{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_b..."


In [21]:
pd.json_normalize(dados_dict['Pacientes'])

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


In [22]:
pd.json_normalize(dados_dict, record_path=['Pacientes'])

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


In [23]:
pd.json_normalize(
    dados_dict, 
    record_path =['Pacientes'], 
    meta=['Pesquisa', 'Ano']
)

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude,Pesquisa,Ano
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]",Principais Indicadores de Doenca Cardiaca,2020
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC],Principais Indicadores de Doenca Cardiaca,2020
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]",Principais Indicadores de Doenca Cardiaca,2020


>a função `json_normalize()` aceita apenas um dicionário ou uma lista de dicionários. Por isso, no vídeo foi usada a estratégia de usar o código: `pd.json_normalize(dados_pacientes_2['Pacientes'])`. Porém, se tentarmos usar parâmetros da função `json_normalize` em um arquivo JSON podem surgir erros. Para contornar isso, precisamos importar o módulo json e ler os arquivos conforme o código abaixo:

In [26]:
#Importando a biblioteca Pandas
import pandas as pd

#Importando o módulo JSON
import json

#Lendo o arquivo json usando o módulo Python JSON
with open('dados_arquivos/pacientes_2.json','r') as f:
    dados = json.loads(f.read())

#Normalizando os dados com os parâmetros record_path e meta
pd.json_normalize(dados, record_path='Pacientes', meta=['Pesquisa', 'Ano'])

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude,Pesquisa,Ano
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]",Principais Indicadores de Doenca Cardiaca,2020
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC],Principais Indicadores de Doenca Cardiaca,2020
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]",Principais Indicadores de Doenca Cardiaca,2020


### Obtendo arquivos JSON de APIs

In [27]:
import requests
import json

In [28]:
dados_usuarios = requests.get('https://jsonplaceholder.typicode.com/users')

In [29]:
resultado = json.loads(dados_usuarios.text)

In [30]:
pd.DataFrame(resultado)

Unnamed: 0,id,name,username,email,address,phone,website,company
0,1,Leanne Graham,Bret,Sincere@april.biz,"{'street': 'Kulas Light', 'suite': 'Apt. 556',...",1-770-736-8031 x56442,hildegard.org,"{'name': 'Romaguera-Crona', 'catchPhrase': 'Mu..."
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,"{'street': 'Victor Plains', 'suite': 'Suite 87...",010-692-6593 x09125,anastasia.net,"{'name': 'Deckow-Crist', 'catchPhrase': 'Proac..."
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,"{'street': 'Douglas Extension', 'suite': 'Suit...",1-463-123-4447,ramiro.info,"{'name': 'Romaguera-Jacobson', 'catchPhrase': ..."
3,4,Patricia Lebsack,Karianne,Julianne.OConner@kory.org,"{'street': 'Hoeger Mall', 'suite': 'Apt. 692',...",493-170-9623 x156,kale.biz,"{'name': 'Robel-Corkery', 'catchPhrase': 'Mult..."
4,5,Chelsey Dietrich,Kamren,Lucio_Hettinger@annie.ca,"{'street': 'Skiles Walks', 'suite': 'Suite 351...",(254)954-1289,demarco.info,"{'name': 'Keebler LLC', 'catchPhrase': 'User-c..."
5,6,Mrs. Dennis Schulist,Leopoldo_Corkery,Karley_Dach@jasper.info,"{'street': 'Norberto Crossing', 'suite': 'Apt....",1-477-935-8478 x6430,ola.org,"{'name': 'Considine-Lockman', 'catchPhrase': '..."
6,7,Kurtis Weissnat,Elwyn.Skiles,Telly.Hoeger@billy.biz,"{'street': 'Rex Trail', 'suite': 'Suite 280', ...",210.067.6132,elvis.io,"{'name': 'Johns Group', 'catchPhrase': 'Config..."
7,8,Nicholas Runolfsdottir V,Maxime_Nienow,Sherwood@rosamond.me,"{'street': 'Ellsworth Summit', 'suite': 'Suite...",586.493.6943 x140,jacynthe.com,"{'name': 'Abernathy Group', 'catchPhrase': 'Im..."
8,9,Glenna Reichert,Delphine,Chaim_McDermott@dana.io,"{'street': 'Dayna Park', 'suite': 'Suite 449',...",(775)976-6794 x41206,conrad.com,"{'name': 'Yost and Sons', 'catchPhrase': 'Swit..."
9,10,Clementina DuBuque,Moriah.Stanton,Rey.Padberg@karina.biz,"{'street': 'Kattie Turnpike', 'suite': 'Suite ...",024-648-3804,ambrose.net,"{'name': 'Hoeger LLC', 'catchPhrase': 'Central..."
