<a href="https://colab.research.google.com/github/strawndri/python-ds-pandas-limpeza-tratamento-dados/blob/main/Desafios.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 1. Conhecendo os dados

Você recebeu a tarefa de normalizar o seguinte arquivo JSON chamado `informacoes.json` referente a algumas informações de identificação de um cliente. O arquivo possui o seguinte conteúdo:

```
{
  "nome": "João",
  "idade": 28,
  "enderecos": [
    {
      "tipo": "casa",
      "rua": "Rua A",
      "numero": 123,
      "cidade": "São Paulo"
    },
    {
      "tipo": "trabalho",
      "rua": "Rua B",
      "numero": 456,
      "cidade": "Rio de Janeiro"
    }
  ]
}
```

O resulto final deve ser um Pandas DataFrame.

In [None]:
import pandas as pd
import json

In [None]:
with open('informacoes.json') as f:
  json_bruto = json.load(f)

In [None]:
json_bruto

{'nome': 'João',
 'idade': 28,
 'enderecos': [{'tipo': 'casa',
   'rua': 'Rua A',
   'numero': 123,
   'cidade': 'São Paulo'},
  {'tipo': 'trabalho',
   'rua': 'Rua B',
   'numero': 456,
   'cidade': 'Rio de Janeiro'}]}

O parâmetro `record_path` é usado para especificar o caminho para os dados que queremos normalizar. No nosso caso, queremos normalizar os dados da lista de endereços, então especificamos `'enderecos'`.

Além disso, o parâmetro `meta` é usado para especificar quais chaves do objeto original queremos incluir na saída normalizada. Optamos por incluir `'nome'` e `'idade'`.

In [None]:
dados_normalizados = pd.json_normalize(json_bruto, record_path='enderecos', meta=['nome', 'idade'])
dados_normalizados.head()

Unnamed: 0,tipo,rua,numero,cidade,nome,idade
0,casa,Rua A,123,São Paulo,João,28
1,trabalho,Rua B,456,Rio de Janeiro,João,28


### 2. Transformação inicial dos dados

Você recebeu e fez o download do arquivo JSON chamado `dados.json`, que possui o seguinte conteúdo:

```
{
  "pessoas": [
    {
      "nome": "João",
      "idade": "25",
      "endereco": {
        "rua": "Rua A",
        "numero": 123,
        "cidade": "São Paulo"
      },
      "telefones": [
        "11 1111-1111",
        "11 2222-2222"
      ]
    },
    {
      "nome": "Maria",
      "idade": 30,
      "endereco": {
        "rua": "",
        "numero": 456,
        "cidade": "Rio de Janeiro"
      },
      "telefones": [
        "21 3333-3333"
      ]
    }
  ]
}
```

Sua tarefa é realizar alguns tratamentos e deixar esse arquivo JSON como um Pandas DataFrame, sem dados vazios e com a tipagem das colunas de forma correta. Como isso pode ser feito?

#### Transformação da base de dados em *DataFrame*

In [22]:
import pandas as pd
import json

In [23]:
with open('dados.json') as f:
  json_bruto = json.load(f)

In [24]:
json_bruto

{'pessoas': [{'nome': 'João',
   'idade': '25',
   'endereco': {'rua': 'Rua A', 'numero': 123, 'cidade': 'São Paulo'},
   'telefones': ['11 1111-1111', '11 2222-2222']},
  {'nome': 'Maria',
   'idade': 30,
   'endereco': {'rua': '', 'numero': 456, 'cidade': 'Rio de Janeiro'},
   'telefones': ['21 3333-3333']}]}

In [25]:
dados = pd.json_normalize(json_bruto, record_path=['pessoas'])
dados

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
0,João,25,"[11 1111-1111, 11 2222-2222]",Rua A,123,São Paulo
1,Maria,30,[21 3333-3333],,456,Rio de Janeiro


#### Remoção de dados vazios

In [26]:
dados_sem_vazio = dados.query('`endereco.rua` != ""').copy()

In [27]:
dados_sem_vazio

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
0,João,25,"[11 1111-1111, 11 2222-2222]",Rua A,123,São Paulo


#### Correção da tipagem das colunas (*cast*)

In [28]:
dados_sem_vazio.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1 entries, 0 to 0
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   nome             1 non-null      object
 1   idade            1 non-null      object
 2   telefones        1 non-null      object
 3   endereco.rua     1 non-null      object
 4   endereco.numero  1 non-null      int64 
 5   endereco.cidade  1 non-null      object
dtypes: int64(1), object(5)
memory usage: 56.0+ bytes


In [29]:
dados_sem_vazio['idade'] = dados_sem_vazio['idade'].astype(int)

In [30]:
dados_sem_vazio.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1 entries, 0 to 0
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   nome             1 non-null      object
 1   idade            1 non-null      int64 
 2   telefones        1 non-null      object
 3   endereco.rua     1 non-null      object
 4   endereco.numero  1 non-null      int64 
 5   endereco.cidade  1 non-null      object
dtypes: int64(2), object(4)
memory usage: 56.0+ bytes
