# Exercício de Limpeza e Processamento de Dados

### Objetivo
Neste exercício, vamos trabalhar com um arquivo JSON que precisa ser tratado e convertido em um DataFrame do Pandas. O objetivo é remover dados vazios e configurar corretamente os tipos de dados das colunas.

### Descrição da Tarefa
Você recebeu e fez o download de https://cdn3.gnarususercontent.com.br/2929-pandas/dados.json.

Sua tarefa é realizar alguns tratamentos e deixar esse arquivo JSON como um Pandas DataFrame, sem dados vazios e com a tipagem das colunas de forma correta. Como isso pode ser feito?

In [None]:
# pandas: para manipulação de dados
# requests: para fazer requisições HTTP
# HTTPStatus: para verificar o status da requisição
# numpy: para trabalhar com tipos numéricos

import pandas as pd
import requests
from http import HTTPStatus
import numpy as np

In [None]:
# Fazendo a requisição HTTP para obter os dados JSON e criando o DataFrame
# 1. Realiza a requisição GET para a URL
# 2. Verifica se a requisição foi bem-sucedida
# 3. Normaliza os dados JSON para criar um DataFrame

r = requests.get('https://cdn3.gnarususercontent.com.br/2929-pandas/dados.json')

if r.status_code == HTTPStatus.OK:
  df = pd.DataFrame(r.json())

  df = pd.json_normalize(r.json(), record_path='pessoas')

df

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
0,João,25,"[11 1111-1111, 11 2222-2222]",Rua A,123,São Paulo
1,Maria,30,[21 3333-3333],,456,Rio de Janeiro


In [None]:
# Configurando os tipos corretos para cada coluna do DataFrame
# - idade: convertida para int8 (números inteiros pequenos)
# - nome, telefones, endereço.rua, endereço.cidade: convertidos para string

df['idade'] = df['idade'].astype(np.int8)
df['nome'] = df['nome'].astype('string')
df['telefones'] = df['telefones'].astype('string')
df['endereco.rua'] = df['endereco.rua'].astype('string')
df['endereco.cidade'] = df['endereco.cidade'].astype('string')

In [None]:
# Exibindo informações detalhadas sobre o DataFrame
# Mostra os tipos de dados e informações sobre as colunas

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   nome             2 non-null      string
 1   idade            2 non-null      int8  
 2   telefones        2 non-null      string
 3   endereco.rua     2 non-null      string
 4   endereco.numero  2 non-null      int64 
 5   endereco.cidade  2 non-null      string
dtypes: int64(1), int8(1), string(4)
memory usage: 214.0 bytes


In [None]:
# Verificando registros com ruas vazias
# Filtra o DataFrame para mostrar apenas as linhas onde endereco.rua está vazio

df[df['endereco.rua'] == '']

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
1,Maria,30,['21 3333-3333'],,456,Rio de Janeiro


In [None]:
# Removendo registros com ruas vazias
# Filtra o DataFrame mantendo apenas os registros onde endereco.rua não está vazio

df = df[~(df['endereco.rua'] == '')]

In [None]:
# Exibindo o DataFrame final após todas as transformações
# Mostra o resultado do processamento com tipos corretos e sem dados vazios

df

Unnamed: 0,nome,idade,telefones,endereco.rua,endereco.numero,endereco.cidade
0,João,25,"['11 1111-1111', '11 2222-2222']",Rua A,123,São Paulo
