<a href="https://colab.research.google.com/github/LeticiaPaesano/Leitura-e-Normalizacao-de-Arquivos-JSON-com-Pandas/blob/main/Leitura_e_Normaliza%C3%A7%C3%A3o_de_Arquivos_JSON_com_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Leitura e Normalização de Arquivos JSON com Pandas**

In [8]:
# Importação das bibliotecas

import pandas as pd   # Biblioteca principal para análise e manipulação de dados
import requests       # Utilizada para fazer requisições HTTP e obter dados de APIs
import json           # Utilizada para interpretar objetos no formato JSON

###Coleta de dados da API JSONPlaceholder

In [9]:
# Definindo a URL da API
url = 'https://jsonplaceholder.typicode.com/users'

# Fazendo a requisição HTTP para obter os dados
resposta = requests.get(url)

# Convertendo o conteúdo da resposta (formato texto) para um objeto Python (lista de dicionários)
dados_json = resposta.json()

# Exibindo os dados brutos (somente os 2 primeiros registros para evitar poluição visual)
dados_json[:2]

[{'id': 1,
  'name': 'Leanne Graham',
  'username': 'Bret',
  'email': 'Sincere@april.biz',
  'address': {'street': 'Kulas Light',
   'suite': 'Apt. 556',
   'city': 'Gwenborough',
   'zipcode': '92998-3874',
   'geo': {'lat': '-37.3159', 'lng': '81.1496'}},
  'phone': '1-770-736-8031 x56442',
  'website': 'hildegard.org',
  'company': {'name': 'Romaguera-Crona',
   'catchPhrase': 'Multi-layered client-server neural-net',
   'bs': 'harness real-time e-markets'}},
 {'id': 2,
  'name': 'Ervin Howell',
  'username': 'Antonette',
  'email': 'Shanna@melissa.tv',
  'address': {'street': 'Victor Plains',
   'suite': 'Suite 879',
   'city': 'Wisokyburgh',
   'zipcode': '90566-7771',
   'geo': {'lat': '-43.9509', 'lng': '-34.4618'}},
  'phone': '010-692-6593 x09125',
  'website': 'anastasia.net',
  'company': {'name': 'Deckow-Crist',
   'catchPhrase': 'Proactive didactic contingency',
   'bs': 'synergize scalable supply-chains'}}]

**Explicação:**

- A API retorna os dados no formato JSON.
- `requests.get()` envia uma requisição HTTP e recebe a resposta da API.
- `.json()` converte o conteúdo JSON em uma estrutura Python (lista de dicionários).

###Normalização dos dados JSON com pandas

In [10]:
# Utilizamos pd.json_normalize() para "desaninhar" os campos internos (nested)
dados_normalizados = pd.json_normalize(dados_json, sep='_')

# Visualizando as primeiras linhas do DataFrame
dados_normalizados.head()


Unnamed: 0,id,name,username,email,phone,website,address_street,address_suite,address_city,address_zipcode,address_geo_lat,address_geo_lng,company_name,company_catchPhrase,company_bs
0,1,Leanne Graham,Bret,Sincere@april.biz,1-770-736-8031 x56442,hildegard.org,Kulas Light,Apt. 556,Gwenborough,92998-3874,-37.3159,81.1496,Romaguera-Crona,Multi-layered client-server neural-net,harness real-time e-markets
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,010-692-6593 x09125,anastasia.net,Victor Plains,Suite 879,Wisokyburgh,90566-7771,-43.9509,-34.4618,Deckow-Crist,Proactive didactic contingency,synergize scalable supply-chains
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,1-463-123-4447,ramiro.info,Douglas Extension,Suite 847,McKenziehaven,59590-4157,-68.6102,-47.0653,Romaguera-Jacobson,Face to face bifurcated interface,e-enable strategic applications
3,4,Patricia Lebsack,Karianne,Julianne.OConner@kory.org,493-170-9623 x156,kale.biz,Hoeger Mall,Apt. 692,South Elvis,53919-4257,29.4572,-164.299,Robel-Corkery,Multi-tiered zero tolerance productivity,transition cutting-edge web services
4,5,Chelsey Dietrich,Kamren,Lucio_Hettinger@annie.ca,(254)954-1289,demarco.info,Skiles Walks,Suite 351,Roscoeview,33263,-31.8129,62.5342,Keebler LLC,User-centric fault-tolerant solution,revolutionize end-to-end systems


**Explicação:**

A função `pd.json_normalize()` converte campos aninhados em colunas planas.

`sep='_'` define o separador usado para unir os nomes dos campos internos.

Exemplo: `address.geo.lat` vira `address_geo_lat`, facilitando o acesso e análise.

###Verificando estrutura e qualidade dos dados

In [11]:
# Verificando as colunas presentes
dados_normalizados.columns

# Verificando o tipo de dados em cada coluna
dados_normalizados.info()

# Estatísticas básicas (aplicável apenas a colunas numéricas)
dados_normalizados.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   id                   10 non-null     int64 
 1   name                 10 non-null     object
 2   username             10 non-null     object
 3   email                10 non-null     object
 4   phone                10 non-null     object
 5   website              10 non-null     object
 6   address_street       10 non-null     object
 7   address_suite        10 non-null     object
 8   address_city         10 non-null     object
 9   address_zipcode      10 non-null     object
 10  address_geo_lat      10 non-null     object
 11  address_geo_lng      10 non-null     object
 12  company_name         10 non-null     object
 13  company_catchPhrase  10 non-null     object
 14  company_bs           10 non-null     object
dtypes: int64(1), object(14)
memory usage: 1.3+ KB


Unnamed: 0,id
count,10.0
mean,5.5
std,3.02765
min,1.0
25%,3.25
50%,5.5
75%,7.75
max,10.0


###Análise básica - Exibindo informações de localização dos usuários

In [12]:
# Selecionando colunas relacionadas à geolocalização e nomes dos usuários
dados_localizacao = dados_normalizados[['name', 'address_city', 'address_geo_lat', 'address_geo_lng']]

# Exibindo o DataFrame resultante
dados_localizacao


Unnamed: 0,name,address_city,address_geo_lat,address_geo_lng
0,Leanne Graham,Gwenborough,-37.3159,81.1496
1,Ervin Howell,Wisokyburgh,-43.9509,-34.4618
2,Clementine Bauch,McKenziehaven,-68.6102,-47.0653
3,Patricia Lebsack,South Elvis,29.4572,-164.299
4,Chelsey Dietrich,Roscoeview,-31.8129,62.5342
5,Mrs. Dennis Schulist,South Christy,-71.4197,71.7478
6,Kurtis Weissnat,Howemouth,24.8918,21.8984
7,Nicholas Runolfsdottir V,Aliyaview,-14.399,-120.7677
8,Glenna Reichert,Bartholomebury,24.6463,-168.8889
9,Clementina DuBuque,Lebsackbury,-38.2386,57.2232


**O que foi feito:**

Selecionamos colunas específicas que permitem análises geográficas iniciais, como cidade e coordenadas (latitude e longitude).

###Exportando os dados normalizados

In [13]:
# Exportando para CSV
dados_normalizados.to_csv('usuarios_normalizados.csv', index=False)

# Exportando para Excel
dados_normalizados.to_excel('usuarios_normalizados.xlsx', index=False)

# Exportando para JSON
dados_normalizados.to_json('usuarios_normalizados.json', orient='records', indent=4)


**Observação:**
Essas exportações são úteis para arquivamento, envio por e-mail, ingestão em bancos de dados ou reutilização futura em outras ferramentas analíticas.

###Upload do arquivo JSON local (Google Colab)

In [None]:
from google.colab import files

# Permite o upload de um arquivo do computador local para o ambiente do Colab
uploaded = files.upload()
