<a href="https://colab.research.google.com/github/brodyandre/normalizacao_de_dados_json_e_criacao_de_dataframe/blob/main/normalizando_json_obtido_na_api.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Documentação do Código: Normalização de Dados JSON e Criação de DataFrame**

## 📝 **Objetivo**
O objetivo deste código é fazer a normalização de dados JSON aninhados obtidos a partir de uma API externa e organizá-los em um DataFrame do pandas. Esse processo facilita a análise e visualização dos dados, separando colunas aninhadas e criando um formato tabular.

---

## ⚙️ **Passo a Passo do Código**

# 1. **Importação das Bibliotecas**
O código começa importando as bibliotecas necessárias:

```python
import pandas as pd
import requests


*   pandas (pd): Biblioteca essencial para manipulação e análise de dados em Python. Utilizada para criar e manipular DataFrames.
*   requests: Biblioteca que permite fazer requisições HTTP, sendo usada para obter dados da API externa.





# 2. Obtenção dos Dados JSON
A seguir, a URL da API https://jsonplaceholder.typicode.com/users é acessada, e os dados são carregados em formato JSON.

In [14]:
import pandas as pd
import requests

url = 'https://jsonplaceholder.typicode.com/users'
response = requests.get(url)
data = response.json()

*   requests.get(url): Realiza uma requisição HTTP GET para obter os dados da API.
*   response.json(): Converte a resposta da requisição em formato JSON.



# 3. Criação do DataFrame Principal
O DataFrame principal é criado a partir dos dados JSON obtidos.

In [15]:
df = pd.DataFrame(data)

*   pd.DataFrame(data): Converte os dados JSON em um DataFrame, que é uma estrutura tabular com linhas e colunas.

# 4. Normalização das Colunas Aninhadas
Aqui, as colunas que contêm dicionários (como address e company) são normalizadas para expandir as informações internas em colunas separadas.

In [16]:
address_df = pd.json_normalize(df['address'])
company_df = pd.json_normalize(df['company'])


*   pd.json_normalize(): Expande os dicionários aninhados em colunas separadas.
*   df['address']: Seleciona a coluna address do DataFrame original, que é um dicionário.
*   df['company']: Seleciona a coluna company do DataFrame original, que também é um dicionário.




# 5. Renomeação das Colunas Normalizadas
Para evitar que as colunas se sobreponham ao mesclar os DataFrames, as colunas normalizadas são renomeadas com prefixos.

In [17]:
address_df.columns = [f"address_{col}" for col in address_df.columns]
company_df.columns = [f"company_{col}" for col in company_df.columns]


*   f"address_{col}": Adiciona o prefixo address_ às colunas de address.

*   f"company_{col}": Adiciona o prefixo company_ às colunas de company.



6. Concatenando os DataFrames
Agora, os DataFrames normalizados são concatenados ao DataFrame principal, df.#

In [18]:
df = pd.concat([df, address_df, company_df], axis=1)

* pd.concat(): Junta os DataFrames. O parâmetro axis=1 especifica que a concatenação será feita nas colunas (lado a lado).

# 7. Remoção das Colunas Aninhadas Originais
Após a normalização, as colunas originais address e company, que eram aninhadas, são removidas do DataFrame principal.

In [19]:
df = df.drop(columns=['address', 'company'])

* df.drop(): Remove as colunas especificadas do DataFrame.

# 8. Exibição do DataFrame Final
Por fim, o DataFrame final, que agora contém as informações normalizadas, é exibido.

In [20]:
print(df.head())

   id              name   username                      email  \
0   1     Leanne Graham       Bret          Sincere@april.biz   
1   2      Ervin Howell  Antonette          Shanna@melissa.tv   
2   3  Clementine Bauch   Samantha         Nathan@yesenia.net   
3   4  Patricia Lebsack   Karianne  Julianne.OConner@kory.org   
4   5  Chelsey Dietrich     Kamren   Lucio_Hettinger@annie.ca   

                   phone        website     address_street address_suite  \
0  1-770-736-8031 x56442  hildegard.org        Kulas Light      Apt. 556   
1    010-692-6593 x09125  anastasia.net      Victor Plains     Suite 879   
2         1-463-123-4447    ramiro.info  Douglas Extension     Suite 847   
3      493-170-9623 x156       kale.biz        Hoeger Mall      Apt. 692   
4          (254)954-1289   demarco.info       Skiles Walks     Suite 351   

    address_city address_zipcode address_geo.lat address_geo.lng  \
0    Gwenborough      92998-3874        -37.3159         81.1496   
1    Wisokyburgh

* df.head(): Exibe as primeiras 5 linhas do DataFrame.

📊 Saída Esperada
Após a execução do código, a saída será um DataFrame organizado, onde as colunas aninhadas (address e company) são expandidas em múltiplas colunas, como mostrado abaixo:




| id  | name          | username | email                                         | phone                 | website       | address\_street | address\_suite | address\_city | address\_zipcode | address\_geo\_lat | address\_geo\_lng | company\_name   | company\_catchPhrase                   | company\_bs                 |
| --- | ------------- | -------- | --------------------------------------------- | --------------------- | ------------- | --------------- | -------------- | ------------- | ---------------- | ----------------- | ----------------- | --------------- | -------------------------------------- | --------------------------- |
| 1   | Leanne Graham | Bret     | [Sincere@april.biz](mailto:Sincere@april.biz) | 1-770-736-8031 x56442 | hildegard.org | Kulas Light     | Apt. 556       | Gwenborough   | 92998-3874       | -37.3159          | 81.1496           | Romaguera-Crona | Multi-layered client-server neural-net | harness real-time e-markets |
| ... | ...           | ...      | ...                                           | ...                   | ...           | ...             | ...            | ...           | ...              | ...               | ...               | ...             | ...                                    | ...                         |


# 🗂️ Conclusão
Este código é útil para lidar com dados JSON com estrutura aninhada, convertendo-os para um formato tabular adequado para análise em Python usando pandas. Após a normalização, os dados podem ser facilmente manipulados, visualizados e analisados de forma mais eficaz.