In [1]:
url = 'https://raw.githubusercontent.com/alura-cursos/python-analise-chatgpt-assistente/main/Dados/dados_vendas.json'

Vamos atuar como cientistas de dados em uma empresa de supermercados. Recebemos dados no formato de arquivo JSON, estruturados em listas e dicionários. O arquivo está disponibilizado em uma URL do Github. Precisamos analisar esses dados para ajudar nas decisões da empresa. Programamos em Python e conhecemos as bibliotecas de análise de dados Numpy e Pandas. Portanto, priorize o uso dessas bibliotecas. Por favor, nos informe como podemos fazer a leitura desses dados no formato JSON e como podemos visualizá-los em formato de tabela no Python.

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_json(url)

In [4]:
df.head()

Unnamed: 0,item_identificador,loja_identificador,vendas_totais,item,loja
0,FDB08,OUT018,176503.58,"{'item_peso': 6.055, 'item_conteudo_gordura': ...","{'loja_ano_estabelecimento': 2019, 'loja_taman..."
1,DRQ35,OUT049,185758.2,"{'item_peso': 9.3, 'item_conteudo_gordura': 'B...","{'loja_ano_estabelecimento': 2009, 'loja_taman..."
2,FDD14,OUT018,165983.94,"{'item_peso': 20.7, 'item_conteudo_gordura': '...","{'loja_ano_estabelecimento': 2019, 'loja_taman..."
3,FDY37,OUT045,314923.4,"{'item_peso': 17.0, 'item_conteudo_gordura': '...","{'loja_ano_estabelecimento': 2012, 'loja_taman..."
4,FDY59,OUT018,64782.34,"{'item_peso': 8.195, 'item_conteudo_gordura': ...","{'loja_ano_estabelecimento': 2019, 'loja_taman..."


In [5]:
# Importe a função json_normalize
from pandas import json_normalize

# Normalize os dados da coluna "item"
df_item_normalized = json_normalize(df['item'])

# Normalize os dados da coluna "loja"
df_loja_normalized = json_normalize(df['loja'])

# Combine os DataFrames normalizados com o DataFrame original
df = pd.concat([df, df_item_normalized, df_loja_normalized], axis=1)

# Exclua as colunas originais de "item" e "loja" se necessário
df.drop(['item', 'loja'], axis=1, inplace=True)
df

Unnamed: 0,item_identificador,loja_identificador,vendas_totais,item_peso,item_conteudo_gordura,item_visibilidade,item_tipo,item_preco,item_quantidade_venda,loja_ano_estabelecimento,loja_tamanho,loja_tipo_localizacao,loja_tipo
0,FDB08,OUT018,176503.58,6.055,Baixo Teor de Gordura,0.031230,Frutas e Vegetais,160.36,,2019,Médio,Nível 3,Supermercado Tipo 2
1,DRQ35,OUT049,185758.20,9.300,Baixo Teor de Gordura,0.042357,Bebidas Alcoólicas,123.24,,2009,Médio,Nível 1,Supermercado Tipo 1
2,FDD14,OUT018,165983.94,20.700,Baixo Teor de Gordura,0.170500,Enlatados,184.13,,2019,Médio,Nível 3,Supermercado Tipo 2
3,FDY37,OUT045,314923.40,17.000,Regular,0.026623,Enlatados,144.25,,2012,,Nível 2,Supermercado Tipo 1
4,FDY59,OUT018,64782.34,8.195,Baixo Teor de Gordura,0.000000,Confeitaria,93.15,,2019,Médio,Nível 3,Supermercado Tipo 2
...,...,...,...,...,...,...,...,...,...,...,...,...,...
8545,FDY08,OUT010,28096.76,9.395,Regular,0.286345,Frutas e Vegetais,139.18,,2008,,Nível 3,Mercado
8546,FDC41,OUT017,130163.90,15.600,Baixo Teor de Gordura,0.117575,Alimentos Congelados,75.67,,2017,,Nível 2,Supermercado Tipo 1
8547,NCQ53,OUT045,614533.40,17.600,Baixo Teor de Gordura,0.018944,Mercearia,237.36,,2012,,Nível 2,Supermercado Tipo 1
8548,FDL46,OUT017,164985.24,20.350,baixo teor de gordura,0.054363,Lanches,117.95,,2017,,Nível 2,Supermercado Tipo 1


O DataFrame "df" contém dados referentes às vendas de diversos produtos em várias lojas do supermercado. São fornecidos IDs de produtos
e IDs de lojas que comercializaram esses produtos, o total arrecadado em vendas, bem como descrições sobre o produto vendido e a loja que o vendeu.
Estamos iniciando a etapa de exploração de dados, na qual desejamos conhecer os valores informados e identificar se existem valores
ausentes, duplicados e outras inconsistências.
Por favor, construa um código para executar a etapa de exploração de dados usando o Python.
Não é necessário utilizar "print()" para mostrar o resultado das consultas.

In [6]:
df.head()

Unnamed: 0,item_identificador,loja_identificador,vendas_totais,item_peso,item_conteudo_gordura,item_visibilidade,item_tipo,item_preco,item_quantidade_venda,loja_ano_estabelecimento,loja_tamanho,loja_tipo_localizacao,loja_tipo
0,FDB08,OUT018,176503.58,6.055,Baixo Teor de Gordura,0.03123,Frutas e Vegetais,160.36,,2019,Médio,Nível 3,Supermercado Tipo 2
1,DRQ35,OUT049,185758.2,9.3,Baixo Teor de Gordura,0.042357,Bebidas Alcoólicas,123.24,,2009,Médio,Nível 1,Supermercado Tipo 1
2,FDD14,OUT018,165983.94,20.7,Baixo Teor de Gordura,0.1705,Enlatados,184.13,,2019,Médio,Nível 3,Supermercado Tipo 2
3,FDY37,OUT045,314923.4,17.0,Regular,0.026623,Enlatados,144.25,,2012,,Nível 2,Supermercado Tipo 1
4,FDY59,OUT018,64782.34,8.195,Baixo Teor de Gordura,0.0,Confeitaria,93.15,,2019,Médio,Nível 3,Supermercado Tipo 2


In [7]:
df.describe()

Unnamed: 0,vendas_totais,item_peso,item_visibilidade,item_preco,loja_ano_estabelecimento
count,8550.0,7081.0,8550.0,8550.0,8550.0
mean,218194.9,12.855023,0.06615,141.007453,2007.830409
std,170809.8,4.643508,0.051578,62.333062,8.372541
min,3329.0,4.555,0.0,31.29,1995.0
25%,83491.32,8.77,0.027024,93.7875,1997.0
50%,179433.1,12.6,0.053978,142.935,2009.0
75%,310096.3,16.85,0.094646,185.76,2014.0
max,1308696.0,21.35,0.328391,266.89,2019.0


In [8]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8550 entries, 0 to 8549
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   item_identificador        8550 non-null   object 
 1   loja_identificador        8550 non-null   object 
 2   vendas_totais             8550 non-null   float64
 3   item_peso                 7081 non-null   float64
 4   item_conteudo_gordura     8550 non-null   object 
 5   item_visibilidade         8550 non-null   float64
 6   item_tipo                 8550 non-null   object 
 7   item_preco                8550 non-null   float64
 8   item_quantidade_venda     0 non-null      object 
 9   loja_ano_estabelecimento  8550 non-null   int64  
 10  loja_tamanho              6133 non-null   object 
 11  loja_tipo_localizacao     8550 non-null   object 
 12  loja_tipo                 8550 non-null   object 
dtypes: float64(4), int64(1), object(8)
memory usage: 868.5+ KB


In [9]:
df.nunique()


item_identificador          1559
loja_identificador            10
vendas_totais               3493
item_peso                    415
item_conteudo_gordura          5
item_visibilidade           7880
item_tipo                     16
item_preco                  4839
item_quantidade_venda          0
loja_ano_estabelecimento       9
loja_tamanho                   3
loja_tipo_localizacao          3
loja_tipo                      4
dtype: int64

In [10]:
df.duplicated().sum()

27

In [11]:
df.isnull().sum()

item_identificador             0
loja_identificador             0
vendas_totais                  0
item_peso                   1469
item_conteudo_gordura          0
item_visibilidade              0
item_tipo                      0
item_preco                     0
item_quantidade_venda       8550
loja_ano_estabelecimento       0
loja_tamanho                2417
loja_tipo_localizacao          0
loja_tipo                      0
dtype: int64

In [12]:
# Verificar se há valores únicos em colunas específicas, por exemplo, "item_identificador” e “loja_identificador”
df['item_conteudo_gordura'].unique()


array(['Baixo Teor de Gordura', 'Regular', 'BTG', 'reg',
       'baixo teor de gordura'], dtype=object)

O DataFrame "df" contém dados relacionados às vendas durante um trimestre de um supermercado. Desejo utilizá-lo para verificar o desempenho dessas vendas.

Durante a exploração do "df", identificamos algumas inconsistências, como:

* Linhas duplicadas,
* Valores nulos e
* Dados categóricos que foram escritos de maneira não padronizada, dando a ideia de que existem mais categorias do que as que realmente existem.

O que devo fazer para garantir que essas inconsistências que encontrei não afetem minha análise?

In [13]:
df.drop_duplicates(inplace=True)

In [14]:
df

Unnamed: 0,item_identificador,loja_identificador,vendas_totais,item_peso,item_conteudo_gordura,item_visibilidade,item_tipo,item_preco,item_quantidade_venda,loja_ano_estabelecimento,loja_tamanho,loja_tipo_localizacao,loja_tipo
0,FDB08,OUT018,176503.58,6.055,Baixo Teor de Gordura,0.031230,Frutas e Vegetais,160.36,,2019,Médio,Nível 3,Supermercado Tipo 2
1,DRQ35,OUT049,185758.20,9.300,Baixo Teor de Gordura,0.042357,Bebidas Alcoólicas,123.24,,2009,Médio,Nível 1,Supermercado Tipo 1
2,FDD14,OUT018,165983.94,20.700,Baixo Teor de Gordura,0.170500,Enlatados,184.13,,2019,Médio,Nível 3,Supermercado Tipo 2
3,FDY37,OUT045,314923.40,17.000,Regular,0.026623,Enlatados,144.25,,2012,,Nível 2,Supermercado Tipo 1
4,FDY59,OUT018,64782.34,8.195,Baixo Teor de Gordura,0.000000,Confeitaria,93.15,,2019,Médio,Nível 3,Supermercado Tipo 2
...,...,...,...,...,...,...,...,...,...,...,...,...,...
8545,FDY08,OUT010,28096.76,9.395,Regular,0.286345,Frutas e Vegetais,139.18,,2008,,Nível 3,Mercado
8546,FDC41,OUT017,130163.90,15.600,Baixo Teor de Gordura,0.117575,Alimentos Congelados,75.67,,2017,,Nível 2,Supermercado Tipo 1
8547,NCQ53,OUT045,614533.40,17.600,Baixo Teor de Gordura,0.018944,Mercearia,237.36,,2012,,Nível 2,Supermercado Tipo 1
8548,FDL46,OUT017,164985.24,20.350,baixo teor de gordura,0.054363,Lanches,117.95,,2017,,Nível 2,Supermercado Tipo 1


In [15]:
df.drop(columns=['item_quantidade_venda'], inplace=True)

In [16]:
df['item_peso'].fillna(df['item_peso'].median(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['item_peso'].fillna(df['item_peso'].median(), inplace=True)


In [17]:
df

Unnamed: 0,item_identificador,loja_identificador,vendas_totais,item_peso,item_conteudo_gordura,item_visibilidade,item_tipo,item_preco,loja_ano_estabelecimento,loja_tamanho,loja_tipo_localizacao,loja_tipo
0,FDB08,OUT018,176503.58,6.055,Baixo Teor de Gordura,0.031230,Frutas e Vegetais,160.36,2019,Médio,Nível 3,Supermercado Tipo 2
1,DRQ35,OUT049,185758.20,9.300,Baixo Teor de Gordura,0.042357,Bebidas Alcoólicas,123.24,2009,Médio,Nível 1,Supermercado Tipo 1
2,FDD14,OUT018,165983.94,20.700,Baixo Teor de Gordura,0.170500,Enlatados,184.13,2019,Médio,Nível 3,Supermercado Tipo 2
3,FDY37,OUT045,314923.40,17.000,Regular,0.026623,Enlatados,144.25,2012,,Nível 2,Supermercado Tipo 1
4,FDY59,OUT018,64782.34,8.195,Baixo Teor de Gordura,0.000000,Confeitaria,93.15,2019,Médio,Nível 3,Supermercado Tipo 2
...,...,...,...,...,...,...,...,...,...,...,...,...
8545,FDY08,OUT010,28096.76,9.395,Regular,0.286345,Frutas e Vegetais,139.18,2008,,Nível 3,Mercado
8546,FDC41,OUT017,130163.90,15.600,Baixo Teor de Gordura,0.117575,Alimentos Congelados,75.67,2017,,Nível 2,Supermercado Tipo 1
8547,NCQ53,OUT045,614533.40,17.600,Baixo Teor de Gordura,0.018944,Mercearia,237.36,2012,,Nível 2,Supermercado Tipo 1
8548,FDL46,OUT017,164985.24,20.350,baixo teor de gordura,0.054363,Lanches,117.95,2017,,Nível 2,Supermercado Tipo 1


In [18]:
df['loja_tamanho'].fillna('Desconhecido', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['loja_tamanho'].fillna('Desconhecido', inplace=True)


In [19]:
df['loja_tamanho'].fillna('Não registrado', inplace=True)

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8523 entries, 0 to 8549
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   item_identificador        8523 non-null   object 
 1   loja_identificador        8523 non-null   object 
 2   vendas_totais             8523 non-null   float64
 3   item_peso                 8523 non-null   float64
 4   item_conteudo_gordura     8523 non-null   object 
 5   item_visibilidade         8523 non-null   float64
 6   item_tipo                 8523 non-null   object 
 7   item_preco                8523 non-null   float64
 8   loja_ano_estabelecimento  8523 non-null   int64  
 9   loja_tamanho              8523 non-null   object 
 10  loja_tipo_localizacao     8523 non-null   object 
 11  loja_tipo                 8523 non-null   object 
dtypes: float64(4), int64(1), object(7)
memory usage: 865.6+ KB


In [21]:
# Mapeie os valores não padronizados para os valores padronizados
mapeamento = {
    'BTG': 'Baixo Teor de Gordura',
    'reg': 'Regular',
    'baixo teor de gordura': 'Baixo Teor de Gordura'
}

# Use a função replace para substituir os valores na coluna
df['item_conteudo_gordura'] = df['item_conteudo_gordura'].replace(mapeamento)

# Verifique os valores únicos após a substituição
valores_unicos = df['item_conteudo_gordura'].unique()

In [22]:
# Verifique os valores únicos após a substituição
df['item_conteudo_gordura'].unique()

array(['Baixo Teor de Gordura', 'Regular'], dtype=object)