In [None]:
%matplotlib inline

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt

In [None]:
path = 'dataset-files/'

In [None]:
olist_customer = pd.read_csv(path + 'olist_customers_dataset.csv')
olist_geolocation = pd.read_csv(path + 'olist_geolocation_dataset.csv')
olist_order_items = pd.read_csv(path + 'olist_order_items_dataset.csv')
olist_order_payments = pd.read_csv(path + 'olist_order_payments_dataset.csv')
olist_order_reviews = pd.read_csv(path + 'olist_order_reviews_dataset.csv')
olist_orders = pd.read_csv(path + 'olist_orders_dataset.csv')
olist_products = pd.read_csv(path + 'olist_products_dataset.csv')
olist_sellers = pd.read_csv(path + 'olist_sellers_dataset.csv')

In [None]:
olist_customer.info()
olist_customer.head()

In [None]:
olist_geolocation.info()
olist_geolocation.head()

In [None]:
olist_order_items.info()
olist_order_items.head()

In [None]:
olist_order_payments.info()
olist_order_payments.head()

In [None]:
olist_order_reviews.info()
olist_order_reviews.head()

In [None]:
olist_orders.info()
olist_orders.head()

In [None]:
olist_products.info()
olist_products.head()

In [None]:
olist_sellers.info()
olist_sellers.head()

# 1. Limpando os Dados

### Datas – alterando o dtype de objeto para datetime.

In [None]:
olist_order_items['shipping_limit_date'] = pd.to_datetime(olist_order_items['shipping_limit_date'])
olist_order_items.info()

In [None]:
olist_order_reviews[['review_creation_date', 'review_answer_timestamp']] = \
olist_order_reviews[['review_creation_date', 'review_answer_timestamp']].apply(pd.to_datetime)

olist_order_reviews.info()

In [None]:
olist_orders[['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date', 'order_estimated_delivery_date']] = \
olist_orders[['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date', 'order_estimated_delivery_date']]\
.apply(pd.to_datetime)
olist_orders.info()

### Removendo colunas

As mensagens sobre as avaliações, bem como os seus títulos não serão apreciadas nessa análise, e portanto, devem ser removidas.

In [None]:
olist_order_reviews.drop(columns = ["review_comment_title", "review_comment_message"], inplace=True)

In [None]:
olist_order_reviews.info()

In [None]:
df_products = olist_products.drop(columns = ["product_weight_g", "product_length_cm", "product_height_cm", "product_width_cm"])
df_products.info()

### Removendo Linhas
É necessário remover linhas também. Isso será feito com o fim de igualar a coluna 'product_id' com as demais, uma vez que é a única que contém informações, o que de nada adianta para nós.

In [None]:
row_non_null_counts = df_products.notnull().sum(axis=1)
df_products = df_products[row_non_null_counts > 1]
df_products.info()

# Quais são as categorias com maior e menor receita dos últimos 12 meses?

Primeiro, unimos 'olist_orders' com 'olist_order_items' pelo 'order_id', para relacionar a data de compra com o preço.

In [None]:
preco_e_data = pd.merge(olist_order_items, olist_orders, on='order_id')
preco_e_data.info()

Em seguida, precisamos unir o resultado acima com df_products, para fazer a análise por categorias.

In [None]:
preco_por_categoria = pd.merge(preco_e_data, df_products, on='product_id')

# soma_por_categoria = precos_categorias.groupby('product_category_name')['price'].sum().reset_index()

# soma_por_categoria
preco_por_categoria.info()


E então, selecionamos apenas os últimos 12 meses a partir de 3/9/2018, que é o último dia contido na tabela.

In [None]:
ha_doze_meses = (pd.Timestamp('2018-09-03 09:06:57') - pd.Timedelta(365, "d"))#.strftime('%Y-%m-%d %H:%M:%S') 
ultimos_12_meses = preco_por_categoria[preco_por_categoria['order_purchase_timestamp'] >= ha_doze_meses]


In [None]:
ultimos_12_meses.head()

In [None]:
categoria_soma_preco = ultimos_12_meses.groupby('product_category_name')['price'].sum().sort_values(ascending=False)

#### As categorias com maior receita nos últimos 12 meses:

In [None]:
categoria_soma_preco.head(10)

#### As categorias com menor receita nos últimos 12 meses:

In [None]:
categoria_soma_preco.tail(10)

# Top 10 maiores sellers

In [None]:
receita_sellers = preco_por_categoria.groupby('seller_id')['price'].sum().sort_values(ascending=False)
receita_sellers.head(10)

# Top 10 piores sellers

In [None]:
receita_sellers = preco_por_categoria.groupby('seller_id')['price'].sum().sort_values()
receita_sellers.head(10)

# Sellers que vendem o mesmo produto

Abaixo podemos ver os produtos que possuem mais de um seller.

In [None]:
seller_contagem = preco_por_categoria.groupby('product_id')['seller_id'].nunique()

produtos_com_multiplos_sellers = seller_contagem[seller_contagem > 1].index

df_filtrada = preco_por_categoria[preco_por_categoria['product_id'].isin(produtos_com_multiplos_sellers)]

produto_por_seller = df_filtrada.set_index(['product_id', 'seller_id'])
produto_por_seller


In [None]:
num_sellers = len(preco_por_categoria.loc[preco_por_categoria['product_id'].isin(produtos_com_multiplos_sellers), 'seller_id'].unique())
num_produtos = len(produtos_com_multiplos_sellers)

print("Número de sellers com múltiplos produtos:", num_sellers)
print("Número de produtos com múltiplos sellers:", num_produtos)

### Variação de preço entre os sellers

Abaixo podemos ver a variação de preços entre os sellers para cada produto.

In [None]:
variacao_preco = produto_por_seller.groupby('product_id')['price'].agg(['min', 'max'])

# Calculate price range for each product
variacao_preco['range'] = variacao_preco['max'] - variacao_preco['min']

variacao_preco_ordenada = variacao_preco.sort_values(by='range', ascending=False)

# Display the price variation for each product sorted by range
variacao_preco_ordenada

Podemos ver acima que a maior variação de preço é de R$ 783,00.

# EXTRA – há relação entre a variação de preço e faturamento?

Aproveitei o dataframe 'produto_por_seller', onde constam os produtos que posseum mais de um seller para armezenar os seller_id de cada vendedor. Utilizando esses valores, filtrei o dataframe preco_por_categoria. Esse último dataframe foi a mescla que havia feito anteriormente, para relacionar a data de compra com o preço. Com o filtro aplicado, fiz a soma de price por vendedor, a fim de saber o faturamento de cada um.

In [None]:


sellers_selecionados = produto_por_seller.index.get_level_values('seller_id').unique()
preco_por_categoria_filtrado = preco_por_categoria[preco_por_categoria['seller_id'].isin(sellers_selecionados)]



In [None]:

# # Group by seller_id and calculate the correlation between 'invoice' and 'price'
# seller_corr = preco_por_categoria_filtered.groupby('seller_id')[['invoice', 'price']].corr().iloc[0::2,-1].reset_index()



# Inflação de Preços

Podemos ver abaixo que alguns produtos sofreram aumentos altíssimos ao longo do tempo. Alguns aumentaram acima de 300%, sendo o maior índice de inflação em 900%.

Por outro lado, o preço de alguns produtos deflacionou, sendo o maior índice de deflação em 78,7%.

In [None]:
colunas_selecionadas = ['product_id', 'price', 'order_purchase_timestamp']

df_preco_tempo_produto = preco_por_categoria[colunas_selecionadas].copy()

dados_agrupados = df_preco_tempo_produto.groupby('product_id')

precos_antigos_idx = dados_agrupados['order_purchase_timestamp'].idxmin()
precos_novos_idx = dados_agrupados['order_purchase_timestamp'].idxmax()

precos_antigos = df_preco_tempo_produto.loc[precos_antigos_idx]
precos_novos = df_preco_tempo_produto.loc[precos_novos_idx]

inflacao_absoluto = (precos_novos.set_index('product_id')['price'] - precos_antigos.set_index('product_id')['price']).abs()

inflacao_porcentagem = (((precos_novos.set_index('product_id')['price'] - precos_antigos.set_index('product_id')['price']) / precos_antigos.set_index('product_id')['price']) * 100).round(1)

inflacao_df = pd.DataFrame({'oldest_timestamp': precos_antigos.groupby('product_id')['order_purchase_timestamp'].min(),
                          'newest_timestamp': precos_novos.groupby('product_id')['order_purchase_timestamp'].max(),
                          'variação em R$': inflacao_absoluto,
                          'variação em %': inflacao_porcentagem})

inflacao_df = inflacao_df.sort_values(by='variação em %', ascending=False)

inflacao_df
