# **Testes Engenheiro de Dados**

In [44]:
# Desafio de Processamento de Dados de Grande Volume

# O objetivo deste teste é avaliar suas habilidades em manipular e analisar grandes volumes de dados em Python, de forma eficiente e com consumo otimizado
# de recursos.

# Você receberá um arquivo CSV de grande porte, denominado 'vendas.csv', com cerca de 5GB.
# O arquivo contém dados de vendas de uma cadeia de varejo. As colunas incluem: Data, Produto, Quantidade, Preco_Uniario e Loja.

# Instruções:
# 1. Implemente uma solução para ler o arquivo 'vendas.csv' de forma eficiente, considerando o grande volume de dados.
# 2. Identifique o produto mais vendido em termos de quantidade e canal.
# 3. Determine qual pais e região teve o maior volume de vendas (em valor).
# 4. Calcule a média de vendas mensais por produto, considerando o período dos dados disponíveis.

# Requisitos:
# - Sua solução deve ser capaz de rodar em uma máquina com memória limitada, não assuma que o arquivo inteiro pode ser carregado na memória de uma vez.
# - Use técnicas como leitura em partes (chunking).
# - Priorize a eficinêcia do processamento.
# - O uso de bibliotecas como Pandas é permitido, especialmente com seu recurso de leitura em chunks.
# - Documente seu código adequadamente e inclua comentários explicativos sobre suas escolhas de implementações.

# Entrega:
# - Link do Script Python (.py) no GitHub.
# - Um relatório em texto explicando como sua solução aborda o problema de grandes volumes de dados, incluindo qualquer otimização de performance que você
# tenha implementado.

# Dicas:
# - Explore a função 'read_csv' do Pandas com o parâmetro 'chunksize' para processar o arquivo em partes.
# - Considere o uso de estruturas de dados eficientes para armazenamento temporário de informações durante o processamento.
# - Avalie o consumo de memória e tempo de execução para garantir que sua solução seja realmente eficiente.


In [2]:
!pip install pandas



In [3]:
import pandas as pd

In [4]:
# Carregar o arquivo csv em um dataframe, limitando a quantidade de linhas em 10mil (comando nrows)
df_vendas = pd.read_csv('vendas.csv', nrows = 10000)
display(df_vendas)

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Priority,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
0,Australia and Oceania,Palau,Office Supplies,Online,H,3/6/2016,517073523,3/26/2016,2401,651.21,524.96,1563555.21,1260428.96,303126.25
1,Europe,Poland,Beverages,Online,L,4/18/2010,380507028,5/26/2010,9340,47.45,31.79,443183.00,296918.60,146264.40
2,North America,Canada,Cereal,Online,M,1/8/2015,504055583,1/31/2015,103,205.70,117.11,21187.10,12062.33,9124.77
3,Europe,Belarus,Snacks,Online,C,1/19/2014,954955518,2/27/2014,1414,152.58,97.44,215748.12,137780.16,77967.96
4,Middle East and North Africa,Oman,Cereal,Offline,H,4/26/2019,970755660,6/2/2019,7027,205.70,117.11,1445453.90,822931.97,622521.93
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,Sub-Saharan Africa,Eritrea,Baby Food,Online,M,3/13/2013,963198697,4/4/2013,754,255.28,159.42,192481.12,120202.68,72278.44
9996,Central America and the Caribbean,Panama,Baby Food,Offline,C,12/4/2010,294880187,12/19/2010,455,255.28,159.42,116152.40,72536.10,43616.30
9997,Europe,Spain,Office Supplies,Offline,H,2/26/2012,330963838,3/23/2012,8409,651.21,524.96,5476024.89,4414388.64,1061636.25
9998,Middle East and North Africa,Libya,Vegetables,Offline,H,2/14/2017,562123477,3/1/2017,3683,154.06,90.93,567402.98,334895.19,232507.79


In [115]:
# 2. Identifique o produto mais vendido em termos de quantidade e canal.
tabela_produtos_vendas = pd.DataFrame()

# O comando FOR com a função chunksize irá ler o arquivo em "bloco" no valor que e definido.
for chunk_vendas in pd.read_csv("vendas.csv", chunksize = 10000):

  # Selecionar apenas as colunas que serão trabalhadas para pegar o produto e canal mais vendido
  colunas_produtos = ["Item Type", "Sales Channel", "Units Sold"]
  chunk_vendas_filtrado = chunk_vendas[colunas_produtos]

  # Agrupando por produto e canal e somando as quantidades
  produto_vendas = chunk_vendas_filtrado.groupby(["Item Type", "Sales Channel"], as_index=False)["Units Sold"].sum()

  # Concatenando a tabela que foi criada com os dados dos produtos e canais e a quantidade que foi vendido
  tabela_produtos_vendas = pd.concat([tabela_produtos_vendas ,produto_vendas])
  break

Unnamed: 0,Item Type,Sales Channel,Units Sold
0,Baby Food,Offline,2100812
1,Baby Food,Online,2081742
2,Beverages,Offline,2190402
3,Beverages,Online,2250573
4,Cereal,Offline,2193827
5,Cereal,Online,1904286
6,Clothes,Offline,2005378
7,Clothes,Online,2028790
8,Cosmetics,Offline,1970186
9,Cosmetics,Online,2300225


In [118]:
# Agrupando novamente para somar todos os valores agrupado dentro do comando FOR
tabela_produtos_vendas = tabela_produtos_vendas.groupby(["Item Type", "Sales Channel"], as_index=False)["Units Sold"].sum()

# Identificando o produto e canal mais vendido dentro do agrupamento
max_index = tabela_produtos_vendas["Units Sold"].idxmax()
produto = tabela_produtos_vendas.at[max_index, "Item Type"]
canal = tabela_produtos_vendas.at[max_index, "Sales Channel"]
quantidade = tabela_produtos_vendas.at[max_index, "Units Sold"]

# Criação do dataframe, para o print ficar organizado
produto_mais_vendido = pd.DataFrame()
produto_mais_vendido = ([produto, canal, quantidade])

print(produto_mais_vendido)

['Cosmetics', 'Online', 2300225]


In [123]:
# 3. Determine qual pais e região teve o maior volume de vendas (em valor).
tabela_regiao_pais_vendas = pd.DataFrame()

# O comando FOR com a função chunksize irá ler o arquivo em "bloco" no valor que e definido.
for chunk_regiao_pais_vendas in pd.read_csv("vendas.csv", chunksize = 10000):

  # Selecionar apenas as colunas que serão trabalhadas para pegar a região e pais que mais lucrou
  colunas_regiao = ["Region", "Country", "Total Profit"]
  chunk_regiao_pais_filtrado = chunk_regiao_pais_vendas[colunas_regiao]

  # Agrupando por região e pais e somando o lucro total
  regiao_pais_vendas = chunk_regiao_pais_filtrado.groupby(["Region", "Country"], as_index=False)["Total Profit"].sum()

  # Concatenando a tabela que foi criada com os dados das regiões e pais e o lucro de cada um
  tabela_regiao_pais_vendas = pd.concat([tabela_regiao_pais_vendas ,regiao_pais_vendas])
  break

In [124]:
# Agrupando novamente para somar todos os valores agrupado dentro do comando FOR
tabela_regiao_pais_vendas = tabela_regiao_pais_vendas.groupby(["Region", "Country"], as_index=False)["Total Profit"].sum()

# Identificando a região e pais que mais lucrou dentro do agrupamento
max_index = tabela_regiao_pais_vendas["Total Profit"].idxmax()
regiao = tabela_regiao_pais_vendas.at[max_index, "Region"]
pais = tabela_regiao_pais_vendas.at[max_index, "Country"]
quantidade = tabela_regiao_pais_vendas.at[max_index, "Total Profit"]

# Criação do dataframe, para o print ficar organizado
regiao_pais_mais_vendido = pd.DataFrame()
regiao_pais_mais_vendido = ([regiao, pais, quantidade])

print(regiao_pais_mais_vendido)

['Sub-Saharan Africa', 'South Africa', 33414142.5]


In [6]:
# 4. Calcule a média de vendas mensais por produto, considerando o período dos dados disponíveis.

# O comando FOR com a função chunksize irá ler o arquivo em "bloco" no valor que e definido.
for chunk_media_vendas in pd.read_csv("vendas.csv", chunksize = 10000):

  # Convertendo a coluna de data para datetime
  chunk_media_vendas["Order Date"] = pd.to_datetime(df_vendas["Order Date"])

  # Extraindo o mês
  chunk_media_vendas["Mês"] = df_vendas["Order Date"].dt.month

  # Calculando a média de vendas por produto e mês
  media_vendas = chunk_media_vendas.groupby(["Item Type", "Mês"])["Units Sold"].mean()
  break

print(media_vendas)

Item Type   Mês
Baby Food   1      4795.644737
            2      5454.550725
            3      4612.542373
            4      4378.352113
            5      5650.355263
                      ...     
Vegetables  8      4517.909091
            9      5632.447368
            10     5192.979167
            11     5254.104478
            12     5363.056604
Name: Units Sold, Length: 144, dtype: float64
