In [1]:
# Importação das bibliotecas

# Bibliotecas para realizar tratativas de dados
import pandas as pd
import numpy as np
from datetime import datetime, date

# Bibliotecas de visualização de dados
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns

# Criar Data Frame do banco de dados

# Define o caminho do arquivo
arquivo_csv = "/content/supermarket_sales - Sheet1.csv"

# Lê o arquivo Excel e armazena em um DataFrame
supermercado = pd.read_csv(arquivo_csv)

# Verificar se há espaços vazios
supermercado.isnull().sum()

# Verificar duplicações
supermercado.duplicated()

# Renomear colunas selecionadas para análise
supermercado = supermercado.rename(columns={
    "Invoice ID": "id da fatura",
    "Branch": "filial",
    "City": "cidade",
    "Customer type": "tipo de cliente",
    "Gender": "gênero",
    "Product line": "linha de produto",
    "Unit price": "preço unitário",
    "Quantity": "quantidade",
    "Tax 5%": "imposto",
    "Total": "total",
    "Date": "data",
    "Time": "horario",
    "Payment": "pagamento",
    "cogs": "custo de produtos vendidos",
    "gross margin percentage": "margem bruta percentual",
    "gross income": "lucro bruto",
    "Rating": "avaliação"
})

# Converter data para datetime

supermercado["data"] = pd.to_datetime(supermercado["data"], format="%m/%d/%Y")
supermercado["horario"] = pd.to_datetime(supermercado["horario"], format="%H:%M").dt.hour
# Extrair o dia da semana
supermercado["dia da semana"] = supermercado["data"].dt.day_name()
# Traduzir a data para o formato brasileiro (dd/mm/yyyy)
supermercado["data"] = supermercado["data"].dt.strftime("%d/%m/%Y")

# Mapeamento dos valores originais para as traduções
mapeamento_linha_produto = {
    "Electronic accessories": "Acessórios eletrônicos",
    "Fashion accessories": "Acessórios de moda",
    "Food and beverages": "Alimentos e bebidas",
    "Health and beauty": "Saúde e beleza",
    "Home and lifestyle": "Lar e estilo de vida",
    "Sports and travel": "Esportes e viagens"
}
mapeamento_genero = {
    "Female": "Feminino",
    "Male": "Masculino"
}

mapeamento_pagamento = {
    "Cash": "Dinheiro",
    "Ewallet": "Carteira Digital",
    "Credit card": "Cartão de Crédito"
}
mapeamento_tipo_de_cliente = {
    "Member": "Membro",
    "Normal": "Normal"
}
dias_semana = {
    "Monday": "Segunda-feira",
    "Tuesday": "Terça-feira",
    "Wednesday": "Quarta-feira",
    "Thursday": "Quinta-feira",
    "Friday": "Sexta-feira",
    "Saturday": "Sábado",
    "Sunday": "Domingo"
}

# Aplica o mapeamento às colunas
supermercado["linha de produto"] = supermercado["linha de produto"].map(mapeamento_linha_produto)
supermercado["gênero"] = supermercado["gênero"].map(mapeamento_genero)
supermercado["pagamento"] = supermercado["pagamento"].map(mapeamento_pagamento)
supermercado["tipo de cliente"] = supermercado["tipo de cliente"].map(mapeamento_tipo_de_cliente)
supermercado["dia da semana"] = supermercado["dia da semana"].map(dias_semana)

#imprimir
print(supermercado)



    id da fatura filial     cidade tipo de cliente     gênero  \
0    750-67-8428      A     Yangon          Membro   Feminino   
1    226-31-3081      C  Naypyitaw          Normal   Feminino   
2    631-41-3108      A     Yangon          Normal  Masculino   
3    123-19-1176      A     Yangon          Membro  Masculino   
4    373-73-7910      A     Yangon          Normal  Masculino   
..           ...    ...        ...             ...        ...   
995  233-67-5758      C  Naypyitaw          Normal  Masculino   
996  303-96-2227      B   Mandalay          Normal   Feminino   
997  727-02-1313      A     Yangon          Membro  Masculino   
998  347-56-2442      A     Yangon          Normal  Masculino   
999  849-09-3807      A     Yangon          Membro   Feminino   

           linha de produto  preço unitário  quantidade  imposto      total  \
0            Saúde e beleza           74.69           7  26.1415   548.9715   
1    Acessórios eletrônicos           15.28           5   3.8