# Retail Sales Data Analysis

![Imagem 1](https://storage.googleapis.com/kaggle-datasets-images/3655505/6347913/78fec3d6d2c81294346fa618ba0caf00/dataset-cover.jpg?t=2023-08-22-18-40-05)

Esse  Notebook, contém a analise de dados feito em Vendas de retalho, com objectivo de saber mais sobre as vendas, e sobre os tipos de clientes que mais compram esses produtos.

O Dataset pertence ao tipo de licença de dominio publico `CC0: Public Domain`, que está disponível para Download na plataforma [Keagle - Retail Sales Dataset](https://www.kaggle.com/datasets/mohammadtalib786/retail-sales-dataset/data?select=retail_sales_dataset.csv), criado por __*MOHAMMAD TALIB*__. O Dataset contém os seguintes atributos:

- Transaction ID: Um identificador exclusivo para cada transação, permitindo rastreamento e referência.
- Date: A data em que a transação ocorreu, fornecendo insights sobre as tendências de vendas ao longo do tempo.
- Customer ID: um identificador exclusivo para cada cliente, permitindo uma análise centrada no cliente.
- Gender: O gênero do cliente (masculino/feminino), oferecendo insights sobre padrões de compra baseados em gênero.
- Age: A idade do cliente, facilitando a segmentação e exploração de influências relacionadas à idade.
- Product Category: a categoria do produto adquirido (por exemplo, eletrônicos, roupas, beleza), ajudando a entender as preferências do produto.
- Quantity: Quantidade de unidades do produto adquiridas, contribuindo para insights sobre volumes de compras.
- Price per Unit: O preço de uma unidade do produto, auxiliando nos cálculos relativos ao gasto total.
- Total Amount: O valor monetário total da transação, mostrando o impacto financeiro de cada compra.

O Autor deste dataset, dispõem algumas perguntas que podemos fazer ao Conjunto de dados, e que iremos responder, que são:

1. Como a idade e o sexo do cliente influenciam seu comportamento de compra?
2. Existem padrões discerníveis nas vendas em diferentes períodos de tempo?
3. Quais categorias de produtos têm maior apelo entre os clientes?
4. Quais são as relações entre idade, gastos e preferências de produto?
5. Como os clientes adaptam seus hábitos de compra durante as tendências sazonais?
6. Existem comportamentos de compra distintos com base no número de itens adquiridos por transação?
7. Que insights podem ser obtidos a partir da distribuição dos preços dos produtos dentro de cada categoria?

Muitas outras perguntas poderam aparecer no decorrer da Analise do conjunto de dados, tais como:
1. Avalie a frequência de compra dos clientes ao longo do tempo.
2. Analise se existe uma relação entre a idade e a fidelidade do cliente.
3. Identifique oportunidades para programas de fidelidade com base nos padrões de compra.

---
## Carregando os Dados

Nesta etapa vamos carregar os dados que no nosso  projecto, é proveniente de um arquivo CSV (poderia ser em um outro formato), carregar as bibliotecas principais para a nossa analise, e as demais vão ser adicionadas a medida que se fizerem necessarias ao longo do projecto.

In [4]:
# importando os modulos principais
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

%matplotlib inline

In [8]:
# Carregando o ficheiro do sistema
try:
    itens = os.listdir('dataset')

    for item in itens:
        fullpath = os.path.join('dataset',item) # esse bloco funciona apenas se tiver um ficheiro de dados dentro da pasta, se tiver mais, modifique o código
except FileNotFoundError:
        print(f"A pasta '{caminho_da_pasta}' não foi encontrada.")
except Exception as e:
        print(f"Ocorreu um erro: {e}")

In [9]:
# importando o conjunto de dados
retail_sales = pd.read_csv(fullpath)
# Mostrando os 5 top elementos dos conjunto de dados
retail_sales.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


## Explorando os dados

Nesta etapa vamos explorar o conjunto de dados, buscando ver o tipo de dados, se temos valores nulos, ou duplicados, e como estão distribuido alguns tipos de dados.

In [11]:
# Verificando a dimensão do conjunto de dados
print(f"O Dataset tem {retail_sales.shape[0]} linhas e {retail_sales.shape[1]} colunas") 

O Dataset tem 1000 linhas e 9 colunas


Como podemos ver acima, o nosso conjunto de dados, possui 1000 linhas de dados, e 9 atributos, que estão descrito acima neste **notebook**.

In [12]:
# Verificando os nomes das colunas
retail_sales.columns

Index(['Transaction ID', 'Date', 'Customer ID', 'Gender', 'Age',
       'Product Category', 'Quantity', 'Price per Unit', 'Total Amount'],
      dtype='object')

In [13]:
# Verificando informações basica sobre os dados
retail_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


Como podemos notar acima, temos 9 colunas, e cada coluna possui 1000 informações, na qual podemos ver que não temos valores nulos para cada coluna no nosso conjunto de dados. Podemos aferir também que temos 2 tipos de dados principais, Valores inteiros e valores de texto (object), e se prestarmos atenção a data da venda do produto não deveria ser de tipo object, o que quer dizer que devemos fazer a mudança desse tipo de dados.