# 🛒 Análise de Dados de Vendas - Processo Seletivo GreenTech

**Candidato:** David Cardoso  
**Data:** Julho/2025  
**Desafio:** Análise de dados reais de vendas de um supermercado online nos Estados Unidos, com foco em geração de insights estratégicos.

📍 Este projeto foi desenvolvido como parte do processo seletivo da GreenTech, entidade estudantil da UFABC, e tem como objetivo utilizar **análise exploratória de dados** para resolver problemas reais de negócio.

## Objetivos

A partir do conjunto de dados fornecido, o objetivo principal é extrair insights que possam auxiliar na tomada de decisão da empresa. Para isso, serão analisadas:

- O **perfil dos clientes**: quais segmentos mais compram e o que consomem?
- O **desempenho das vendas**: quais categorias ou regiões são mais lucrativas?
- A **eficiência das entregas e pagamentos**: há impacto no lucro ou devoluções?

A análise será guiada por **dados reais** e utilizará ferramentas como Python, Pandas, Matplotlib e Seaborn para manipulação e visualização.

## Etapa 1: Configuração do Ambiente

Importação das bibliotecas necessárias para análise de dados e criação de visualizações gráficas.

In [3]:
# Bibliotecas de análise e visualização
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Etapa 2: Carregamento e Visualização Inicial

Nesta etapa, o dataset será carregado e avaliado para entender sua estrutura:  
- Quais são as colunas e seus tipos?  
- Existem valores ausentes?  
- Algum dado precisa ser limpo ou transformado?

In [4]:
# Carregando o dataset
df = pd.read_csv("vendas_supermercado.csv")

# Verificando as primeiras linhas
df.head()

Unnamed: 0.1,Unnamed: 0,CODIGO_PEDIDO,DATA_PEDIDO,DATA_ENTREGA,FORMA_ENTREGA,CODIGO_CLIENTE,NOME_CLIENTE,SEGMENTO_CLIENTE,PAIS,CIDADE,...,REGIAO,CODIGO_PRODUTO,CATEGORIA_PRODUTO,SUB_CATEGORIA_PRODUTO,NOME_PRODUTO,VALOR_PRODUTO,QUANTIDADE,LUCRO,DEVOLUCAO,MODO_PAGAMENTO
0,0,CA-2019-160304,2019-01-01,2019-01-07,Standard Class,BM-11575,Brendan Murry,Corporate,United States,Gaithersburg,...,East,FUR-BO-10004709,Furniture,Bookcases,"Bush Westfield Collection Bookcases, Medium Ch...",73.94,1.0,28.2668,No,Online
1,1,CA-2019-160304,2019-01-02,2019-01-07,Standard Class,BM-11575,Brendan Murry,Corporate,United States,Gaithersburg,...,East,FUR-BO-10004709,Furniture,Bookcases,"Bush Westfield Collection Bookcases, Medium Ch...",173.94,3.0,38.2668,No,Online
2,2,CA-2019-160304,2019-01-02,2019-01-07,Standard Class,BM-11575,Brendan Murry,Corporate,United States,Gaithersburg,...,East,TEC-PH-10000455,Technology,Phones,GE 30522EE2,231.98,2.0,67.2742,No,Cards
3,3,CA-2019-125206,2019-01-03,2019-01-05,First Class,LR-16915,Lena Radford,Consumer,United States,Los Angeles,...,West,OFF-ST-10003692,Office Supplies,Storage,Recycled Steel Personal File for Hanging File ...,114.46,2.0,28.615,No,Online
4,4,US-2019-116365,2019-01-03,2019-01-08,Standard Class,CA-12310,Christine Abelman,Corporate,United States,San Antonio,...,Central,TEC-AC-10002217,Technology,Accessories,Imation Clip USB flash drive - 8 GB,30.08,2.0,-5.264,No,Online


## Etapa 3: Análise da Estrutura e Dados Faltantes

Aqui verificamos:
- O número de linhas e colunas do dataset.
- O tipo de dado de cada coluna.
- Quantidade de valores ausentes (nulos) em cada coluna.

In [5]:
# Informações gerais do dataset
df.info()

# Verificando valores nulos
df.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5901 entries, 0 to 5900
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             5901 non-null   int64  
 1   CODIGO_PEDIDO          5901 non-null   object 
 2   DATA_PEDIDO            5901 non-null   object 
 3   DATA_ENTREGA           5801 non-null   object 
 4   FORMA_ENTREGA          5801 non-null   object 
 5   CODIGO_CLIENTE         5801 non-null   object 
 6   NOME_CLIENTE           5801 non-null   object 
 7   SEGMENTO_CLIENTE       5801 non-null   object 
 8   PAIS                   5801 non-null   object 
 9   CIDADE                 5801 non-null   object 
 10  ESTADO                 5801 non-null   object 
 11  REGIAO                 5801 non-null   object 
 12  CODIGO_PRODUTO         5801 non-null   object 
 13  CATEGORIA_PRODUTO      5801 non-null   object 
 14  SUB_CATEGORIA_PRODUTO  5801 non-null   object 
 15  NOME

Unnamed: 0                 0
CODIGO_PEDIDO              0
DATA_PEDIDO                0
DATA_ENTREGA             100
FORMA_ENTREGA            100
CODIGO_CLIENTE           100
NOME_CLIENTE             100
SEGMENTO_CLIENTE         100
PAIS                     100
CIDADE                   100
ESTADO                   100
REGIAO                   100
CODIGO_PRODUTO           100
CATEGORIA_PRODUTO        100
SUB_CATEGORIA_PRODUTO    100
NOME_PRODUTO             100
VALOR_PRODUTO            100
QUANTIDADE               100
LUCRO                    100
DEVOLUCAO                100
MODO_PAGAMENTO           100
dtype: int64

## Etapa 4: Limpeza e Pré-Processamento

Antes de realizar qualquer análise, precisamos garantir que os dados estejam consistentes. Nesta etapa, serão realizados os seguintes ajustes:

- Remoção da coluna desnecessária `Unnamed: 0`
- Remoção de linhas com valores ausentes (100 linhas com múltiplos campos nulos)
- Conversão de colunas de data para o tipo datetime

In [None]:
# Ver as linhas que têm algum valor nulo
df[df.isnull().any(axis=1)].head()