<a href="https://colab.research.google.com/github/sophtmotion/data-driven-insights/blob/main/data_driven_insights.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Importação de Bibliotecas
Importe pandas, numpy e matplotlib.pyplot.

In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# **2**. Leitura e Exploração Inicial da Base
- Carregue o arquivo CSV escolhido usando pandas.
- Mostre as 5 primeiras linhas.
- Mostre o nome das colunas, a quantidade de linhas/colunas e tipos de dados detectados pelo pandas (**`.dtypes`**).
- **Explique em Markdown** os principais tipos de dados encontrados (str, int, float, ...).

In [9]:
import pandas as pd

df = pd.read_csv('sales_data_sample.csv', encoding='latin1')  # ou 'ISO-8859-1'
print(df.head())
print(df.shape)
print(df.columns)
print(df.dtypes)

   ORDERNUMBER  QUANTITYORDERED  PRICEEACH  ORDERLINENUMBER    SALES  \
0        10107               30      95.70                2  2871.00   
1        10121               34      81.35                5  2765.90   
2        10134               41      94.74                2  3884.34   
3        10145               45      83.26                6  3746.70   
4        10159               49     100.00               14  5205.27   

         ORDERDATE   STATUS  QTR_ID  MONTH_ID  YEAR_ID  ...  \
0   2/24/2003 0:00  Shipped       1         2     2003  ...   
1    5/7/2003 0:00  Shipped       2         5     2003  ...   
2    7/1/2003 0:00  Shipped       3         7     2003  ...   
3   8/25/2003 0:00  Shipped       3         8     2003  ...   
4  10/10/2003 0:00  Shipped       4        10     2003  ...   

                    ADDRESSLINE1  ADDRESSLINE2           CITY STATE  \
0        897 Long Airport Avenue           NaN            NYC    NY   
1             59 rue de l'Abbaye           NaN

Insight:
Com df.head(), observei que se trata de uma base de produtos vendidos nos USA e França, com pedidos desde 2003 e que os pedidos possuem mais de um item adquirido para essa amostra. Utilizando df.dtypes percebi que não havia colunas booleanas, confirmando que os campos são categorias, datas e números. Com  linhas e 25 colunas, como mostrado no df.shape e que os nomes das colunas estão em maiúsculas e com _, exibido pelo df.columns

In [10]:
print(df.shape)

(2823, 25)


In [11]:
# print(df.columns)

for col in df.columns:
  print(col)

ORDERNUMBER
QUANTITYORDERED
PRICEEACH
ORDERLINENUMBER
SALES
ORDERDATE
STATUS
QTR_ID
MONTH_ID
YEAR_ID
PRODUCTLINE
MSRP
PRODUCTCODE
CUSTOMERNAME
PHONE
ADDRESSLINE1
ADDRESSLINE2
CITY
STATE
POSTALCODE
COUNTRY
TERRITORY
CONTACTLASTNAME
CONTACTFIRSTNAME
DEALSIZE


In [12]:
print(df.dtypes)

ORDERNUMBER           int64
QUANTITYORDERED       int64
PRICEEACH           float64
ORDERLINENUMBER       int64
SALES               float64
ORDERDATE            object
STATUS               object
QTR_ID                int64
MONTH_ID              int64
YEAR_ID               int64
PRODUCTLINE          object
MSRP                  int64
PRODUCTCODE          object
CUSTOMERNAME         object
PHONE                object
ADDRESSLINE1         object
ADDRESSLINE2         object
CITY                 object
STATE                object
POSTALCODE           object
COUNTRY              object
TERRITORY            object
CONTACTLASTNAME      object
CONTACTFIRSTNAME     object
DEALSIZE             object
dtype: object


### **3. Listas, Dicionários e Tuplas**

- Extraia uma coluna de interesse em uma **lista** Python e faça um loop imprimindo informações sobre cada item.
- Monte um **dicionário** relacionando dois campos importantes da base (ex: produto:categoria, filme:gênero, aluno:disciplina) e exiba 3 pares.
- Crie uma **tupla** contendo três informações distintas de uma linha e imprima o resultado.

In [33]:
nomes = list(df['PRODUCTLINE']) #Lista: extrai os valores da coluna PRODUCTLINE
for nome in nomes[:2823]:
    print(nome)

Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Classic Cars
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles
Motorcycles


📌 Insight: São categorias de meios de transporte, tal como aviões, carros clássigos, vintage, motocicletas, trains, caminhões e ônibus.

In [44]:
# Dicionário: chave e valor, exemplo (nome:categoria)
dicionario = dict(zip(df['PRODUCTLINE'][:300], df['CUSTOMERNAME'][:300]))
print(dicionario)


{'Motorcycles': 'Euro Shopping Channel', 'Classic Cars': 'Euro Shopping Channel', 'Trucks and Buses': 'Euro Shopping Channel'}


In [47]:
# Tupla: informações de uma linha
linha0 = df.iloc[0]
minha_tupla = (linha0['PRODUCTLINE'], linha0['CUSTOMERNAME'], linha0['SALES'])
print(minha_tupla)

('Motorcycles', 'Land of Toys Inc.', np.float64(2871.0))


📌 Insight sobre os dados -
Nas primeiras 300 linhas do DataFrame, as chaves encontradas em PRODUCTLINE são basicamente: "Motorcycles", "Classic Cars" e "Trucks and Buses"
E todas essas linhas estão associadas ao cliente "Euro Shopping Channel", que compra ao menos 3 tipos de categorias de produtos.
Além disso, com a linha de informação criada, observo que Land of Toys Inc. gastou com a categoria Motorcycle ao menos 2871.0.

### **4. Estruturas Condicionais e Laços**

- Escolha uma coluna **numérica** de interesse na base (exemplo: nota, preço, quantidade, etc) e utilize uma **estrutura condicional (if/elif/else)** para imprimir uma mensagem de acordo com o valor de um elemento (por exemplo, se é alto, médio ou baixo).
- Use um **laço for** para calcular a soma (ou outra operação, como média ou multiplicação) dos primeiros 5 valores dessa coluna e mostre o resultado.
- Empregue um **laço while** para encontrar (ou contar) o primeiro valor da mesma coluna que atenda a uma determinada condição (por exemplo: maior que um certo número, diferente de zero, etc) e exiba esse valor quando encontrado.

In [58]:
coluna_numerica = 'QUANTITYORDERED'
primeiro_valor = df[coluna_numerica][0]
print("Primeiro registro de quantidade: ", primeiro_valor)

# Estrutura condicional personalizada:
if primeiro_valor > 40:
    print("Quantidade alta")
elif primeiro_valor > 20:
    print("Quantidade média")
else: print("Quantidade baixa")


# For para operar sobre n primeiros elementos de uma coluna numérica escolhida
soma = 0
lista = list(df[coluna_numerica][:5])
for n in lista:
    soma += n
print("Soma dos 5 primeiros valores:", soma)

# While: Encontrar o primeiro valor maior que um certo limite, definido de acordo com os dados
limite = 40  # Ajuste conforme o contexto da coluna escolhida
i = 0
while i < len(lista) and lista[i] <= limite:
    i += 1
if i < len(lista):
    print("Primeiro valor >", limite, "encontrado:", lista[i])
else:
    print("Nenhum valor maior que", limite, "encontrado nos primeiros 5.")

Primeiro registro de quantidade:  30
Quantidade média
Soma dos 5 primeiros valores: 199
Primeiro valor > 40 encontrado: 41


📌 Insight sobre os dados -
Pela condição sobre o primeiro registro de quantidade (30 unidades), percebi que se trata de uma quantidade intermediária segundo as minhas regras (>20 e ≤40).
A soma das 5 primeiras quantidades foi 199 unidades, mostrando um volume agregado significativo já nas primeiras vendas.
O laço while mostrou que a primeira venda acima de 40 unidades ocorreu na terceira transação (2º posição, 3º registro), sinalizando uma venda de maior porte logo no início do dataset.

### **5. Operadores Aritméticos e Manipulação de Dados**

- Realize operações matemáticas (soma, subtração, multiplicação ou divisão) entre colunas ou valores de interesse da base (ex: diferença de duas notas, preço com desconto, etc).
- Crie uma nova coluna no DataFrame aplicando um cálculo simples.

In [59]:
if 'SALES' in df.columns and 'PRICEEACH' in df.columns:
    df['Soma'] = df['SALES'] + df['PRICEEACH']
    print(df[['SALES', 'PRICEEACH', 'Soma']].head())

# Exemplo: preço com desconto
if 'SALES' in df.columns:
    df['Desconto'] = df['SALES'] * 0.9
    print(df[['SALES', 'Desconto']].head())

     SALES  PRICEEACH     Soma
0  2871.00      95.70  2966.70
1  2765.90      81.35  2847.25
2  3884.34      94.74  3979.08
3  3746.70      83.26  3829.96
4  5205.27     100.00  5305.27
     SALES  Desconto
0  2871.00  2583.900
1  2765.90  2489.310
2  3884.34  3495.906
3  3746.70  3372.030
4  5205.27  4684.743


📌 Insight: Na coluna Soma do primeiro experimento, consigo ver os 5 primeiros registros acrescido de mais um item de compra (valor existente + 1 valor unitário).
Além disso, considerando o valor de venda já existente, com desconto de 10%, tenho os 5 primeiros valores. Ex: de 2871 para 2583.

### **6. NumPy e Arrays Numéricos**

- **Crie um array NumPy** a partir de uma coluna numérica da base.
- Realize pelo menos duas operações vetorizadas com esse array (ex: somar, multiplicar, elevar ao quadrado elementos).
- Mostre como acessar, modificar e exibir partes do array (fatiamento/slicing ou indexação).
- Mostre como fazer uma operação agregada, como soma ou média, sobre o array.

In [60]:
# arrumar
import numpy as np

# Escolhendo a coluna numérica
array = np.array(df['QUANTITYORDERED'])

# Operações NumPy
array_somado = array + 10          # soma 10 a cada elemento
array_quadrado = array ** 2        # eleva cada elemento ao quadrado

# Mostrando os 5 primeiros valores
print("Original:", array[:5])
print("Somado +10:", array_somado[:5])
print("Ao quadrado:", array_quadrado[:5])

# Agregações
print("Soma dos elementos:", array.sum())
print("Média dos elementos:", array.mean())

Original: [30 34 41 45 49]
Somado +10: [40 44 51 55 59]
Ao quadrado: [ 900 1156 1681 2025 2401]
Soma dos elementos: 99067
Média dos elementos: 35.09280906836698


Insight:
📌 O array NumPy da coluna “quantidade” revelou que no total foram vendidos quase 100 mil itens (99067) e que a médias de itens de um pedido é de aproximadamente 35 unidades.


### **7. Acesso e Manipulação de Dados com Pandas**

- Selecione linhas/colunas específicas usando **`.loc`**, **`.iloc`** ou filtrando por condição.
- Use algum método de pandas para contar ou agrupar informações simples (ex: **`.value_counts()`**, **`.groupby()`**), mostrando o resultado em Markdown.
- Crie uma pequena análise agregada interessante (ex: número de filmes por país, quantidade de alunos por escola, vendas por categoria).

In [61]:
# Usando .iloc: seleciona as 5 primeiras linhas e as 3 primeiras colunas
print(df.iloc[:5, :3])

# Usando .loc: seleciona as linhas de índice 0 a 4 e as colunas 'CUSTOMERNAME' e 'SALES'
print(df.loc[0:4, ['CUSTOMERNAME', 'SALES']])

# Filtrando por condição: vendas com valor maior que 1000
filtro = df[df['SALES'] > 1000]
print(filtro[['CUSTOMERNAME', 'SALES']].head())

   ORDERNUMBER  QUANTITYORDERED  PRICEEACH
0        10107               30      95.70
1        10121               34      81.35
2        10134               41      94.74
3        10145               45      83.26
4        10159               49     100.00
               CUSTOMERNAME    SALES
0         Land of Toys Inc.  2871.00
1        Reims Collectables  2765.90
2           Lyon Souveniers  3884.34
3         Toys4GrownUps.com  3746.70
4  Corporate Gift Ideas Co.  5205.27
               CUSTOMERNAME    SALES
0         Land of Toys Inc.  2871.00
1        Reims Collectables  2765.90
2           Lyon Souveniers  3884.34
3         Toys4GrownUps.com  3746.70
4  Corporate Gift Ideas Co.  5205.27


Insights:

📌 Crescimento no volume de pedidos
Os valores de QUANTITYORDERED estão crescendo gradualmente:
30 → 34 → 41 → 45 → 49.

📌 Preço médio por unidade relativamente estável
Os preços variam entre 81,35 e 100,00.

📌 A receita (SALES) acompanha o volume e o preço
O valor de SALES cresce de acordo com a quantidade comprada e o preço unitário:

📌 Clientes com maior ticket médio em vendas acima de 1000
* Corporate Gift Ideas Co. está no topo com 5205,27
* Lyon Souveniers e Toys4GrownUps.com também têm valores expressivos, todos acima de 3700.

In [26]:
# Contagem de valores por linha de produto
contagem = df['PRODUCTLINE'].value_counts()
print(contagem)

PRODUCTLINE
Classic Cars        967
Vintage Cars        607
Motorcycles         331
Planes              306
Trucks and Buses    301
Ships               234
Trains               77
Name: count, dtype: int64


In [27]:
# Total de vendas (SALES) por linha de produto
vendas_por_produto = df.groupby('PRODUCTLINE')['SALES'].sum().sort_values(ascending=False)
print(vendas_por_produto)

PRODUCTLINE
Classic Cars        3919615.66
Vintage Cars        1903150.84
Motorcycles         1166388.34
Trucks and Buses    1127789.84
Planes               975003.57
Ships                714437.13
Trains               226243.47
Name: SALES, dtype: float64


Insights:
📌 A linha de produto Classic Cars lidera o total de vendas, ultrapassando 3,5 milhões de dólares, com 967 linhas de produtos,  enquanto linhas como Trains possuem menor participação e apenas 77 linhas de produtos.
Essa visão rápida ajuda a priorizar categorias com maior impacto financeiro.

### **8. Visualização de Dados**

- **Obrigatório gerar pelo menos 1 gráfico de cada tipo básico:**
    - **Gráfico de Linha:** ilustrando tendências/séries temporais quando possível.
    - **Gráfico de Barras:** comparando categorias relevantes.
    - **Gráfico de Dispersão:** mostrando a relação entre duas variáveis numéricas.
- Se algum dos gráficos não for aplicável à sua base, crie (ou simule) dados para mostrar que compreendeu o recurso.
- Para cada gráfico, escreva em Markdown um comentário sobre o que ele mostra.

In [28]:
!pip install plotly



### Gráfico de Linha Interativo – Evolução temporal

In [29]:
import plotly.express as px

# Agrupar por data
df['ORDERDATE'] = pd.to_datetime(df['ORDERDATE'])
vendas_por_data = df.groupby('ORDERDATE', as_index=False)['SALES'].sum()

fig_linha = px.line(
    vendas_por_data,
    x='ORDERDATE',
    y='SALES',
    title='📈 Evolução das Vendas ao longo do Tempo',
    labels={'ORDERDATE': 'Data do Pedido', 'SALES': 'Total de Vendas ($)'}
)
fig_linha.show()

Insights:

📌 As vendas variam bastante ao longo do tempo, com períodos de picos e quedas acentuadas. Observa‑se um aumento expressivo de vendas entre o final de 2003 e início de 2004. Após os picos, as vendas voltam a oscilar em um nível mais estável, sem tendência clara de crescimento contínuo.

### Gráfico de Barras Interativo – Vendas por Produto

In [30]:
vendas_por_produto = df.groupby('PRODUCTLINE', as_index=False)['SALES'].sum()

fig_barra = px.bar(
    vendas_por_produto,
    x='PRODUCTLINE',
    y='SALES',
    title='📊 Total de Vendas por Linha de Produto',
    labels={'PRODUCTLINE': 'Linha de Produto', 'SALES': 'Total de Vendas ($)'},
    text='SALES'
)
fig_barra.update_layout(xaxis_tickangle=-45)
fig_barra.show()

📌 Insights:

A linha de produto Classic Cars lidera amplamente as vendas, com mais de 3,9 milhões de dólares. Vintage Cars aparece como o segundo destaque, seguida por Motorcycles e Trucks and Buses, todas com volumes relevantes. Produtos como Trains e Ships apresentam vendas bem menores, indicando menor participação no faturamento.

### Gráfico de Dispersão Interativo – Quantidade x Preço

In [31]:
fig_disp = px.scatter(
    df,
    x='QUANTITYORDERED',
    y='PRICEEACH',
    color='PRODUCTLINE',  # opcional: cor por categoria
    title='🔵 Dispersão: Quantidade Pedida x Preço Unitário',
    labels={'QUANTITYORDERED': 'Quantidade', 'PRICEEACH': 'Preço Unitário ($)'},
    opacity=0.7
)
fig_disp.show()

📌 Insights:

A maior parte dos pedidos se concentra entre 20 e 50 unidades, independentemente da linha de produto. O preço unitário está majoritariamente na faixa de 30 a 100 dólares, sem correlação clara com a quantidade. A dispersão mostra que todas as linhas de produto seguem esse padrão, sem um grupo isolado com comportamento fora do comum.

### Mapa interativo por país (Plotly Choropleth)

In [32]:
import plotly.express as px

# Agrupando total de vendas por país
vendas_por_pais = df.groupby('COUNTRY', as_index=False)['SALES'].sum()

# Criando o mapa
fig_mapa = px.choropleth(
    vendas_por_pais,
    locations='COUNTRY',          # coluna com nomes de países
    locationmode='country names', # diz que é nome de país
    color='SALES',                # métrica para colorir
    hover_name='COUNTRY',         # aparece ao passar o mouse
    color_continuous_scale='Viridis',
    title='🌎 Total de Vendas por País'
)

fig_mapa.show()

📌 Insights:

As maiores vendas se concentram em poucos países, com destaque para Estados Unidos e Japão (tons mais claros/amarelos). Países da Europa Ocidental e Austrália também apresentam valores relevantes, mas em menor intensidade Regiões da Ásia, África e América do Sul praticamente não aparecem, indicando baixo volume de vendas ou ausência de registros.


### **9. Relatório e Insights**

- Após os usos de listas, dicionários, tuplas, operações, agrupamentos e gráficos, escreva em Markdown sempre que descobrir algo interessante, curioso ou surpreendente.
- Inclua um **relatório final** em Markdown:
    
    > “Neste projeto, explorei a base X, com N linhas e Y colunas. Descobri que...
    ... (exponha padrões, diferenças, curiosidades simples, possíveis perguntas para investigar, etc.)”
    >

# 📄 Relatório de Insights – Projeto Data Driven

Os dados representam pedidos, clientes, produtos e valores de vendas ao longo do tempo.  
A partir das análises e visualizações, obtive os seguintes insights:

---

## 📈 Evolução temporal das vendas
- As vendas apresentam grande variação ao longo do período analisado.  
- Há picos expressivos entre o final de 2003 e o início de 2004, seguidos de oscilações constantes.  
- Não foi identificada uma tendência linear de crescimento ou queda, mas sim períodos de maior intensidade seguidos de retrações.

---

## 📊 Vendas por linha de produto
- A linha **Classic Cars** lidera com folga, superando 3,9 milhões em vendas.  
- **Vintage Cars** e **Motorcycles** aparecem em seguida com participação relevante.  
- Produtos como **Trains** e **Ships** geraram volumes bem menores, sugerindo menor demanda ou menor foco comercial.

---

## 🔎 Quantidade x Preço Unitário
- A maioria dos pedidos se concentra entre **20 e 50 unidades**.  
- O preço unitário se mantém majoritariamente na faixa entre **30 e 100 dólares**, sem relação clara com a quantidade pedida.  
- Todas as linhas de produto seguem padrões semelhantes, sem outliers marcantes.

---

## 🌍 Distribuição geográfica das vendas
- Os maiores volumes de vendas estão concentrados nos **Estados Unidos** e no **Japão**.  
- Países da **Europa Ocidental** e a **Austrália** também se destacam, mas com menor intensidade.  
- Pouco ou nenhum volume foi registrado na **América do Sul**, **África** e grande parte da **Ásia**.

---

## 💡 Padrões e curiosidades
- O mix de produtos mais vendidos concentra-se em veículos clássicos e antigos.  
- Há clientes com compras pontuais muito maiores, o que pode indicar eventos sazonais ou negociações específicas.  
- O mercado parece bem estabelecido em países desenvolvidos, com oportunidade de investigar regiões com menor penetração.

---

## ❓ Possíveis perguntas para investigações futuras
- Quais fatores explicam os picos de vendas entre 2003 e 2004?  
- Por que determinadas linhas de produto têm desempenho tão baixo?  
- Há oportunidades para expandir para países sub-representados?  
- Quais clientes geram maior recorrência e quais são compras únicas?