
# 📊 Análise de Entregas e Satisfação do Cliente — Olist

Este notebook tem como objetivo analisar o impacto de atrasos de entrega sobre a satisfação do cliente (notas de avaliação) utilizando o dataset Olist.

## Etapas
1. Carregamento e preparação dos dados  
2. Qualidade dos dados (nulos e duplicados)  
3. Criação da variável de atraso  
4. Análises descritivas  
5. Relação entre atraso e nota  
6. Correlação e regressão linear  
7. **Análise geográfica (por estado e região)**  
8. **Visualizações adicionais (gráficos de pizza por região)**  
9. Conclusões


In [None]:

import pandas as pd
import os
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import display
from scipy.stats import pearsonr
from sklearn.linear_model import LinearRegression
import numpy as np

# Estilo
sns.set(style="whitegrid", palette="Set2")

# Ajuste o caminho local do dataset
path = "C:/Users/orfeu/Desktop/Projeto-E-commerce-Olist/dataset-e-commerce"

orders = pd.read_csv(os.path.join(path, 'olist_orders_dataset.csv'))
df_reviews = pd.read_csv(os.path.join(path, 'olist_order_reviews_dataset.csv'))
customers = pd.read_csv(os.path.join(path, 'olist_customers_dataset.csv'))


In [None]:

# Conversão para datetime
date_columns = [
    'order_purchase_timestamp', 'order_approved_at',
    'order_delivered_carrier_date', 'order_delivered_customer_date',
    'order_estimated_delivery_date'
]

for col in date_columns:
    orders[col] = pd.to_datetime(orders[col])

df_reviews['review_creation_date'] = pd.to_datetime(df_reviews['review_creation_date'])
df_reviews['review_answer_timestamp'] = pd.to_datetime(df_reviews['review_answer_timestamp'])


In [None]:

def resumo_dataset(df, nome=""):
    resumo = pd.DataFrame({
        'Não Nulos': df.notnull().sum(),
        'Nulos': df.isnull().sum(),
        '% Completude': round(df.notnull().mean() * 100, 1)
    })
    resumo['Duplicados'] = df.duplicated().sum()
    print(f"=== {nome} ===")
    display(resumo)

resumo_dataset(orders, "Orders")
resumo_dataset(df_reviews, "Reviews")


In [None]:

orders_validas = orders[orders['order_delivered_customer_date'].notna()].copy()
orders_validas['atraso_dias'] = (
    orders_validas['order_delivered_customer_date'] -
    orders_validas['order_estimated_delivery_date']
).dt.days

orders_validas['atrasado'] = orders_validas['atraso_dias'] > 0
display(orders_validas[['order_id','atraso_dias','atrasado']].head())


In [None]:

# Distribuição das notas
plt.figure(figsize=(8, 5))
ax = sns.countplot(x='review_score', data=df_reviews, hue='review_score', palette='Set2', legend=False)
plt.title('Distribuição das Notas de Avaliação', fontsize=14, fontweight='bold')
plt.xlabel('Nota (1 a 5)', fontsize=12)
plt.ylabel('Número de Avaliações', fontsize=12)
for container in ax.containers:
    ax.bar_label(container, fmt='%d', fontsize=10)
plt.show()

# Distribuição dos atrasos
plt.figure(figsize=(8, 5))
sns.histplot(orders_validas['atraso_dias'], bins=30, kde=True)
plt.title('Distribuição do Atraso em Dias', fontsize=14, fontweight='bold')
plt.xlabel('Dias de Atraso')
plt.ylabel('Quantidade de Pedidos')
plt.show()


In [None]:

df_entregas_reviews = pd.merge(orders_validas, df_reviews, on='order_id', how='inner')

# Boxplot notas x atraso
plt.figure(figsize=(8, 5))
sns.boxplot(x='atrasado', y='review_score', data=df_entregas_reviews)
plt.title('Notas por Status de Atraso', fontsize=14, fontweight='bold')
plt.xlabel('Pedido Atrasado')
plt.ylabel('Nota')
plt.xticks([0, 1], ['Não', 'Sim'])
plt.show()

# Nota média por status de atraso
nota_media = df_entregas_reviews.groupby('atrasado')['review_score'].mean().reset_index()
nota_media['atrasado'] = nota_media['atrasado'].map({False: 'Não', True: 'Sim'})
display(nota_media)

plt.figure(figsize=(6, 4))
sns.barplot(x='atrasado', y='review_score', data=nota_media)
plt.title('Nota Média por Status de Atraso')
plt.show()


In [None]:

corr, p_value = pearsonr(df_entregas_reviews['atraso_dias'].dropna(), df_entregas_reviews['review_score'].dropna())
print(f"Correlação Pearson: {corr:.3f} | Valor-p: {p_value:.5f}")

# Heatmap
plt.figure(figsize=(5,4))
sns.heatmap(df_entregas_reviews[['atraso_dias','review_score']].corr(), annot=True, cmap="coolwarm")
plt.title("Correlação entre Atraso e Nota")
plt.show()

# Regressão Linear
X = df_entregas_reviews[['atraso_dias']].fillna(0)
y = df_entregas_reviews['review_score'].fillna(df_entregas_reviews['review_score'].mean())

model = LinearRegression()
model.fit(X, y)

coef = model.coef_[0]
intercepto = model.intercept_
print(f"Regressão Linear: Nota = {intercepto:.2f} + ({coef:.3f} * atraso_dias)")
print(f"→ Cada dia de atraso reduz a nota média em aproximadamente {abs(coef):.3f} pontos.")

plt.figure(figsize=(8, 5))
sns.regplot(x='atraso_dias', y='review_score', data=df_entregas_reviews, scatter_kws={'alpha':0.3}, line_kws={'color':'red'})
plt.title('Regressão Linear: Dias de Atraso x Nota')
plt.show()


## 🌍 Análise Regional de Atrasos e Notas

In [None]:

# Adicionar estado ao dataframe
df_entregas_reviews = df_entregas_reviews.merge(customers[['customer_id','customer_state']], on='customer_id', how='left')

# Percentual de atrasos por estado
atraso_estado = df_entregas_reviews.groupby('customer_state')['atrasado'].mean()

# Nota média por estado
nota_estado = df_entregas_reviews.groupby('customer_state')['review_score'].mean()

print("Percentual de atrasos por estado (top 5):")
print(atraso_estado.sort_values(ascending=False).head())

print("\nNota média por estado (bottom 5):")
print(nota_estado.sort_values().head())

# Gráfico de atrasos por estado
atraso_estado_ordenado = atraso_estado.sort_values(ascending=False)
plt.figure(figsize=(14, 7))
sns.barplot(x=atraso_estado_ordenado.index, y=atraso_estado_ordenado.values, color="steelblue")
plt.title("% de Pedidos Atrasados por Estado (Ordenado)", fontsize=16)
plt.xlabel("Estado")
plt.ylabel("Percentual de Atrasos")
plt.xticks(rotation=45)
for i, value in enumerate(atraso_estado_ordenado.values):
    plt.text(i, value + 0.005, f'{value:.1%}', ha='center', va='bottom', fontsize=10, fontweight='bold')
plt.tight_layout()
plt.show()


In [None]:

# Mapear estados para regiões
regioes = {
    'AC': 'Norte','AL': 'Nordeste','AP': 'Norte','AM': 'Norte','BA': 'Nordeste',
    'CE': 'Nordeste','DF': 'Centro-Oeste','ES': 'Sudeste','GO': 'Centro-Oeste',
    'MA': 'Nordeste','MT': 'Centro-Oeste','MS': 'Centro-Oeste','MG': 'Sudeste',
    'PA': 'Norte','PB': 'Nordeste','PR': 'Sul','PE': 'Nordeste','PI': 'Nordeste',
    'RJ': 'Sudeste','RN': 'Nordeste','RS': 'Sul','RO': 'Norte','RR': 'Norte',
    'SC': 'Sul','SP': 'Sudeste','SE': 'Nordeste','TO': 'Norte'
}
df_entregas_reviews['regiao'] = df_entregas_reviews['customer_state'].map(regioes)

# Percentual de atrasos por região
atraso_regiao = df_entregas_reviews.groupby('regiao')['atrasado'].mean().sort_values(ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(x=atraso_regiao.index, y=atraso_regiao.values, color="steelblue")
plt.title('% de Pedidos Atrasados por Região', fontsize=16)
plt.ylabel('Percentual de Atrasos')
plt.xlabel('Região')
for i, value in enumerate(atraso_regiao.values):
    plt.text(i, value + 0.005, f'{value:.1%}', ha='center', va='bottom', fontsize=11, fontweight='bold')
plt.show()


In [None]:

# Gráficos de pizza por região
for regiao in df_entregas_reviews['regiao'].unique():
    df_r = df_entregas_reviews[df_entregas_reviews['regiao'] == regiao]
    contagem = df_r['atrasado'].value_counts()
    labels = ['Não Atrasados', 'Atrasados']
    sizes = [contagem.get(False,0), contagem.get(True,0)]
    colors = ['#2ecc71', '#e74c3c']
    explode = (0, 0.1)

    plt.figure(figsize=(8, 6))
    plt.pie(sizes, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%',
            shadow=True, startangle=90, textprops={'fontsize': 12})
    plt.title(f'Região {regiao}\nDistribuição de Pedidos: Atrasados vs Não Atrasados\n' +
              f'Total de Pedidos: {len(df_r):,}'.replace(',', '.'),
              fontsize=14, fontweight='bold', pad=20)
    plt.axis('equal')
    plt.show()



## ✅ Conclusões

- Há impacto negativo do atraso nas notas: cada dia de atraso reduz em média **0,034 pontos** da nota.  
- O **Nordeste concentra as maiores taxas de atraso**, seguido pelo Norte.  
- **Sudeste e Sul apresentam os menores percentuais de atraso**.  
- A visualização regional reforça a necessidade de **monitoramento específico por estado/região**.  
- Gráficos de pizza ajudam a comunicar claramente a proporção de atrasos em cada região.  
