# 🛒 MVP - Análise Exploratória e Pré-Processamento de Dados

**Projeto:** Fatores que influenciam a avaliação do cliente em pedidos online  
**Fonte:** Brazilian E-Commerce Public Dataset by Olist (Kaggle)  
**Autor:** Abraão Nazário

# ✅ Definição do Problema

O objetivo deste projeto é investigar os fatores que influenciam as avaliações de clientes em uma plataforma brasileira de e-commerce.

- **Problema:** Predição de avaliações de clientes (`review_score`).
- **Tipo:** Aprendizado supervisionado (classificação).
- **Hipóteses:** O status do pedido influencia diretamente a nota de avaliação. Espera-se concentração em notas 4 e 5.
- **Restrições:** Foram utilizados os arquivos `olist_orders_dataset_5000.csv` e `olist_order_reviews_dataset_5000.csv`.

In [None]:
import pandas as pd

url_orders = 'https://raw.githubusercontent.com/abraaonazario/mvp-analise-dados/main/olist_orders_dataset_5000.csv'
url_reviews = 'https://raw.githubusercontent.com/abraaonazario/mvp-analise-dados/main/olist_order_reviews_dataset_5000.csv'

orders = pd.read_csv(url_orders)
reviews = pd.read_csv(url_reviews)

In [None]:
orders.head()

In [None]:
orders.info()
reviews.info()

In [None]:
orders.isnull().sum(), reviews.isnull().sum()

In [None]:
df = pd.merge(orders, reviews, on='order_id')
df.head()

In [None]:
df['review_score'].describe()

# ✅ Análise de Dados

- Total de registros: 5000
- Atributos analisados: `order_status`, `order_purchase_timestamp`, `review_score`
- Não foram encontrados valores nulos.
- `review_score` apresenta concentração de notas 4 e 5 (desbalanceamento).

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.countplot(data=df, x='review_score')
plt.title("Distribuição das Avaliações")
plt.show()

In [None]:
sns.countplot(data=df, x='order_status')
plt.title("Distribuição dos Status dos Pedidos")
plt.xticks(rotation=45)
plt.show()

In [None]:
sns.boxplot(x=df['review_score'])
plt.title("Boxplot das Avaliações")
plt.show()

# ✅ Pré-processamento de Dados

Selecionados os seguintes atributos para continuidade:

- `order_status`
- `order_purchase_timestamp`
- `review_score`

In [None]:
df = df[['order_status', 'order_purchase_timestamp', 'review_score']].copy()
df.dropna(inplace=True)

# 📝 Conclusão

O dataset encontra-se limpo e pronto para futuras etapas de modelagem.

Projeto desenvolvido por **Abraão Nazário**.