# PREDIÇÃO SATISFAÇÃO DO CLIENTE - OLIST

## DESCRIÇÃO OLIST - PLATAFORMA DE E-COMMERCE

"Conjunto de dados públicos de comércio eletrônico brasileiro por Olist
O conjunto de dados tem informações de 100 mil pedidos de 2016 a 2018 feitos em vários marketplaces no Brasil.

A Olist conecta pequenas empresas de todo o Brasil a canais sem complicações e com um único contrato. Esses comerciantes podem vender seus produtos através da Olist Store e enviá-los diretamente aos clientes usando os parceiros de logística da Olist.

Depois que um cliente compra o produto da Olist Store, um vendedor é notificado para atender esse pedido. Assim que o cliente recebe o produto, ou vence a data prevista de entrega, o cliente recebe uma pesquisa de satisfação por e-mail onde pode dar uma nota da experiência de compra e anotar alguns comentários."


## Importando Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import os
import re
import seaborn as sns
import glob
%matplotlib inline
import matplotlib.style as style
style.use('ggplot')

Bibliotecas e dependências do Python utilizadas:
* Pandas – Manipulação e análise de dados
* NumPy – Manipulação de dados
* Seaborn - Visualização gráfica
* Matplotlib – Visualização gráfica
* Pycaret - Aprendizado de máquina

# Leitura dos dados

A base de dados pode ser acessada no Kaggle, em https://www.kaggle.com/olistbr/brazilian-ecommerce
A sbase de dados completa conta com mais de 100 mil regitros de pedidos em 8 conjuntos de dados separados, sobre:

Consumidores
Vendedores
Produtos
Pedidos
Categoria de pedidos
Avaliação de pedidos
Pagamentos
Geolocalização
Cada conjunto possui informações exclusivas sobre um assunto em questão, podendo ser cruzados de diversas maneiras a fim de se obter informações sobre o quesito escolhido. No caso deste trabalho, a abordagem será realizada com foco nos Consumidores.

Cada recurso ou colunas de diferentes arquivos csv são descritos abaixo:

* The  `olist_customers_dataset.csv` contain following features:

Feature | Description 
----------|---------------
**customer_id** | Id of the consumer who made the purchase.
**customer_unique_id**    | Unique Id of the consumer.
**customer_zip_code_prefix** | Zip Code of the location of the consumer.
**customer_city** | Name of the City from where order is made.
**customer_state** |  State Code from where order is made(Ex- sao paulo-SP).

* The `olist_sellers_dataset.csv` contains following features:

Feature | Description 
----------|---------------
**seller_id** |   Unique Id of the seller registered in olist.
**seller_zip_code_prefix** | Zip Code of the location of the seller.
**seller_city** | Name of the City of the seller.
**seller_state** | State Code (Ex- sao paulo-SP)


* The `olist_order_items_dataset.csv`  contain following features:

Feature | Description 
----------|---------------
**order_id** | A unique id of order made by the consumers.
**order_item_id** | A Unique id given to each item ordered in the order.
**product_id** |A unique id given to each product available on the site.
**seller_id** | Unique Id of the seller registered in olist.
**shipping_limit_date** | The date before which shipping of the ordered    product must be completed.
**price** | Actual price of the products ordered .
**freight_value** | Price rate at which a product is delivered from one point to another. 

* The `olist_order_payments_dataset.csv` contain following features:

Feature | Description 
----------|---------------
**order_id** | A unique id of order made by the consumers.
**payment_sequential** | sequences of the payments made in case of EMI.
**payment_type** |  mode of payment used.(Ex-Credit Card)
**payment_installments** | number of installments in case of EMI purchase.
**payment_value** | Total amount paid for the purshase order.



* The `olist_orders_dataset.csv`  contain following features:

Feature | Description 
----------|---------------
**order_id** | A unique id of order made by the consumers.
**customer_id** | Id of the consumer who made the purchase.
**order_status** | status of the order made i.e delivered, shipped etc.
**order_purchase_timestamp** | Timestamp of the purchase.
**order_approved_at** | Timestamp of the order approval.
**order_delivered_carrier_date** | delivery date at which carrier made the delivery.
**order_delivered_customer_date** | date at which customer got the product.
**order_estimated_delivery_date** | estimated delivery date of the products.


* The `olist_order_reviews_dataset.csv`  contain following features:

Feature | Description 
----------|---------------
**review_id** |Id of the review given on the product ordered by the order id.
**order_id** |  A unique id of order made by the consumers.
**review_score** | review score given by the customer for each order on the scale of 1–5. 
**review_comment_title** | Title of the review
**review_comment_message** | Review comments posted by the consumer for each order.
**review_creation_date** |Timestamp of the review when it is created.
**review_answer_timestamp** | Timestamp of the review answered.


* The `olist_products_dataset.csv` contain following features:

Feature | Description 
----------|---------------
**product_id** | A unique identifier for the proposed project.
**product_category_name** | Name of the product category
**product_name_lenght** | length of the string which specify the name given to the products ordered.
**product_description_lenght** | length of the description written for each product ordered on the site.
**product_photos_qty** | Number of photos of each product ordered available on the shopping portal.
**product_weight_g** | Weight of the products ordered in grams.
**product_length_cm** | Length of the products ordered in centimeters.
**product_height_cm** | Height of the products ordered in centimeters.
**product_width_cm** | width of the product ordered in centimeters.


# Leitura arquivos

Foi realizada a importação de todos os datasets através do Pandas e posteriormente foram cruzados a fim de formar um único Dataframe com informações de: consumidores, geolocalização, pedidos, categorias, produtos, vendedores e avaliações.

In [8]:
pwd

'C:\\Users\\USER\\Desktop\\Ironhack\\Github\\Projeto Final - Olist'

In [9]:
items = pd.read_csv("C:/Users/USER/Desktop/Ironhack/Github/Projeto Final - Olist/arquivos de limpeza de dados/Data/olist_order_items_dataset.csv")  

In [10]:
order = pd.read_csv("Data/olist_orders_dataset.csv")  

FileNotFoundError: [Errno 2] No such file or directory: 'Data/olist_orders_dataset.csv'

In [None]:
products = pd.read_csv("Data/olist_products_dataset.csv")  

In [None]:
geolocation = pd.read_csv("Data/olist_geolocation_dataset.csv")  

In [None]:
reviews = pd.read_csv("Data/olist_order_reviews_dataset.csv")  

In [None]:
customers = pd.read_csv("Data/olist_customers_dataset.csv") 

In [None]:
payments = pd.read_csv("Data/olist_order_payments_dataset.csv") 

In [None]:
seller = pd.read_csv("Data/olist_sellers_dataset.csv") 

In [None]:
print(items.shape)
items.head(2)

In [None]:
print(order.shape)
order.head(2)

In [None]:
print(products.shape)
products.head(2)

In [None]:
print(geolocation.shape)
geolocation.head(2)

In [None]:
print(reviews.shape)
reviews.head(2)

In [None]:
print(customers.shape)
customers.head(2)

In [None]:
print(payments.shape)
payments.head(2)

In [None]:
print(seller.shape)
seller.head(2)

# Limpando dados

## Item

Este conjunto de dados contém informações sobre os produtos em cada pedido. Os preços estão reais. O valor do frete é calculado de acordo com as medidas e peso de cada item.

In [None]:
items.shape

In [None]:
items.info()

In [None]:
items.isnull().sum()

Shipping_limit_date indica a data limite para o vendedor lidar com o pedido para o parceiro logístico. É uma etapa no processo de envio, mas é o tempo de entrega real que afeta a satisfação do cliente, portanto, descartaremos esse atributo.

In [None]:
items.drop('shipping_limit_date', axis=1, inplace=True)

O order_item_id representa a quantidade do item em cada pedido. Devido à falta de conexão entre os conjuntos de dados de produto, pedido e avaliação, não é possível vincular cada produto em um pedido de vários itens à sua própria avaliação. Portanto, manteremos apenas pedidos de um único item.

In [None]:
linhas_mantidas = len(items.loc[items['order_item_id'] == 1,])
print('Número de pedidos de um único item a ser mantido: ', linhas_mantidas)
print('Porcentagem: ', linhas_mantidas/len(items)*100)


In [None]:
itens_pedidos_restritos = items.loc[items['order_item_id'] == 1,]
itens_pedidos_restritos.drop('order_item_id', axis=1, inplace=True)

### Envio do arquivo limpo- itens.csv

In [None]:
items.to_csv('Data/itens.csv')

## Clientes - customers

Esse conjunto de dados contém informações sobre o ID do cliente e sua localização no Brasil, que podem ser usadas para rastrear o local de entrega do pedido e principalmente analisar a experiência de compra de cada cliente.

Cada cliente recebe um customer_unique_id, enquanto um novo customer_id é atribuído a cada vez que eles fazem um pedido. Essa é uma maneira de rastrear clientes recorrentes, o que é crucial para uma plataforma de comércio eletrônico


In [None]:
customers.shape

In [None]:
customers.info()

In [None]:
customers.isnull().sum()

Criando variável dummy para retorno do cliente em dtype: int

In [None]:
customers['retorno_cliente'] = customers.duplicated(subset=['customer_unique_id']).astype(int)
customers['retorno_cliente'].value_counts()

In [None]:
customers.columns

Eliminar colunas indesejadas e renomear a coluna de estado 

In [None]:
customers.drop(['customer_city', 'customer_unique_id'], axis=1, inplace=True)
customers.rename(columns={"cliente_estado": "estado_code"}, inplace=True)

### Envio do arquivo limpo- clientes.csv

In [None]:
customers.to_csv('Data/clientes.csv')

## Ordens - order

Esse conjunto de dados rastreia o status do pedido e o processo de envio pelo parceiro logistico

In [None]:
order.shape

In [None]:
order.isna().sum()

In [None]:
order.info()

Criaremos atributos agregados para acompanhar o processo de envio

In [None]:
# alterando dtype para date
order.loc[:,'order_purchase_timestamp'] = pd.to_datetime(order['order_purchase_timestamp'],
                                                              format='%Y/%m/%d').dt.date
order.loc[:,'order_delivered_customer_date'] = pd.to_datetime(order['order_delivered_customer_date'],
                                                              format='%Y/%m/%d').dt.date
order.loc[:,'order_estimated_delivery_date'] = pd.to_datetime(order['order_estimated_delivery_date'],
                                                              format='%Y/%m/%d').dt.date

In [None]:
# acompanhar os dias estimados e reais de entrega
order['estimativa_dias_entrega'] = (order['order_estimated_delivery_date']- order['order_purchase_timestamp']).astype('timedelta64[D]')

order['dias_reais_entrega'] = (order['order_delivered_customer_date'] - order['order_purchase_timestamp']).astype('timedelta64[D]')

Criando uma coluna de ano como uma junção chave posteriormente.

In [None]:
order['ano_pedidos'] = pd.to_datetime(order['order_purchase_timestamp'], format='%Y/%m/%d').dt.year

Tratando linhas nulas com dados de colunas próximas e eliminando linhas com order_status indisponíveis. 

In [None]:
order = order[(~order['order_status'].isin(['canceled','unavailable']))]

In [None]:
order["order_approved_at"].fillna(order["order_purchase_timestamp"], inplace=True)
order["order_delivered_customer_date"].fillna(order["order_estimated_delivery_date"], inplace=True)
order["order_delivered_carrier_date"].fillna(order["order_delivered_customer_date"], inplace=True)

Criando coluna com cálculo de dias de antecipação de pedidos

In [None]:
order['antecipacao_entrega'] = (order['order_estimated_delivery_date'] - order['order_delivered_customer_date'])

In [None]:
order['antecipacao_entrega'] = order['antecipacao_entrega'].dt.days

Eliminando colunas irrelevantes

In [None]:
cols_to_drop = ['order_approved_at', 'order_delivered_carrier_date', 
               'order_delivered_customer_date', 'order_estimated_delivery_date'] 
order = order.drop(cols_to_drop, axis=1)
order.head(3)

### Envio do arquivo limpo- ordens.csv

In [None]:
order.to_csv('Data/ordens.csv')

## Produtos - products

Esses conjuntos de dados fornece detalhes sobre os produtos da Olist e suas categorias

In [None]:
products.shape

In [None]:
products.info()

In [None]:
products.isnull().sum()

In [None]:
products.columns

In [None]:
products['product_category_name'].value_counts().head(10)

Vamos atribuar os valores ausentes em product_category_name como 'not_reported'

In [None]:
products['product_category_name'] = products['product_category_name'].fillna('not_reported')
products.head(3)

In [None]:
products.isna().sum()

Manipulando valores ausentes de recursos numéricos das colunas de medidas

In [None]:
products['product_weight_g'].fillna(products['product_weight_g'].median(),inplace=True)
products['product_length_cm'].fillna(products['product_length_cm'].median(),inplace=True)
products['product_height_cm'].fillna(products['product_height_cm'].median(),inplace=True)
products['product_width_cm'].fillna(products['product_width_cm'].median(),inplace=True)

### Envio do arquivo limpo- produtos.csv

In [None]:
products.to_csv('Data/produtos.csv')

## Avaliações - reviews

Este conjunto de dados contém informações sobre as avaliações em cada pedido.

In [None]:
reviews.shape

In [None]:
reviews.info()

In [None]:
print('Número de registros de reviews: ', len(reviews))
print('Número de registros únicos de reviews: ', reviews.review_id.nunique())

Existem portanto revisões repetidas. Os valores duplicados serão removidos pois sua repeticão não agrega informação útil ao trabalho.
Retiraremos duplicatas para o mesmo order_id selecionando a avaliação mais recente com base em review_answer_timestamp, pois os dados já estão classificados por hora. Em seguida, retiraremos avaliações duplicadas devido ao problema com pedidos de vários itens e várias avaliações.

In [None]:
reviews = reviews.drop_duplicates(subset='review_id')
print('Número de registros de reviews: ', len(reviews))
print('Número de registros únicos de reviews: ', reviews.review_id.nunique())

Criaremos um novo atributo para capturar o tempo que cada cliente leva para responder à pesquisa após a compra. Em seguida, criaremos a coluna tempo de resposta para analisarmos o score sobre este item.

In [None]:
reviews['review_answer_timestamp'] = pd.to_datetime(reviews['review_answer_timestamp'], format='%Y/%m/%d')
reviews['review_creation_date'] = pd.to_datetime(reviews['review_creation_date'], format='%Y/%m/%d')
reviews['tempo_resposta_avaliação'] = (reviews['review_answer_timestamp'] - reviews['review_creation_date']).dt.days

Verificando os valores ausentes.

In [None]:
reviews.isnull().sum()

Verificamos acima que existem 57742 revisões sem comentários. Para a análise que será realizada é interessante que as revisões tenham os comentários preenchidos. Manteremos apenas as revisões com comentários.

In [None]:
reviews = reviews.dropna(subset=['review_comment_message'])
reviews.info()

Verificando os valores ausentes.

In [None]:
reviews.isna().sum() / len(reviews)

A coluna revisão título do comentário está com mais de 75% de valores ausentes, então vamos descartá-las.

In [None]:
reviews = reviews.drop(['review_comment_title'], axis=1)
reviews.head(3)

### Envio do arquivo limpo- avalicoes.csv

In [None]:
reviews.to_csv('Data/avaliacoes.csv')

## Vendedores - Seller

Este conjunto de dados contém o ID do vendedor e suas informações de localização.

In [None]:
seller.shape

In [None]:
seller.info()

In [None]:
seller.isnull().sum()

Drop nas colunas seller_city e seller_state

In [None]:
seller.drop(['seller_city', 'seller_state'], axis=1, inplace=True)

### Envio do arquivo limpo- vendedores.csv

In [None]:
seller.to_csv('Data/vendedores.csv')

## Pagamentos - payments

Tabela de pagamentos contendo modo de pagamento utilizado e valor pago pelo pedido de compra

In [None]:
payments.shape

In [None]:
payments.info()

In [None]:
payments.isnull().sum()

In [None]:
payments.columns

In [None]:
payments['payment_type'].value_counts()

In [None]:
payments.groupby('payment_type').size()

In [None]:
payments.loc[payments['payment_type']=='not_defined']

In [None]:
payments.drop(index=payments.loc[payments['payment_type']=='not_defined'].index, inplace=True)

In [None]:
payments['payment_type'].value_counts()

### Envio do arquivo limpo- pagamentos.csv

In [None]:
payments.to_csv('Data/pagamentos.csv')

## Geocalização

Este conjunto de dados contém CEPs e suas coordenadas lat/lng. Isso pode ser útil para analisar as distâncias e fazer a visualização geoespacial.

In [None]:
geolocation.shape

In [None]:
geolocation.info()

In [None]:
geolocation.isnull().sum()

In [None]:
geolocation.columns

Eliminar colunas indesejadas e duplicatas para manter apenas um par de latitude/longitude por prefixo de código postal.


In [None]:
geolocation = geolocation.drop(['geolocation_city', 'geolocation_state'], axis=1)
geolocation = geolocation.drop_duplicates(subset = ['geolocation_zip_code_prefix'],ignore_index=True)

Separar a geolocalização por cliente e vendedor

In [None]:
geo_cliente = geolocation.rename(columns={"geolocation_zip_code_prefix":"customer_zip_code_prefix",
                                                  "geolocation_lat":"customer_lat",
                                                  "geolocation_lng":"customer_lng"})
geo_vendedor = geolocation.rename(columns={"geolocation_zip_code_prefix":"seller_zip_code_prefix",
                                                  "geolocation_lat":"seller_lat",
                                                  "geolocation_lng":"seller_lng"})
geo_cliente.head(3)

### Envio do arquivo limpo- geolocal.csv

In [None]:
geolocation.to_csv('Data/geolocal.csv')

In [None]:
geo_cliente.to_csv('Data/geo_cliente.csv')

In [None]:
geo_vendedor.to_csv('Data/geo_vendedor.csv')

# DataFrame original para merge

In [None]:
itens = pd.read_csv("Data/itens.csv") 
ordens = pd.read_csv("Data/ordens.csv")
produtos = pd.read_csv("Data/produtos.csv")
geolocal = pd.read_csv("Data/geolocal.csv")
clientes = pd.read_csv("Data/clientes.csv")
avaliacoes = pd.read_csv('Data/avaliacoes.csv')
vendedores = pd.read_csv("Data/vendedores.csv")
pagamentos = pd.read_csv('Data/pagamentos.csv')
geo_cliente= pd.read_csv('Data/geo_cliente.csv')
geo_vendedor= pd.read_csv('Data/geo_vendedor.csv')

## Colunas finais 

In [None]:
final_df = itens_pedidos_restritos.merge(ordens, on = 'order_id', how = 'inner')
final_df = final_df.merge(produtos, on = 'product_id', how = 'left')
final_df = final_df.merge(avaliacoes, on = 'order_id', how = 'inner')
final_df = final_df.merge(clientes, on = 'customer_id', how = 'left')
final_df = final_df.merge(vendedores, on = 'seller_id', how='left')
final_df = final_df.merge(geo_cliente, on = 'customer_zip_code_prefix', how = 'left')
final_df = final_df.merge(pagamentos, on = 'order_id', how = 'left')

In [None]:
final_df.isna().sum()

   # Leitura DataFrame final

In [None]:
(final_df.isna().sum() / len(final_df)).sort_values(ascending=False)

In [None]:
final_df.describe()

In [None]:
total = final_df.isnull().sum().sort_values(ascending=False)
percent = (final_df.isnull().sum()/final_df.isnull().count()).sort_values(ascending=False)
missing = pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
missing.head()

## Fazendo Drop Duplicates

In [None]:
geolocal.drop_duplicates(inplace=True)

# Gráficos

In [None]:
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt
import plotly.express as px

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
matriz_corr = final_df.corr()
top_corr_features = matriz_corr.index
plt.figure(figsize=(80,30))

g=sns.heatmap(final_df[top_corr_features].corr(),annot=True,cmap="RdYlGn")

# Analisando parâmetros do novo DataFrame

## Data entrega

In [None]:
print('Média de dias de entrega (by the median value): ', final_df['dias_reais_entrega'].median())
final_df['dias_reais_entrega'].plot.hist(bins=50);

In [None]:
final_df[final_df.dias_reais_entrega.isna()]['order_status'].value_counts()

Para análise do cliente, a Olist envia pesquisas aos clientes quando o pedido é entregue ou o tempo estimado de entrega já ultrapassou. Portanto, para os pedidos que ainda não têm a data de entrega, mas ainda têm pontuações de revisão, isso significa que eles não foram entregues no dia da revisão.

Com base nos dias de entrega reais médios e no status de cada pedido, estimamos o tempo extra (além do tempo de entrega estimado para cada pedido) considerando:

- enviado: +5 dias
- faturado/processando/aprovado: + 10 dias
- entregue: +1 dia

In [None]:
# definindo filtros com base em order_status
filtro_enviado = (final_df['dias_reais_entrega'].isna() & (final_df['order_status'] == 'shipped'))
filtro_entregue = (final_df['dias_reais_entrega'].isna() & (final_df['order_status'] == 'delivered'))
outros = ['invoiced', 'processing', 'approved']
filtro_outros = (final_df['dias_reais_entrega'].isna() & final_df['order_status'].isin(outros))


# preenchendo os valores com tempo extra acordado
final_df.loc[filtro_enviado, 'dias_reais_entrega'] = final_df.loc[filtro_enviado, 'estimativa_dias_entrega'] + 5
final_df.loc[filtro_entregue, 'dias_reais_entrega'] = final_df.loc[filtro_entregue, 'estimativa_dias_entrega'] + 1
final_df.loc[filtro_outros, 'dias_reais_entrega'] = final_df.loc[filtro_outros, 'estimativa_dias_entrega'] + 10

Criando coluna para rastrear se a entrega está atrasada.

In [None]:
final_df['entrega_atrasada'] = (final_df['dias_reais_entrega'] > final_df['estimativa_dias_entrega']).astype(int)
final_df['entrega_atrasada'].value_counts()

## Analisando Status do Pedido

Proporção do pedido com base no Status do Pedido

In [None]:
review_score_pct = final_df['review_score'].value_counts(normalize=True)
review_score_pct.to_frame().T.plot.barh(stacked=True, figsize=(10,2), width=0.2,
                                 colormap='coolwarm').legend(loc='upper left', ncol=1)
plt.title('Distribuição das avaliações por score', fontsize=12)
plt.legend(ncol=5, bbox_to_anchor=(0.3, 0.7), loc='lower left', fontsize='small')
plt.show()

A distribuição do atributo order_status é altamente desequilibrada, com 98% dos pedidos sendo declarados 'entregues' e o restante dividido em 'enviado', 'faturado', 'processando' e 'aprovado'.
Vamos analisar os pedidos não entregues.

In [None]:
filtro_não_entregue = (final_df['order_status'] != 'delivered')
pd.crosstab(final_df[filtro_não_entregue]['order_status'], 
            final_df[filtro_não_entregue]['review_score']).plot.bar(cmap='PiYG', figsize=(6,4), rot=0)
plt.show()

Em 3 categorias principais de pedidos não entregues, pontuações baixas de revisão, especialmente a pontuação 1, são amplamente dominantes. Como esses pedidos ocupam uma proporção pequena no conjunto de dados e todos compartilham essa característica, vamos reagrupar em uma categoria não entregue (valor 0) e categoria entregue (valor 1).

In [None]:
final_df['delivered'] = np.where(final_df['order_status']=='delivered', 1, 0)


## Analisando recursos de dimensão do produto

In [None]:
final_df[final_df.product_weight_g.isna()][['product_length_cm', 'product_height_cm', 'product_width_cm']]

Todos os valores ausentes nessas 4 colunas são das mesmas 20 linhas. Como essas 20 linhas são insignificantes para o tamanho dos nossos dados, vamos eliminá-las.

In [None]:
final_df.dropna(subset=['product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm'], axis=0, inplace=True)

In [None]:
final_df.info()

## Análise avaliação

In [None]:
# Soma análise avaliação
final_df["review_score"].value_counts()

In [None]:
# análise de pontuação - percentual
final_df["review_score"].value_counts() / final_df["review_score"].count() * 100

In [None]:
score = sns.countplot(final_df["review_score"])
plt.xlabel("Review Score")
plt.ylabel("Count")
plt.title("Análise da score")
plt.show(score)

As pontuações altas 4 e 5 representam um total aproximado de 78% dos pedidos, enquanto as pontuações baixas 1, 2 e 3 representam apenas 10%, 3% e 8%, respectivamente

In [None]:
final_df['review_score'].value_counts().plot.pie(autopct='%1.2f%%', figsize=(8, 8));

No gráfico acima, podemos verificar que cerca de 75,62% deram uma boa pontuação de avaliação ou deram um valor mínimo de 4 em 5. Para o valor de avaliação com 1 na faixa de 12,54%.

Depois de sabermos a porcentagem de avaliações dadas pelos clientes, tentaremos analisr o que faz com que os clientes atribuirem uma classificação de avaliação de 1 a partir do limite máximo de 5.

In [None]:
review_score_pts = final_df['review_score'].value_counts(normalize=True)
review_score_pts.to_frame().T.plot.barh(stacked=True, figsize=(10,2), width=0.2,
                                 colormap='coolwarm').legend(loc='upper left', ncol=1)
plt.title('Distribuição de pontuações de avaliações', fontsize=12)
plt.legend(ncol=5, bbox_to_anchor=(0.3, 0.7), loc='lower left', fontsize='small')
plt.show()

Vamos tentar analisar as avaliações com pontuação = 1

In [None]:
avaliacao_class_1 = final_df[final_df['review_score'] == 1]
avaliacao_class_1 = avaliacao_class_1.drop_duplicates()
avaliacao_class_1[['product_category_name', 'price', 'product_name_lenght', 'product_photos_qty', 'product_description_lenght']]

No descritivo acima, várias causas podem levar a um valor de avaliação = 1. 

### Avaliação por categoria

Vamos analisar categoria de produto que recebe muitas avaliações = 1
Exponho os 20 principais dados relativos à categoria de mercadorias que receberam uma classificação de 1 e, em seguida, também descrevendo os dados em forma gráfica


In [None]:
avaliacao_class_1['product_category_name'].value_counts().head(20).sort_values(ascending=False)

In [None]:
plt.figure(figsize=(50,9))
plt.xticks(rotation=45, ha='right')
visu_avaliacao = sns.countplot(avaliacao_class_1['product_category_name'])
plt.xlabel("Categoria do Produto")
plt.ylabel("Count")
plt.title("A categoria de produto que recebe muitas avaliações = 1")
plt.show(visu_avaliacao)

## Produtos com melhor e pior classificação

### Produtos com 30 ou mais avaliações

In [None]:
plt.figure(figsize=(12,12))
aval_score = final_df.groupby("product_category_name")["review_score"].agg(["mean", "count"]).sort_values(by="mean",ascending=False)

melhor_avaliado = aval_score[aval_score["count"]>=30][:20]
melhor_avaliado

### Os 20 últimos produtos por pontuação de avaliação

In [None]:
pior_avaliado = aval_score[aval_score["count"]>=30].sort_values(by='mean')[:20]
pior_avaliado


## Analisando tempo de entrega

In [None]:
final_df.head()

In [None]:
final_df['erro_estimativa_dias_entrega'] = final_df['dias_reais_entrega'] -final_df['estimativa_dias_entrega']

In [None]:
sns.displot(data=final_df, x="erro_estimativa_dias_entrega", hue="review_score", palette='PiYG', bins=150)
plt.xlim((-50,50))
plt.show()

Podemos dar uma olhada mais de perto nas contagens de comentários insatisfeitos

In [None]:
sns.displot(data=final_df, x="erro_estimativa_dias_entrega", hue="review_score", palette='PiYG', bins=150)
plt.xlim((-50,50))
plt.ylim((0,2000))

plt.show()

Quando o tempo de entrega real é maior do que o esperado (erro de estimativa > 0), o número de avaliações insatisfeitas aumenta notavelmente.

### Analisando o tempo de entrega ao longo do tempo

In [None]:
final_df['tempo_resposta_avaliação'].describe()

Os dados acima mostram que 50% das avaliações foram criadas no primeiro dia de recebimento das pesquisas. Vamos transformar este atributo em uma variável categórica dependendo do intervalo de atraso.


In [None]:
atraso_bins = [-1, 0, 1, 2, 3, 518]
atraso_rotulo = ['0', '1', '2', '3', '3_mais']
final_df['revisao_intervalo_atraso_resposta'] = pd.cut(final_df['tempo_resposta_avaliação'], atraso_bins, labels=atraso_rotulo)

pd.crosstab(final_df['revisao_intervalo_atraso_resposta'],
            final_df['review_score']).plot.barh(figsize=(8, 5), stacked=True,
                                                            width=0.4, cmap='crest_r')
plt.legend(ncol=5 ,bbox_to_anchor=(0, 1), loc='lower left', fontsize='small')
plt.show()

O gráfico mostra que os clientes insatisfeitos tendem a dar feedback antes de 1 dia após o recebimento da pesquisa. Codificaremos esse recurso para binário para ver se ele pode ajudar a detectar pontuações baixas nas avaliações.


In [None]:
delay_dummies = pd.get_dummies(final_df['revisao_intervalo_atraso_resposta'], prefix='revisão intervalo de atraso')
final_df = pd.concat([final_df, delay_dummies], axis=1)

## Categorias de produtos mais vendidas

In [None]:
top_categ_vendida = final_df.groupby("product_category_name").agg({'order_id':'nunique','payment_value':'sum'}).sort_values("payment_value", ascending=False)[:10]
top_categ_vendida.rename(columns={"order_id":"Nº_de_encomendas", "payment_value":"receitas"}, inplace=True)
top_categ_vendida

In [None]:
categoria_avaliacao = pd.crosstab(final_df['product_category_name'], final_df['review_score'], margins=True, margins_name='total_counts')
categoria_avaliacao.drop('total_counts', axis=0, inplace=True)
categoria_avaliacao.sort_values(by='total_counts', ascending=False, inplace=True)
categoria_avaliacao.drop('total_counts', axis=1)[:50].plot(kind='bar', stacked=True,
                                                        figsize=(10,6), width=0.3,cmap='vlag_r')
plt.title('Avaliação das pontuações com base nas categorias de produtos', fontsize=14)
plt.xlabel('Categoria de Produtos')
plt.ylabel('Nº de avaliações')
plt.show()

## Vendedor popular

In [None]:
vendas_por_vendedor = final_df['seller_id'].value_counts().reset_index()
vendas_por_vendedor.columns = ['seller_id', 'volume_vendas']
print(vendas_por_vendedor.shape)
vendas_por_vendedor.head(3)

In [None]:
vendas_por_vendedor.volume_vendas.sort_values().plot.hist(bins=50);

In [None]:
# busca melhor vendedor

vendas_por_vendedor['vendedor_popular'] = (vendas_por_vendedor['volume_vendas'] >= 100).astype(int)

In [None]:
final_df = final_df.merge(vendas_por_vendedor[['seller_id', 'vendedor_popular']], on='seller_id', how='left')

In [None]:
pd.crosstab(final_df['vendedor_popular'], final_df['review_score']).plot.bar(rot=0, figsize=(6,6),
                                                               cmap=sns.color_palette('crest_r', as_cmap=True))
plt.show()

## Tempo por compra

In [None]:
final_df['purchase_month'] = pd.to_datetime(final_df['order_purchase_timestamp']).dt.month
final_df['purchase_day'] = pd.to_datetime(final_df['order_purchase_timestamp']).dt.day

Avaliação das pontuações com base no ano e mês.
Retiraremos o ano de 2016 em que há um número pequeno de observações

In [None]:
filtro_2017 = (final_df['ano_pedidos'] == 2017)
filtro_2018 = (final_df['ano_pedidos'] == 2018)
style.use('seaborn-dark')
fig, axes = plt.subplots(1,2, figsize=(10,5), sharey=True)
pd.crosstab(final_df[filtro_2017]['purchase_month'], final_df[filtro_2017]['review_score']).plot(ax=axes[0], kind='bar', width=0.5,
                                                                                 stacked=True, cmap='Spectral',
                                                                                 title='2017', rot=0)
pd.crosstab(final_df[filtro_2018]['purchase_month'], final_df[filtro_2018]['review_score']).plot(ax=axes[1], kind='bar',width=0.3,
                                                                                 stacked=True, cmap='Spectral',
                                                                                 title='2018', rot=0, legend=False)
plt.suptitle('Avaliação das pontuações baseado no ano e mês', fontsize=14)
axes[0].set_ylabel('Nº avaliações')
plt.show()


Os volumes de vendas variaram ao longo dos meses e anos

In [None]:
final_df.head()

In [None]:
final_df.to_csv('Data/final_df.csv')