# Imports

In [52]:
import pandas as pd
import glob 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression

# Loading Datasets

In [53]:
DATASETS_PATH = "../data/"

# customers
customers_df = pd.read_csv(DATASETS_PATH + "olist_customers_dataset.csv")
geolocation_df = pd.read_csv(DATASETS_PATH + "olist_geolocation_dataset.csv")

# order
orders_df = pd.read_csv(DATASETS_PATH + "olist_orders_dataset.csv")
order_items_df = pd.read_csv(DATASETS_PATH + "olist_order_items_dataset.csv")
order_payments_df = pd.read_csv(DATASETS_PATH + "olist_order_payments_dataset.csv")
order_reviews_df = pd.read_csv(DATASETS_PATH + "olist_order_reviews_dataset.csv")

# products
products_df = pd.read_csv(DATASETS_PATH + "olist_products_dataset.csv")
products_translation_df = pd.read_csv(DATASETS_PATH + "product_category_name_translation.csv")

# sellers
sellers_df = pd.read_csv(DATASETS_PATH + "olist_sellers_dataset.csv")

# Descriptive statistics

In [70]:
dfs = {
    "Customers": customers_df,
    "Location": geolocation_df,
    "Orders": orders_df,
    "Order Payments": order_payments_df,
    "Order Reviews": order_reviews_df,
    "Products": products_df,
    "Products Translation": products_translation_df,
    "Sellers": sellers_df
}

def dfs_basic_infos(dfs):
    """
    Print basic infos of all dataframes (shape, columns, duplicated, NaN)

    Args:
        dfs (dict): pair key-value (key = "Name of the dataframe", value = "Dataframe variable")
    """
    for name, df in dfs.items():
        df_shape = df.shape
        numeric_cols = df.select_dtypes(include=np.number).columns.values
        categoric_cols = df.select_dtypes(exclude=np.number).columns.values
    
        print(20 * '-', f"Dataset {name}", 20 * '-')
        print(f"{'Shape:':<35} {df_shape}")
        print(f"{'Numerical columns:':<35} {numeric_cols}")
        print(f"{'Categorical columns:':<35} {categoric_cols}")
        print(f"{'Number of duplicated values:':<35} {df.duplicated().sum()}")
        print(f"{'Number of duplicated values (%):':<35} {round((df.duplicated().sum() / len(df)) * 100, 2)}")
        print(f"\n{'NaN values:':<35}")
        print(df.isna().sum())
        print()

def numeric_columns_statistics(dfs):
    """
    """
    for name, df in dfs.items():
        print(20 * '-', f"Dataset {name}", 20 * '-')
        print(df.describe())
        print()
        

In [71]:
dfs_basic_infos(dfs)

-------------------- Dataset Customers --------------------
Shape:                              (99441, 5)
Numerical columns:                  ['customer_zip_code_prefix']
Categorical columns:                ['customer_id' 'customer_unique_id' 'customer_city' 'customer_state']
Number of duplicated values:        0
Number of duplicated values (%):    0.0

NaN values:                        
customer_id                 0
customer_unique_id          0
customer_zip_code_prefix    0
customer_city               0
customer_state              0
dtype: int64

-------------------- Dataset Location --------------------
Shape:                              (1000163, 5)
Numerical columns:                  ['geolocation_zip_code_prefix' 'geolocation_lat' 'geolocation_lng']
Categorical columns:                ['geolocation_city' 'geolocation_state']
Number of duplicated values:        261831
Number of duplicated values (%):    26.18

NaN values:                        
geolocation_zip_code_prefix    0

In [56]:
numeric_columns_statistics(dfs)

-------------------- Dataset Customers --------------------
       customer_zip_code_prefix
count              99441.000000
mean               35137.474583
std                29797.938996
min                 1003.000000
25%                11347.000000
50%                24416.000000
75%                58900.000000
max                99990.000000

-------------------- Dataset Location --------------------
       geolocation_zip_code_prefix  geolocation_lat  geolocation_lng
count                 1.000163e+06     1.000163e+06     1.000163e+06
mean                  3.657417e+04    -2.117615e+01    -4.639054e+01
std                   3.054934e+04     5.715866e+00     4.269748e+00
min                   1.001000e+03    -3.660537e+01    -1.014668e+02
25%                   1.107500e+04    -2.360355e+01    -4.857317e+01
50%                   2.653000e+04    -2.291938e+01    -4.663788e+01
75%                   6.350400e+04    -1.997962e+01    -4.376771e+01
max                   9.999000e+04     4

# Cleaning datasets

In [None]:
products_df_cleaned = products_dataset.drop(columns=columns_drop, axis=1)

In [None]:
columns_drop = customers_dataset.columns[[2,3,4]]

In [None]:
customers_df_cleaned = customers_dataset.drop(columns=columns_drop, axis=1)

In [None]:
customers_df_cleaned.columns

In [None]:
sellers_dataset = pd.read_csv('/home/matsa/Documents/project_sprint02/data/olist_sellers_dataset.csv', 
                            sep=',', encoding='utf-8')

In [None]:
sellers_dataset.head()

In [None]:
sellers_dataset.dtypes

In [None]:
sellers_dataset.shape

### Valores faltantes

In [None]:
sellers_dataset.isnull().sum()

### Duplicatas

In [None]:
sellers_dataset.duplicated().sum()

In [None]:
sellers_dataset.duplicated().value_counts()

### Excluindo colunas

In [None]:
columns_drop = sellers_dataset.columns[[1,2,3]]

In [None]:
sellers_df_cleaned = sellers_dataset.drop(columns=columns_drop, axis=1)

In [None]:
sellers_df_cleaned.dtypes

In [None]:
order_reviews_dataset = pd.read_csv('/home/matsa/Documents/project_sprint02/data/olist_order_reviews_dataset.csv', 
                            sep=',', encoding='utf-8')

**Melhor review = 5**

**Pior review = 1**

In [None]:
order_reviews_dataset

In [None]:
order_reviews_dataset.dtypes

In [None]:
order_reviews_dataset.shape

### Valores faltantes

In [None]:
order_reviews_dataset.isnull().sum()

**Preenchendo valores faltantes**

In [None]:
order_reviews_dataset['review_comment_title'] = order_reviews_dataset['review_comment_title'].fillna('Nenhum título')

In [None]:
order_reviews_dataset['review_comment_message'] = order_reviews_dataset['review_comment_message'].fillna('Nenhuma mensagem')

In [None]:
order_reviews_dataset.head()

### Duplicatas

In [None]:
order_reviews_dataset.duplicated().sum()

### Excluindo colunas

In [None]:
columns_drop = order_reviews_dataset.columns[[5,6]]
columns_drop

In [None]:
order_reviews_df_cleaned = order_reviews_dataset.drop(columns=columns_drop, axis=1)

In [None]:
order_reviews_df_cleaned.columns

# Quais são as categorias com maior e menor receita?

### Merge 

- Order Items com Products

In [None]:
merged_df = pd.merge(order_items_df_cleaned, products_df_cleaned, on='product_id', how='inner')
merged_df.head()

- Orders

In [None]:
merged_df = pd.merge(merged_df, orders_df_cleaned, on='order_id', how='inner')
merged_df.head()

- Order Payments

In [None]:
merged_df = pd.merge(merged_df, order_payments_df_cleaned, on='order_id', how='inner')
merged_df.head()

### Valores faltantes

In [None]:
merged_df.isnull().sum()

### Duplicatas

In [None]:
merged_df.duplicated().sum()

**Excluindo as duplicatas utilizando como parâmetros as chaves que uniram os dataframes**

In [None]:
final_merged_df = merged_df.drop_duplicates(subset=(['order_id', 'product_id']))

In [None]:
final_merged_df.shape

In [None]:
final_merged_df.duplicated().sum()

### Agrupando pela categoria e o valor de pagamento

In [None]:
group_by_category_payment = final_merged_df.groupby('product_category_name')['payment_value']

In [None]:
# somando os payment values correspondentes as suas categorias
group_by_category_payment = group_by_category_payment.sum()

In [None]:
df_category_payment = group_by_category_payment.reset_index()

In [None]:
df_category_payment

Ordenando pelo valor de pagamento

In [None]:
df_category_payment_sorted = df_category_payment.sort_values(by=['payment_value'], ascending=False)

**Categorias com maior e menor receita**

beleza_saude - 1162367.44

seguro_e_servicos - 115.45

In [None]:
df_category_payment_sorted

### Visualização através do gráfico de barras

In [None]:
top_10_categories = df_category_payment_sorted.head(10)

In [None]:
bottom_10_categories = df_category_payment_sorted.tail(10)

In [None]:
plt.figure(figsize=(10,6))
sns.barplot(data=top_10_categories, x='payment_value', y='product_category_name', palette='flare', hue='payment_value')

plt.title('Categorias com maior receita', fontsize=16)
plt.xlabel('Receita total (R$)', fontsize=12)
plt.ylabel('Categoria do Produto', fontsize=12)
plt.grid(axis='x', linestyle='--', alpha=0.7)
plt.tight_layout()

plt.show()

In [None]:
plt.figure(figsize=(10,6))
sns.barplot(data=bottom_10_categories, x='payment_value', y='product_category_name', hue='payment_value', palette='flare')

plt.title('Categorias com menor receita', fontsize=16)
plt.xlabel('Receita total (R$)', fontsize=12)
plt.ylabel('Categoria do produto', fontsize=12)
plt.grid(axis='x', linestyle='--', alpha=0.7)
plt.tight_layout()

plt.show()

# Top 10 maiores sellers(com maior receita)

In [None]:
sellers_df_cleaned.head()

In [None]:
order_items_df_cleaned.head()

In [None]:
orders_df_cleaned.head()

**Excluindo colunas que não fazem sentido para análise do dataframe orders**

In [None]:
columns_drop = orders_df_cleaned.columns[[1,2,3]]

In [None]:
orders_df_cleaned2 = orders_df_cleaned.drop(columns=columns_drop, axis=1)

In [None]:
orders_df_cleaned2.head()

### Merges

Merge de sellers com order_items

In [None]:
merged_df2 = pd.merge(sellers_df_cleaned, order_items_df_cleaned, on='seller_id', how='inner')
merged_df2.head()

Merge com orders

In [None]:
merged_df2 = pd.merge(merged_df2, orders_df_cleaned2, on='order_id', how='inner')
merged_df2.head()

Merge com Order Payments

In [None]:
merged_df2 = pd.merge(merged_df2, order_payments_df_cleaned, on='order_id', how='inner')
merged_df2.head()

### Valores faltantes

In [None]:
merged_df2.isnull().sum()

### Duplicatas

In [None]:
merged_df2.duplicated().sum()

**Excluindo as duplicatas utilizando como parâmetros as chaves que uniram os dataframes**

In [None]:
final_merged_df2 = merged_df2.drop_duplicates(subset=(['seller_id', 'order_id']))

In [None]:
final_merged_df2.duplicated().sum()

### Agrupando por seller e payment value

In [None]:
group_by_seller_payment = final_merged_df2.groupby('seller_id')['payment_value']

In [None]:
group_by_seller_payment = group_by_seller_payment.sum().reset_index()

In [None]:
group_by_seller_payment

In [None]:
df_category_seller_payment = group_by_seller_payment.sort_values(by=['payment_value'], ascending=False)

In [None]:
df_category_seller_payment

**Criando uma coluna para o nome do vendedor**

In [None]:
df_category_seller_payment['seller_name'] = 'seller' + df_category_seller_payment['seller_id'].str[:4]

In [None]:
df_category_seller_payment

In [None]:
# Pegando os 10 primeiros sellers
top_10_sellers = df_category_seller_payment.head(10)

In [None]:
# Pegando os 10 últimos sellers
bottom_10_sellers = df_category_seller_payment.tail(10)

### Visualização através do gráfico de barras

In [None]:
plt.figure(figsize=(10,6))
sns.barplot(data=top_10_sellers, y='payment_value', x='seller_name', hue='payment_value', palette='flare')

plt.title('Vendedores que mais vendem', fontsize=16)
plt.ylabel('Receita total (R$)', fontsize=12)
plt.xlabel('Vendedores', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()

plt.show()

# Top 10 piores sellers(com menor receita)

### Visualização através do gráfico de barras

In [None]:
plt.figure(figsize=(10,6))
sns.barplot(data=bottom_10_sellers, y='payment_value', x='seller_name', hue='payment_value', palette='flare')

# Personalizando o gráfico
plt.title('Vendedores que menos vendem', fontsize=16)
plt.ylabel('Receita total (R$)', fontsize=12)
plt.xlabel('Vendedores', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()

plt.show()

# Existem sellers que vendem o mesmo produto? Se sim, quais são? Qual é a variação de preço praticado entre os Sellers?

**Limpando o dataset order_items**

In [None]:
columns_drop = order_items_dataset.columns[4]
columns_drop

In [None]:
order_items_df_cleaned2 = order_items_dataset.drop(columns=columns_drop, axis=1)
order_items_df_cleaned2.dtypes

### Merge

- Sellers e Order Items

In [None]:
merged_df3 = pd.merge(sellers_df_cleaned, order_items_df_cleaned2, on='seller_id', how='inner')

In [None]:
merged_df3.head()

- Products

In [None]:
merged_df3 = pd.merge(merged_df3, products_df_cleaned, on='product_id', how='inner')
merged_df3.head()

### Duplicatas

In [None]:
merged_df3.duplicated().sum()

In [None]:
merged_df3.dtypes

### Criando colunas seller_name e product_name

In [None]:
merged_df3['seller_name'] = 'seller' + merged_df3['seller_id'].str[:4]

In [None]:
merged_df3['product_name'] = 'product' + merged_df3['product_id'].str[:4]

In [None]:
merged_df3.product_name.value_counts()

### Agrupamento 

Agrupamento de product_id com a agregação de uma lista de sellers e o menor e maior preço

In [None]:
group_by_sellers_products = merged_df3.groupby('product_name').agg({
    'seller_name': lambda x: list(set(x)), #remove duplicatas da lista de sellers que vendem o mesmo produto mais de uma vez
    'price': [
        lambda x: list(set(x)), #remove duplicatas dos preços
        'min', 
        'max'
    ]
}).reset_index()

In [None]:
group_by_sellers_products.head(10)

**Renomeando as colunas**

In [None]:
group_by_sellers_products.dtypes

In [None]:
group_by_sellers_products.columns = ['product_name', 'seller_name', 'prices', 'min_price', 'max_price']
group_by_sellers_products.dtypes

**Calculando a variação dos preços**

In [None]:
group_by_sellers_products['price_variation'] = group_by_sellers_products['max_price'] - group_by_sellers_products['min_price']
group_by_sellers_products

**Limpando o dataset para exibir apenas os produtos com mais de um seller**

Isso pois, para um produto com um úncio seller, ainda pode haver variação de preço

In [None]:
sellers_same_products = group_by_sellers_products.loc[group_by_sellers_products['seller_name'].apply(len) > 1]

In [None]:
sellers_same_products.reset_index(drop=True)

**Na minha análise, fez mais sentido saber os produtos que mais possuem sellers que o vendem, por isso criei uma coluna com a contagem dos sellers que vendem cada produto**

In [None]:
sellers_same_products = sellers_same_products.copy()
sellers_same_products['sellers_count'] = sellers_same_products['seller_name'].apply(len)

In [None]:
sellers_same_products.reset_index(drop=True)

Ordenando pela contagem dos selleres

In [None]:
top_10_sellers_sharing_products = sellers_same_products.sort_values(by='sellers_count', ascending=False).head(10)

In [None]:
top_10_sellers_sharing_products = top_10_sellers_sharing_products.sort_values(by='price_variation', ascending=True)
top_10_sellers_sharing_products.head()

### Visualização através do barplot

In [None]:
plt.figure(figsize=(10,6))
sns.barplot(data=top_10_sellers_sharing_products, x='product_name', y='price_variation', hue='price_variation', palette="ch:s=.25,rot=-.25")

plt.title('Produtos com maior quantidade de sellers e sua variação de preços', fontsize=16)
plt.xlabel('Nome do produto', fontsize=12)
plt.xticks(rotation=45)
plt.ylabel('Variação de preço', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()

plt.show()

In [None]:
top_5_sellers_sharing_products = sellers_same_products.sort_values(by='sellers_count', ascending=False).head(5)

**Desempacotando a coluna de preços, para que cada valor tenha sua prórpia linha**

In [None]:
top_5_sellers_sharing_products_expanded = top_5_sellers_sharing_products.explode('prices')
top_5_sellers_sharing_products_expanded

### Visualização através do Boxplot

In [None]:
plt.figure(figsize=(9, 6))
sns.boxplot(data=top_5_sellers_sharing_products_expanded, x='product_name', y='prices')
plt.title('Distribuição dos preços dos 5 produtos mais compartilhados por sellers', fontsize=16)
plt.xlabel('Produto', fontsize=12)
plt.ylabel('Preço (R$)', fontsize=12)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Top 10 melhores sellers (com mais reviews positivas)

In [None]:
sellers_df_names = sellers_df_cleaned
sellers_df_names['seller_name'] = 'seller' + sellers_df_names['seller_id'].str[:4]

In [None]:
sellers_df_names.head()

In [None]:
order_items_df_cleaned.head()

- Merge de sellers e order_items

In [None]:
merge_df4 = pd.merge(sellers_df_names, order_items_df_cleaned, on='seller_id', how='inner')
merge_df4.head()

- Merge com orders

In [None]:
merge_df4 = pd.merge(merge_df4, orders_df_cleaned2, on='order_id', how='inner')
merge_df4.head()

- Merge com reviews (obterei apenas os produtos que possuem reviews, pois se um produto não tem review, ele não vai contribuir para a análise)

In [None]:
merge_df4 = pd.merge(merge_df4, order_reviews_df_cleaned, on='order_id', how='inner')
merge_df4.head()

### Valores Faltantes

In [None]:
merge_df4.isnull().sum()

### Duplicatas

In [None]:
merge_df4.duplicated().sum()

In [None]:
merge_df4.shape

In [None]:
merge_df4.head(15)

In [None]:
merge_df4.seller_name.value_counts()

**Para a minha análise, eu resolvi filtrar os sellers com um número mínimo de Reviews**

Isso para que sellers com poucos reviews não enviesem a base. Portanto, a **média bayesiana** vai ser utilizada, pois ela garante que à medida que o número de avaliações aumente, o peso das avaliações individuais cresce.

media_bayesiana = (valor_minimo_reviews * nota_media_geral) + soma_notas_seller / valor_minimo_reviews + numero_avaliacoes_sellers
                    
Eu estabeleci que valor mínimo de reviews para a análise será de **25**

In [None]:
merge_df4.head()

In [None]:
merge_df4.shape

**Calculando a média geral de todas as reviews**

In [None]:
general_mean = merge_df4['review_score'].mean()
general_mean

**Valor mínimo de reviews**

In [None]:
min_review_value = 25

**Obtendo o total dos reviews score por seller e a contagem de reviews com agrupamento**

In [None]:
reviews_score_per_seller = merge_df4.groupby('seller_name').agg(
    review_count = ('review_score', 'count'),
    review_score_total = ('review_score', 'sum')
).reset_index()

In [None]:
reviews_score_per_seller.head()

**Calculando a média bayesiana**

media_bayesiana = (valor_minimo_reviews * nota_media_geral) + soma_notas_seller / (valor_minimo_reviews + numero_avaliacoes_sellers)

In [None]:
reviews_score_per_seller['bayesian_avg'] = (((min_review_value*general_mean) + reviews_score_per_seller['review_score_total']) / (min_review_value + reviews_score_per_seller['review_count'])).round(2)

In [None]:
reviews_score_per_seller

**Ordenando pela média bayesiana**

In [None]:
reviews_score_per_seller = reviews_score_per_seller.sort_values(by='bayesian_avg', ascending = False)

In [None]:
reviews_score_per_seller.reset_index(drop=True)

### Exibindo em gráficos

In [None]:
top10_best_sellers = reviews_score_per_seller.head(10)

In [None]:
top10_worst_sellers = reviews_score_per_seller.tail(10)

**Teste de normalidade Shapiro Wilk**

Se p-value > 0,05

Ho = segue uma distribuição normal

Se p-value < 0,05

Ha = não segue uma distribuição normal

In [None]:
import scipy.stats as stats

In [None]:
stat, p_value = stats.shapiro(top10_best_sellers['bayesian_avg'])
print(f'stat: {stat}')
print(f'p-value: {p_value}')

**Top 10 maiores sellers não segue distribuição normal**

In [None]:
stat, p_value = stats.shapiro(top10_worst_sellers['bayesian_avg'])
print(f'stat: {stat}')
print(f'p-value: {p_value}')

**Top 10 piores sellers não segue distribuição normal**

### Visualização através do gráfico de linhas

In [None]:
plt.figure(figsize=(8,6))
sns.lineplot(x='seller_name', y='bayesian_avg', data=top10_best_sellers)
plt.title('Top 10 melhores sellers', fontsize=16)
plt.ylabel('Média bayesiana', fontsize=12)
plt.xlabel('Vendedores', fontsize=12)
plt.grid(True)
plt.xticks(rotation=45)
plt.tight_layout()

plt.show()

# Top 10 piores sellers(com mais reviews negativas)

In [None]:
plt.figure(figsize=(8,6))
sns.lineplot(x='seller_name', y='bayesian_avg', data=top10_worst_sellers)
plt.title('Top 10 melhores sellers', fontsize=16)
plt.ylabel('Média bayesiana', fontsize=12)
plt.xlabel('Vendedores', fontsize=12)
plt.grid(True)
plt.xticks(rotation=45)
plt.tight_layout()

plt.show()

# Existe relação entre a quantidade de vendas e a quantidade de reviews para os sellers? É possível identificar aumento ou queda na venda de um seller com base nas avaliações do que já foi vendido no passado?

## Existe relação entre a quantidade de vendas e a quantidade de reviews para os sellers?

Para verificar a relação entre a quantidade de vendas e a quantidade de reviews, resolvi utilizar a **correlação linear** que é representada pelo **Coeficiente de correlação de Pearson(r)**.

Este coeficiente varia de -1 e +1.

Se **r > 0**, à medida que a quantidade de vendas aumenta, a quantidade de reviews também aumenta.<br>
Se **r < 0**, à medida que a quantidade de vendas aumenta, a quantidade de reviews tende a diminuir. <br>
Se **r = 0**, não há relação linear entre as variáveis.

### Merges

- Sellers e Order Items

In [None]:
merge_df5 = pd.merge(sellers_df_names, order_items_df_cleaned, on='seller_id', how='inner')
merge_df5.head()

- Merge com orders

In [None]:
merge_df5 = pd.merge(merge_df5, orders_df_cleaned2, on='order_id', how='inner')
merge_df5.head()

- Left merge com reviews para manter todos os produtos vendidos e não só os que possuem reviews

In [None]:
merge_df5 = pd.merge(merge_df5, order_reviews_df_cleaned, on='order_id', how='left')
merge_df5.head()

In [None]:
merge_df5.shape

### Valores nulos

In [None]:
merge_df5.isnull().sum()

### Duplicatas

In [None]:
merge_df5.duplicated().sum()

### Agregação para obter a quantidade de produtos vendidos e a quantidade de reviews realizadas

In [None]:
correlation_sellers_reviews = merge_df5.groupby('seller_name').agg(
    qnty_products_sold = ('seller_name', 'count'),
    count_reviews = ('review_score', lambda x : x.notna().sum())
).reset_index()

In [None]:
correlation_sellers_reviews.head()

Criando uma coluna para evidenciar a difereça entre produtos vendidos e reviews realizadas

In [None]:
correlation_sellers_reviews['qnty_products_without_reviews'] = (
    correlation_sellers_reviews['qnty_products_sold'] - correlation_sellers_reviews['count_reviews']
)

Abaixo é possível observar que **poucos clientes não deixam reviews sobre o produto**

In [None]:
correlation_sellers_reviews = correlation_sellers_reviews.sort_values(by='qnty_products_without_reviews', ascending=False).reset_index(drop=True)
correlation_sellers_reviews

### Analisando a correlação através de um scatter plot

A correlação é positiva e muito forte. Isso significa que **quanto mais produtos vendidos, maior tende a ser a quantidade de reviews recebidas.**

In [None]:
plt.scatter(correlation_sellers_reviews.qnty_products_sold, correlation_sellers_reviews.count_reviews)
plt.title('Correlação entre a quantidade de produtos vendidos e a quantidade de reviews')
plt.xlabel('Quantidade de produtos vendidos')
plt.ylabel('Quantidade de reviews')
plt.grid(True)
plt.show()

In [None]:
correlation = correlation_sellers_reviews['qnty_products_sold'].corr(correlation_sellers_reviews['count_reviews'], method='pearson')

In [None]:
print(f"Correlação entre quantidade de produtos vendidos e reviews: {correlation}")

## É possível identificar aumento ou queda na venda de um seller com base nas avaliações do que já foi vendido no passado?

A minha ideia é filtrar o dataset de orders novamente, porém considerando a **data mínima anterior(min_order_date) utilizada para filtrar os últimos 12 meses, como data máxima**. Dessa forma, eu subtraio 12 meses e terei os **dados do passado**.

### Carregando o dataset novamente para evitar conflitos

In [None]:
orders_dataset2 = pd.read_csv('/home/matsa/Documents/project_sprint02/data/olist_orders_dataset.csv')

In [None]:
orders_dataset2.dropna(axis=0, inplace=True)

In [None]:
orders_dataset2['order_approved_at'] = pd.to_datetime(orders_dataset2.order_approved_at)

In [None]:
max_order_date2 = min_order_date
max_order_date2

In [None]:
min_order_date2 = max_order_date2 - pd.DateOffset(months=12)
min_order_date2

### Pegando as datas nos intervalos definidos

In [None]:
past_orders_df_data = orders_dataset2.loc[(orders_dataset2.order_approved_at >= min_order_date2) &
                                    (orders_dataset2.order_approved_at <= max_order_date2)]

In [None]:
past_orders_df_data

**Data mínima**

In [None]:
past_orders_df_data.order_approved_at.min()

**Data máxima**

In [None]:
past_orders_df_data.order_approved_at.max()

### Excluindo colunas

In [None]:
columns_drop = orders_dataset.columns[[3,5,6,7]]

In [None]:
past_orders_df_data = past_orders_df_data.drop(columns=columns_drop, axis=1)

### Merges

- Seller e Order Items

In [None]:
merge_df6 = pd.merge(sellers_df_cleaned, order_items_df_cleaned, on='seller_id', how='inner')

- Orders

In [None]:
merge_df6 = pd.merge(merge_df6, past_orders_df_data, on='order_id', how='inner')

- Reviews

In [None]:
merge_df6 = pd.merge(merge_df6, order_reviews_df_cleaned, on='order_id', how='left')

In [None]:
merge_df6.head()

### Agregação para obter a quantidade de produtos vendidos e a quantidade de reviews realizadas

In [None]:
correlation_sellers_reviews_past = merge_df6.groupby('seller_name').agg(
    qnty_products_sold = ('seller_name', 'count'),
    count_reviews = ('review_score', lambda x : x.notna().sum())
).reset_index()

Criando a coluna de quantidade de produtos sem reviews

In [None]:
correlation_sellers_reviews_past['qnty_products_without_reviews'] = (
    correlation_sellers_reviews_past['qnty_products_sold'] - correlation_sellers_reviews_past['count_reviews']
)

In [None]:
correlation_sellers_reviews_past = correlation_sellers_reviews_past.sort_values(by='qnty_products_without_reviews', ascending=False).reset_index(drop=True)
correlation_sellers_reviews_past

### Merge dos dataframes dos dois intervalos de tempo utilizados

In [None]:
dates_interval_comparasion = pd.merge(correlation_sellers_reviews_past, correlation_sellers_reviews, on='seller_name', how='inner', suffixes=('_past', '_current'))

In [None]:
dates_interval_comparasion.head()

### Ordenação da quantidade de produtos vendidos dos intervalos de tempo para cada seller

In [None]:
dates_interval_comparasion = dates_interval_comparasion.sort_values(by=['qnty_products_sold_past', 'qnty_products_sold_current'], ascending=False).reset_index(drop=True)

In [None]:
dates_interval_comparasion

### Visualização através do gráfico de barras

Comparação da quantidade de produtos vendidos nos intervalos de tempos dos **vendedores que mais vendem**

In [None]:
top10_sellers = dates_interval_comparasion.head(10)

In [None]:
top10_sellers_long = pd.melt(top10_sellers, 
                            id_vars=['seller_name'], 
                            value_vars=['qnty_products_sold_past', 'qnty_products_sold_current'],
                            var_name='period', 
                            value_name='quantity_sold')

plt.figure(figsize=(10, 6))
sns.barplot(x='seller_name', y='quantity_sold', hue='period', data=top10_sellers_long)

plt.title('Comparação de Vendas Passadas e Atuais dos 10 Maiores Vendedores')
plt.xlabel('Vendedores')
plt.ylabel('Quantidade de Produtos Vendidos')
plt.xticks(rotation=45) 
plt.grid(axis='y', linestyle='--', alpha=0.7)


plt.tight_layout()
plt.show()

# Houve inflação no preço dos produtos ao passar do tempo? Se houve, de quanto foi a variação desta inflação em % e em R$?

In [None]:
order_items_dataset.head()

In [None]:
# Excluindo colunas do Order Items não necessárias para a análise
columns_drop = order_items_dataset.columns[[3,4]]
order_items_df_cleaned2 = order_items_dataset.drop(columns=columns_drop, axis=1)
order_items_df_cleaned2.head()

In [None]:
products_df_cleaned.head()

### Tratamento dos dataframes orders que serão utilizados

Primeiro intervalo de tempo de orders 2017-2018

In [None]:
orders_df_cleaned.columns 

In [None]:
# Excluindo colunas não necessárias para análise
columns_drop = orders_df_cleaned.columns[[1,2]]
current_orders_df_cleaned = orders_df_cleaned.drop(columns=columns_drop, axis=1)

In [None]:
current_orders_df_cleaned.head()

Primeiro intervalo de tempo de orders 2016-2017

In [None]:
past_orders_df_data.columns

In [None]:
# Excluindo colunas não necessárias para análise
columns_drop = past_orders_df_data.columns[[1,2]]
past_orders_df_cleaned = past_orders_df_data.drop(columns=columns_drop, axis=1)

In [None]:
past_orders_df_cleaned.head()

### Merges



#### Dataframe intervalo 2017-2018

- Products com Order Items

In [None]:
merge_df7 = pd.merge(products_df_cleaned, order_items_df_cleaned2, on='product_id', how='inner')

- Orders

In [None]:
merge_df7 = pd.merge(merge_df7, current_orders_df_cleaned, on='order_id', how='inner')

In [None]:
merge_df7.head()

In [None]:
merge_df7.shape

In [None]:
merge_df7.duplicated().sum()

### Dataframe intervalo 2016-2017

- Products Order Items

In [None]:
merge_df8 = pd.merge(products_df_cleaned, order_items_df_cleaned2, on='product_id', how='inner')

- Orders

In [None]:
merge_df8 = pd.merge(merge_df8, past_orders_df_cleaned, on='order_id', how='inner')

In [None]:
merge_df8.head()

In [None]:
merge_df8.shape

In [None]:
merge_df8.product_id.duplicated().sum()

In [None]:
merge_df8.duplicated().sum()

In [None]:
merge_df8.columns

### Agrupamentos

#### Estrutura de raciocínio

Como eu possuo 2 dataframes com intervalos de tempos diferentes, a ideia é unir eles pelo **product_id** para que os mesmos produtos possam ser comparados, em épocas diferentes.

Resolvi utilizar a **média de preços de um mesmo produto** para visualizar a variação da inflação.

Calculando a média de preços por produto no intervalo 2017-2018

In [None]:
mean_price_2017_2018 = merge_df7.groupby(['product_id', 'product_category_name']).agg(
    mean_product_value_current = ('price', 'mean')
).reset_index()

In [None]:
mean_price_2017_2018.head()

Calculando a média de preços por produto no intervalo 2016-2017

In [None]:
mean_price_2016_2017 = merge_df8.groupby(['product_id', 'product_category_name']).agg(
    mean_product_value_past = ('price', 'mean')
).reset_index()

In [None]:
mean_price_2016_2017.head()

### Merge

- Merge que une os dois períodos

In [None]:
price_comparison = pd.merge(mean_price_2017_2018, mean_price_2016_2017, on='product_id', how='inner')

In [None]:
price_comparison.head()

In [None]:
price_comparison.shape

In [None]:
price_comparison.duplicated().sum()

### Calculo das variações

A variação calculada em **Reais(R$)** é feita através da **diferença entre a média do intervalo mais recente e a média do intevalo menos recente**.

A variação calculada em **Porcentagem(%)** é uma formula padrão que utiliza a **variação de preços em Reais**, **divide pela média do intevalo menos recente** e **multiplica por 100**.

In [None]:
price_comparison['price_variation_R$'] = price_comparison['mean_product_value_current'] - price_comparison['mean_product_value_past']
price_comparison['price_variation_%'] = (price_comparison['price_variation_R$'] / price_comparison['mean_product_value_past']) * 100

Produtos que ficaram mais caros possuem **variação de preço positiva**. Já os que ficaram mais baratos, posssuem **variação de preços negativa**.

In [None]:
price_comparison

### Ordenação pela variação de preços

Produtos que mais inflacionaram

In [None]:
top_increase = price_comparison.sort_values(by='price_variation_%', ascending=False).reset_index(drop=True).head(10)
top_increase['product_name'] = 'product' + top_increase['product_id'].str[:4]

In [None]:
top_increase_sorted = top_increase.sort_values(by='price_variation_%', ascending=True)
top_increase_sorted

In [None]:
top_decrease = price_comparison.sort_values(by='price_variation_%', ascending=True).reset_index(drop=True).head(10)
top_decrease['product_name'] = 'product' + top_increase['product_id'].str[:4]

In [None]:
top_decrease

### Visualização gráfica de produtos com maior aumento de preço

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(x='product_name', y='price_variation_%', data=top_increase_sorted, hue='product_name', palette='Oranges')
plt.title('Top 10 Produtos com Maior Aumento de Preço (%)', fontsize=16)
plt.xlabel('Nome do produto', fontsize=12)
plt.ylabel('Variação de Preço (%)', fontsize=12)
plt.xticks(rotation=45, fontsize=10)
plt.grid(axis='y', linestyle='--', alpha=0.8)
plt.tight_layout()
plt.show()

In [None]:
mean_products_values_comparision = pd.melt(
    top_increase, 
    id_vars=['product_name'], 
    value_vars=['mean_product_value_past', 'mean_product_value_current'],
    var_name='period', 
    value_name='mean_price'
)

plt.figure(figsize=(12, 8))
sns.barplot(x='product_name', y='mean_price', hue='period', data=mean_products_values_comparision,palette='Set2')

plt.title('Comparação da Média de Valores dos Produtos por Período', fontsize=16, pad=20)
plt.xlabel('Produtos', fontsize=12)
plt.ylabel('Preço Médio (R$)', fontsize=12)
plt.xticks(rotation=45, ha='right', fontsize=10)  
plt.legend(title='Período', title_fontsize=12, fontsize=10, loc='upper left')
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()

plt.show()

In [None]:
plt.figure(figsize=(8, 5))
plt.plot(X, y, 'o-', label='Preços Observados')  # Dados reais
plt.plot(future_months, future_predictions, 'x--', label='Previsão de Preços')  # Previsões
plt.xlabel('Tempo (Meses)')
plt.ylabel('Mediana dos Preços')
plt.title(f'Previsão de Preços para: {product_name}')
plt.legend()
plt.show()

# Análise de Produtos com Maior Diferença de Preço entre Vendas

Verificar quais produtos apresentam uma grande variação de preço nas vendas.

In [None]:
merge_df8.head()

In [None]:
merge_df8.shape

In [None]:
merge_df8.dtypes

### Agrupamento 

Agrupamento de product_id com com preço, obtendo o mínimo e máximo

In [None]:
price_range = merge_df8

In [None]:
price_range = price_range.groupby('product_id')['price'].agg(['max', 'min']).reset_index()

In [None]:
price_range.head()

In [None]:
price_range['product_name'] = 'product' + price_range['product_id'].str[:4]

In [None]:
price_range['price_diff'] = price_range['max'] - price_range['min']
price_range = price_range.sort_values(by='price_diff', ascending=False)

In [None]:
top_price_range_products = price_range.head(10)

In [None]:
top_price_range_products.head()

In [None]:
sns.barplot(x='price_diff', y='product_name', data=top_price_range_products, palette='coolwarm', hue='product_name')
plt.title('Top 10 Produtos com Maior Diferença de Preço')
plt.xlabel('Diferença de Preço(R$)', fontsize=12)
plt.ylabel('Nome do produto', fontsize=12)
plt.grid(axis='x', linestyle='--', alpha=0.7)

plt.tight_layout()

plt.show()