# Ficha Técnica - Códigos

##### Conectar/importar dados para outras ferramentas

In [None]:
#Dar acesso ao drive para importar os datasets
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#Importar as bibliotecas
import pandas as pd
import numpy as np
from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Importar os datasets do drive
product_df = pd.read_csv ('/content/drive/MyDrive/amazon_dataset.zip (Unzipped Files)/amazon - amazon_product.csv')
review_df = pd.read_csv ('/content/drive/MyDrive/amazon_dataset.zip (Unzipped Files)/amazon - amazon_review.csv')

In [None]:
# Exibir as primeiras 5 linhas do dataset
product_df.head()
review_df.head()

In [None]:
# Exibir as primeiras 5 linhas do dataset
product_df.head()
review_df.head()

In [None]:
# Mostrar número de linhas e colunas de cada tabela
print("Número de linhas e colunas na tabela product:")
display(product_df.shape)

print("\nNúmero de linhas e colunas na tabela review:")
display(review_df.shape)

##### Identificar e Tratar Valores Nulos

In [None]:
# Identificar valores nulos
print("Valores nulos na tabela product:")
display(product_df.isnull().sum())

print("\nValores nulos na tabela review:")
display(review_df.isnull().sum())

In [None]:
# Remover linhas com valores nulos na coluna 'about_product' do dataframe product
product_df.dropna(subset=['about_product'], inplace=True)

# Remover linhas com valores nulos na coluna 'rating_count' do dataframe review
review_df.dropna(subset=['rating_count'], inplace=True)

print("Valores nulos na tabela product após a remoção:")
display(product_df.isnull().sum())

print("\nValores nulos na tabela review após a remoção:")
display(review_df.isnull().sum())

In [None]:
# Trazer as primeiras 5 linhas do dataframe
print("Primeiras 5 linhas da tabela product após o tratamento de valores nulos:")
display(product_df.head())

print("\nPrimeiras 5 linhas da tabela review após o tratamento de valores nulos:")
display(review_df.head())

In [None]:
# Listar número de linhas após a exclusão dos nulos
print("Número de linhas na tabela product após a exclusão de nulos:")
display(product_df.shape[0])

print("\nNúmero de linhas na tabela review após a exclusão de nulos:")
display(review_df.shape[0])

##### Identificar e Tratar Valores Duplicados

In [None]:
# Remover linhas duplicadas com base na coluna 'product_id' do dataframe product
product_df.drop_duplicates(subset=['product_id'], inplace=True)

# Remover linhas duplicadas com base na coluna 'product_id, user_id, review_id' do dataframe review
review_df.drop_duplicates(subset=['product_id', 'user_id', 'review_id'], inplace=True)

print("Número de linhas na tabela product após a remoção de duplicados:")
display(product_df.shape[0])

print("\nNúmero de linhas na tabela review após a remoção de duplicados:")
display(review_df.shape[0])

In [None]:
# Trazer o número de duplicadas excluidas em cada coluna
product_original = pd.read_csv ('/content/drive/MyDrive/amazon_dataset.zip (Unzipped Files)/amazon - amazon_product.csv')
review_original = pd.read_csv ('/content/drive/MyDrive/amazon_dataset.zip (Unzipped Files)/amazon - amazon_review.csv')

# Calcular numero de duplicados removidos
product_duplicates_removed = product_original.shape[0] - product_df.shape[0]
review_duplicates_removed = review_original.shape[0] - review_df.shape[0]

print(f"Número de duplicatas removidas na tabela product: {product_duplicates_removed}")
print(f"Número de duplicatas removidas na tabela review: {review_duplicates_removed}")

In [None]:
# Verificar duplicatas no DataFrame 'product' com base em 'product_id' (dupla checagem)
duplicatas_product_id = product_df.duplicated(subset=['product_id']).sum()
print(f"Número de duplicatas na coluna 'product_id' do DataFrame 'product': {duplicatas_product_id}")

# Verificar duplicatas no DataFrame 'review' com base em 'user_id', 'review_id', 'product_id'
duplicatas_review_subset = review_df.duplicated(subset=['user_id', 'review_id', 'product_id']).sum()
print(f"Número de duplicatas nas colunas ['user_id', 'review_id', 'product_id'] do DataFrame 'review': {duplicatas_review_subset}")

#### Identificar e Tratar Dados Fora do Escopo de Análise

In [None]:
# Exibir estatísticas descritivas de todas as colunas de review_df e em product_df
print("\nInformações estatísticas de review_df:")
display(review_df.describe(include='all'))
print("\nInformações estatísticas de product_df:")
display(product_df.describe(include='all'))

# Converter a coluna 'rating' para tipo numérico, tratando erros como NaN (caso haja valores inválidos)
review_df['rating'] = pd.to_numeric(review_df['rating'], errors='coerce')

# Definir os limites válidos de avaliação (rating)
min_rating = 1
max_rating = 5

# Filtrar linhas com valores de avaliação fora do escopo definido
out_of_scope_reviews = review_df[(review_df['rating'] < min_rating) | (review_df['rating'] > max_rating)]

# Exibir as avaliações fora do escopo (1 a 5)
print(f"\nAvaliações fora do escopo ({min_rating}-{max_rating}) em review_df:")
display(out_of_scope_reviews)

# Listar os valores únicos das colunas categóricas em review_df e product_df (até 10 primeiros), para verificar inconsistências
print("\nValores únicos em colunas categóricas de review_df:")
categorical_cols_review = review_df.select_dtypes(include=['object', 'category']).columns
for col in categorical_cols_review:
    print(f"{col}: {review_df[col].unique()[:10]}...") 

print("\nValores únicos em colunas categóricas de product_df:")
categorical_cols_product = product_df.select_dtypes(include=['object', 'category']).columns
for col in categorical_cols_product:
    print(f"{col}: {product_df[col].unique()[:10]}...")


In [None]:
# Excluir as colunas 'img_link' e 'product_link' do DataFrame review 
review_df.drop(['img_link', 'product_link'], axis=1, inplace=True)

In [None]:
# Verificar se todas as correções até o momento foram feitas corretamente
print("DataFrame 'product' após exclusão de lihas nulas em 'about_product':")
display(product_df.head())
print("\nContagem de nulos em 'about_product' no DataFrame 'product':")
print(product_df['about_product'].isnull().sum())


print("\nDataFrame 'review' após exclusão de linhas nulas em 'rating_count' e colunas 'img_link' e 'product_link':")
display(review_df.head())
print("\nContagem de nulos em 'rating_count' no DataFrame 'review':")
print(review_df['rating_count'].isnull().sum())
print("\nColunas restantes no DataFrame 'review':")
print(review_df.columns)

#### Identificar e Tratar Dados Discrepantes em Variáveis Categóricas, Numéricas e Verificação do Tipo de Dados. 

In [None]:
# detectar e exibir valores inconsistentes, erros de digitação, categorias inesperadas ou dados fora do escopo
print("Valores únicos em colunas categóricas de review_df:")
categorical_cols_review = review_df.select_dtypes(include=['object', 'category']).columns
for col in categorical_cols_review:
    print(f"\nColuna: {col}")
    print(review_df[col].unique())

print("\nValores únicos em colunas categóricas de product_df:")
categorical_cols_product = product_df.select_dtypes(include=['object', 'category']).columns
for col in categorical_cols_product:
    print(f"\nColuna: {col}")
    print(product_df[col].unique())

In [None]:
# Função de limpeza de colunas numéricas com símbolos
def limpa_coluna_numerica(serie, moeda=False, percentual=False):
    serie = serie.astype(str).str.strip()

    if moeda:
        serie = serie.str.replace('₹', '', regex=False)

    if percentual:
        serie = serie.str.replace('%', '', regex=False)

    serie = serie.str.replace(',', '', regex=False)

    # Substitui 'nan' string por string vazia
    serie = serie.replace('nan', '')

    # Converte para numérico (float), erros viram NaN
    serie = pd.to_numeric(serie, errors='coerce')

    return serie

# Agora aplicamos em cada dataframe

# Para product
product_df['discounted_price'] = limpa_coluna_numerica(product_df['discounted_price'], moeda=True)
product_df['actual_price'] = limpa_coluna_numerica(product_df['actual_price'], moeda=True)
product_df['discount_percentage'] = limpa_coluna_numerica(product_df['discount_percentage'], percentual=True)
# Para review:
review_df['rating_count'] = limpa_coluna_numerica(review_df['rating_count'])
review_df['rating'] = pd.to_numeric(review_df['rating'], errors='coerce')

In [None]:
# Visualizar alterações nas colunas exibindos as 5 primeiras linhas 
print("Primeiras 5 linhas da tabela product_df após a conversão:")
display(product_df.head())

print("\nPrimeiras 5 linhas da tabela review_df após a conversão:")
display(review_df.head())

In [None]:
print("Data types in product_df:")
display(product_df.dtypes)

print("\nData types in review_df:")
display(review_df.dtypes)

In [None]:
# Função para identificar outliers usando IQR
def find_outliers_iqr(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return outliers

print("Outliers identificados em review_df (usando IQR):")
for col in review_df.select_dtypes(include=['number']).columns:
    outliers = find_outliers_iqr(review_df, col)
    print(f"\nColuna: {col} - Total de outliers: {len(outliers)}")
    if not outliers.empty:
        display(outliers)
    else:
        print(f"Coluna: {col} - Nenhum outlier encontrado.")


print("\nOutliers identificados em product_df (usando IQR):")
for col in product_df.select_dtypes(include=['number']).columns:
    outliers = find_outliers_iqr(product_df, col)
    print(f"\nColuna: {col} - Total de outliers: {len(outliers)}")
    if not outliers.empty:
        display(outliers)
    else:
        print(f"Coluna: {col} - Nenhum outlier encontrado.")

In [None]:
from scipy.stats import zscore
import numpy as np

# Função para identificar outliers usando Z-Score
def find_outliers_zscore(df, column, threshold=3):
    z_scores = np.abs(zscore(df[column]))
    outliers = df[z_scores > threshold]
    return outliers

print("Outliers identificados em review_df (usando Z-Score com threshold=3):")
for col in review_df.select_dtypes(include=['number']).columns:
    outliers = find_outliers_zscore(review_df, col)
    print(f"\nColuna: {col} - Total de outliers: {len(outliers)}")
    if not outliers.empty:
        display(outliers)
    else:
        print(f"Coluna: {col} - Nenhum outlier encontrado.")


print("\nOutliers identificados em product_df (usando Z-Score com threshold=3):")
for col in product_df.select_dtypes(include=['number']).columns:
    outliers = find_outliers_zscore(product_df, col)
    print(f"\nColuna: {col} - Total de outliers: {len(outliers)}")
    if not outliers.empty:
        display(outliers)
    else:
        print(f"Coluna: {col} - Nenhum outlier encontrado.")

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Visualização para colunas numéricas em review_df
print("Visualização da distribuição para colunas numéricas em review_df:")
for col in review_df.select_dtypes(include=['number']).columns:
    plt.figure(figsize=(12, 6))

    plt.subplot(1, 2, 1) # 1 linha, 2 colunas, 1º gráfico
    sns.boxplot(x=review_df[col])
    plt.title(f'Box plot de {col}')

    plt.subplot(1, 2, 2) # 1 linha, 2 colunas, 2º gráfico
    sns.histplot(review_df[col], kde=True)
    plt.title(f'Histograma de {col}')

    plt.tight_layout()
    plt.show()

# Visualização para colunas numéricas em product_df
print("\nVisualização da distribuição para colunas numéricas em product_df:")
for col in product_df.select_dtypes(include=['number']).columns:
    plt.figure(figsize=(12, 6))

    plt.subplot(1, 2, 1) # 1 linha, 2 colunas, 1º gráfico
    sns.boxplot(x=product_df[col])
    plt.title(f'Box plot de {col}')

    plt.subplot(1, 2, 2) # 1 linha, 2 colunas, 2º gráfico
    sns.histplot(product_df[col], kde=True)
    plt.title(f'Histograma de {col}')

    plt.tight_layout()
    plt.show()

#### Criar novas Variáveis

In [None]:
# Criando duas novas variáveis diferenca_preco e categoria_principal
# Criar a coluna 'diferenca_preco'
# Certifique-se de que 'actual_price' e 'discounted_price' são numéricos
product_df['diferenca_preco'] = product_df['actual_price'] - product_df['discounted_price']

# Criar a coluna 'categoria_principal'
# Extrair a primeira categoria antes do primeiro '|'
product_df['categoria_principal'] = product_df['category'].astype(str).str.split('|', expand=True)[0]

print("Primeiras 5 linhas do dataframe product_df com as novas colunas:")
display(product_df.head())

#### Unir Tabelas

In [None]:
# Unir os dataframes product_df e review_df usando a coluna 'product_id'
# Usamos um 'inner' join para incluir apenas produtos que têm avaliações e vice-versa
unificada_df = pd.merge(product_df, review_df, on='product_id', how='inner')

print("Primeiras 5 linhas do dataframe unido:")
display(unificada_df.head())

print("\nNúmero de linhas e colunas no dataframe unido:")
display(unificada_df.shape)

In [None]:
# contagem de valores nulos após união das tabelas
print("Contagem de valores nulos no dataframe unido:")
display(unificada_df.isnull().sum())

#### Agrupar e Visualizar Dados de Acordo com Variáveis Categóricas

In [None]:
# agrupar os dados categoria_principal e calcular a média para as colunas numéricas e calcular a contagem para uma coluna adequada para mostrar o número de produtos em cada categoria.
# agrupar por categoria_principal é um passo fundamental para entender a estrutura dos dados e começar a extrair insights sobre o comportamento dos produtos e das avaliações em diferentes segmentos do mercado.
# Group by 'categoria_principal' and calculate mean of numerical columns
categoria_principal_grouped = unificada_df.groupby('categoria_principal').agg(
    mean_discounted_price=('discounted_price', 'mean'),
    mean_actual_price=('actual_price', 'mean'),
    mean_discount_percentage=('discount_percentage', 'mean'),
    mean_diferenca_preco=('diferenca_preco', 'mean'),
    mean_rating=('rating', 'mean'),
    mean_rating_count=('rating_count', 'mean'),
    product_count=('product_id', 'count') # Count products in each category
).reset_index()

print("Agregação por categoria_principal:")
display(categoria_principal_grouped)

# Calculate the percentage of products in each category relative to the total number of products
total_products = unificada_df.shape[0]
categoria_principal_grouped['percentage_of_products'] = (categoria_principal_grouped['product_count'] / total_products) * 100

print("\nAgregação por categoria_principal com porcentagem de produtos:")
display(categoria_principal_grouped)

In [None]:
# Contar a frequência de cada categoria principal
categoria_principal_counts = unificada_df['categoria_principal'].value_counts()

# Criar um gráfico de barras
plt.figure(figsize=(12, 6))
sns.barplot(x=categoria_principal_counts.index, y=categoria_principal_counts.values)
plt.title('Distribuição de Produtos por Categoria Principal')
plt.xlabel('Categoria Principal')
plt.ylabel('Número de Produtos')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

In [None]:
# Calculate the proportion of each main category
proporcao_categorias = unificada_df['categoria_principal'].value_counts(normalize=True) * 100

print("Proporção de cada Categoria Principal:")
print(proporcao_categorias)

# Select the top 4 categories
top_4_categorias = proporcao_categorias.head(4)

# Create a bar chart for the top 4 categories
plt.figure(figsize=(10, 6))
sns.barplot(x=top_4_categorias.index, y=top_4_categorias.values, palette='viridis')
plt.title('Proporção das Top 4 Categorias Principais')
plt.xlabel('Categoria Principal')
plt.ylabel('Proporção (%)')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

#### Medidas de Tendência Central

In [None]:
# Selecionar colunas numéricas
numerical_cols = unificada_df.select_dtypes(include=np.number).columns

print("Estatísticas de Tendência Central para Variáveis Numéricas:")

# Calcular Média, Mediana e Moda para cada coluna numérica
for col in numerical_cols:
    mean_val = unificada_df[col].mean()
    median_val = unificada_df[col].median()
    mode_val = unificada_df[col].mode()

    print(f"\n--- Coluna: {col} ---")
    print(f"Média: {mean_val:.2f}")
    print(f"Mediana: {median_val:.2f}")
    # Mode can have multiple values, so handle accordingly
    print(f"Moda: {list(mode_val.round(2))}")

#### Aplicar Medidas de Dispersão

In [None]:
print("Medidas de Dispersão para Variáveis Numéricas:")

# Calcular Desvio Padrão, Variância e Intervalo Interquartílico para cada coluna numérica
for col in numerical_cols:
    std_dev = unificada_df[col].std()
    variance = unificada_df[col].var()
    Q1 = unificada_df[col].quantile(0.25)
    Q3 = unificada_df[col].quantile(0.75)
    IQR = Q3 - Q1

    print(f"\n--- Coluna: {col} ---")
    print(f"Desvio Padrão: {std_dev:.2f}")
    print(f"Variância: {variance:.2f}")
    print(f"Intervalo Interquartílico (IQR): {IQR:.2f}")

#### Correlação entre Variáveis

In [None]:
# Calcular a matriz de correlação de Pearson para as variáveis numéricas
correlation_matrix = unificada_df[numerical_cols].corr(method='pearson')

print("Matriz de Correlação de Pearson entre as variáveis numéricas:")
display(correlation_matrix)

#### Validação de Hipóteses

In [None]:
# Criar segmentos com base na categoria principal
segmented_by_categoria_principal = unificada_df.groupby('categoria_principal')

# Exibir o resumo estatístico para cada segmento (categoria principal)
print("Resumo Estatístico por Categoria Principal:")
display(segmented_by_categoria_principal.describe())

In [None]:
# Hipótese 1: Quanto maior o desconto, melhor será a pontuação.
print("\n--- Análise da Hipótese 1: Desconto vs. Pontuação ---")

# Correlação de Spearman (mais robusta a outliers e relações não lineares)
spearman_corr_h1, spearman_p_value_h1 = stats.spearmanr(unificada_df['discount_percentage'], unificada_df['rating'])
print(f"Correlação de Spearman entre Desconto e Rating: {spearman_corr_h1:.4f}, P-valor: {spearman_p_value_h1:.4f}")

# Visualização (Scatter plot com linha de regressão)
plt.figure(figsize=(10, 6))
sns.regplot(x='discount_percentage', y='rating', data=unificada_df, scatter_kws={'alpha':0.3})
plt.title('Relação entre Percentual de Desconto e Pontuação (Rating)')
plt.xlabel('Percentual de Desconto (%)')
plt.ylabel('Pontuação Média')
plt.show()

In [None]:
# Hipótese 2: Quanto maior o número de pessoas que avaliaram o produto, melhor será a classificação.
print("\n--- Análise da Hipótese 2: Número de Avaliações vs. Classificação ---")

# Correlação de Pearson
pearson_corr_h2, pearson_p_value_h2 = stats.pearsonr(unificada_df['rating_count'], unificada_df['rating'])
print(f"Correlação de Pearson entre Rating Count e Rating: {pearson_corr_h2:.4f}, P-valor: {pearson_p_value_h2:.4f}")

# Correlação de Spearman
spearman_corr_h2, spearman_p_value_h2 = stats.spearmanr(unificada_df['rating_count'], unificada_df['rating'])
print(f"Correlação de Spearman entre Rating Count e Rating: {spearman_corr_h2:.4f}, P-valor: {spearman_p_value_h2:.4f}")

# Visualização para a Hipótese 2: Número de Avaliações vs. Classificação
plt.figure(figsize=(10, 6))
sns.regplot(x='rating_count', y='rating', data=unificada_df, scatter_kws={'alpha':0.3}) # scatter_kws para ajustar a transparência dos pontos
plt.title('Relação entre Número de Avaliações e Pontuação (Rating)')
plt.xlabel('Número de Avaliações')
plt.ylabel('Pontuação Média')
plt.show()

In [None]:
# Hipótese 3: Produtos com preços reais mais altos (sem desconto aplicado) tendem a ter uma avaliação maior.
print("\n--- Análise da Hipótese 3: Preço Real vs. Avaliação ---")

# Correlação de Pearson
# fillna(0) apenas para o cálculo da correlação se houver NaN
pearson_corr_h3, pearson_p_value_h3 = stats.pearsonr(unificada_df['actual_price'].fillna(0), unificada_df['rating'])
print(f"Correlação de Pearson entre Preço Real e Rating: {pearson_corr_h3:.4f}, P-valor: {pearson_p_value_h3:.4f}")

# Correlação de Spearman
spearman_corr_h3, spearman_p_value_h3 = stats.spearmanr(unificada_df['actual_price'].fillna(0), unificada_df['rating'])
print(f"Correlação de Spearman entre Preço Real e Rating: {spearman_corr_h3:.4f}, P-valor: {spearman_p_value_h3:.4f}")

# Visualização para a Hipótese 3: Preço Real vs. Avaliação
plt.figure(figsize=(10, 6))
sns.regplot(x='actual_price', y='rating', data=unificada_df, scatter_kws={'alpha':0.3}) # scatter_kws para ajustar a transparência dos pontos
plt.title('Relação entre Preço Real e Pontuação (Rating)')
plt.xlabel('Preço Real')
plt.ylabel('Pontuação Média')
plt.show()

In [None]:
# Hipótese 4: Produtos com um preço real mais alto tendem a ter descontos absolutos maiores (ou seja, o valor do desconto em R$)
print("\n--- Análise da Hipótese 4: Preço Real vs. Diferença de Preço ---")

# Correlação de Pearson
pearson_corr_h4, pearson_p_value_h4 = stats.pearsonr(unificada_df['actual_price'].fillna(0), unificada_df['diferenca_preco'].fillna(0))
print(f"Correlação de Pearson entre Preço Real e Diferença de Preço: {pearson_corr_h4:.4f}, P-valor: {pearson_p_value_h4:.4f}")

# Correlação de Spearman
spearman_corr_h4, spearman_p_value_h4 = stats.spearmanr(unificada_df['actual_price'].fillna(0), unificada_df['diferenca_preco'].fillna(0))
print(f"Correlação de Spearman entre Preço Real e Diferença de Preço: {spearman_corr_h4:.4f}, P-valor: {spearman_p_value_h4:.4f}")

# Visualização para a Hipótese 4: Preço Real vs. Diferença de Preço
plt.figure(figsize=(10, 6))
sns.regplot(x='actual_price', y='diferenca_preco', data=unificada_df, scatter_kws={'alpha':0.3}) # scatter_kws para ajustar a transparência dos pontos
plt.title('Relação entre Preço Real e Diferença de Preço')
plt.xlabel('Preço Real')
plt.ylabel('Diferença de Preço (Valor do Desconto)')
plt.show()

In [None]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Realizar o teste ANOVA
# A fórmula 'diferenca_preco ~ C(categoria_principal)' especifica que queremos comparar a média de 'diferenca_preco'
# entre os grupos definidos por 'categoria_principal'. C() indica que 'categoria_principal' é uma variável categórica.
model = ols('diferenca_preco ~ C(categoria_principal)', data=unificada_df).fit()
anova_table = sm.stats.anova_lm(model, typ=2)

print("Tabela ANOVA:")
display(anova_table)

# Interpretar o resultado do ANOVA
alpha = 0.05 # Nível de significância
p_value = anova_table['PR(>F)'][0]

if p_value < alpha:
    print(f"\nO p-valor ({p_value:.4f}) é menor que o nível de significância ({alpha}).")
    print("Rejeitamos a hipótese nula. Há uma diferença estatisticamente significativa na média da diferença de preço entre as categorias principais.")
    print("\nPara saber quais categorias são diferentes, testes post-hoc (como Tukey HSD) seriam necessários.")
else:
    print(f"\nO p-valor ({p_value:.4f}) é maior que o nível de significância ({alpha}).")
    print("Não há evidências suficientes para rejeitar a hipótese nula.")
    print("A média da diferença de preço não é estatisticamente diferente entre as categorias principais neste dataset.")

In [None]:
# Realizar o teste post-hoc de Tukey HSD para comparar as médias da diferença de preço entre os pares de categorias principais. Isso nos ajudará a identificar quais categorias são significativamente diferentes umas das outras em termos do valor absoluto do desconto.
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# Realizar o teste de Tukey HSD
# 'endog' é a variável dependente (a que estamos comparando as médias)
# 'groups' é a variável categórica (os grupos a serem comparados)
# 'alpha' é o nível de significância para o teste (geralmente 0.05)
tukey_result = pairwise_tukeyhsd(endog=unificada_df['diferenca_preco'],
                                 groups=unificada_df['categoria_principal'],
                                 alpha=0.05)

print("Resultado do Teste de Tukey HSD:")
display(tukey_result)

# Interpretação dos Resultados do Teste de Tukey HSD
print("\nInterpretação:")
print("A tabela acima mostra as comparações entre pares de categorias principais.")
print("- 'meandiff': A diferença nas médias da 'diferenca_preco' entre o par de grupos.")
print("- 'lower' e 'upper': O intervalo de confiança de 95% para a diferença média.")
print("- 'reject': Indica se a diferença média é estatisticamente significativa (True = rejeitar H0, False = não rejeitar H0) com base no alpha.")
print("- 'p-adj': O p-valor ajustado para comparações múltiplas. Se p-adj < alpha, a diferença entre aquele par de grupos é estatisticamente significativa.")

print("\nPares de Categorias com Diferenças Estatisticamente Significativas na Média da Diferença de Preço (p-adj < 0.05):")
significant_pairs = tukey_result.summary().data[1:] # Ignora o cabeçalho
for row in significant_pairs:
    group1, group2, meandiff, lower, upper, reject, p_adj = row
    if reject:
        print(f"- {group1} vs {group2}: Diferença Média = {meandiff:.2f}, p-adj = {p_adj:.4f}")

print("\nNote: Algumas categorias podem não aparecer em pares significativos se suas médias não forem estatisticamente diferentes de outras categorias.")

In [None]:
# Visualização da Média da Diferença de Preço por Categoria Principal
# Calcular a média da diferenca_preco para cada categoria principal
mean_diferenca_preco_por_categoria = unificada_df.groupby('categoria_principal')['diferenca_preco'].mean().sort_values(ascending=False)

# Criar o gráfico de barras
plt.figure(figsize=(12, 6))
sns.barplot(x=mean_diferenca_preco_por_categoria.index, y=mean_diferenca_preco_por_categoria.values, palette='viridis')
plt.title('Média da Diferença de Preço por Categoria Principal')
plt.xlabel('Categoria Principal')
plt.ylabel('Média da Diferença de Preço (R$)')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

#### Cálculo Risco Relativo

In [None]:
# 1. Criar a variável binária "alta_avaliacao" (rating >= 4.0)
unificada_df['alta_avaliacao'] = (unificada_df['rating'] >= 4.0).astype(int)

# 2. Filtrar o DataFrame para incluir apenas as categorias "Electronics" e "Home&Kitchen"
grupos_comparacao_df = unificada_df[unificada_df['categoria_principal'].isin(['Electronics', 'Home&Kitchen'])].copy()

# 3. Criar a tabela de contingência 2x2
# Certifique-se de que a coluna 'categoria_principal' existe e não tem valores nulos nos dados filtrados
if 'categoria_principal' in grupos_comparacao_df.columns and not grupos_comparacao_df['categoria_principal'].isnull().any():
    tabela_contingencia = pd.crosstab(grupos_comparacao_df['categoria_principal'], grupos_comparacao_df['alta_avaliacao'])
    print("Tabela de Contingência:")
    display(tabela_contingencia)

    # Renomear as colunas para maior clareza (opcional)
    tabela_contingencia.columns = ['Baixa Avaliação', 'Alta Avaliação']
    tabela_contingencia.index.name = 'Categoria Principal'
    print("\nTabela de Contingência (com nomes claros):")
    display(tabela_contingencia)

    # 4. Calcular o Risco Relativo
    # Extrair os valores da tabela de contingência para o cálculo do RR
    # Assumindo que 'Electronics' é o grupo exposto e 'Home&Kitchen' o não exposto
    # E que 'Alta Avaliação' é a coluna 1 (índice 1)
    if 'Electronics' in tabela_contingencia.index and 'Home&Kitchen' in tabela_contingencia.index:
        a = tabela_contingencia.loc['Electronics', 'Alta Avaliação']    # Eletrônicos com alta avaliação
        b = tabela_contingencia.loc['Electronics', 'Baixa Avaliação']   # Eletrônicos sem alta avaliação
        c = tabela_contingencia.loc['Home&Kitchen', 'Alta Avaliação']   # Home&Kitchen com alta avaliação
        d = tabela_contingencia.loc['Home&Kitchen', 'Baixa Avaliação']  # Home&Kitchen sem alta avaliação

        # Evitar divisão por zero
        prob_electronics = a / (a + b) if (a + b) > 0 else 0
        prob_homekitchen = c / (c + d) if (c + d) > 0 else 0

        if prob_homekitchen > 0:
            risco_relativo = prob_electronics / prob_homekitchen
            print(f"\nProbabilidade de Alta Avaliação em Electronics: {prob_electronics:.4f}")
            print(f"Probabilidade de Alta Avaliação em Home&Kitchen: {prob_homekitchen:.4f}")
            print(f"Risco Relativo (Electronics vs. Home&Kitchen para Alta Avaliação): {risco_relativo:.4f}")

            # Interpretação
            if risco_relativo > 1:
                print(f"\nInterpretação: Produtos da categoria Electronics têm aproximadamente {risco_relativo:.2f} vezes a probabilidade de ter uma alta avaliação em comparação com produtos da categoria Home&Kitchen.")
            elif risco_relativo < 1:
                 print(f"\nInterpretação: Produtos da categoria Electronics têm aproximadamente {risco_relativo:.2f} vezes a probabilidade de ter uma alta avaliação em comparação com produtos da categoria Home&Kitchen (ou seja, menor probabilidade).")
            else:
                print("\nInterpretação: A probabilidade de ter uma alta avaliação é aproximadamente a mesma em ambas as categorias.")
        else:
            print("\nNão é possível calcular o Risco Relativo, pois não há produtos 'Home&Kitchen' sem alta avaliação para servir como grupo de comparação.")
    else:
        print("\nUma ou ambas as categorias ('Electronics', 'Home&Kitchen') não foram encontradas nos dados filtrados.")
else:
    print("A coluna 'categoria_principal' não está disponível ou contém valores nulos nos dados filtrados, impedindo a criação da tabela de contingência.")

In [None]:
# Utilizando o teste Qui-quadrado para vizualizar a diferença significativa entre os grupos em termos de risco
from scipy.stats import chi2_contingency

# Usar a tabela de contingência gerada anteriormente (tabela_contingencia)
# Certifique-se de que a tabela_contingencia está disponível na memória do notebook.
# Se não estiver, talvez seja necessário re-executar a célula que a cria.
# Realizar o teste Qui-quadrado
# chi2_contingency retorna: estatística qui-quadrado, p-valor, graus de liberdade, frequências esperadas
chi2_stat, p_value_chi2, dof, expected_freq = chi2_contingency(tabela_contingencia)

print("Resultado do Teste Qui-quadrado:")
print(f"Estatística Qui-quadrado: {chi2_stat:.4f}")
print(f"P-valor: {p_value_chi2:.4f}")
print(f"Graus de Liberdade: {dof}")
print("\nFrequências Esperadas:")
display(pd.DataFrame(expected_freq, columns=tabela_contingencia.columns, index=tabela_contingencia.index))

# Interpretar o resultado do Teste Qui-quadrado
alpha = 0.05 # Nível de significância

if p_value_chi2 < alpha:
    print(f"\nO p-valor ({p_value_chi2:.4f}) é menor que o nível de significância ({alpha}).")
    print("Rejeitamos a hipótese nula. Há uma associação estatisticamente significativa entre a Categoria Principal (Electronics vs Home&Kitchen) e a Alta Avaliação.")
    print("Isso significa que a diferença no risco de ter uma alta avaliação entre essas duas categorias é estatisticamente significativa.")
else:
    print(f"\nO p-valor ({p_value_chi2:.4f}) é maior que o nível de significância ({alpha}).")
    print("Não há evidências suficientes para rejeitar a hipótese nula.")
    print("A diferença no risco de ter uma alta avaliação entre a Categoria Principal (Electronics vs Home&Kitchen) e a Alta Avaliação não é estatisticamente significativa neste dataset.")

In [None]:
# Função para calcular e exibir o Risco Relativo para um par de categorias
def calculate_and_display_rr(df, category1, category2, outcome_col, group_col, outcome_event=1):
    """
    Calcula e exibe o Risco Relativo entre dois grupos para um evento binário.

    Args:
        df (pd.DataFrame): O DataFrame contendo os dados.
        category1 (str): O nome da primeira categoria (grupo exposto).
        category2 (str): O nome da segunda categoria (grupo não exposto).
        outcome_col (str): O nome da coluna com o resultado binário (0 ou 1).
        group_col (str): O nome da coluna com os grupos categóricos.
        outcome_event (int): O valor na coluna outcome_col que representa o evento (padrão é 1).
    """
    print(f"\n--- Calculando Risco Relativo: {category1} vs {category2} para {outcome_col} = {outcome_event} ---")

    # Filtrar para as duas categorias de interesse
    comparison_df = df[df[group_col].isin([category1, category2])].copy()

    # Criar tabela de contingência
    contingency_table = pd.crosstab(comparison_df[group_col], comparison_df[outcome_col])

    # Verificar se as colunas de resultado existem na tabela
    if outcome_event not in contingency_table.columns or (1 - outcome_event) not in contingency_table.columns:
        print(f"Erro: Colunas de resultado binário ({outcome_event} ou {1-outcome_event}) não encontradas na tabela de contingência.")
        display(contingency_table)
        return

    # Extrair valores para cálculo do RR
    # Garantir que as categorias existam na tabela
    if category1 in contingency_table.index and category2 in contingency_table.index:
        a = contingency_table.loc[category1, outcome_event]      # Grupo 1 com evento
        b = contingency_table.loc[category1, 1 - outcome_event]  # Grupo 1 sem evento
        c = contingency_table.loc[category2, outcome_event]      # Grupo 2 com evento
        d = contingency_table.loc[category2, 1 - outcome_event]  # Grupo 2 sem evento

        # Evitar divisão por zero no cálculo das probabilidades e RR
        prob_cat1 = a / (a + b) if (a + b) > 0 else 0
        prob_cat2 = c / (c + d) if (c + d) > 0 else 0

        if prob_cat2 > 0:
            risco_relativo = prob_cat1 / prob_cat2
            print(f"Probabilidade do Evento em {category1}: {prob_cat1:.4f}")
            print(f"Probabilidade do Evento em {category2}: {prob_cat2:.4f}")
            print(f"Risco Relativo ({category1} vs {category2}): {risco_relativo:.4f}")

            # Interpretação
            if risco_relativo > 1:
                print(f"Interpretação: Produtos da categoria {category1} têm aproximadamente {risco_relativo:.2f} vezes a probabilidade de ter uma alta avaliação em comparação com produtos da categoria {category2}.")
            elif risco_relativo < 1:
                 print(f"Interpretação: Produtos da categoria {category1} têm aproximadamente {risco_relativo:.2f} vezes a probabilidade de ter uma alta avaliação em comparação com produtos da categoria {category2} (ou seja, menor probabilidade).")
            else:
                print(f"Interpretação: A probabilidade de ter uma alta avaliação é aproximadamente a mesma em ambas as categorias ({category1} e {category2}).")

        else:
            print(f"Não é possível calcular o Risco Relativo, pois não há produtos na categoria {category2} sem o evento ({outcome_col} = {1-outcome_event}) para servir como grupo de comparação.")
    else:
        print(f"Uma ou ambas as categorias ('{category1}', '{category2}') não foram encontradas nos dados filtrados.")


# Certificar-se de que a variável binária 'alta_avaliacao' existe
if 'alta_avaliacao' not in unificada_df.columns:
     unificada_df['alta_avaliacao'] = (unificada_df['rating'] >= 4.0).astype(int)


# Calcular e exibir RR para os pares sugeridos
calculate_and_display_rr(unificada_df, 'Electronics', 'Computers&Accessories', 'alta_avaliacao', 'categoria_principal', 1)
calculate_and_display_rr(unificada_df, 'Home&Kitchen', 'Computers&Accessories', 'alta_avaliacao', 'categoria_principal', 1)
calculate_and_display_rr(unificada_df, 'Electronics', 'OfficeProducts', 'alta_avaliacao', 'categoria_principal', 1)

In [None]:
from scipy.stats import chi2_contingency
import pandas as pd

# Função para realizar e exibir o Teste Qui-quadrado para um par de categorias
def perform_and_display_chi2(df, category1, category2, outcome_col, group_col, alpha=0.05):
    """
    Realiza e exibe o Teste Qui-quadrado para a associação entre dois grupos e um evento binário.

    Args:
        df (pd.DataFrame): O DataFrame contendo os dados.
        category1 (str): O nome da primeira categoria (grupo 1).
        category2 (str): O nome da segunda categoria (grupo 2).
        outcome_col (str): O nome da coluna com o resultado binário (0 ou 1).
        group_col (str): O nome da coluna com os grupos categóricos.
        alpha (float): Nível de significância para o teste (padrão é 0.05).
    """
    print(f"\n--- Teste Qui-quadrado: {category1} vs {category2} para {outcome_col} ---")

    # Filtrar para as duas categorias de interesse
    comparison_df = df[df[group_col].isin([category1, category2])].copy()

    # Criar tabela de contingência
    # Certifique-se de que a coluna outcome_col é binária (0 e 1) e que os grupos existem
    if outcome_col not in comparison_df.columns or group_col not in comparison_df.columns:
         print(f"Erro: Colunas '{outcome_col}' ou '{group_col}' não encontradas no DataFrame.")
         return

    # Garantir que ambos os valores (0 e 1) estejam presentes na coluna outcome_col no filtered dataframe
    # Isso evita erros com chi2_contingency em tabelas 2x1 ou 1x2
    if comparison_df[outcome_col].nunique() < 2:
        print(f"Erro: Coluna '{outcome_col}' no subset para '{category1}' vs '{category2}' não é binária (apenas um valor encontrado).")
        return

    # Criar tabela de contingência
    contingency_table = pd.crosstab(comparison_df[group_col], comparison_df[outcome_col])

    # Adicionar colunas ausentes (0 ou 1) com zeros se necessário, para garantir formato 2x2
    for col_val in [0, 1]:
        if col_val not in contingency_table.columns:
            contingency_table[col_val] = 0
    # Reordenar colunas para garantir consistência (0, 1)
    contingency_table = contingency_table[[0, 1]]


    # Realizar o teste Qui-quadrado
    try:
        chi2_stat, p_value, dof, expected_freq = chi2_contingency(contingency_table)

        print(f"Estatística Qui-quadrado: {chi2_stat:.4f}")
        print(f"P-valor: {p_value:.4f}")
        print(f"Graus de Liberdade: {dof}")
        print("\nFrequências Observadas:")
        display(contingency_table)
        print("\nFrequências Esperadas:")
        display(pd.DataFrame(expected_freq, columns=contingency_table.columns, index=contingency_table.index))


        # Interpretar o resultado
        if p_value < alpha:
            print(f"\nO p-valor ({p_value:.4f}) é menor que o nível de significância ({alpha}).")
            print(f"Conclusão: Há uma associação estatisticamente significativa entre as categorias {category1} e {category2} e o resultado '{outcome_col}' (Alta Avaliação).")
            print(f"Isso suporta a ideia de que a diferença na proporção de altas avaliações entre essas duas categorias não é devido ao acaso.")
        else:
            print(f"\nO p-valor ({p_value:.4f}) é maior que o nível de significância ({alpha}).")
            print(f"Conclusão: Não há evidências estatisticamente significativas de uma associação entre as categorias {category1} e {category2} e o resultado '{outcome_col}' (Alta Avaliação).")
            print(f"Isso sugere que a diferença na proporção de altas avaliações entre essas duas categorias pode ser devido ao acaso da amostra.")

    except ValueError as e:
        print(f"Erro ao realizar o teste Qui-quadrado: {e}")
        print("Verifique se a tabela de contingência tem o formato correto (pelo menos 2x2) e se há variação nos dados.")


# Certificar-se de que a variável binária 'alta_avaliacao' existe
if 'alta_avaliacao' not in unificada_df.columns:
     unificada_df['alta_avaliacao'] = (unificada_df['rating'] >= 4.0).astype(int)

# Realizar testes Qui-quadrado para os pares sugeridos
perform_and_display_chi2(unificada_df, 'Electronics', 'Computers&Accessories', 'alta_avaliacao', 'categoria_principal')
perform_and_display_chi2(unificada_df, 'Home&Kitchen', 'Computers&Accessories', 'alta_avaliacao', 'categoria_principal')
perform_and_display_chi2(unificada_df, 'Electronics', 'OfficeProducts', 'alta_avaliacao', 'categoria_principal')