## 1. Teste de Normalização de Kolmogorov-Smirnov pro Artefato

O primeiro teste foi feito com as 3 colunas escolhidas da primeira base fornecida pela Chillie Beans:
"Valor_Total", "Desconto" e "Total_Preco_Liquido"

In [None]:
# 1. Teste de Normalização de Kolmogorov-Smirnov pro Artefato

import pandas as pd
from scipy import stats

df = pd.read_csv('../../database/dataset inicial/vendas_chillie_primeira_base.csv')

# Colunas para testar
colunas = ['Valor_Total', 'Desconto', 'Total_Preco_Liquido']
# Executa o teste KS para normalidade em cada coluna
for coluna in colunas:
    if coluna in df.columns:
        # Remove "R$" e converte para numérico
        if df[coluna].dtype == 'object':
            dados = df[coluna].astype(str).str.replace(r'R\$', '', regex=True).str.replace(',', '.')
        else:
            dados = df[coluna]
        dados = pd.to_numeric(dados, errors='coerce').dropna()
        
        if len(dados) > 0:
            ks_stat, p_valor = stats.kstest(dados, 'norm', args=(dados.mean(), dados.std()))
            print(f"{coluna}: KS={ks_stat:.4f}, p-valor={p_valor:.4f}")
        else:
            print(f"Coluna '{coluna}' não possui dados numéricos válidos")
    else:
        print(f"Coluna '{coluna}' não encontrada")


## 2. Teste de Normalização através de métodos Gráficos para o Artefato
Além de testes estátisticos, também fizemos análises graficas (Histograma e Q-Q Plot) para identificar possiveis normalidades.

In [None]:
# 2.1. Teste de Normalização através do Histograma

import pandas as pd
import matplotlib.pyplot as plt

# Colunas para plotar
colunas = ['Valor_Total', 'Desconto', 'Total_Preco_Liquido']

# Configura o tamanho da figura
plt.figure(figsize=(15, 5))

# Plota histograma para cada coluna
for i, coluna in enumerate(colunas, 1):
    if coluna in df.columns:
        # Remove "R$" e converte para numérico
        if df[coluna].dtype == 'object':
            dados = df[coluna].astype(str).str.replace(r'R\$', '', regex=True).str.replace(',', '.')
        else:
            dados = df[coluna]
        dados = pd.to_numeric(dados, errors='coerce').dropna()
        
        if len(dados) > 0:
            plt.subplot(1, 3, i)
            plt.hist(dados, bins=30, alpha=0.7, color='skyblue', edgecolor='black')
            plt.title(f'Histograma - {coluna}')
            plt.xlabel('Valores')
            plt.ylabel('Frequência')
            plt.grid(True, alpha=0.3)
        else:
            print(f"Coluna '{coluna}' não possui dados numéricos válidos")
    else:
        print(f"Coluna '{coluna}' não encontrada")

plt.tight_layout()
plt.show()

In [None]:
# 2.2. Teste de Normalização através do Q-Q Plot

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

# Colunas para plotar
colunas = ['Valor_Total', 'Desconto', 'Total_Preco_Liquido']

# Configura o tamanho da figura
plt.figure(figsize=(15, 5))

# Plota Q-Q plot para cada coluna
for i, coluna in enumerate(colunas, 1):
    if coluna in df.columns:
        # Remove "R$" e converte para numérico
        if df[coluna].dtype == 'object':
            dados = df[coluna].astype(str).str.replace(r'R\$', '', regex=True).str.replace(',', '.')
        else:
            dados = df[coluna]
        dados = pd.to_numeric(dados, errors='coerce').dropna()
        
        if len(dados) > 0:
            plt.subplot(1, 3, i)
            stats.probplot(dados, dist="norm", plot=plt)
            plt.title(f'Q-Q Plot - {coluna}')
            plt.grid(True, alpha=0.3)
        else:
            print(f"Coluna '{coluna}' não possui dados numéricos válidos")
    else:
        print(f"Coluna '{coluna}' não encontrada")

plt.tight_layout()
plt.show()

## 3. Comparação entre média e mediana avaliando normalidade para o Artefato

In [None]:
# 3. Comparação entre média e mediana para avaliar normalidade

colunas = ['Valor_Total', 'Desconto', 'Total_Preco_Liquido']

for coluna in colunas:
    if coluna in df.columns:
        # Remove "R$" e converte para numérico
        dados = df[coluna].astype(str).str.replace(r'R\$', '', regex=True).str.replace(',', '.')
        dados = pd.to_numeric(dados, errors='coerce').dropna()
        if len(dados) > 0:
            media = dados.mean()
            mediana = dados.median()
            print(f"{coluna}: média = {media:.2f}, mediana = {mediana:.2f}")
            if abs(media - mediana) < 0.05 * abs(media):
                print("Comentário: Média e mediana próximas, sugere normalidade.")
            else:
                print("Comentário: Média e mediana distantes, sugere assimetria (não normal).")
        else:
            print(f"Coluna '{coluna}' não possui dados numéricos válidos")
    else:
        print(f"Coluna '{coluna}' não encontrada")

## 4. Teste de Normalização de Kolmogorov-Smirnov como Análise para o Projeto

Além do artefato, achamos pertinente fazer o teste de kolmogorov com todas as colunas numéricas da primeira e da segunda (nova) base fornecidas pela Chillie Beans.
Esse script é apenas para tentar enxergar se alguma das variáveis presentes na base de dados seguem uma distribuição normal, Uma vez que os dados pareciam muito sintéticos.

In [None]:
# 4.1. Teste de Normalização de Kolmogorov-Smirnov como Análise (Base Antiga)

import pandas as pd
from scipy import stats

# Colunas numéricas para testar
colunas = [
    'Quantidade', 'Valor_Total', 'Preco_Varejo', 'Frete', 'Desconto', 'Total_Preco_Varejo', 'Total_Preco_Liquido'
]

for coluna in colunas:
    if coluna in df.columns:
        # Remove "R$" e converte para numérico, se necessário
        dados = df[coluna].astype(str).str.replace(r'R\$', '', regex=True).str.replace(',', '.')
        dados = pd.to_numeric(dados, errors='coerce').dropna()
        
        if len(dados) > 0:
            ks_stat, p_valor = stats.kstest(dados, 'norm', args=(dados.mean(), dados.std()))
            print(f"{coluna}: KS={ks_stat:.4f}, p-valor={p_valor:.4f}")
        else:
            print(f"Coluna '{coluna}' não possui dados numéricos válidos")
    else:
        print(f"Coluna '{coluna}' não encontrada")

In [None]:
# 4.2 Teste de Normalização de Kolmogorov-Smirnov como Análise (Base Nova)

import pandas as pd
from scipy import stats

# Carrega a nova base de dados
df_nova = pd.read_csv(r'../../database/dataset inicial/nova_base_vendas_chillie.csv')

# Colunas numéricas para testar
colunas = [
    'Quantidade', 'Preco_Custo', 'Valor_Total', 'Preco_Varejo', 'Frete',
    'Num_Vale', 'Desconto', 'Total_Preco_Varejo', 'Total_Preco_Liquido'
]

for coluna in colunas:
    if coluna in df_nova.columns:
        # Remove "R$" e converte para numérico, se necessário
        dados = df_nova[coluna].astype(str).str.replace(r'R\$', '', regex=True).str.replace(',', '.')
        dados = pd.to_numeric(dados, errors='coerce').dropna()
        
        if len(dados) > 0:
            ks_stat, p_valor = stats.kstest(dados, 'norm', args=(dados.mean(), dados.std()))
            print(f"{coluna}: KS={ks_stat:.4f}, p-valor={p_valor:.4f}")
        else:
            print(f"Coluna '{coluna}' não possui dados numéricos válidos")
    else:
        print(f"Coluna '{coluna}' não encontrada")

In [None]:
# Apresentação dos valores de dados estatísticos que serão utilizados para as análises 

colunas = ['Valor_Total', 'Desconto', 'Total_Preco_Liquido']

for coluna in colunas:
    if coluna in df.columns:
        dados = df[coluna].astype(str).str.replace(r'R\$', '', regex=True).str.replace(',', '.')
        dados = pd.to_numeric(dados, errors='coerce').dropna()
        if len(dados) > 0:
            print(f"{coluna}: Média = {dados.mean()}, Desvio = {dados.std()}, Mínimo = {dados.min()}, Máximo = {dados.max()}")
        else:
            print(f"{coluna}: Sem dados relevantes")
    else:
        print(f"{coluna} não encontrada")

In [None]:
# Escalonamento e Comparação entre Histogramas

import pandas as pd
import matplotlib.pyplot as plt

# Colunas para plotar
colunas = ['Valor_Total', 'Desconto', 'Total_Preco_Liquido']

# Configura o tamanho da figura
plt.figure(figsize=(15, 5))

# Plota histograma para cada coluna após escalonamento
for i, coluna in enumerate(colunas, 1):
    if coluna in df.columns:
        # Remove "R$" e converte para numérico
        if df[coluna].dtype == 'object':
            dados = df[coluna].astype(str).str.replace(r'R\$', '', regex=True).str.replace(',', '.')
        else:
            dados = df[coluna]
        dados = pd.to_numeric(dados, errors='coerce').dropna()
        
        if len(dados) > 0:
            # Aplica o escalonamento específico para cada variável
            if coluna == 'Valor_Total':
                # Z-score: z = (x - 267.2773) / 310.2275
                dados_escalados = (dados - 267.2773) / 310.2275
                titulo_escala = 'Z-score'
                xlabel = 'Valores Padronizados'
                
            elif coluna == 'Desconto':
                # Min-Max: x' = x / 4651
                dados_escalados = dados / 4651
                titulo_escala = 'Min-Max'
                xlabel = 'Valores Normalizados'
                
            elif coluna == 'Total_Preco_Liquido':
                # Z-score: z = (x - 290.4984) / 369.0542
                dados_escalados = (dados - 290.4984) / 369.0542
                titulo_escala = 'Z-score'
                xlabel = 'Valores Padronizados'
            
            plt.subplot(1, 3, i)
            plt.hist(dados_escalados, bins=30, alpha=0.7, color='lightcoral', edgecolor='black')
            plt.title(f'{coluna} - {titulo_escala}')
            plt.xlabel(xlabel)
            plt.ylabel('Frequência')
            plt.grid(True, alpha=0.3)
            
        else:
            print(f"Coluna '{coluna}' não possui dados numéricos válidos")
    else:
        print(f"Coluna '{coluna}' não encontrada")

plt.tight_layout()
plt.show()

In [None]:
# Tabelamento das variáveis quantitativas analisadas e os 10 primeiros registros dos dados originais do conjunto de dados completo.

variaveis_quantitativas = [
    'Valor_Total', 'Desconto', 'Total_Preco_Liquido'
]

colunas_existentes = [col for col in variaveis_quantitativas if col in df.columns]

df[colunas_existentes].head(10)

In [None]:
variaveis_quantitativas_escalonadas = [
    'Valor_Total_Padronizado', 'Desconto_Normalizado', 'Total_Preco_Liquido_Padronizado'
]

colunas_novas = [col for col in variaveis_quantitativas_escalonadas if col in df.columns]

def converter_para_numerico(serie):
    if serie.dtype == 'object':
        serie_limpa = (serie.astype(str)
                      .str.replace(r'R\$', '', regex=True)
                      .str.replace(',', '.')
                      .str.replace(' ', '')
                      .str.strip())
        
        return pd.to_numeric(serie_limpa, errors='coerce')
    else:
        return serie

colunas_originais = ['Valor_Total', 'Desconto', 'Total_Preco_Liquido']

for col in colunas_originais:
    if col in df.columns:
        df[col] = converter_para_numerico(df[col])

df['Valor_Total_Padronizado'] = (df['Valor_Total'] - df['Valor_Total'].mean())/df['Valor_Total'].std()
df['Desconto_Normalizado'] = (df['Desconto'] - df['Desconto'].min())/(df['Desconto'].max() - df['Desconto'].min())
df['Total_Preco_Liquido_Padronizado'] = (df['Total_Preco_Liquido'] - df['Total_Preco_Liquido'].mean())/(df['Total_Preco_Liquido'].std())

colunas_novas = [col for col in variaveis_quantitativas_escalonadas if col in df.columns]

df[colunas_novas].head(10)