In [None]:
!pip install missingno

In [1]:
import pandas as pd
import pyarrow.parquet as pq
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

In [2]:
path = 'D:/Disco/Data/PUCRS/proj CDIA III/'

tables = ['PUC_VENDAS', 'PUC_CAMPANHAS']

In [3]:
vendas_dataset = pq.ParquetDataset(f'{path}/dataset/{tables[0]}')
campanhas_dataset = pq.ParquetDataset(f'{path}/dataset/{tables[1]}')

In [4]:
vendas = vendas_dataset.read_pandas()
campanhas = campanhas_dataset.read_pandas()

In [6]:
vendas = vendas.to_pandas()

In [None]:
vendas

In [None]:
print(f'Registros na tabela VENDAS: {vendas.shape}')
print(f'COD_CUPOM: {len(vendas.COD_CUPOM.unique())}') 
print(f'COD_CLIENTE: {len(vendas.COD_CLIENTE.unique())}') 

In [21]:
vendas_spl = vendas.sample(frac=.05,random_state=652)

In [22]:
vendas_spl.to_csv(f'{path}vandas_sample.csv')

In [None]:
data = vendas_spl
# 1. Verificação de valores ausentes
missing_values = data.isnull().sum()

# Gráfico de barras com os valores ausentes por coluna
plt.figure(figsize=(12,6))
msno.bar(data, figsize=(10,5), color='skyblue')
plt.title('Valores Ausentes por Coluna')
plt.show()

# 2. Distribuição do sexo dos clientes
plt.figure(figsize=(6,4))
sns.countplot(data=data, x='SEXO_CLIENTE', palette='Set2')
plt.title('Distribuição por Sexo dos Clientes')
plt.xlabel('Sexo')
plt.ylabel('Contagem')
plt.show()

# 3. Distribuição de clientes por faixa etária
# Convertendo a coluna de data de nascimento para datetime e calculando a idade
data['DTNASCIMENTO_CLIENTE'] = pd.to_datetime(data['DTNASCIMENTO_CLIENTE'], errors='coerce')
#data['IDADE_CLIENTE'] = 2024 - data['DTNASCIMENTO_CLIENTE'].dt.year

plt.figure(figsize=(8,5))
sns.histplot(data['IDADE_CLIENTE'].dropna(), bins=20, kde=True)
plt.title('Distribuição da Idade dos Clientes')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()

# 4. Análise das categorias de produtos mais vendidas
plt.figure(figsize=(10,6))
sns.countplot(y='CATEGORIA_SKU', data=data, order=data['CATEGORIA_SKU'].value_counts().index, palette='coolwarm')
plt.title('Categorias de Produtos Mais Vendidas')
plt.xlabel('Número de Vendas')
plt.ylabel('Categoria')
plt.show()

# 5. Distribuição de descontos aplicados
plt.figure(figsize=(8,5))
sns.histplot(data['TOTAL_DESCONTO'], bins=30, kde=True)
plt.title('Distribuição de Descontos Aplicados')
plt.xlabel('Desconto Total')
plt.ylabel('Frequência')
plt.show()

# 6. Distribuição das vendas por cidade
plt.figure(figsize=(12,6))
sns.countplot(y='NOME_CIDADE', data=data, order=data['NOME_CIDADE'].value_counts().index[:10], palette='viridis')
plt.title('Distribuição das Vendas por Cidade (Top 10)')
plt.xlabel('Número de Vendas')
plt.ylabel('Cidade')
plt.show()

# 7. Distribuição das vendas por loja
plt.figure(figsize=(10,6))
sns.histplot(data['COD_LOJA'], bins=50, kde=False, color='darkorange')
plt.title('Distribuição das Vendas por Loja')
plt.xlabel('Código da Loja')
plt.ylabel('Número de Vendas')
plt.show()

# 8. Distribuição de preços regulares dos produtos
plt.figure(figsize=(8,5))
sns.histplot(data['PRECO_REGULAR'], bins=40, kde=True, color='blue')
plt.title('Distribuição de Preços Regulares dos Produtos')
plt.xlabel('Preço Regular')
plt.ylabel('Frequência')
plt.show()

# 9. Distribuição de vendas ao longo do tempo
data['DATA_CUPOM'] = pd.to_datetime(data['DATA_CUPOM'], errors='coerce')
data['DATA_CUPOM_DATE'] = data['DATA_CUPOM'].dt.date

vendas_por_dia = data.groupby('DATA_CUPOM_DATE').size()

plt.figure(figsize=(10,6))
plt.plot(vendas_por_dia.index, vendas_por_dia.values, color='green')
plt.title('Distribuição de Vendas ao Longo do Tempo')
plt.xlabel('Data')
plt.ylabel('Número de Vendas')
plt.xticks(rotation=45)
plt.show()

# 10. Análise de vendas por quantidade de unidades vendidas
plt.figure(figsize=(8,5))
sns.histplot(data['UNIDADES'], bins=20, kde=True, color='purple')
plt.title('Distribuição de Vendas por Quantidade de Unidades')
plt.xlabel('Unidades Vendidas')
plt.ylabel('Frequência')
plt.show()

# Exibir o resultado da verificação de valores ausentes
missing_values



In [52]:
# Refazendo a análise sem a biblioteca 'missingno', utilizando apenas gráficos nativos de matplotlib e seaborn
data = vendas_spl
# 1. Verificação de valores ausentes (usando gráfico de barras)
missing_values = data.isnull().sum() + data.isna().sum()
missing_values = missing_values[missing_values > 0]


In [None]:

plt.figure(figsize=(6,4))
missing_values.plot(kind='bar', color='skyblue')
plt.title('Valores Ausentes por Coluna')
plt.ylabel('Número de Valores Ausentes')
plt.show()


In [None]:

# 2. Distribuição do sexo dos clientes
plt.figure(figsize=(6,4))
sns.countplot(data=data, x='SEXO_CLIENTE', palette='Set2')
plt.title('Distribuição por Sexo dos Clientes')
plt.xlabel('Sexo')
plt.ylabel('Contagem')
plt.show()


In [None]:

# 3. Distribuição de clientes por faixa etária
# Convertendo a coluna de data de nascimento para datetime e calculando a idade
data['DTNASCIMENTO_CLIENTE'] = pd.to_datetime(data['DTNASCIMENTO_CLIENTE'], errors='coerce')
data['IDADE_CLIENTE'] = 2024 - data['DTNASCIMENTO_CLIENTE'].dt.year

plt.figure(figsize=(6,4))
sns.histplot(data['IDADE_CLIENTE'].dropna(), bins=20, kde=True)
plt.title('Distribuição da Idade dos Clientes')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()


In [None]:
data['CATEGORIA_SKU'].value_counts().index

In [None]:

# 4. Análise das categorias de produtos mais vendidas
plt.figure(figsize=(8,4))
sns.countplot(y='CATEGORIA_SKU', data=data, order=data['CATEGORIA_SKU'].value_counts().index, palette='rocket')
plt.title('Categorias de Produtos Mais Vendidas')
plt.xlabel('Número de Vendas')
plt.ylabel('Categoria')
plt.show()


In [None]:

# 5. Distribuição de descontos aplicados
plt.figure(figsize=(8,4))
sns.histplot(data['TOTAL_DESCONTO'], bins=30, kde=True)
plt.title('Distribuição de Descontos Aplicados')
plt.xlabel('Desconto Total')
plt.ylabel('Frequência')
plt.show()


In [None]:
data.groupby(['COD_LOJA', '']).size()

In [None]:
vendas_por_loja = data.groupby('COD_LOJA').size().reset_index(name='vendas')

#plt.figure(figsize=(10,6))
sns.scatterplot(data=vendas_por_loja, x='COD_LOJA', y='vendas', size='vendas', hue='vendas', palette='rocket')
plt.title('Vendas por Loja')
plt.xlabel('Código da Loja')
plt.ylabel('Número de Vendas')
#plt.grid(True)
plt.show()

In [None]:

# 7. Distribuição das vendas por loja
plt.figure(figsize=(16,6))
sns.catplot(data=vendas_por_loja, kind='box')
plt.title('Distribuição das Vendas por Loja', )
plt.xlabel('Código da Loja')
plt.ylabel('Número de Vendas')
plt.show()


In [None]:

# 8. Distribuição de preços regulares dos produtos
plt.figure(figsize=(8,5))
sns.histplot(data['PRECO_REGULAR'], bins=40, kde=True, color='blue')
plt.title('Distribuição de Preços Regulares dos Produtos')
plt.xlabel('Preço Regular')
plt.ylabel('Frequência')
plt.show()


In [None]:

# 9. Distribuição de vendas ao longo do tempo
data['DATA_CUPOM'] = pd.to_datetime(data['DATA_CUPOM'], errors='coerce')
data['DATA_CUPOM_DATE'] = data['DATA_CUPOM'].dt.date

vendas_por_dia = data.groupby('DATA_CUPOM_DATE').size()

plt.figure(figsize=(10,6))
plt.plot(vendas_por_dia.index, vendas_por_dia.values, color='green')
plt.title('Distribuição de Vendas ao Longo do Tempo')
plt.xlabel('Data')
plt.ylabel('Número de Vendas')
plt.xticks(rotation=45)
plt.show()

# 10. Análise de vendas por quantidade de unidades vendidas
plt.figure(figsize=(8,5))
sns.histplot(data['UNIDADES'], bins=20, kde=True, color='purple')
plt.title('Distribuição de Vendas por Quantidade de Unidades')
plt.xlabel('Unidades Vendidas')
plt.ylabel('Frequência')
plt.show()



# Exibir o resultado da verificação de valores ausentes
missing_values


In [None]:
missing_values = missing_values[['COD_CLIENTE', 'CLIENTE_FISICO_JURIDICO', 'SEXO_CLIENTE','DTNASCIMENTO_CLIENTE', 'IDENTIFICADOR_PROMOCIONAL', 'TOTAL_DESCONTO']]

plt.figure(figsize=(10,6))
missing_values.plot(kind='bar', color='skyblue')
plt.title('Valores Ausentes por Coluna')
plt.ylabel('Número de Valores Ausentes')
plt.xticks(rotation=45)

# Adicionar contagem nas barras
for index, value in enumerate(missing_values[['COD_CLIENTE', 'CLIENTE_FISICO_JURIDICO', 'SEXO_CLIENTE','DTNASCIMENTO_CLIENTE', 'IDENTIFICADOR_PROMOCIONAL', 'TOTAL_DESCONTO']]):
    plt.text(index, value + 1000, str(value), ha='center')

plt.show()

In [None]:
missing_values.index

In [None]:
duplicados = data.duplicated().sum()
print(f"Número de registros duplicados: {duplicados}")

In [None]:
data[data.duplicated()].head(20)

## CAMPANHAS

In [None]:
campanhas[campanhas['IDENTIFICADOR'] == '100301419-62576-1001'].to_pandas()
