# Verificação da Qualidade dos Dados — Cannoli Intelligence


### Leitura dos CSVs

In [None]:
import pandas as pd
import numpy as np

In [None]:
order = pd.read_csv('Order.csv', sep=';')
campaign = pd.read_csv('Campaign.csv', sep=';')
campaign_queue = pd.read_csv('CampaignQueue.csv', sep=';')
customer = pd.read_csv('Customer.csv', sep=';')

print('Bases carregadas!')

Bases carregadas!


### Nulos (contagem e % em cada base)

In [None]:
# Quantidade de valores nulos tem em cada coluna
print('NULOS (contagem)')
print('Order:\n', order.isna().sum())
print('\nCampaign:\n', campaign.isna().sum())
print('\nCampaignQueue:\n', campaign_queue.isna().sum())
print('\nCustomer:\n', customer.isna().sum())

NULOS (contagem)
Order:
 id                         0
companyId                  0
containerId                0
createdAt                  0
customer                   0
displayId                  0
engineId                   0
engineName                 0
engineType                 0
extraInfo               1181
integrated                 0
integrationId              0
isTest                     0
orderTiming                0
orderType                  0
salesChannel               0
scheduledAt              968
status                     0
preparationTime            0
takeOutTimeInSeconds       0
totalAmount                0
updatedAt                  0
version                    0
_createdAt                 0
dtype: int64

Campaign:
 id                0
segmentId         0
templateId        0
storeId           0
name              0
description     405
badge           319
type              0
status            0
isDefault         0
createdAt         0
createdBy         0
updatedAt     

In [None]:
# Porcentagem da quantidade de valores nulos em cada coluna
print('NULOS (%)')
print('Order (%):\n', (order.isna().mean()*100).round(2))
print('\nCampaign (%):\n', (campaign.isna().mean()*100).round(2))
print('\nCampaignQueue (%):\n', (campaign_queue.isna().mean()*100).round(2))
print('\nCustomer (%):\n', (customer.isna().mean()*100).round(2))

NULOS (%)
Order (%):
 id                       0.00
companyId                0.00
containerId              0.00
createdAt                0.00
customer                 0.00
displayId                0.00
engineId                 0.00
engineName               0.00
engineType               0.00
extraInfo               59.05
integrated               0.00
integrationId            0.00
isTest                   0.00
orderTiming              0.00
orderType                0.00
salesChannel             0.00
scheduledAt             48.40
status                   0.00
preparationTime          0.00
takeOutTimeInSeconds     0.00
totalAmount              0.00
updatedAt                0.00
version                  0.00
_createdAt               0.00
dtype: float64

Campaign (%):
 id              0.00
segmentId       0.00
templateId      0.00
storeId         0.00
name            0.00
description    20.25
badge          15.95
type            0.00
status          0.00
isDefault       0.00
createdAt       0

### Duplicados (linhas repetidas)

In [None]:
# Verifica se há valores duplicados em cada base
print('DUPLICADOS')
print('Order:', order.duplicated().sum())
print('Campaign:', campaign.duplicated().sum())
print('CampaignQueue:', campaign_queue.duplicated().sum())
print('Customer:', customer.duplicated().sum())

DUPLICADOS
Order: 0
Campaign: 0
CampaignQueue: 0
Customer: 0


### Categorias (valores únicos em colunas importantes)

In [None]:
# Verifica quais valores diferentes aparecem nas colunas
def uniques_safe(df, col):
    if col in df.columns:
        print(f"{col}:", df[col].dropna().unique())
    else:
        print(f"{col}: coluna não encontrada")

print('Order (categorias)')
uniques_safe(order, 'status')
uniques_safe(order, 'salesChannel')

print('\nCampaign (categorias)')
uniques_safe(campaign, 'status')
uniques_safe(campaign, 'badge')

print('\nCampaignQueue (categorias)')
uniques_safe(campaign_queue, 'status')

print('\nCustomer (categorias)')
uniques_safe(customer, 'status')
uniques_safe(customer, 'gender')


Order (categorias)
status: ['DISPATCHED' 'CONCLUDED' 'CANCELED' 'CONFIRMED' 'PENDING' 'PLACED']
salesChannel: ['ANOTAAI' 'WHATSAPP' 'EPADOCA' '99FOOD' 'SITE' 'IFOOD' 'DELIVERYVIP']

Campaign (categorias)
status: [4 3 2 1]
badge: ['winback' 'loyalty' 'migration' 'seasonal' 'consumption']

CampaignQueue (categorias)
status: [5 4 1 6 2 3]

Customer (categorias)
status: [1 2]
gender: ['O' 'M' 'F']


### Integridade entre tabelas (chaves batendo)

In [None]:
# Verifica se os IDs da CampaignQueue existem também nas tabelas Campaign e Customer
if 'campaignId' in campaign_queue.columns and 'id' in campaign.columns:
    faltando_camp = ~campaign_queue['campaignId'].isin(campaign['id'])
    print('CampaignQueue com campaignId inexistente:', faltando_camp.sum())
else:
    print('Não foi possível checar campaignId (coluna ausente)')

if 'customerId' in campaign_queue.columns and 'id' in customer.columns:
    faltando_cust = ~campaign_queue['customerId'].isin(customer['id'])
    print('CampaignQueue com customerId inexistente:', faltando_cust.sum())
else:
    print('Não foi possível checar customerId (coluna ausente)')

CampaignQueue com campaignId inexistente: 0
CampaignQueue com customerId inexistente: 0


### Checagem de IDs (unicidade)

In [None]:
# Verifica se os IDs da CampaignQueue existem também nas tabelas Order, Campaign, CampaignQueue e Custumor
def check_unique(df, col):
    if col in df.columns:
        nunique = df[col].nunique()
        total = len(df)
        print(f"{col}: {nunique} únicos de {total} linhas (duplicados: {total - nunique})")
    else:
        print(f"{col}: coluna não encontrada")

print('Unicidade de IDs')
check_unique(order, 'id')
check_unique(campaign, 'id')
check_unique(campaign_queue, 'id')
check_unique(customer, 'id')

Unicidade de IDs
id: 2000 únicos de 2000 linhas (duplicados: 0)
id: 2000 únicos de 2000 linhas (duplicados: 0)
id: 5000 únicos de 5000 linhas (duplicados: 0)
id: 1000 únicos de 1000 linhas (duplicados: 0)
