<a href="https://colab.research.google.com/github/italomellors/Data_Analysis_Projects/blob/main/super_market.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🛒 Super Market - Análise de Dados com Python, Google Colab e SQLite

Este projeto apresenta uma análise de dados de supermercado utilizando **Python em Google Colab**, com **persistência dos dados via SQLite** salvo diretamente no **Google Drive**.

Todos os notebooks e arquivos são versionados via **GitHub**, permitindo organização, colaboração e histórico de alterações.

---

## ⚙️ Tecnologias
- Python (pandas, sqlite3, matplotlib, seaborn)
- Google Colab
- Google Drive (armazenamento do banco de dados)
- SQLite (banco local)
- GitHub (versionamento de código)

---

## 🔗 Estrutura do Projeto

1. **Google Drive**: Armazena o banco `super_market.db` de forma persistente.
2. **SQLite**: Gerencia os dados diretamente pelo Colab.
3. **GitHub**: Guarda o código-fonte e notebooks.

---

⚙️ **Como executar o notebook no Colab:**

1️⃣ **Executar tudo de uma vez:**  
Ideal ao abrir o notebook pela primeira vez.  
Vá em **Ambiente de execução > Executar tudo** ou use o atalho `Ctrl+F9`.

2️⃣ **Executar a partir de uma célula:**  
Útil se você já rodou parte do código e quer continuar.  
Clique na célula desejada e vá em **Ambiente de execução > Executar a partir daqui**.

3️⃣ **Executar manualmente (uma por uma):**  
Use `Shift+Enter` em cada célula para rodar individualmente.  
Ótimo para revisar ou testar partes do código.
____________________________________________________________________

# 🛢 Criando o banco de dados 'super_market.db' 🛒💸💰
# 👨‍💻 Iniciando: toda vez que abrir o notebook
🌐 1. Montar o Google Drive: drive.mount('/content/drive')

📁 2. Definir o caminho do banco de dados no Drive

🔌 3. Conectar ao banco SQLite: con = sqlite3.connect(caminho_banco)

📚 4. Importar as bibliotecas (pandas, sqlite3, os, etc.)

⚠️ Verifique se o con.close() está comentado no final para evitar desconexão durante a execução completa

---

**🌐Etapa 1 - Montar o Google Drive (sempre ao abrir o notebook)** : Conecta seu Google Drive ao Colab para acessar e salvar arquivos diretamente, como o banco de dados SQLite.

In [38]:
from google.colab import drive  # Importa a função para conectar o Google Drive no Colab
drive.mount('/content/drive')   # Monta o Drive no diretório /content/drive para acesso aos arquivos

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


🗂️ **Etapa 2 – Definir o caminho do banco de dados no Drive (sempre após montar o Drive):**  
Especificamos o caminho onde o arquivo `super_market.db` será salvo e garantimos que a pasta exista no Google Drive.


In [39]:
import os  # Biblioteca para manipular caminhos e pastas no sistema operacional
caminho_banco = '/content/drive/MyDrive/Colab Notebooks/super_market/super_market.db'  # Caminho completo do banco no Drive
os.makedirs(os.path.dirname(caminho_banco), exist_ok=True)  # Cria a pasta se ainda não existir

🛢 **Etapa 3 – Conectar ao banco SQLite (sempre após definir o caminho):**  Estabelece a conexão com o banco de dados `super_market.db` no Drive.Se o arquivo não existir, será criado automaticamente.

In [40]:
import sqlite3  # Biblioteca para trabalhar com bancos SQLite em Python
con = sqlite3.connect(caminho_banco) # Conecta ao banco usando o caminho definido
con.execute('PRAGMA foreign_keys = ON;') # Ativa a verificação de chaves estrangeiras
cursor = con.cursor() # Cria um cursor para executar comandos SQL

📚 **Etapa 4 - Importando bibliotecas essenciais:**  
Estas bibliotecas são utilizadas ao longo do notebook para análise, visualização e manipulação de dados.

In [41]:
# Lista de bibiliotecas python
from google.colab import drive            # Importa a função para conectar o Google Drive no Colab
import os                                 # Operações com arquivos e diretórios
import sqlite3                            # Conexão e comandos SQL com banco SQLite
import pandas as pd                       # Manipulação de dados com DataFrames
import csv                                # Leitura e escrita de arquivos CSV
import xml.etree.ElementTree as ET        # Para ler, editar e criar arquivos XML
from bs4 import BeautifulSoup             # útil para XMLs não tão bem formatados
import matplotlib.pyplot as plt           # Visualização de dados
import seaborn as sns
import random                    # Visualização de dados
from random import randint                # Numeros aleatorios
from datetime import datetime, timedelta  # Ferramenta de datas

---
# 🛢 Realizando alterações no Banco de dados ⚙️
- Criar, consultar, inserir, atualizar e excluir dados
- Usar pandas, seaborn, matplotlib para análises e visualizações
- Sempre que fizer mudanças no banco, execute: con.commit()

**🚫 O que você não precisa executar sempre:**

- Criar tabelas já existentes
- Inserir dados duplicados
- Clonar GitHub se já foi feito nesta sessão
---

# 𝄜   Criando a tabela `Products`:
Tabela usada para armazenar os produtos disponíveis no sistema.  
Inclui dados como nome do item, categoria, estoque, tipo e preços de compra/venda.  
A coluna `OrderID` funciona como identificador único para cada produto.

In [None]:
cursor.execute("""
    CREATE TABLE IF NOT EXISTS Products (
        OrderID INTEGER PRIMARY KEY AUTOINCREMENT,
        Item TEXT NOT NULL,
        Category TEXT,
        Stock INTEGER DEFAULT 0,
        Type TEXT,
        Purchase_Price REAL NOT NULL,
        Sale_Price REAL CHECK(Sale_Price >= 0)
    )
""")
con.commit()  # 💾 Salva a criação da tabela no banco

### 𝄜 Tabela `Products`:

A tabela `Products` armazena os produtos disponíveis no sistema, contendo informações detalhadas sobre cada item.

#### Principais Colunas:
- **OrderID**: Identificador único para cada produto (chave primária, autoincrementada).
- **Item**: Nome do produto (obrigatório).
- **Category**: Categoria do produto (opcional).
- **Stock**: Quantidade em estoque do produto (padrão: 0).
- **Type**: Tipo do produto (opcional).
- **Purchase_Price**: Preço de compra do produto (obrigatório).
- **Sale_Price**: Preço de venda do produto (não pode ser negativo).

#### Relacionamentos:
- A tabela `Products` é referenciada por outras tabelas, como `Receipt`, através da chave primária `OrderID`, que conecta os produtos vendidos aos recibos de transações.


🔍 Consultar tabelas existentes no banco:
Usado para verificar quais tabelas já foram criadas no banco de dados SQLite.

In [None]:
result = cursor.execute("SELECT name FROM sqlite_master WHERE type='table'")
result.fetchall()

[('Products',), ('sqlite_sequence',), ('Receipt',)]

📑 **Importar e Ler o CSV com pandas**  
Nesta etapa, usamos o pandas para ler o arquivo CSV com os dados dos produtos que serão inseridos no banco de dados.

In [None]:
# Lendo o CSV
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/super_market/products_supermarket.csv')
# Visualiza as primeiras linhas
df.head(5)

Unnamed: 0,Order,Item,Category,Stock,Type,Purchase Price (USD),Sale Price (USD)
0,1,Rice,Basic Foods,120,5kg pack,3.32,4.38
1,2,Beans,Basic Foods,95,1kg pack,1.49,2.11
2,3,Pasta,Basic Foods,150,500g pack,0.56,0.97
3,4,Soybean Oil,Basic Foods,80,900ml bottle,1.2,1.74
4,5,Sugar,Basic Foods,110,1kg pack,0.76,1.14


🛠️ **Renomear colunas para combinar com a tabela SQL**  
Renomeamos as colunas do DataFrame para garantir que os nomes sejam exatamente os mesmos da tabela criada no banco SQLite.

In [None]:
df.rename(columns={
    'Order': 'OrderID',
    'Purchase Price (USD)': 'Purchase_Price',
    'Sale Price (USD)': 'Sale_Price'
}, inplace=True)
con.commit()

🔎 **Verificar se as colunas estão corretas**  
Antes de importar os dados, exibimos os nomes das colunas e as primeiras linhas do DataFrame para conferir se está tudo certo.

In [None]:
print("Colunas do DataFrame:", df.columns.tolist())
df.head()

Colunas do DataFrame: ['OrderID', 'Item', 'Category', 'Stock', 'Type', 'Purchase_Price', 'Sale_Price']


Unnamed: 0,OrderID,Item,Category,Stock,Type,Purchase_Price,Sale_Price
0,1,Rice,Basic Foods,120,5kg pack,3.32,4.38
1,2,Beans,Basic Foods,95,1kg pack,1.49,2.11
2,3,Pasta,Basic Foods,150,500g pack,0.56,0.97
3,4,Soybean Oil,Basic Foods,80,900ml bottle,1.2,1.74
4,5,Sugar,Basic Foods,110,1kg pack,0.76,1.14


🧩 **Inserir dados no banco de dados**  
Percorremos cada linha do DataFrame e inserimos os dados na tabela `Products`, usando `INSERT OR IGNORE INTO

In [None]:
for _, row in df.iterrows():
    cursor.execute("""
        INSERT OR IGNORE INTO Products (OrderID, Item, Category, Stock, Type, Purchase_Price, Sale_Price)
        VALUES (?, ?, ?, ?, ?, ?, ?)
    """, tuple(row))
con.commit()

🧐 **Verificar dados salvos da tabela no banco**  
consulta na tabela para exibir os dados já inseridos e garantir que o processo de importação foi bem-sucedido.

In [None]:
df_produtos = pd.read_sql_query("SELECT * FROM Products", con)
df_produtos.head()  # Mostra as 5 primeiras linhas

Unnamed: 0,OrderID,Item,Category,Stock,Type,Purchase_Price,Sale_Price
0,1,Rice,Basic Foods,120,5kg pack,3.32,4.38
1,2,Beans,Basic Foods,95,1kg pack,1.49,2.11
2,3,Pasta,Basic Foods,150,500g pack,0.56,0.97
3,4,Soybean Oil,Basic Foods,80,900ml bottle,1.2,1.74
4,5,Sugar,Basic Foods,110,1kg pack,0.76,1.14


💯 Total de Produtos inseridos: A quantidade de produtos, importados do '.csv' inseridos na tabela 'Products' do banco de dados 'super-market.db'

In [None]:
df_verificacao = pd.read_sql_query("SELECT * FROM Products", con)
print(f'Total de registros inseridos: {len(df_verificacao)}')

Total de registros inseridos: 100


---
# 🛢 Realizando consultas no banco de dados 🔍
**📑Tabela: Products**
- Nesta etapa, realizamos consultas SQL diretamente no banco de dados SQLite criado.
- As consultas ajudam a explorar, analisar e extrair informações úteis dos dados armazenados,
- facilitando a tomada de decisões e a visualização de padrões.
- Abaixo, seguem consultas úteis para analisar os dados da tabela:
---

🔝 Ver os 10 primeiros produtos

In [None]:
df_primeiros = pd.read_sql_query("SELECT * FROM Products ORDER BY OrderID ASC LIMIT 10", con)
df_primeiros

Unnamed: 0,OrderID,Item,Category,Stock,Type,Purchase_Price,Sale_Price
0,1,Rice,Basic Foods,120,5kg pack,3.32,4.38
1,2,Beans,Basic Foods,95,1kg pack,1.49,2.11
2,3,Pasta,Basic Foods,150,500g pack,0.56,0.97
3,4,Soybean Oil,Basic Foods,80,900ml bottle,1.2,1.74
4,5,Sugar,Basic Foods,110,1kg pack,0.76,1.14
5,6,Salt,Basic Foods,200,1kg pack,0.26,0.53
6,7,Wheat Flour,Basic Foods,75,1kg pack,0.74,1.2
7,8,Cornmeal,Basic Foods,60,500g pack,0.62,1.04
8,9,Milk,Dairy,180,1L carton,0.72,1.14
9,10,Butter,Dairy,65,200g block,1.56,2.37


⬇️ Ver os 10 últimos produtos

In [None]:
df_ultimos = pd.read_sql_query("SELECT * FROM Products ORDER BY OrderID DESC LIMIT 10", con)
df_ultimos

Unnamed: 0,OrderID,Item,Category,Stock,Type,Purchase_Price,Sale_Price
0,100,Cat Litter,Pet,20,4kg bag,3.32,5.26
1,99,Dog Food,Pet,30,1kg pack,2.27,3.5
2,98,Lighter/Match,Household Items,50,Unit,0.26,0.69
3,97,Batteries,Household Items,40,2-unit pack,1.04,2.09
4,96,Candles,Utensils/Disposables,25,3-unit pack,0.69,1.56
5,95,Disposable Cups,Utensils/Disposables,60,20-unit pack,1.04,2.09
6,94,Disposable Plates,Utensils/Disposables,50,10-unit pack,0.86,1.74
7,93,Plastic Wrap,Utensils/Disposables,35,15m roll,1.21,2.27
8,92,Aluminum Foil,Utensils/Disposables,30,15m roll,1.04,1.92
9,91,Trash Bags,Utensils/Disposables,45,30-unit roll,1.56,2.79


🎲 Ver 10 produtos aleatórios

In [None]:
df_aleatorios = pd.read_sql_query("SELECT * FROM Products ORDER BY RANDOM() LIMIT 10", con)
df_aleatorios

Unnamed: 0,OrderID,Item,Category,Stock,Type,Purchase_Price,Sale_Price
0,4,Soybean Oil,Basic Foods,80,900ml bottle,1.2,1.74
1,7,Wheat Flour,Basic Foods,75,1kg pack,0.74,1.2
2,50,Laundry Detergent,Cleaning,50,1kg pack,2.27,3.5
3,35,Beetroot,Produce,30,Kg,0.56,1.09
4,43,Orange Juice,Beverages,40,1L carton,1.04,1.92
5,67,Dental Floss,Personal Care,25,Unit,0.69,1.39
6,84,Ketchup,Ready Foods,40,380g bottle,0.86,1.74
7,41,Papaya,Produce,25,Unit,1.04,2.27
8,25,Pork Chop,Meats,15,1kg tray,4.02,5.78
9,96,Candles,Utensils/Disposables,25,3-unit pack,0.69,1.56


📉 Ver os produtos com estoque abaixo de 20 unidades

In [None]:
df = pd.read_sql_query("SELECT * FROM Products WHERE Stock < 20", con)
df

Unnamed: 0,OrderID,Item,Category,Stock,Type,Purchase_Price,Sale_Price
0,19,Cake,Bakery,15,Slice,0.32,0.79
1,25,Pork Chop,Meats,15,1kg tray,4.02,5.78
2,27,Calabrese Sausage,Deli,18,500g pack,2.2,3.5
3,28,Frozen Fish,Meats,12,1kg pack,4.38,6.49
4,56,Broom,Cleaning,15,Unit,3.32,5.26
5,57,Squeegee,Cleaning,12,Unit,2.79,4.38
6,89,Pancake Mix,Ready Foods,15,200g pack,0.69,1.39


📊 Obter a média de preço de venda por categoria

In [None]:
df = pd.read_sql_query("""
    SELECT Category, AVG(Sale_Price) AS Avarage_Price
    FROM Products
    GROUP BY Category
""", con)
df

Unnamed: 0,Category,Avarage_Price
0,Bakery,1.1625
1,Basic Foods,1.63875
2,Beverages,1.932857
3,Cleaning,2.597778
4,Dairy,1.40375
5,Deli,1.9
6,Household Items,1.39
7,Meats,5.255
8,Meats/Deli,2.62
9,Personal Care,2.25


💰 Ver produtos ordenados do mais caro para o mais barato (preço de venda)

In [None]:
df = pd.read_sql_query("""
    SELECT * FROM Products
    ORDER BY Sale_Price DESC
""", con)
df.head(10)

Unnamed: 0,OrderID,Item,Category,Stock,Type,Purchase_Price,Sale_Price
0,28,Frozen Fish,Meats,12,1kg pack,4.38,6.49
1,25,Pork Chop,Meats,15,1kg tray,4.02,5.78
2,56,Broom,Cleaning,15,Unit,3.32,5.26
3,77,Ice Cream,Snacks/Desserts,25,1.5L tub,3.32,5.26
4,100,Cat Litter,Pet,20,4kg bag,3.32,5.26
5,24,Ground Beef,Meats,20,500g tray,3.25,4.73
6,1,Rice,Basic Foods,120,5kg pack,3.32,4.38
7,57,Squeegee,Cleaning,12,Unit,2.79,4.38
8,23,Chicken Breast,Meats,35,1kg tray,2.79,4.02
9,27,Calabrese Sausage,Deli,18,500g pack,2.2,3.5


🧩 Contar quantos produtos há por Categoria (Category)

In [None]:
df = pd.read_sql_query("""
    SELECT Category, COUNT(*) AS Quantity
    FROM Products
    GROUP BY Category
""", con)
df

Unnamed: 0,Category,Quantity
0,Bakery,4
1,Basic Foods,8
2,Beverages,7
3,Cleaning,9
4,Dairy,8
5,Deli,3
6,Household Items,2
7,Meats,4
8,Meats/Deli,1
9,Personal Care,10


---
## Exemplo de Nota Fiscal Eletrônica do Consumidor (ECI-e) 🧾

*A partir do arquivo `receipt_model.xml` é criado modelo de nota fiscal do mercado e a partir disso vamos construir uma tabela chamada `receipt` no banco de dados e registar as compras dos clientes.*
**Exemplo de nota fiscal** 📄
---

**Receipt Details**  
- **Invoice No.:** 000123  
- **Date & Time:** May 8, 2025, at 2:32 PM  
- **Business Name:** Green Clover Market Ltd.  
- **EIN:** 12-3456789  
- **Address:** 24 Saint Patrick’s Street, Cork, T12 XY76, Ireland  
- **Tax Regime:** Small Business  

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

**Items Sold:**

| Code  | Description       | Quantity | Unit Price |   Total   |
|-------|-------------------|----------|------------|-----------|
| 1001  | Rice 5kg pack     |    1     |   $4.38    |   $4.38   |
| 2002  | Beans 1kg pack    |    2     |   $2.11    |   $4.22   |
| 3003  | Pasta 500g pack   |    3     |   $0.97    |   $2.91   |

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

**Purchase Summary**  
- **Subtotal:** $11.51  

- **Discounts:** $0.00  

- **Product Total:** $11.51  

- **Estimated Taxes (15%):** $1.73  

- **Amount Due:** $11.51  

- **Payment Method:** Debit Card – $11.51  

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

**Access Key:** `43190512345678000190550010000001231000001230`  

*Electronically issued fiscal document. Thank you for your purchase! Come again.*

---





## Explorando a estrutura de um arquivo XML

Neste passo, vamos criar uma função chamada `explorar_xml()` que permite visualizar a estrutura completa de qualquer arquivo XML, mesmo sem saber previamente como ele está organizado.

A função mostra:
- A tag raiz do XML
- Todas as tags principais (como Header, Items, Totals, etc.)
- As subtags e os valores de cada uma

Esse processo é útil para entender a hierarquia do XML antes de transformá-lo em tabelas ou banco de dados.

**Formatar o XML bruto 😵** (apenas para xml não formatados)

Nesta etapa, usamos a função `formatar_xml()` para organizar um arquivo XML que pode estar todo em uma única linha (sem indentação ou quebras de linha).
A função lê o XML original e salva uma nova versão "limpa" e formatada, que será mais fácil de visualizar e explorar na próxima etapa.


In [None]:
# @title
'''from bs4 import BeautifulSoup  # Importa a biblioteca usada para organizar e "embelezar" XMLs

# Caminho do XML original (desformatado)
file_path = '/content/drive/MyDrive/Colab Notebooks/super_market/.xml'

# Caminho do novo XML organizado que será salvo
output_path = '/content/drive/MyDrive/Colab Notebooks/super_market/_formatado.xml'

def formatar_xml(input_path, output_path):
    """
    Lê um XML bruto (sem recuo ou indentação) e salva uma versão bonita e organizada.
    """

    # Abre o arquivo XML original em modo leitura
    with open(input_path, 'r', encoding='utf-8') as file:
        raw_xml = file.read()  # Lê o conteúdo inteiro do XML como texto puro (string)

    # Usa BeautifulSoup para interpretar o XML e prepará-lo para indentação
    soup = BeautifulSoup(raw_xml, 'xml')

    # Abre (ou cria) um novo arquivo para escrever o XML formatado
    with open(output_path, 'w', encoding='utf-8') as file:
        file.write(soup.prettify())  # Escreve o conteúdo XML com indentação (quebras de linha e recuo)'''

**Explorar a estrutura do XML </>**

Aqui usamos a função `explorar_xml()` para visualizar a estrutura hierárquica completa do XML formatado na etapa anterior.

A função percorre todas as tags e subtags de forma recursiva, exibindo o nome das tags e os valores, com indentação para facilitar o entendimento da hierarquia do documento.


In [None]:
import xml.etree.ElementTree as ET  # Biblioteca padrão para leitura e navegação de arquivos XML

# Caminho do arquivo XML que já está formatado corretamente
file_path = '/content/drive/MyDrive/Colab Notebooks/super_market/receipt_model.xml'

# Função que explora a estrutura de um arquivo XML
def explorar_xml(file_path):
    # Função interna recursiva que percorre os elementos do XML e exibe sua estrutura
    def explorar_elemento(elemento, nivel=0):
        indent = "   " * nivel  # Cria recuo visual com base no nível (profundidade) do elemento no XML

        # Verifica se o elemento possui filhos (ou seja, se ele tem tags dentro dele)
        if list(elemento):
            print(f"{indent}🔹 <{elemento.tag}>")  # Imprime o nome da tag com um símbolo visual de profundidade
            # Percorre todos os filhos do elemento atual e chama a função recursivamente para cada um deles
            for filho in elemento:
                explorar_elemento(filho, nivel + 1)  # Aprofunda no próximo nível de hierarquia
        else:
            # Caso o elemento não tenha filhos, exibe a tag e o valor do elemento
            print(f"{indent}↳ <{elemento.tag}>: {elemento.text}")

    # Lê o arquivo XML e cria uma árvore de elementos a partir dele
    tree = ET.parse(file_path)

    # Obtém a tag raiz do XML (primeiro nível do documento, geralmente algo como <Invoice> ou <Receipt>)
    root = tree.getroot()

    # Exibe o nome da tag raiz (inicial do XML) e inicia a exploração do conteúdo
    print(f"📌 XML root: <{root.tag}>\n")

    # Chama a função recursiva para explorar todos os elementos dentro do XML
    explorar_elemento(root)

# Verificando se o arquivo está acessível e chamando a função
try:
    explorar_xml(file_path)  # Chama a função que explora o XML
except Exception as e:  # Captura qualquer erro e exibe uma mensagem
    print(f"Erro ao processar o XML: {e}")

📌 XML root: <Receipt>

🔹 <Receipt>
   🔹 <Header>
      ↳ <ReceiptNumber>: 000123
      ↳ <Date>: 2025-05-08
      ↳ <Time>: 14:32:00
      ↳ <Section>: 01
   🔹 <Emitter>
      ↳ <EIN>: 12-3456789
      ↳ <BusinessName>: Green Clover Market Ltd.
      ↳ <Address>: 24 Saint Patrick’s Street, Cork, T12 XY76, Ireland
      ↳ <TaxRegistration>: 123456789000
      ↳ <TaxRegime>: Small Business
   🔹 <Items>
      🔹 <Item>
         ↳ <Code>: 1001
         ↳ <Description>: Rice 5kg pack
         ↳ <Quantity>: 1
         ↳ <Unit>: UN
         ↳ <UnitPrice>: 4.38
         ↳ <Total>: 4.38
      🔹 <Item>
         ↳ <Code>: 2002
         ↳ <Description>: Beans 1kg pack
         ↳ <Quantity>: 2
         ↳ <Unit>: UN
         ↳ <UnitPrice>: 2.11
         ↳ <Total>: 4.22
      🔹 <Item>
         ↳ <Code>: 3003
         ↳ <Description>: Pasta 500g pack
         ↳ <Quantity>: 3
         ↳ <Unit>: UN
         ↳ <UnitPrice>: 0.97
         ↳ <Total>: 2.91
   🔹 <Totals>
      ↳ <Subtotal>: 11.51
      ↳ <Disc

Criando a tabela Re

# 𝄜 Criando a tabela Receipt:

Tabela usada para armazenar os recibos de transações no sistema, representando as vendas realizadas.

Inclui dados como data e hora da venda, seção, código do produto, quantidade, preço, total, impostos, descontos e método de pagamento.

A coluna ReceiptID funciona como identificador único para cada transação, e a coluna Code é uma chave estrangeira que se refere ao OrderID da tabela Products, conectando o recibo ao produto vendido.

In [None]:
# Criação da tabela Receipt
cursor.execute('''
CREATE TABLE IF NOT EXISTS Receipt (
    ReceiptID INTEGER PRIMARY KEY AUTOINCREMENT,
    Date DATE NOT NULL,
    Time TIME NOT NULL,
    Section INTEGER,
    Code INTEGER,
    Quantity INTEGER NOT NULL,
    Unit VARCHAR(10) DEFAULT 'un',
    Price REAL CHECK(Price >= 0),
    Total DECIMAL(10,2) NOT NULL,
    Taxes DECIMAL(10,2) DEFAULT 0,
    Payment VARCHAR(30) NOT NULL,
    Discounts DECIMAL(10,2) DEFAULT 0,
    Amount DECIMAL(10,2) DEFAULT 0,
    AccessKey INTEGER UNIQUE,
    FOREIGN KEY (Code) REFERENCES Products(OrderID)  -- Chave estrangeira
)
''')

# Confirma a criação da tabela
con.commit()

### 𝄜 Tabela `Receipt`:

A tabela `Receipt` armazena os recibos de transações realizadas no sistema, representando as vendas de produtos.

#### Principais Colunas:
- **ReceiptID**: Identificador único para cada recibo (chave primária).
- **Date**: Data da transação (obrigatória).
- **Time**: Hora da transação (obrigatória).
- **Section**: Seção ou área relacionada à venda.
- **Code**: Chave estrangeira que faz referência ao `OrderID` na tabela `Products`, conectando a transação ao produto vendido.
- **Quantity**: Quantidade de unidades do produto vendidas (obrigatória).
- **Unit**: Unidade de medida do produto (padrão: "un").
- **Price**: Preço unitário do produto (deve ser maior ou igual a zero).
- **Total**: Valor total da venda (obrigatório).
- **Taxes**: Valor de impostos aplicados à transação (padrão: 0).
- **Payment**: Método de pagamento utilizado (obrigatório).
- **Discounts**: Valor de descontos aplicados à transação (padrão: 0).
- **Amount**: Valor final após descontos e impostos (padrão: 0).
- **AccessKey**: Chave única associada à transação, utilizada para controle e segurança.

#### Relacionamentos:
- **Code (FOREIGN KEY)**: Conecta o recibo ao produto, referenciando a tabela `Products`.


Verificar colunas das tabelas criadadas

In [None]:
# Function to display the columns of a table
def show_columns(table):
    cursor.execute(f"PRAGMA table_info({table})")
    columns = cursor.fetchall()
    print(f"Columns in the {table} table:")
    for column in columns:
        print(f"- {column[1]}")  # column[1] is the column name

# Check the columns in the 'Products' and 'Receipt' tables
show_columns('Products')
show_columns('Receipt')

Columns in the Products table:
- OrderID
- Item
- Category
- Stock
- Type
- Purchase_Price
- Sale_Price
Columns in the Receipt table:
- ReceiptID
- Date
- Time
- Section
- Code
- Quantity
- Unit
- Price
- Total
- Taxes
- Payment
- Discounts
- Amount
- AccessKey


### Passos para atualizar dados com Python + SQLite com verificação e segurança (genérico + exemplo)

1. Conecte ao banco de dados e crie um cursor (caso desconectado)

 `con = sqlite3.connect('banco.db'); cursor = con.cursor()`

2. Leia os dados que você deseja alterar  
`cursor.execute("SELECT id, Stock FROM Products WHERE id = ?", (1,))`  
`dados = cursor.fetchone()`

3. Salve o valor original em uma variável para possível reversão  
`original_value = dados[1]  # estoque original = 10`

4. Faça os cálculos ou alterações necessárias em Python  
`new_value = original_value - 5`

5. Verifique o novo valor manualmente ou com condição lógica  
`if new_value >= 0:`

6. Atualize o banco de dados com o novo valor de forma segura  
`cursor.execute("UPDATE Products SET Stock = ? WHERE id = ?", (new_value, 1))`

7. Confirme as alterações feitas com `commit()`  
`con.commit()`

8. (Opcional) Caso detecte erro, reverta a alteração com o valor salvo  
`cursor.execute("UPDATE Products SET Stock = ? WHERE id = ?", (original_value, 1)); con.commit()`

9. (Opcional) Verifique se os dados foram atualizados corretamente  
`cursor.execute("SELECT Stock FROM Products WHERE id = ?", (1,)); print(cursor.fetchone())`

10. Feche a conexão com o banco de dados (fechando o colab)

 `con.close()`

Dica: Esse processo funciona para qualquer tabela e coluna. Sempre leia os dados antes, calcule fora do SQL e atualize com parâmetros `?` para garantir segurança.


In [42]:
cursor.execute("SELECT * FROM Products")
list_products_supermarket = cursor.fetchall()
total_products_supermarket = len(list_products_supermarket)
print(f'Total de produtos: {total_products_supermarket}')
# for i in products_supermarket:
  # print(i)
# Reg
registration_product_select = []
number_registration = 0

Total de produtos: 100


In [None]:
df_products = pd.read_sql_query("SELECT * FROM Products", con)
# Criando uma lista com os nomes das colunas 'products'
columns_product = list(df_products.columns)
print(f'Colunas Products: {columns_product}')
# Lendo os dados da tabela Receipt
df_receipt = pd.read_sql_query("SELECT * FROM Receipt", con)
# Criando uma lista com os nomes das colunas 'receipt'
columns_receipt = list(df_receipt.columns)
print(f'Colunas Receipt: {columns_receipt}')

Colunas Products: ['OrderID', 'Item', 'Category', 'Stock', 'Type', 'Purchase_Price', 'Sale_Price']
Colunas Receipt: ['ReceiptID', 'Date', 'Time', 'Section', 'Code', 'Quantity', 'Unit', 'Price', 'Total', 'Taxes', 'Payment', 'Discounts', 'Amount', 'AccessKey']


In [43]:
#lista de produtos selecionados (tupla)
print('---'*20)
print('Lista de produtos selecionados do mercado (tupla)')
print('---'*20)
products_select_list = []
limit = random.randint(1, 10)
cursor.execute("SELECT * FROM Products ORDER BY RANDOM() LIMIT ?", (limit,)) # consulta de produtos aleatorios
products_select_list = cursor.fetchall()  # insere em uma lista de tuplas
print(f'Quantodade de produtos: {len(products_select_list)}')
for i in products_select_list:
  print(i)
print('---'*20)
print('Lista de produtos selecionados do mercado (dicionário)')
print('---'*20)
# produtos selcionado (dicionário)
products_select_dict = []
for product in products_select_list:
    # Convertendo cada tupla em um dicionário
    product_dict = dict(zip(columns_product, product))
    products_select_dict.append(product_dict)
# Exibindo a lista de dicionários
quantity_products_select = len(products_select_dict)
print(f'Quantodade de produtos: {quantity_products_select}')
number_registration = number_registration + quantity_products_select
for i in products_select_dict:
  print(i)
print('---'*20)
print(f'Colunas Receipt: {columns_receipt}')
print('---'*20)
print('Lista de compras (dicionário)')
print('---'*20)

------------------------------------------------------------
Lista de produtos selecionados do mercado (tupla)
------------------------------------------------------------
Quantodade de produtos: 3
(1, 'Rice', 'Basic Foods', 120, '5kg pack', 3.32, 4.38)
(14, 'Cream Cheese', 'Dairy', 55, '200g tub', 0.91, 1.56)
(17, 'French Bread', 'Bakery', 200, 'Unit', 0.06, 0.18)
------------------------------------------------------------
Lista de produtos selecionados do mercado (dicionário)
------------------------------------------------------------
Quantodade de produtos: 3
{'OrderID': 1, 'Item': 'Rice', 'Category': 'Basic Foods', 'Stock': 120, 'Type': '5kg pack', 'Purchase_Price': 3.32, 'Sale_Price': 4.38}
{'OrderID': 14, 'Item': 'Cream Cheese', 'Category': 'Dairy', 'Stock': 55, 'Type': '200g tub', 'Purchase_Price': 0.91, 'Sale_Price': 1.56}
{'OrderID': 17, 'Item': 'French Bread', 'Category': 'Bakery', 'Stock': 200, 'Type': 'Unit', 'Purchase_Price': 0.06, 'Sale_Price': 0.18}
-------------------

### `timedelta` em Python

O `timedelta` é uma classe da biblioteca `datetime` usada para representar **diferenças de tempo** entre duas datas ou horas. Ele pode ser utilizado para **adicionar** ou **subtrair** intervalos de tempo (em dias, segundos e microssegundos).

#### Principais Usos:
1. **Adicionar/Subtrair tempo**:
   - Exemplo: Adicionar 10 dias a uma data ou subtrair 2 dias.

   from datetime import datetime, timedelta

   data = datetime(2025, 1, 1)

   nova_data = data + timedelta(days=10) # Saída: 2025-01-11 00:00:00


In [None]:
import pandas as pd
import random
from datetime import datetime, timedelta

# Intervalo de datas (só o dia)
data_inicial = datetime(2025, 1, 1)
data_final   = datetime(2025, 5, 9)

quantidade = random.randonint(100,1000)

# Função para gerar data aleatória
def gerar_data_aleatoria(inicio, fim):
    dias = (fim - inicio).days
    dia_aleatorio = random.randint(0, dias)
    return inicio + timedelta(days=dia_aleatorio)

# Função para gerar hora aleatória dentro do intervalo
def gerar_hora_aleatoria(hora_inicio=8, hora_fim=18):
    hora = random.randint(hora_inicio, hora_fim - 1)
    minuto = random.randint(0, 59)
    segundo = random.randint(0, 59)
    return f"{hora:02d}:{minuto:02d}:{segundo:02d}"

# Gerar registros
dados = []
for _ in range(quantidade):
    data = gerar_data_aleatoria(data_inicial, data_final)
    hora = gerar_hora_aleatoria(8, 18)  # entre 08:00 e 18:00
    dados.append({
        'Date': data.strftime('%d/%m/%y'),
        'Time': hora
    })

# Criar DataFrame
df = pd.DataFrame(dados)

# Ordenar por data e hora
df['DateTime'] = pd.to_datetime(df['Date'] + ' ' + df['Time'], format='%d/%m/%y %H:%M:%S')
df.sort_values(by='DateTime', inplace=True)
df.drop(columns=['DateTime'], inplace=True)

# Visualiza os primeiros
print(df.head(10))
# df.to_csv('/content/drive/MyDrive/Colab Notebooks/super_market/Receipt_data.csv', index=False)

In [53]:
# Lendo o CSV
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/super_market/receipt_data.csv')
# Visualiza as primeiras linhas
df.head(10)

Unnamed: 0,date_receipt,time_receipt
0,01/01/25,08:01:26
1,01/01/25,11:56:54
2,01/01/25,12:27:43
3,01/01/25,14:34:47
4,01/01/25,15:33:00
5,01/01/25,16:33:58
6,02/01/25,11:09:52
7,02/01/25,11:51:20
8,02/01/25,13:00:37
9,02/01/25,14:18:10


In [54]:
total_registred = len(df)
print(f'Total de registros: {total_registred}')

Total de registros: 731


Renomeando as colunas do csv Receipt_date: a coluna contendo os dias e os horarios do registro:

In [84]:
df.rename(columns={
    'date_receipt': 'Date',
    'time_receipt': 'Time',
}, inplace=True)
con.commit()

In [85]:
print("Colunas do DataFrame:", df.columns.tolist())
df.head(20)

Colunas do DataFrame: ['Date', 'Time']


Unnamed: 0,Date,Time
0,2025-01-01,08:01:26
1,2025-01-01,11:56:54
2,2025-01-01,12:27:43
3,2025-01-01,14:34:47
4,2025-01-01,15:33:00
5,2025-01-01,16:33:58
6,2025-01-02,11:09:52
7,2025-01-02,11:51:20
8,2025-01-02,13:00:37
9,2025-01-02,14:18:10


In [83]:
# Lê o CSV
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/super_market/receipt_data.csv')
recept_registrarion_days = []
# Converte a data no formato exato 'dd/mm/yy'
df['date_receipt'] = pd.to_datetime(df['date_receipt'], format='%d/%m/%y')

# Agrupa por data e conta quantos registros há em cada dia
receipt_day = df.groupby('date_receipt')['time_receipt'].count()

# Ordena pela data
receipt_day = receipt_day.sort_index()
# Exibe os primeiros registros
print(receipt_day.head(10))
total_days = len(receipt_day)
recept_registrarion_days = list(receipt_day)
print(f'Total de dias: {total_days}')
print(f'lista registradas {len(recept_registrarion_days)}')
for i in range(0,10):
  print(f'Dia {i+1}: {recept_registrarion_days[i]}')

date_receipt
2025-01-01     6
2025-01-02     4
2025-01-03     7
2025-01-04    10
2025-01-05     8
2025-01-06     1
2025-01-07     5
2025-01-08     8
2025-01-09     6
2025-01-10     4
Name: time_receipt, dtype: int64
Total de dias: 129
lista registradas 129
Dia 1: 6
Dia 2: 4
Dia 3: 7
Dia 4: 10
Dia 5: 8
Dia 6: 1
Dia 7: 5
Dia 8: 8
Dia 9: 6
Dia 10: 4


Inserindo na tabelas receipt

Conferir a tabela: Receipt

In [52]:
cursor.execute("SELECT * FROM Receipt")
list_receipt = cursor.fetchall()
total_receipt = len(list_receipt)
print(f'Total de registros: {total_receipt}')
# for i in list_receipt:
  # print(i)

Total de registros: 0


In [None]:
'''
# inserindo dados no dicionário
receipt_info_dict['Date'] = Date_receipt  # Date
receipt_info_dict['Time'] = Time_receipt  # Time
receipt_info_dict['Section'] = Section_receipt # Section
receipt_info_dict['Code'] = products_select_dict[0]['OrderID']
receipt_info_dict['Quantity'] = Quantity_receipt # Quantity
receipt_info_dict['Unit'] = Unit_receipt # Unit
receipt_info_dict['Price'] = products_select_dict[0]['Sale_Price']
receipt_info_dict['Total'] = Total_receipt # Total
receipt_info_dict['Taxes'] = Taxes_receipt # Taxes
receipt_info_dict['Payment'] = Payment_receipt # Payment
receipt_info_dict['Discounts'] = Discounts_receipt # Discouints
receipt_info_dict['Amount'] = Amount_receipt # Amount
receipt_info_dict['AccessKey'] = AccessKey_receipt # Acces Key
# exibindo na tela
for i in receipt_info_dict:
  print(f'{i}: {receipt_info_dict[i]}')'''

Date: 2025-05-09
Time: 14:30
Section: 1
Code: 4
Quantity: 2
Unit: un
Price: 1.74
Total: 3.48
Taxes: 0.35
Payment: Cash
Discounts: 0.5
Amount: 2.83
AccessKey: ABC123XYZ


---
# 📥 Antes de fechar o notebook:
- 💾 Execute con.commit() para salvar tudo
- ⛔ Execute con.close() para desconectar com segurança
- 🗃️ Confirme que o arquivo foi salvo no Google Drive
---

💾 **Salvar alterações no banco de dados**  
Executamos `con.commit()` para confirmar as alterações e garantir que os dados fiquem salvos de forma permanente.

In [None]:
con.commit()
print("✅ Dados importados com sucesso para o banco SQLite!")

✅ Dados importados com sucesso para o banco SQLite!


### 🔒 Executar esta célula SOMENTE ao finalizar todo o trabalho com o banco. retirar cometarios (#)
🔌 **Fechar a conexão com o banco**  
Fechamos a conexão com o SQLite após terminar as operações, liberando recursos do sistema.

In [None]:
#🔒 Fechar conexão com o banco de dados (só executar ao finalizar tudo)
#Use esta célula apenas quando terminar TODAS as edições e inserções no banco
con.close()
print("✅ Banco de dados desconectado com sucesso.")

✅ Banco de dados desconectado com sucesso.


---
# ⚙️ Coisas opcionais:
- Fazer backup no GitHub
- Baixar o .db localmente
- Comentar o con.close() se quiser continuar testando
- Deixar este checklist visível e organizado no topo do notebook
---

👨‍💻 **Salvar no GitHub**  
Após as alterações, podemos fazer backup do notebook e/ou do banco de dados, enviando-os para um repositório no GitHub como forma de controle de versão.

In [None]:
# @title
'''# ☁️ Etapa: Backup automático no GitHub (com token oculto)

from getpass import getpass  # Para ocultar a digitação do token
import shutil

# 🔐 Digitar token manualmente (não aparece na tela)
token = getpass("Digite seu GitHub Personal Access Token (oculto): ")

# Seus dados do repositório
usuario = "italomellors"
repositorio = "Data_Analysis_Projects"

# 🧲 Clonar o repositório (só uma vez por sessão)
!git clone https://{token}:x-oauth-basic@github.com/{usuario}/{repositorio}.git

# 📂 Mudar para a pasta do repositório clonado
%cd {repositorio}

# 📁 Copiar o banco do Drive para o repositório local
shutil.copy('/content/drive/MyDrive/Colab Notebooks/super_market/super_market.db', './super_market.db')

# ✅ Git: Preparar, registrar e enviar os arquivos
!git status
!git add super_market.db
!git commit -m "Backup automático do banco de dados SQLite"
!git push'''