In [6]:
import mysql.connector
from mysql.connector import Error
import pandas as pd

#### Conectando ao MySQL Server

In [7]:
# Função para conectar ao banco do My SQL

def create_server_connection(host_name, user_name, user_password):
    connection = None
    try:
        connection = mysql.connector.connect(
            host = host_name,
            user = user_name,
            passwd = user_password
        )
        print("Conexão com a base de dados do MySQL bem sucedida!")
    except Error as err:
        print(f"Erro: '{err}'")
    
    return connection

Na primeira linha, damos um nome à função (create_server_connection) e aos seus argumentos (host_name, user_name e user_password).
Na linha seguinte, encerramos quaisquer conexões existentes para que o servidor não fique confuso com várias conexões abertas.

In [8]:
pw = '1234'
connection = create_server_connection('localhost','root',pw)

Conexão com a base de dados do MySQL bem sucedida!


#### Criando um novo banco de dados

In [9]:
# Função que executa uma query para criar um banco de dados

def create_database(connection, query):
    cursor = connection.cursor()
    try:
        cursor.execute(query)
        print("Database created successfully")
    except Error as err:
        print(f"Error: '{err}'")

Essa função recebe dois argumentos, connection (nosso objeto de conexão) e query (um código SQL que escreveremos na próxima etapa). Ela executa a consulta no servidor através da conexão.

## Projeto - Análise de Compras no Supermercado

O projeto consiste na análise de compras das notas fiscais do Supermercado Mateus (ou filiais). A ideia é modelar um banco, com base nos itens presentes nas notas fiscais, e criar um registro dos dados. Após um certo numero de notas, será dado prosseguimento com a análise dos itens mais comprados, frequência de compras, variação no preço, etc.
Estão previstas as seguintes etapas:
- 1 Modelagem do Banco de dados (etapa atual - 16/02/2025)
- 2 Interface para inserção de dados
- 3 Análise dos dados

### Modelagem do Banco

In [5]:
create_database_query = 'CREATE DATABASE supermercado'
create_database(connection, create_database_query)

Database created successfully


Uma vez criado o nome, agora é possível passar o banco que será utilizado nesse projeto e modificar a função creade_db_connection:

In [10]:
# Nova versão da função para conectar ao banco do My SQL

def create_db_connection(host_name, user_name, 
                             user_password, db_name):
    connection = None
    try:
        connection = mysql.connector.connect(
            host = host_name,
            user = user_name,
            passwd = user_password,
            database = db_name
            
        )
        print("Conexão com a base de dados do MySQL bem sucedida!")
    except Error as err:
        print(f"Erro: '{err}'")
    
    return connection

#### Função para execução de consultas

In [11]:
def execute_query(connection, query):
    cursor = connection.cursor()
    try:
        cursor.execute(query)
        connection.commit()
        print("Query bem sucedida!")
    except Error as err:
        print(f"Error: '{err}'")

#### Criando as Tabelas do banco

In [12]:
# Notação em aspas triplas pois a criação das tabelas necessita de multiplas linhas
create_tabela_nota = """
    CREATE TABLE nota (
    Codigo_prod BIGINT PRIMARY KEY,
    Descricao VARCHAR(255) NOT NULL,
    Quantidade DECIMAL (5,3) NOT NULL,
    ValorUnit DECIMAL (5,2) NOT NULL,
    Local VARCHAR(255) NOT NULL,
    Data DATE NOT NULL);
"""

In [37]:
connection = create_db_connection("localhost", "root", pw, 'supermercado') # Connect to the Database
execute_query(connection, create_tabela_nota) # Execute our defined query

Conexão com a base de dados do MySQL bem sucedida!
Query bem sucedida!


#### Inserindo dados 

In [38]:
query = """
    INSERT INTO nota (Codigo_prod, Descricao, 
    Quantidade, ValorUnit, Local, Data) VALUES 
    (02900004362778, 'Vinagreira', 1, 3.09, 'COHATRAC IV', '2025-01-06'),
    (02900004362259, 'Jongome', 1, 2.09, 'COHATRAC IV', '2025-01-06'),
    (02900000024724, 'Bisteca Suina Congelada (Kg)', 0.424, 22.99, 'COHATRAC IV', '2025-01-06'),
    (02900000091252, 'Cozidao Bovino (Kg)', 0.728, 26.99, 'COHATRAC IV', '2025-01-06'),
    (07896419728870, 'File Peito Lar Bdj (Kg)', 1, 23.9, 'COHATRAC IV', '2025-01-06'),
    (07896015601164, 'Areia para Gato Tidy Cat (2 Kg)', 1, 32.55, 'COHATRAC IV', '2025-01-06'),
    (02900000014060, 'Batatinha Lav (Kg)', 0.575, 7.99, 'COHATRAC IV', '2025-01-06'),
    (02900004361467, 'Maxixe e Quiabo (Kg)', 0.230, 22.49, 'COHATRAC IV', '2025-01-06'),
    (02900000777835, 'Brocolis Ninja (Kg)', 0.264, 38.99, 'COHATRAC IV', '2025-01-06'),
    (00192505231918, 'Pimenta Preta Moida 30g', 1, 3.59, 'COHATRAC IV', '2025-01-06'),
    (07000002684287, 'Bolo caseiro da vovo laranja 430g', 1, 9.99, 'COHATRAC IV', '2025-01-06'),
    (07898211383813, 'Oleo Capilar Keratex Alecrim 60 mL', 2, 9.99, 'COHATRAC IV', '2025-01-06'),
    (07898211383837, 'Oleo Capilar Keratex Abacaxi 60 mL', 1, 9.99, 'COHATRAC IV', '2025-01-06'),
    (07899676510950, 'Açucar cristal Blanco 1Kg', 1, 3.69, 'COHATRAC IV', '2025-01-06'),
    (07899602500868, 'Seleta de legumes quero Sh 170g', 1, 4.85, 'COHATRAC IV', '2025-01-06'),
    (07896029047101, 'Ração para gato Whiskas JR carne 85g', 1, 2.49, 'COHATRAC IV', '2025-01-06'),
    (07896029046562, 'Ração para gato Whiskas AD atum 85g', 1, 2.49, 'COHATRAC IV', '2025-01-06');
"""

In [None]:
query2 = """INSERT INTO nota (Codigo_prod, Descricao, Quantidade, ValorUnit, Local, Data) VALUES 
    (07898957749256, 'Uva Vitoria 500g', 1, 7.99, 'COHATRAC IV', '2025-02-12'),
    (02900002715484, 'Maçã Kg', 0.680, 9.99, 'COHATRAC IV', '2025-02-12'),
    (02900000087811, 'Abacate Kg', 0.480, 6.99, 'COHATRAC IV', '2025-02-12'),
    (02900000087545, 'Melão Kg', 1.795, 3.49, 'COHATRAC IV', '2025-02-12'),
    (07891008121728, 'Choc Branco Garoto',1, 8.89, 'COHATRAC IV','2025-02-12');
"""

In [13]:
connection = create_db_connection("localhost", "root", pw, 'supermercado') # Connect to the Database
execute_query(connection, query) # Execute our defined query

Conexão com a base de dados do MySQL bem sucedida!
Error: 'Unread result found'


#### Calculando o valor da compra

In [14]:
# Pega apenas o primeiro resultado
# A função a seguir retorna o valor obtido na execução da query

def execute_query(connection, query):
    cursor = connection.cursor()
    cursor.execute(query)
    result = cursor.fetchone()  # Retorna uma tupla (ex: (150.75,))
    cursor.close()
    
    return result[0] if result else None  # Retorna apenas o valor numérico



In [15]:
query = 'SELECT SUM(Quantidade * ValorUnit) AS valor_total FROM nota;'
connection = create_db_connection("localhost", "root", pw, 'supermercado')
print("O valor total gasto foi: R${:.2f}".format(execute_query(connection, query)))

Conexão com a base de dados do MySQL bem sucedida!
O valor total gasto foi: R$201.45


## Formatando os dados numa lista


Como analista de dados, é provável que você entre em contato com bancos de dados existentes nas organizações em que trabalha. Será muito útil saber como extrair dados desses bancos de dados para que possam ser alimentados em seu pipeline de dados em Python. 

In [19]:
def read_query(connection, query):
    cursor = connection.cursor()
    result = None
    try:
        cursor.execute(query)
        result = cursor.fetchall()
        return result
    except Error as err:
        print(f"Error: '{err}'")

In [21]:
q1 = """
SELECT *
FROM nota;
"""

connection = create_db_connection("localhost", "root", pw, 'supermercado')
results = read_query(connection, q1)

for result in results:
  print(result)

Conexão com a base de dados do MySQL bem sucedida!
(192505231918, 'Pimenta Preta Moida 30g', Decimal('1.000'), Decimal('3.59'), 'COHATRAC IV', datetime.date(2025, 1, 6))
(2900000014060, 'Batatinha Lav (Kg)', Decimal('0.575'), Decimal('7.99'), 'COHATRAC IV', datetime.date(2025, 1, 6))
(2900000024724, 'Bisteca Suina Congelada (Kg)', Decimal('0.424'), Decimal('22.99'), 'COHATRAC IV', datetime.date(2025, 1, 6))
(2900000087545, 'Melão Kg', Decimal('1.795'), Decimal('3.49'), 'COHATRAC IV', datetime.date(2025, 2, 12))
(2900000087811, 'Abacate Kg', Decimal('0.480'), Decimal('6.99'), 'COHATRAC IV', datetime.date(2025, 2, 12))
(2900000091252, 'Cozidao Bovino (Kg)', Decimal('0.728'), Decimal('26.99'), 'COHATRAC IV', datetime.date(2025, 1, 6))
(2900000777835, 'Brocolis Ninja (Kg)', Decimal('0.264'), Decimal('38.99'), 'COHATRAC IV', datetime.date(2025, 1, 6))
(2900002715484, 'Maçã Kg', Decimal('0.680'), Decimal('9.99'), 'COHATRAC IV', datetime.date(2025, 2, 12))
(2900004361467, 'Maxixe e Quiabo (Kg

### Formatando os resultados em uma lista

In [22]:
#Inicializa uma lista vazia 
from_db = []

# Percorrer os resultados e inseri-los à lista

# Retorna uma lista de tuplas
for result in results:
  result = result
  from_db.append(result)

In [23]:
print(from_db)

[(192505231918, 'Pimenta Preta Moida 30g', Decimal('1.000'), Decimal('3.59'), 'COHATRAC IV', datetime.date(2025, 1, 6)), (2900000014060, 'Batatinha Lav (Kg)', Decimal('0.575'), Decimal('7.99'), 'COHATRAC IV', datetime.date(2025, 1, 6)), (2900000024724, 'Bisteca Suina Congelada (Kg)', Decimal('0.424'), Decimal('22.99'), 'COHATRAC IV', datetime.date(2025, 1, 6)), (2900000087545, 'Melão Kg', Decimal('1.795'), Decimal('3.49'), 'COHATRAC IV', datetime.date(2025, 2, 12)), (2900000087811, 'Abacate Kg', Decimal('0.480'), Decimal('6.99'), 'COHATRAC IV', datetime.date(2025, 2, 12)), (2900000091252, 'Cozidao Bovino (Kg)', Decimal('0.728'), Decimal('26.99'), 'COHATRAC IV', datetime.date(2025, 1, 6)), (2900000777835, 'Brocolis Ninja (Kg)', Decimal('0.264'), Decimal('38.99'), 'COHATRAC IV', datetime.date(2025, 1, 6)), (2900002715484, 'Maçã Kg', Decimal('0.680'), Decimal('9.99'), 'COHATRAC IV', datetime.date(2025, 2, 12)), (2900004361467, 'Maxixe e Quiabo (Kg)', Decimal('0.230'), Decimal('22.49'), 'C

### Formatando o resultado em uma lista de listas

In [24]:
# Retorna uma lista de listas
from_db = []

for result in results:
  result = list(result)
  from_db.append(result)
print(from_db)

[[192505231918, 'Pimenta Preta Moida 30g', Decimal('1.000'), Decimal('3.59'), 'COHATRAC IV', datetime.date(2025, 1, 6)], [2900000014060, 'Batatinha Lav (Kg)', Decimal('0.575'), Decimal('7.99'), 'COHATRAC IV', datetime.date(2025, 1, 6)], [2900000024724, 'Bisteca Suina Congelada (Kg)', Decimal('0.424'), Decimal('22.99'), 'COHATRAC IV', datetime.date(2025, 1, 6)], [2900000087545, 'Melão Kg', Decimal('1.795'), Decimal('3.49'), 'COHATRAC IV', datetime.date(2025, 2, 12)], [2900000087811, 'Abacate Kg', Decimal('0.480'), Decimal('6.99'), 'COHATRAC IV', datetime.date(2025, 2, 12)], [2900000091252, 'Cozidao Bovino (Kg)', Decimal('0.728'), Decimal('26.99'), 'COHATRAC IV', datetime.date(2025, 1, 6)], [2900000777835, 'Brocolis Ninja (Kg)', Decimal('0.264'), Decimal('38.99'), 'COHATRAC IV', datetime.date(2025, 1, 6)], [2900002715484, 'Maçã Kg', Decimal('0.680'), Decimal('9.99'), 'COHATRAC IV', datetime.date(2025, 2, 12)], [2900004361467, 'Maxixe e Quiabo (Kg)', Decimal('0.230'), Decimal('22.49'), 'C

### Formatando o resultado em um DataFrame do Pandas

In [25]:
# Retorna uma lista de listas e cria um DataFrame do Pandas
from_db = []

for result in results:
  result = list(result)
  from_db.append(result)


columns = ["Codigo_prod", "Descricao", "Quantidade", "ValorUnit", "Local","Data"]
df = pd.DataFrame(from_db, columns=columns)

In [26]:
display(df)

Unnamed: 0,Codigo_prod,Descricao,Quantidade,ValorUnit,Local,Data
0,192505231918,Pimenta Preta Moida 30g,1.0,3.59,COHATRAC IV,2025-01-06
1,2900000014060,Batatinha Lav (Kg),0.575,7.99,COHATRAC IV,2025-01-06
2,2900000024724,Bisteca Suina Congelada (Kg),0.424,22.99,COHATRAC IV,2025-01-06
3,2900000087545,Melão Kg,1.795,3.49,COHATRAC IV,2025-02-12
4,2900000087811,Abacate Kg,0.48,6.99,COHATRAC IV,2025-02-12
5,2900000091252,Cozidao Bovino (Kg),0.728,26.99,COHATRAC IV,2025-01-06
6,2900000777835,Brocolis Ninja (Kg),0.264,38.99,COHATRAC IV,2025-01-06
7,2900002715484,Maçã Kg,0.68,9.99,COHATRAC IV,2025-02-12
8,2900004361467,Maxixe e Quiabo (Kg),0.23,22.49,COHATRAC IV,2025-01-06
9,2900004362259,Jongome,1.0,2.09,COHATRAC IV,2025-01-06
