Tarefa 1 – Instalação do PostgreSQL
O PostgreSQL é um SGBD objeto-relacional que possui recursos comuns à SGBDs de grande porte. Trata-se de um sistema versátil, robusto e livre.  É possível utilizar o PostgreSQL em vários sistemas operacionais, dentre os quais o Windows e Linux, ou em qualquer sistema compatível com as especificações POSIX.  Segundo informações do site oficial, o PostgreSQL permite a criação de bancos de dados de tamanho infinito. Cada tabela pode ter até 16 TB (1 terabyte = 1024 gigabytes), sendo que cada tupla pode ter até 1,6 TB e cada atributo 1 GB. O sistema tem recursos como triggers, integridade referencial, entre outros, além de ser compatível com uma série de linguagens, tais como C, C++, PHP, Python, Java, Perl, etc. O uso do PostgreSQL é muito difundido, pois várias empresas perceberam que com ele podem criar BDs complexos sem a necessidade de gastar altos valores na aquisição de licenças. Outra vantagem, é que o PostgreSQL possui uma documentação muito abrangente, o que permite suporte adequado às necessidades.
A primeira tarefa deste trabalho consiste na instalação do PostgreSQL. Os fontes e as instruções de instalação estão em: http://www.postgresql.org. 
O que entregar: Deve ser apresentada saída do log de instalação.

In [2]:
# Ler o arquivo de log e exibir no notebook
with open("postgresql_install_log.txt", "r") as file:
    log = file.read()

print(log)


Reading package lists...
Building dependency tree...
Reading state information...
The following additional packages will be installed:
  postgresql-12 postgresql-client-12 postgresql-client-common
  postgresql-common
Suggested packages:
  postgresql-doc postgresql-doc-12 libjson-perl
The following NEW packages will be installed:
  postgresql postgresql-12 postgresql-client-12 postgresql-client-common
  postgresql-common postgresql-contrib
0 upgraded, 6 newly installed, 0 to remove and 63 not upgraded.
Need to get 14.8 MB of archives.
After this operation, 46.0 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 postgresql-client-common all 214ubuntu0.1 [28.2 kB]
Get:2 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 postgresql-client-12 amd64 12.20-0ubuntu0.20.04.1 [1055 kB]
Get:3 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 postgresql-common all 214ubuntu0.1 [169 kB]
Get:4 http://archive.ubuntu.com/ubuntu foca

Tarefa 2 – Geração de um BD de testes

A segunda tarefa deste trabalho consiste na criação de banco de dados em cada um dos sistemas e o povoamento destas tabelas com dados sintéticos.  Para a definição do esquema das tabelas e os dados a serem carregados usaremos a especificação e os utilitários fornecidos pelos Benchmark TPC-H (http://www.tpc.org/tpch/). 	

Para geração do BD no PostgreSQL, siga as instruções disponíveis em:

https://github.com/foliveirafilho/tpch-pgsql

O que entregar: Devem ser apresentadas as saídas da execução dos scripts de geração.


In [4]:
# Abrir o log de preparação dentro da pasta tpch-pgsql
with open("tpch-pgsql/prepare_log.txt", "r") as file:
    prepare_log = file.read()

print("Log da Preparação:")
print(prepare_log)

Log da Preparação:
make: Nothing to be done for 'all'.
built dbgen from source
generated data for the load phase
generated data for the update phase
generated data for the delete phase
created data files in ./data
created query files in ./query_root



In [5]:
# Abrir o log de carregamento dentro da pasta tpch-pgsql
with open("tpch-pgsql/load_log.txt", "r") as file:
    load_log = file.read()

print("Log do Carregamento:")
print(load_log)


Log do Carregamento:
dropped existing tables
cleaned database tpchdb
done creating schemas
done loading data to tables
done creating indexes and foreign keys
create_schema: : 0:00:00.040000
load_data: 0:00:29.937102
index_tables: 0:00:31.309403



Tarefa 3 – Execução de Consultas

A terceira tarefa deste trabalho consiste na execução de uma série de consultas do Benchmark TPC-H nos sistemas instalados. 

Usando as instruções disponíveis nas mesmas URLs acima, execute os passos referentes ao PostgreSQL.  

O que entregar: Devem ser apresentadas as consultas e os seus resultados


============================================================
========================= Metrics ==========================
============================================================
power_size: 6161.61962406238
throughput_size: 4978.898929703322
qphh_size: 5538.77977098595
============================================================
======================= End Results ========================
============================================================

Tarefa 4 – Identificação do Sistema

Identifique o sistema que será usado para os experimentos, incluindo informações sobre o hardware e o Sistema Operacional utilizado. Sobre o tipo de processador, quantidade de memória RAM, tamanho do disco. Devem ser também apresentadas informações sobre as caches existentes.  Sobre o Sistema Operacional, que devem ser Linux, incluir informações sobre qual a distribuição usada, versão do sistema, versão do Kernel, etc.

O que entregar: As informações pedidas devem ser apresentadas no jupyter notebook

In [1]:
import os
import platform
import psutil

# Processador
processor_info = platform.processor()
cpu_count = os.cpu_count()

# Memória RAM
memory_info = psutil.virtual_memory()
total_memory_gb = memory_info.total / (1024 ** 3)  # Converter para GB

# Tamanho do Disco
disk_info = psutil.disk_usage('/')
total_disk_gb = disk_info.total / (1024 ** 3)  # Converter para GB

# Caches do Processador
cache_info = os.popen("lscpu | grep 'cache'").read()

# Sistema Operacional
os_info = platform.system()
os_release = platform.version()
os_distribution = platform.linux_distribution() if hasattr(platform, 'linux_distribution') else os.popen("lsb_release -d").read().strip()
kernel_version = platform.release()

# Exibir os resultados
print(f"Processador: {processor_info}")
print(f"Total de CPUs: {cpu_count}")
print(f"Memória RAM Total: {total_memory_gb:.2f} GB")
print(f"Tamanho Total do Disco: {total_disk_gb:.2f} GB")
print(f"Caches do Processador:\n{cache_info}")
print(f"Sistema Operacional: {os_info}")
print(f"Distribuição Linux: {os_distribution}")
print(f"Versão do Kernel: {kernel_version}")

Processador: x86_64
Total de CPUs: 8
Memória RAM Total: 7.64 GB
Tamanho Total do Disco: 1006.85 GB
Caches do Processador:
L1d cache:                            128 KiB
L1i cache:                            128 KiB
L2 cache:                             1 MiB
L3 cache:                             6 MiB

Sistema Operacional: Linux
Distribuição Linux: Description:	Ubuntu 20.04.6 LTS
Versão do Kernel: 5.15.167.4-microsoft-standard-WSL2


Tarefa 5 - Verificação de parâmetros de armazenamento

a) Verifique no disco que será usado para os experimentos no laboratório os seguintes parâmetros: Nr. de superfícies, cilindros, setores por trilha, velocidade de rotação, latência rotacional; tempos de seek médio, máximo e mínimo; tempo para a próxima trilha; e taxa de transferência.

b) Utilizando o comando “hdparm” do Linux, verifique os parâmetros dos parâmetros de S.O. que serão utilizados para o disco. 

c) Verifique o tamanho de bloco utilizado e mostre como alterar o tamanho dos blocos


In [2]:
import os

# Identificar discos disponíveis
print("Discos disponíveis:")
os.system("lsblk -o NAME,SIZE,TYPE,MOUNTPOINT")

# Capacidade do SSD
print("\nCapacidade Total do SSD:")
os.system("lsblk -o NAME,SIZE,TYPE")

# Taxa de Transferência
print("\nTaxa de Transferência Máxima e Média:")
os.system("sudo hdparm -tT /dev/sdX")  # Substitua sdX pelo dispositivo correto

# Latência de Leitura e Escrita
print("\nLatência de Leitura e Escrita:")
os.system("fio --name=randread --ioengine=libaio --rw=randread --bs=4k --numjobs=1 --size=1G --runtime=10 --group_reporting")
os.system("fio --name=randwrite --ioengine=libaio --rw=randwrite --bs=4k --numjobs=1 --size=1G --runtime=10 --group_reporting")

# Endurance (TBW)
print("\nEndurance (TBW):")
os.system("sudo smartctl -a /dev/sdX")

# Velocidade da Interface
print("\nVelocidade da Interface:")
os.system("lsblk -d -o NAME,ROTA,TRAN")

# Tamanho de Bloco
print("\nTamanho de Bloco:")
os.system("sudo blockdev --getbsz /dev/sdX")


Discos disponíveis:
NAME   SIZE TYPE MOUNTPOINT
sda  388.4M disk 
sdb      2G disk [SWAP]
sdc      1T disk /mnt/wslg/distro

Capacidade Total do SSD:
NAME   SIZE TYPE
sda  388.4M disk
sdb      2G disk
sdc      1T disk

Taxa de Transferência Máxima e Média:

Latência de Leitura e Escrita:

Endurance (TBW):

Velocidade da Interface:
NAME ROTA TRAN
sda     1 
sdb     1 
sdc     1 

Tamanho de Bloco:


sudo: a terminal is required to read the password; either use the -S option to read from standard input or configure an askpass helper
sh: 1: fio: not found
sh: 1: fio: not found
sudo: a terminal is required to read the password; either use the -S option to read from standard input or configure an askpass helper
sudo: a terminal is required to read the password; either use the -S option to read from standard input or configure an askpass helper


256

Tarefa 6 – Analisar e descrever os detalhes de armazenamento físico de dados no PostgreSQL. Construir uma tabela comparativa das principais características do sistema. Utilize, se necessário, diagramas, gráficos, etc.

O que entregar: Relatório com o resultado da análise e descrição apresentado no jupyter notebook

In [5]:
from sqlalchemy import create_engine
import pandas as pd

# Configurar a conexão usando SQLAlchemy
engine = create_engine('postgresql://tpch:password123@localhost:5432/tpchdb')

query = """
SELECT
    pg_class.relname AS "Tabela",
    pg_size_pretty(pg_total_relation_size(pg_class.oid)) AS "Tamanho Total",
    pg_size_pretty(pg_relation_size(pg_class.oid)) AS "Tamanho da Tabela",
    pg_size_pretty(pg_total_relation_size(pg_class.oid) - pg_relation_size(pg_class.oid)) AS "Tamanho de Índices",
    pg_class.relpages AS "Número de Páginas"
FROM
    pg_catalog.pg_statio_user_tables
JOIN
    pg_class ON pg_catalog.pg_statio_user_tables.relid = pg_class.oid
ORDER BY
    pg_total_relation_size(pg_class.oid) DESC;
"""

# Executar a consulta
df = pd.read_sql_query(query, engine)

# Exibir os dados
print(df)


     Tabela Tamanho Total Tamanho da Tabela Tamanho de Índices  \
0  partsupp        188 MB            136 MB              52 MB   
1      part         36 MB             32 MB            4448 kB   
2  customer         35 MB             28 MB            6664 kB   
3  supplier       2288 kB           1776 kB             512 kB   
4    nation         40 kB        8192 bytes              32 kB   
5  lineitem         32 kB           0 bytes              32 kB   
6    region         24 kB        8192 bytes              16 kB   
7    orders         24 kB           0 bytes              24 kB   

   Número de Páginas  
0              17451  
1               4097  
2               3585  
3                222  
4                  1  
5                  0  
6                  1  
7                  0  


### Tabelas Grandes (partsupp, part, customer):

Essas tabelas dominam o armazenamento, representando os principais volumes de dados do sistema.
O uso de índices é moderado, otimizando operações de leitura sem ocupar espaço excessivo.
### Tabelas Dimensionais (nation, region):

Pequenas em tamanho, mas altamente indexadas para consultas rápidas.
Demonstram características típicas de tabelas usadas em consultas relacionais ou de agregação.

### Tabelas com Dados Externos (lineitem, orders):

Essas tabelas podem conter dados organizados em sistemas externos ou compactados. Essa configuração é comum em sistemas de grande escala para melhorar o desempenho e a eficiência de armazenamento.