## Inteligência de Dados: Mapeamento e Análises Relacionais

### Cenário

O projeto visa desenvolver um banco de dados relacional para o Departamento de Inteligência de Dados (ID) de um banco fictício, utilizando um modelo que incorpora três tabelas principais: DadosOrigem, FluxoDados e Analises. Este modelo é projetado para suportar todo o processo de extração, carregamento, transformação e análise de dados, permitindo que a equipe de dados gerencie e analise informações de maneira eficiente. Utilizarei PostgreSQL como sistema de gerenciamento de banco de dados, o que traz vantagens como suporte a transações complexas, escalabilidade superior e robustez no gerenciamento de dados. Além disso, a biblioteca Pandas facilitará a manipulação e análise dos dados, complementando as capacidades do PostgreSQL.

Para preencher as tabelas com dados fictícios, será empregada a biblioteca Faker, que criará informações realistas de maneira aleatória, assegurando a integridade dos testes e simulações. Os comandos mágicos do IPython-SQL serão utilizados no Jupyter Notebook para simplificar a interação com o banco de dados e a execução de consultas SQL. Além disso, a visualização do modelo de entidade-relacionamento (ER) será realizada por meio da biblioteca Graphviz, possibilitando uma representação clara e intuitiva das relações entre as tabelas e seus respectivos fluxos de dados.

### Bibliotecas utilizadas

In [1]:
import psycopg2
from postgres_setup import PostgresConnector
from generate_random_data import DbConfig, DataGenerator
import pandas as pd
from datetime import datetime
from dotenv import load_dotenv
import os

In [2]:
load_dotenv()

True

In [3]:
db_user = os.getenv("DB_USER")
db_password = os.getenv("DB_PASSWORD")

In [4]:
db_params = {
    'dbname': 'smart_data_db',
    'user': db_user,
    'password': db_password,
    'host': 'localhost',
    'port': '5432'
}

In [5]:
postgres = PostgresConnector(**db_params)

In [6]:
postgres.create_database_tables()

In [7]:
config = DbConfig(**db_params)

In [8]:
with DataGenerator(config) as generator:
    df_origem, df_fluxo, df_analises = generator.gerar_e_inserir_dados()

In [9]:
df_origem.head()

Unnamed: 0,id_origem,nome_origem,tipo_dado,volume,latencia,descricao,criado_em,atualizado_em
0,1,Sistema Rede Social - Alves e Filhos,mídia,8042716,diário,Dolore qui perspiciatis tempora assumenda. Adi...,2023-10-07 06:12:00,2023-10-18 16:10:00
1,2,Sistema Rede Social - Pires,analítico,7436104,batch,Neque provident aliquid dolorem enim aspernatu...,2023-10-06 14:58:00,2023-10-14 16:58:00
2,3,Sistema Banco de Dados em Nuvem - Câmara,transacional,9728382,near real-time,Laudantium quidem similique corrupti cum persp...,2023-02-15 12:47:00,2023-03-10 06:59:00
3,4,Sistema Rede Social - Teixeira - EI,analítico,5479397,mensal,Optio veniam cumque minus. Incidunt distinctio...,2023-08-20 05:55:00,2023-09-02 12:15:00
4,5,Sistema Plataforma de Streaming - Martins,analítico,2146795,batch,Aperiam quas reiciendis autem.\nModi consequun...,2023-07-01 19:42:00,2023-07-20 03:16:00


In [12]:
df_fluxo.columns

Index(['id_fluxo', 'id_origem', 'destino', 'status', 'data_criacao',
       'data_atualizacao'],
      dtype='object')

In [14]:
df_analises.shape

(300, 6)