In [47]:
import pandas as pd
from sqlalchemy import Column, Integer, String, DateTime, ForeignKey, Enum, create_engine
from sqlalchemy.orm import relationship, declarative_base, Session, sessionmaker
import enum
from datetime import datetime

In [48]:
URL = "postgresql://admin:admin@localhost:5432/rastreamento_db"

engine = create_engine(URL)

In [49]:
# Modelando os dados para armazenar as informacoes de rastreamento de forma eficiente

# Como existe a possibilidade de um pacote ter multiplos eventos, de cara pensamos em um
# relacionamento 1:N, tal que 1 pacote pode ter 1 ou mais status de rastreamento, e 
# 1 ou mais status de rastreamento podem estar ligados a um mesmo pacote 

# Exemplo para ilustrar: Imagine que o usuário Lucas pediu um caderno pela Amazon. Assim, para que o 
# usuário tenha conhecimento do status de seu pedido, é comum que o pacote receba atualizações, como: 
# Pacote (Caderno) -> EM TRÂNSITO
# Pacote (Caderno) -> EM ROTA DE ENTREGA
# Pacote (Caderno) -> ENTREGUE 
# Este exemplo ilustra bem a possibilidade de um pacote ter múltiplos eventos de rastreamento

# Dessa forma, o modelo de dados proposto se baseará em duas tabelas no banco de dados: 
# Tabela 01 - Pacote 
#   Essa tabela será a responsável por identificar o pacote, possuindo os seguintes dados 
#   id_pacote (chave primária), origem, destino, rastreio (chave estrangeira)
#
# Tabela 02 - Rastreamento
#   Essa tabela será a responsável por identificar o status do rastreamento, possuindo os seguintes dados
#   id_rastreio (chave primária), status, data_atualizacao, id_pacote (chave estrangeira)
#
# Assim, o relacionamento será Pacote 1 <----> N Rastreamento

Base = declarative_base()

class Pacote(Base):
    __tablename__ = "pacotes"

    id_pacote = Column(Integer, primary_key=True, index=True)
    origem = Column(String, nullable=False)
    destino = Column(String, nullable=False)

    rastreio = relationship("Rastreamento", back_populates="pacote", cascade="all")

class Status(str, enum.Enum):
    EM_TRANSITO = "EM TRÂNSITO"
    ENTREGUE = "ENTREGUE"
    EXTRAVIADO = "EXTRAVIADO"
    EM_ROTA_DE_ENTREGA = "EM ROTA DE ENTREGA"
    AGUARDANDO_RETIRADA = "AGUARDANDO RETIRADA"
    CANCELADO = "CANCELADO"

class Rastreamento(Base):
    __tablename__ = "rastreamentos"

    id_rastreio = Column(Integer, primary_key=True, index=True)
    status_rastreamento = Column(Enum(Status), nullable=False)
    data_atualizacao = Column(DateTime, nullable=False)
    id_pacote = Column(Integer, ForeignKey("pacotes.id_pacote"), nullable=False)
    pacote = relationship("Pacote", back_populates="rastreio")

In [50]:
# Extraindo os dados do CSV tratado
def extract(path: str) -> pd.DataFrame:
    try:
        df = pd.read_csv(path, encoding="utf-8")
        return df 
    except Exception as e: 
        print(f"Erro ao carregar o CSV: {e}")
        return None 

df = extract("../silver/rastreamento_tratado.csv")
df.columns.to_list()

['id_pacote', 'origem', 'destino', 'status_rastreamento', 'data_atualizacao']

In [56]:
# Como os dados ja foram validados na primeira etapa, vamos carregar eles diretamente no banco de dados
def load(df: pd.DataFrame, session = Session) -> None:
    for _, row in df.iterrows():
        pacote = session.query(Pacote).filter_by(id_pacote=row['id_pacote']).first()

        if not pacote:
            pacote = Pacote(
                id_pacote=row['id_pacote'],
                origem = row['origem'],
                destino = row['destino']
            )
            session.add(pacote)
            session.flush()

        exists = session.query(Rastreamento).filter(
            Rastreamento.status_rastreamento == row['status_rastreamento'],
        ).first()

        if not exists:
            rastreio = Rastreamento(
                status_rastreamento = Status(row['status_rastreamento']),
                data_atualizacao = datetime.strptime(row['data_atualizacao'], "%Y-%m-%d %H:%M:%S"),
                pacote=pacote
                )
            session.add(rastreio)
    session.commit()
    print("Dados foram carregados com sucesso!")

Base.metadata.create_all(engine)

with Session(engine) as session:
    load(df, session)

Dados foram carregados com sucesso!
