In [67]:
import pandas as pd
from sqlalchemy import create_engine
from IPython.display import display

# Função para corrigir caracteres especiais
def fix_special_characters(text):
    if text is not None and isinstance(text, str):
        try:
            return text.encode('latin1').decode('utf-8', 'ignore')
        except Exception:
            return text
    return text

engine = create_engine('postgresql://joaonolasco:32313167@localhost:5432/meu_banco')

query = "SELECT * FROM bronze.bronze_table"
df_silver = pd.read_sql(query, engine)

print("Dados carregados da Bronze com sucesso!")
print(f"O DataFrame tem {df_silver.shape[0]} linhas e {df_silver.shape[1]} colunas.")
print("Exibindo as primeiras linhas do DataFrame (antes da transformação):")
display(df_silver.head())

# Passo 3: Aplicar transformações
print("Corrigindo caracteres especiais e normalizando os nomes das colunas...")

# Corrigir caracteres especiais em colunas de texto
for col in df_silver.select_dtypes(include='object').columns:
    df_silver[col] = df_silver[col].apply(fix_special_characters)

# Substituir NaN por 0 nas colunas de float antes de converter para int
for col in df_silver.select_dtypes(include=['float64']).columns:
    df_silver[col] = df_silver[col].fillna(0).astype('int64')

# Converter coluna 'quantidade' de object para int após limpar a vírgula
df_silver['quantidade'] = df_silver['quantidade'].str.replace(',', '.').astype(float).fillna(0).astype(int)

# Converter 'distrito', 'cadum', e 'codigo_produto' para string
df_silver['distrito'] = df_silver['distrito'].astype(str)
df_silver['cadum'] = df_silver['cadum'].astype(str)
df_silver['codigo_produto'] = df_silver['codigo_produto'].astype(str)

# Converter a coluna de data para datetime64[ns]
df_silver['data_carga'] = pd.to_datetime(df_silver['data_carga'], errors='coerce')

# Substituir "0" por "Sem informação" apenas em colunas do tipo string
for col in df_silver.select_dtypes(include='object').columns:
    df_silver[col] = df_silver[col].replace("0", "Sem informação")

# Substituir valores nulos (NaN) por "Sem informação" apenas nas colunas categóricas
df_silver[df_silver.select_dtypes(include='object').columns] = df_silver.select_dtypes(include='object').fillna("Sem informação")

# Normalizar os nomes das colunas
df_silver.rename(columns=lambda x: x.strip().lower().replace(" ", "_"), inplace=True)

# Criar a coluna de chave primária (ID) após a transformação
df_silver['id'] = range(1, len(df_silver) + 1)

# Conferir as primeiras 50 linhas após transformação
print("Exibindo as primeiras 50 linhas após a transformação:")
display(df_silver.head(50))

# Salvando no schema silver
df_silver.to_sql('silver_table', engine, schema='silver', if_exists='replace', index=False)
print("Dados transformados e salvos na camada Silver com sucesso!")

# Conferir os tipos de dados das colunas após a transformação
print("Tipos de dados das colunas após transformação:")
print(df_silver.dtypes)


Dados carregados da Bronze com sucesso!
O DataFrame tem 40392 linhas e 13 colunas.
Exibindo as primeiras linhas do DataFrame (antes da transformação):


Unnamed: 0,distrito,bairro,unidade,classe,apresentacao,tipo_produto,codigo_produto,produto,cadum,data_carga,quantidade,DT_CREATED,DT_UPDATED
0,1.0,BOA VISTA,Us 131 Distrito Sanitario I Recife,AGENTE ALCALINIZANTE,AMP,MEDICAMENTOS,10028,BICARBONATO DE SODIO 10% SOLUCAO INJETAVEL - 10ML,30004.0,2024-10-10,0,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849
1,1.0,BOA VISTA,Us 131 Distrito Sanitario I Recife,AGENTE ANTIRESSORTIVO,COMPR,MEDICAMENTOS,10651,ALENDRONATO DE SODIO 70MG,30068.0,2024-10-10,760,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849
2,1.0,BOA VISTA,Us 131 Distrito Sanitario I Recife,AGENTE URICOSÃRICO,COMPR,MEDICAMENTOS,10669,ALOPURINOL 300MG,30069.0,2024-10-10,3700,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849
3,1.0,BOA VISTA,Us 131 Distrito Sanitario I Recife,AINE,AMP,MEDICAMENTOS,10057,CETOPROFENO 50MG/ML SOLUCAO INJETAVEL - 2ML,30048.0,2024-10-10,340,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849
4,1.0,BOA VISTA,Us 131 Distrito Sanitario I Recife,AINE/ ANTICOAGULANTE,COMPR,MEDICAMENTOS,10003,ACIDO ACETILSALICILICO 100MG,30064.0,2024-10-10,25800,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849


Corrigindo caracteres especiais e normalizando os nomes das colunas...
Exibindo as primeiras 50 linhas após a transformação:


Unnamed: 0,distrito,bairro,unidade,classe,apresentacao,tipo_produto,codigo_produto,produto,cadum,data_carga,quantidade,dt_created,dt_updated,id
0,1,BOA VISTA,Us 131 Distrito Sanitario I Recife,AGENTE ALCALINIZANTE,AMP,MEDICAMENTOS,10028,BICARBONATO DE SODIO 10% SOLUCAO INJETAVEL - 10ML,30004,2024-10-10,0,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849,1
1,1,BOA VISTA,Us 131 Distrito Sanitario I Recife,AGENTE ANTIRESSORTIVO,COMPR,MEDICAMENTOS,10651,ALENDRONATO DE SODIO 70MG,30068,2024-10-10,76,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849,2
2,1,BOA VISTA,Us 131 Distrito Sanitario I Recife,AGENTE URICOSÚRICO,COMPR,MEDICAMENTOS,10669,ALOPURINOL 300MG,30069,2024-10-10,370,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849,3
3,1,BOA VISTA,Us 131 Distrito Sanitario I Recife,AINE,AMP,MEDICAMENTOS,10057,CETOPROFENO 50MG/ML SOLUCAO INJETAVEL - 2ML,30048,2024-10-10,34,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849,4
4,1,BOA VISTA,Us 131 Distrito Sanitario I Recife,AINE/ ANTICOAGULANTE,COMPR,MEDICAMENTOS,10003,ACIDO ACETILSALICILICO 100MG,30064,2024-10-10,2580,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849,5
5,1,BOA VISTA,Us 131 Distrito Sanitario I Recife,ANALGÉSICO/ ANTIPIRÉTICO,AMP,MEDICAMENTOS,10111,DIPIRONA 500MG/ML SOLUCAO INJETAVEL - 2ML,30099,2024-10-10,29,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849,6
6,1,BOA VISTA,Us 131 Distrito Sanitario I Recife,ANALGÉSICO/ ANTIPIRÉTICO,COMPR,MEDICAMENTOS,10110,DIPIRONA 500MG,30219,2024-10-10,6630,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849,7
7,1,BOA VISTA,Us 131 Distrito Sanitario I Recife,ANALGÉSICO/ ANTIPIRÉTICO,COMPR,MEDICAMENTOS,10608,IBUPROFENO 600MG,30119,2024-10-10,1840,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849,8
8,1,BOA VISTA,Us 131 Distrito Sanitario I Recife,ANALGÉSICO/ ANTIPIRÉTICO,COMPR,MEDICAMENTOS,10673,PARACETAMOL 500MG,30138,2024-10-10,910,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849,9
9,1,BOA VISTA,Us 131 Distrito Sanitario I Recife,ANALGÉSICO/ ANTIPIRÉTICO,FRASCO,MEDICAMENTOS,10109,DIPIRONA 500MG/ML SOLUCAO ORAL - 10ML,30175,2024-10-10,88,2025-01-31 10:09:29.933962,2025-01-31 10:09:29.934849,10


Dados transformados e salvos na camada Silver com sucesso!
Tipos de dados das colunas após transformação:
distrito                  object
bairro                    object
unidade                   object
classe                    object
apresentacao              object
tipo_produto              object
codigo_produto            object
produto                   object
cadum                     object
data_carga        datetime64[ns]
quantidade                 int64
dt_created        datetime64[ns]
dt_updated        datetime64[ns]
id                         int64
dtype: object
