In [None]:
import pandera as pa
from pandera import Column, DataFrameSchema, Check
import duckdb

# Define o caminho para o banco de dados DuckDB
db_path = 'D:\\GitHub\\projeto_Analytics_Engineering\\data_quality\\gold.duckdb'

In [None]:
# Definindo o esquema para a tabela "demanda_por_bairro"
demanda_schema = DataFrameSchema({
    "bairro": Column(pa.String, nullable=False, unique=True, checks=[Check.str_length(1, 50)]),  # Bairro não nulo, único e com tamanho entre 1 e 50
    "demanda_jan": Column(pa.Int32, nullable=False), # não nulo
    "demanda_fev": Column(pa.Int32, nullable=False), # não nulo
    "demanda_mar": Column(pa.Int32, nullable=False), # não nulo
    "demanda_abr": Column(pa.Int32, nullable=False), # não nulo
    "demanda_mai": Column(pa.Int32, nullable=False), # não nulo
    "demanda_jun": Column(pa.Int32, nullable=False), # não nulo
    "demanda_jul": Column(pa.Int32, nullable=False), # não nulo
    "demanda_ago": Column(pa.Int32, nullable=False), # não nulo
    "demanda_set": Column(pa.Int32, nullable=False), # não nulo
    "demanda_out": Column(pa.Int32, nullable=False), # não nulo
    "demanda_nov": Column(pa.Int32, nullable=False), # não nulo
    "demanda_dez": Column(pa.Int32, nullable=False), # não nulo
    "media_preco": Column(pa.Float, nullable=False, checks=[Check.ge(0)]),  # Preço não nulo e maior ou igual a 0
    "quantidade_avaliacoes": Column(pa.Int32, nullable=False, checks=[Check.in_range(0, float('inf'))]),  # Quantidade de avaliações não nula
    "media_avaliacoes": Column(pa.Float, nullable=False, checks=[Check.in_range(0, 5)]),  # Média de avaliações não nula e entre 0 e 5
})

# Conectando ao banco de dados DuckDB
conn = duckdb.connect(database=db_path, read_only=False)

try:
    # Carregando os dados da tabela "demanda_por_bairro"
    df_demanda = conn.execute("SELECT * FROM demanda_por_bairro").fetchdf()

    # Validando o DataFrame com Pandera
    validated_demanda_df = demanda_schema.validate(df_demanda)
    print("Dados validados com sucesso:")
    print(validated_demanda_df)

except pa.errors.SchemaError as e:
    print("Erro na validação dos dados:", e)

finally:
    conn.close()  # Fechando a conexão com o banco de dados

Dados validados com sucesso:
              bairro  demanda_jan  demanda_fev  demanda_mar  demanda_abr  \
0            Ipanema        88869        81975        94407       102942   
1             Leblon        40364        36913        43120        48572   
2               Urca         2857         2565         3049         3428   
3               Leme        18257        16530        19110        21954   
4             Glória         5687         5123         6138         6928   
..               ...          ...          ...          ...          ...   
147   Cidade de Deus           31           28           41           62   
148  Parque Anchieta          192          196          225          240   
149     Osvaldo Cruz            0            0           38          150   
150            Saúde          514          436          587          821   
151           Pavuna           31           28           64          160   

     demanda_mai  demanda_jun  demanda_jul  demanda_ago  d