In [1]:
from pyspark.sql import SparkSession
import os
from dotenv import load_dotenv

# Carregar variáveis do arquivo .env
load_dotenv()

# Verifique se o driver JDBC existe
jdbc_driver_path = "/home/repository/spark/02/postgresql-42.7.6.jar"
if not os.path.exists(jdbc_driver_path):
    raise FileNotFoundError(f"Driver JDBC não encontrado em: {jdbc_driver_path}")

# Configurar a sessão Spark
spark = SparkSession.builder \
    .appName("PostgreSQL") \
    .config("spark.jars", jdbc_driver_path) \
    .config("spark.driver.extraClassPath", jdbc_driver_path) \
    .config("spark.executor.extraClassPath", jdbc_driver_path) \
    .getOrCreate()

# Obter parâmetros de conexão do arquivo .env
db_host = os.getenv("DB_HOST")
db_port = os.getenv("DB_PORT")
db_name = os.getenv("DB_NAME")
db_user = os.getenv("DB_USER")
db_password = os.getenv("DB_PASSWORD")

# Validar se todas as variáveis foram carregadas
if not all([db_host, db_port, db_name, db_user, db_password]):
    raise ValueError("Uma ou mais variáveis de ambiente não foram definidas no arquivo .env")

# Construir a URL JDBC
url = f"jdbc:postgresql://{db_host}:{db_port}/{db_name}"

# Definir as propriedades de conexão
properties = {
    "user": db_user,
    "password": db_password,
    "driver": "org.postgresql.Driver"
}

try:
    # Teste a conexão com uma query simples
    df_test = spark.read.jdbc(url=url, table="(SELECT 1) AS test", properties=properties)
    print("Conexão com o banco de dados bem-sucedida!")
    
    # Carregue os dados da tabela
    df = spark.read.jdbc(url=url, table="usu_0.t101", properties=properties)
    
    # Imprima o schema e os dados
    df.printSchema()
    df.show()

except Exception as e:
    print(f"Erro ao conectar ou ler a tabela: {str(e)}")

finally:
    # Feche a sessão Spark
    spark.stop()

Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
25/07/03 09:32:22 WARN Utils: Your hostname, exbom-OptiPlex-790, resolves to a loopback address: 127.0.1.1; using 10.101.3.251 instead (on interface enp2s0)
25/07/03 09:32:22 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
25/07/03 09:32:24 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


Conexão com o banco de dados bem-sucedida!
root
 |-- c1_101: integer (nullable = true)
 |-- c2_101: string (nullable = true)
 |-- c3_101: string (nullable = true)
 |-- c4_101_5002: integer (nullable = true)



                                                                                

+------+--------------------+------+-----------+
|c1_101|              c2_101|c3_101|c4_101_5002|
+------+--------------------+------+-----------+
|  1074|     ENTIDADE_FUNÇÃO| t1074|        102|
|  1098|       ENTIDADE_TELA| t1098|        102|
|  9806|      MENU_SEGURANÇA| t9806|        102|
|  9807|MENU_SEGURANÇA_RE...| t9807|        102|
|  7406|       CARGO DETALHE| t7406|        102|
|  4008|      DESPESA_IMAGEM| t4008|        102|
|  4101|PARAMETROS_REGIST...| t4101|        102|
|  4102|PARAMETROS_REGIST...| t4102|        102|
|  4108|PARAMETROS_REGIST...| t4108|        102|
|  7701|          DIAS ÚTEIS| t7701|        102|
|  8816|PROCESSO_MOVIMENT...| t8816|        102|
|  8802|  PROCESSO_MOVIMENTO| t8802|        102|
|  3617|TOTALIZADOR LOG A...| t3617|        102|
|  3806|   TABULAÇÃO_DETALHE| t3806|        102|
|  7506|POSTO DE TRABALHO...| t7506|        102|
|  7507|POSTO DE TRABALHO...| t7507|        102|
|  6407|        SETOR FILIAL| t6407|        102|
|  3616|LOG AGENDAME