In [1]:
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql.functions import to_date

# Caminho para o arquivo Excel data_faturamento
file_path = 'downloads/data_faturamento.xlsx'  # Substitua pelo caminho correto do arquivo

# Carregar o arquivo Excel em um DataFrame do Pandas
df = pd.read_excel(file_path)

# Exibir as primeiras linhas para verificar o conteúdo
print(df.head())

# Converter o DataFrame para CSV
df.to_csv('data_faturamento.csv', index=False)
print("Arquivo CSV criado com sucesso!")


         data  num_pedido  faturamento  custo  \
0  08/01/2020        2723          165   64.9   
1  08/01/2020        2182          117   45.5   
2  09/01/2020        1740           15    5.1   
3  09/01/2020        2327           31    9.9   
4  09/01/2020         549          168   67.2   

                                        nome_produto  tipo  
0  Bolo Pasta Americana Redondo (2 Camadas Rechei...  DOCE  
1  Bolo Chantilly Redondo (2 Camadas Recheio + To...  DOCE  
2            Docinhos Simples - 20 UNID - Brigadeiro  DOCE  
3               Docinhos Simples - 50 UNID - Sortido  DOCE  
4  Bolo Pasta Americana Redondo (2 Camadas Rechei...  DOCE  
Arquivo CSV criado com sucesso!


In [3]:
import psycopg2

# Configuração da conexão com PostgreSQL
try:
    conn = psycopg2.connect(
        host="localhost",  # Conectando ao banco de dados local
        port="5432",  # Porta padrão do Postgre
        database="testdb",  # Nome do banco de dados 
        user="postgres",  # Usuário do Postgre
        password="root"  # Senha do Postgre
    )
    conn.autocommit = True
    cursor = conn.cursor()

    # Criar a tabela no banco de dados com as colunas corretas
    cursor.execute("""
        DROP TABLE IF EXISTS faturamento;
        CREATE TABLE faturamento (
            data DATE,
            num_pedido INTEGER,
            faturamento NUMERIC(10, 2),
            custo NUMERIC(10, 2),
            nome_produto VARCHAR(255),
            tipo VARCHAR(50)
        );
    """)
    print("Tabela criada com sucesso!")

except Exception as e:
    print(f"Erro ao conectar ou criar a tabela: {e}")

finally:
    # Fechar a conexão
    if cursor:
        cursor.close()
    if conn:
        conn.close()


Tabela criada com sucesso!


In [5]:
# Especificar o caminho para o driver JDBC do PostgreSQL
jdbc_driver_path = "C:/Program Files/Drivers/postgresql-42.7.4.jar"  # Substitua pelo caminho real do seu driver .jar

# Criar uma SparkSession com o driver JDBC
spark = SparkSession.builder \
    .appName("Inserção de Dados no PostgreSQL") \
    .config("spark.jars", jdbc_driver_path) \
    .getOrCreate()

# Carregar o CSV em um DataFrame do PySpark
spark_df = spark.read.csv('data_faturamento.csv', header=True, inferSchema=True)

# Converter a coluna 'data' para o formato de data apropriado
spark_df = spark_df.withColumn("data", to_date(spark_df["data"], "dd/MM/yyyy"))

# Exibir as primeiras linhas para verificar
spark_df.show(5)

# Inserir os dados no PostgreSQL
spark_df.write \
    .format("jdbc") \
    .option("url", "jdbc:postgresql://localhost:5432/testdb") \
    .option("dbtable", "faturamento") \
    .option("user", "postgres") \
    .option("password", "root") \
    .option("driver", "org.postgresql.Driver") \
    .mode("append") \
    .save()

print("Dados inseridos com sucesso no PostgreSQL!")

# Encerrar a sessão Spark
spark.stop()
print("SparkSession encerrada com sucesso!")


+----------+----------+-----------+-----+--------------------+----+
|      data|num_pedido|faturamento|custo|        nome_produto|tipo|
+----------+----------+-----------+-----+--------------------+----+
|2020-01-08|      2723|        165| 64.9|Bolo Pasta Americ...|DOCE|
|2020-01-08|      2182|        117| 45.5|Bolo Chantilly Re...|DOCE|
|2020-01-09|      1740|         15|  5.1|Docinhos Simples ...|DOCE|
|2020-01-09|      2327|         31|  9.9|Docinhos Simples ...|DOCE|
|2020-01-09|       549|        168| 67.2|Bolo Pasta Americ...|DOCE|
+----------+----------+-----------+-----+--------------------+----+
only showing top 5 rows

Dados inseridos com sucesso no PostgreSQL!
SparkSession encerrada com sucesso!
