## 4. Extração de Dados - Usuário

O objetivo deste documento, é facilitar a extração dos dados pelo usuário

**Importação de bibliotecas**

In [1]:
import os
import shutil
from pyspark.sql import SparkSession
from pyspark.sql.functions import from_unixtime, col, to_timestamp, coalesce
from pyspark.sql.types import StringType, IntegerType, LongType, DecimalType, DateType

**Variaveis do projeto**

In [2]:
#Diretorio dos arquivos csv
v_diretorio_csv='/usr/local/spark/csv/'

#Diretorio de export do arquivo de flatfile
v_diretorio_export='/home/jovyan/work/export'

#Nome do arquivo do export
v_nome_arquivo='movimento_flat.csv'

#Variaveis de conexao com postgres
v_caminho_jar_postgres='/home/jovyan/work/jars/postgresql-9.4.1207.jar'
v_url_jdbc='jdbc:postgresql://postgres/airflow'
v_user_jdbc='airflow'
v_pass_jdbc='airflow'

**Criando sessao e contexto**

In [3]:
spark = (SparkSession
         .builder
         .master('local')
         .appName('load-postgres')
         # Add postgres jar
         .config('spark.driver.extraClassPath', v_caminho_jar_postgres)
         .getOrCreate())
sc = spark.sparkContext

22/12/28 00:27:41 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/12/28 00:27:41 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
22/12/28 00:27:41 WARN Utils: Service 'SparkUI' could not bind on port 4041. Attempting port 4042.
22/12/28 00:27:41 WARN Utils: Service 'SparkUI' could not bind on port 4042. Attempting port 4043.


## Geração do arquivo Flat

O objetivo do exercício, é exercitar o processamento no Spark. A extração dos dados e relacionamentos entre os dados, serão processados no **Spark**.

Por essa razão, os dados não serão relacionados e tratados no **postgres**.

In [4]:
#Carregando dados no Dataframe
df_associado_tgt = (
    spark.read
    .format('jdbc')
    .option('url', v_url_jdbc)
    .option('dbtable', 'target.associado')
    .option('user', v_user_jdbc)
    .option('password', v_pass_jdbc)
    .load()
)

#Criando view do dataframe
df_associado_tgt.createOrReplaceTempView('associado')

In [5]:
#Carregando dados no Dataframe
df_conta_tgt = (
    spark.read
    .format('jdbc')
    .option('url', v_url_jdbc)
    .option('dbtable', 'target.conta')
    .option('user', v_user_jdbc)
    .option('password', v_pass_jdbc)
    .load()
)

#Criando view do dataframe
df_conta_tgt.createOrReplaceTempView('conta')

In [6]:
#Carregando dados no Dataframe
df_cartao_tgt = (
    spark.read
    .format('jdbc')
    .option('url', v_url_jdbc)
    .option('dbtable', 'target.cartao')
    .option('user', v_user_jdbc)
    .option('password', v_pass_jdbc)
    .load()
)

#Criando view do dataframe
df_cartao_tgt.createOrReplaceTempView('cartao')

In [7]:
#Carregando dados no Dataframe
df_movimento_tgt = (
    spark.read
    .format('jdbc')
    .option('url', v_url_jdbc)
    .option('dbtable', 'target.movimento')
    .option('user', v_user_jdbc)
    .option('password', v_pass_jdbc)
    .load()
)

#Criando view do dataframe
df_movimento_tgt.createOrReplaceTempView('movimento')

Obs: 1 - *Somente será trabalhado com associados válidos.*
     2 - *Na estrutura de dados gerados, não foi repassado a coluna de data da criação do cartão, temos somente a data de criação da conta, por essa razão, será utilizada a data de criação da conta, como data de criação do cartão.*

In [8]:
df_flat_file=spark.sql('''
    select
        ass.nome as nome_associado,
        ass.sobrenome as sobrenome_associado,
        ass.idade as idade_associado,
        mov.vlr_transacao as vlr_transacao_movimento,
        mov.des_transacao as des_transacao_movimento,
        mov.data_movimento as data_movimento,
        car.num_cartao as numero_cartao,
        car.nom_impresso as nome_impresso_cartao,
        cco.data_criacao as data_criacao_cartao,
        cco.tipo as tipo_conta,
        cco.data_criacao as data_criacao_conta
        
    from associado ass
    
    left join cartao car
    on car.id_associado=ass.id
    
    left join movimento mov
    on mov.id_cartao=car.id
    
    left join conta cco
    on cco.id_associado=ass.id
    
    where ass.id>0
    
''')

In [9]:
df_flat_file.show()

                                                                                

+--------------+-------------------+---------------+-----------------------+-----------------------+--------------+----------------+--------------------+-------------------+--------------+------------------+
|nome_associado|sobrenome_associado|idade_associado|vlr_transacao_movimento|des_transacao_movimento|data_movimento|   numero_cartao|nome_impresso_cartao|data_criacao_cartao|    tipo_conta|data_criacao_conta|
+--------------+-------------------+---------------+-----------------------+-----------------------+--------------+----------------+--------------------+-------------------+--------------+------------------+
|     Valentina|             Fogaça|             23|                 159.36|           Supermercado|    2018-12-13|4250002301488069|    VALENTINA FOGAÇA|         2018-08-14|Conta Corrente|        2018-08-14|
|     Valentina|             Fogaça|             23|                 241.92|            Restaurante|    2020-06-06|4250002301488069|    VALENTINA FOGAÇA|         2018-0

In [10]:
#Funcao para exportar um dataframe para arquivo csv
def f_exporta_flat_file(df, arquivo_csv):
    #Gera arquivo flat
    df.coalesce(1).write.mode('overwrite').options(header='True', delimiter=';').csv(v_diretorio_export + '/flatfile')
    
    #Renomeia arquivo e move para a pasta export
    for arquivo in os.listdir(v_diretorio_export + '/flatfile/'):
        a_arquivo=arquivo.split('.')
        if(len(a_arquivo)==2 and a_arquivo[1]=='csv'):
            shutil.move(v_diretorio_export + '/flatfile/' + arquivo, v_diretorio_export + '/' + arquivo_csv)
            print('Arquivo flat gerado: ' + v_diretorio_export + '/' + arquivo_csv)


In [11]:
f_exporta_flat_file(df_flat_file, v_nome_arquivo)

[Stage 13:>                                                         (0 + 1) / 1]

Arquivo flat gerado: /home/jovyan/work/export/movimento_flat.csv


                                                                                