importar bibliotecas

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.types import *
from pyspark.sql import functions as Func 
from pyspark.sql.functions import *

iniciar a spark session

In [3]:
spark = SparkSession.builder.master("local").\
    appName("CNPJ_RAW").\
        config("spark.executer.memory","1gb").\
            getOrCreate()

### No site da RFB temos 10 arquivos CSV que totalizam mais de 10 Gb e mais de 51 milhões de linhas, nesse passo realizamos a carga de todos os arquivos que se encontram na pasta RAW num único DF

In [4]:
# Nesta pasta temos todos os arquivos brutos, da forma que vieram do site da RFB.
path = "/media/douglas/DATA/PRJ_CNPJ/new_data/ETL/01.RAW/*.csv"

In [None]:
csv_to_DF = spark.read.format("csv")\
    .option("delimiter",";")\
        .option("enconding","ISO-8859-1")\
            .option("header","False")\
                .option("inferSchema","True")\
                    .load(path)



In [None]:
# Contando a quantidade de registros que temos no DF
csv_to_DF.count()

In [None]:
# Deixamos que o Spark inferisse o Schema pois não vamos precisar de toda as colunas nos próximos passos.
# Após a seleção das colunas que iremos realmente usar, faremos essa etapa do tratamento, formatando as colunas de datas, por exemplo.
csv_to_DF.schema

In [None]:
csv_to_DF.columns

Agora vamos renomear as colunas, pois o CSV original não tinha qualquer tipo de informação, limpar algumas colunas que não vamos precisar (telefone e email, por exemplo) e concatenar outras, dessa forma deixaremos nosso DF mais clean para gerar o arquivo parquet

In [None]:
csv_to_DF = csv_to_DF\
    .withColumnRenamed('_c0','CNPJ_basico')\
    .withColumnRenamed('_c1','CNPJ_ordem')\
    .withColumnRenamed('_c2','CNPJ_dv')\
    .withColumnRenamed('_c3','id_matriz_filial')\
    .withColumnRenamed('_c4','nome_fantasia')\
    .withColumnRenamed('_c5','sit_cad')\
    .withColumnRenamed('_c6','dt_cad')\
    .withColumnRenamed('_c7','mt_sit_cad')\
    .withColumnRenamed('_c8','cid_ext')\
    .withColumnRenamed('_c9','pais')\
    .withColumnRenamed('_c10','dt_inicio_at')\
    .withColumnRenamed('_c11','cnae_principal')\
    .withColumnRenamed('_c12','cnae_secundario')\
    .withColumnRenamed('_c13','tp_log')\
    .withColumnRenamed('_c14','log')\
    .withColumnRenamed('_c15','nm')\
    .withColumnRenamed('_c16','comp')\
    .withColumnRenamed('_c17','bairro')\
    .withColumnRenamed('_c18','CEP')\
    .withColumnRenamed('_c19','UF')\
    .withColumnRenamed('_c20','municipio')\
    .withColumnRenamed('_c21','ddd1')\
    .withColumnRenamed('_c22','tel1')\
    .withColumnRenamed('_c23','ddd2')\
    .withColumnRenamed('_c24','tel2')\
    .withColumnRenamed('_c25','ddd_fax')\
    .withColumnRenamed('_c26','fax')\
    .withColumnRenamed('_c27','email')\
    .withColumnRenamed('_c28','sit_esp')\
    .withColumnRenamed('_c29','dt_sit_esp')


In [None]:
csv_to_DF.columns

In [None]:
# Select no DF principal para deixar uma saída mais limpa, tirando dados sensíveis como telefone e email
df_select = csv_to_DF.select('CNPJ_basico',
                             'id_matriz_filial', 
                             'nome_fantasia',
                             'sit_cad', 
                             'dt_cad', 
                             'mt_sit_cad', 
                             'dt_inicio_at', 
                             'cnae_principal', 
                             'cnae_secundario', 
                             'tp_log', 
                             'log', 
                             'nm', 
                             'comp', 
                             'bairro', 
                             'CEP', 
                             'UF', 
                             'municipio') 

In [None]:
df_select.schema

In [None]:
df_select.show(5)

Para facilitar as próximas manipulações dos dados iremos persistir esses dados previamente limpos em um arquivo parquet e carregar em uma pasta com o nome Bronze, após esse passo, continuaremos efetuando alguns tratamentos

In [None]:
df_select.write.mode("overwrite").save("/media/douglas/DATA/PRJ_CNPJ/new_data/ETL/02.Bronze")

In [None]:
spark.stop()