In [0]:
# libs
import os
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, FloatType
from pyspark.sql.functions import col, split
from pyspark.sql import functions as F

# paths
path_bronze_empre = "dbfs:/FileStore/shared_uploads/default_user/bronze/*EMPRECSV"

In [0]:
df_raw_emp = spark.read.options(header=False, inferSchema=True, sep=';').format("csv").load(path_bronze_empre)
df_raw_emp.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- _c1: string (nullable = true)
 |-- _c2: integer (nullable = true)
 |-- _c3: string (nullable = true)
 |-- _c4: string (nullable = true)
 |-- _c5: integer (nullable = true)
 |-- _c6: string (nullable = true)



In [0]:
df_raw_emp.count()

4494860

In [0]:
df_raw_emp.limit(20).display()

_c0,_c1,_c2,_c3,_c4,_c5,_c6
0,BANCO DO BRASIL SA,2038,10,12000000000000,5,
1,ASSOCIACAO DE AMIGOS DE BAIRRO DO CONJ PAULISTANO,3999,16,0,5,
2,WM&R EMPREITEIRA DE CONSTRUCAO CIVIL LIMITADA,2240,49,0,5,
3,CASA CARIDADE LUZETE ROBERTA DE MORAIS CONJ PAULISTANO,3999,16,0,5,
4,ASSOCIACAO DO PEQUENO ADOLECENTE DO CONJ PAULISTANO,3999,16,0,5,
5,SERRALHERIA PORTA DE ACO REAL S/C LTDA,2240,28,0,5,
6,ACADEMIA DE BALLET PAULA FIRETTI LTDA,2062,49,100000,1,
7,ADVOCACIA BERGANTIN E ASSOCIADOS,2240,49,0,1,
8,A.R. ZANOTI E SILVA S/C LTDA,2240,49,0,1,
9,SUWAN REPRESENTACOES LTDA,2240,49,0,1,


In [0]:
# Analisar estrutura de registros
# razao social
df_raw_emp.select("_c1").distinct().orderBy("_c1", how="asc").limit(100).display()

_c1
C.A.M. CONSULTORIA EM ENGENHARIA LTDA.
NOVA IMUNI DESINSETIZACAO LTDA ME
R J F BRASIL COMERCIAL LTDA
1 IGREJA BATISTA BRASILEIRA DE LUCAS DO RIO VERDE-MT
1097 THERMAS LTDA
A.TOMOKO IWAKURA NASCIMENTO
AAE CENTRO DE ENSINO INTEGRADO AGROECOLOGICO BARAO DE LANGSDORFF
ADO SERVICOS ADMINISTRATIVOS ME LTDA
"AGRIMAR EMPREITEIRA, PAVIMENTACAO E TERRAPLANAGEM LTDA."
ALEXANDRE APARECIDO ANTUNES


In [0]:
# Analisar estrutura de registros
# capital social
df_raw_emp.select("_c4").distinct().orderBy("_c4", how="asc").limit(100).display()

_c4
0
1
2
3
4
5
7
8
10
11


In [0]:
# Analisar estrutura de registros
# natureza juridica
df_raw_emp.select("_c2").distinct().orderBy("_c2", how="asc").limit(100).display()

_c2
16
49
50
1015
1023
1031
1040
1058
1066
1074


In [0]:
# Analisar estrutura de registros
# codigo porte
df_raw_emp.select("_c5").distinct().orderBy("_c5", how="asc").limit(100).display()

_c5
""
1.0
3.0
5.0


In [0]:
# Empresas de porte 1 com maior capital social
df_raw_emp.select("*").filter(col("_c5") == 1).orderBy(col("_c4").desc()).limit(50).display()

_c0,_c1,_c2,_c3,_c4,_c5,_c6
559632,RONINE CONFECCOES LTDA,2062,49,9999000,1,
2532621,DERMALASER - LOCACAO DE APARELHOS S/C LTDA,2240,49,9999000,1,
1706625,DORE COMERCIO DE ROUPAS LTDA,2062,49,9999000,1,
2389692,"INDUSTRIA, COMERCIO, IMPORTACAO E EXPORTACAO DE ALIMENTOS MULTLAC LTDA",2062,49,9999000,1,
3836842,RPENA INFORMATICA LTDA,2062,49,999900,1,
1733636,CENTRO EDUCACIONAL INTEGRADO V.E.R.LTDA,2062,49,999900,1,
2470266,T. TOZATO LTDA,2062,49,9998000,1,
3262184,JCA SERVICE - SERVICOS ESPECIALIZADOS LTDA,2062,49,99900000,1,
326841,C2V ADMINISTRACAO DE BENS LTDA,2062,49,9990000,1,
3088543,M. MELO COMUNICACOES LTDA,2062,49,9990000,1,


In [0]:
# Empresas de porte 3 com maior capital social
df_raw_emp.select("*").filter(col("_c5") == 3).orderBy(col("_c4").desc()).limit(50).display()

_c0,_c1,_c2,_c3,_c4,_c5,_c6
2248795,SIBOLGA EMPREENDIMENTOS E PARTICIPACOES LTDA,2062,49,99999900,3,
1315197,"NORTHGRAPH GRAFICA, EDITORA E EMBALAGENS LTDA",2062,49,99990000,3,
1682489,KOMILA'W BUFFET RESTAURANTE E ROTISSERIA LTDA,2062,49,9997593,3,
1498386,CORNIDE EMPREENDIMENTOS IMOBILIARIOS LTDA,2062,49,99960000,3,
4026276,H.KOR ADMINISTRACAO E PARTICIPACOES LTDA,2062,49,99900000,3,
4328497,M L DANTAS CONSTRUCOES LTDA,2062,49,99900000,3,
2800166,RMG SERVICOS CONSTRUTIVOS LTDA,2062,49,9990000,3,
3191612,VMD SERVICOS E NEGOCIOS LTDA,2062,49,9990000,3,
3395679,CASSIO GIACOMELLI LOCACAO DE EQUIPAMENTOS PARA CONSTRUCAO LTDA,2062,49,9990000,3,
315083,GUERRA & GISLOTI SERVICOS ESPECIALIZADOS DE ENFERMAGEM S/S LTDA,2240,49,99999,3,


In [0]:
# Empresas de porte 5 com maior capital social
df_raw_emp.select("*").filter(col("_c5") == 5).orderBy(col("_c4").desc()).limit(50).display()

_c0,_c1,_c2,_c3,_c4,_c5,_c6
4487133,SUPER CAR VEICULOS LTDA,2062,49,9999900,5,
2020392,KRMA - COMERCIO E MANUTENCAO DE EQUIPAMENTOS INDUSTRIAIS LTDA,2062,49,9999900,5,
3524778,"IPE INCORPORACOES, PARTICIPACOES E EMPREENDIMENTOS LTDA",2062,5,99984000,5,
1347379,SALUM ADVOGADOS ASSOCIADOS,2232,49,999800,5,
2511693,R.TRUSSARDI EMPREENDIMENTOS SA,2054,10,99962866,5,
2390435,ECOPORTO SANTOS S.A.,2054,10,99961393282,5,
3921486,TRAMA ESTUDIOS LTDA,2062,49,999590100,5,
3950108,HABITACO PARTICIPACOES LTDA,2062,49,999258000,5,
1360601,CINCO ESTRELAS AGROPECUARIA E PARTICIPACAO LTDA,2062,49,99925000,5,
4224779,LOCALVERDE PRODUTOS AMBIENTAIS LTDA,2062,49,99922700,5,


In [0]:
# qualificacao do responsavel
df_raw_emp.select("_c3").distinct().orderBy("_c3", ascending=True).limit(100).display()

_c3
0
0
5
10
11
12
13
16
17
19


In [0]:
# Validacao da estrutura de qualificacao
df_raw_emp \
    .select("_c1", "_c2","_c3", "_c5") \
        .filter((col("_c3") == "0,00")) \
            .limit(100) \
                .display()

_c1,_c2,_c3,_c5
"""RONALD RIBEIRO CARDOSO"";""2135""",50,0,
"""FRIOPAN FRIOS & CONDIMENTOS LTDA"";""2062""",49,0,
"""CAIXA ESCOLAR DORGIVAL PINHEIRO DE SOUSA"";""3999""",16,0,
"""SOLANGE DA S.LEITE GOES"";""2135""",50,0,
"""AMARILDO ANACLETO DA COSTA"";""2135""",50,0,


In [0]:
df_raw_emp.select("*").filter(col("_c1") == '"RONALD RIBEIRO CARDOSO";"2135"').display()

_c0,_c1,_c2,_c3,_c4,_c5,_c6
1718532,"""RONALD RIBEIRO CARDOSO"";""2135""",50,0,1,,


In [0]:
df_raw_emp.select("_c1").filter(col("_c1").like('%"%')).limit(1000).display()

_c1
"""NIGTH CLUB """"TUTU"""" LTDA"""
"""""""MAISON DUE"""" CONFECCOES LIMITADA"""
"""""""CORACAO PARA CORACAO""""-COMERCIO DE DISCOS LTDA"""
"""ECO """"60"""" COMERCIO DE ROUPAS LTDA"""
"""COMERCIAL D""""ANGELLO LTDA"""
"""""""TC""""-ELETRONICA LTDA"""
"""""""DIBRASAL"""" DISTRIBUIDORA BRASILEIRA DE ALIMENTOS LTDA"""
"""""""LUQUES & MAGNOLO CENTRO AUTOMOTIVOS LTDA"""
"""""""BOBISUL""""IND.E COMERCIO DEEMBALAGENS DE MADEIRA LTDA"""
"""MOVEIS E DECORACOES """"AGMA"""" LTDA"""


In [0]:
df_raw_emp.select("_c1").filter(col("_c1").like(' %')).limit(1000).display()

_c1
T & T INDUSTRIA DE VIDROS E SERVICOS LTDA
MARINEIDE FERREIRA RAMOS
1 IGREJA BATISTA BRASILEIRA DE LUCAS DO RIO VERDE-MT
COMERCIAL AD GOMES LTDA-ME
GRAMADO PARKS INVESTIMENTOS E INTERMEDIACOES S.A - EM RECUPERACAO JUDICIAL
BEL DA VILA RESTAURANTE - LTDA
V. G. SALVADOR REPRESENTACOES
CONSELHO ESCOLA-COMUNIDADE DA ESCOLA MUNICIPAL CLEMENTINO FRAGA
ROGERIO LIMA DE REZENDE CPF 833.417.226-53
EM LIQUIDACAO


In [0]:
# cidade e estado
df_raw_emp.select("_c6").distinct().orderBy("_c6", ascending=True).limit(100).display()

_c6
""
ABADIA DE GOIAS - GO
ABADIANIA - GO
ABAETE - MG
ABAETETUBA - PA
ABAIARA - CE
ABRE CAMPO - MG
ABREULANDIA - TO
ACAIACA - MG
ACAJUTIBA - BA


In [0]:
# empresas localizadas em sao paulo

df_raw_emp \
    .select("*") \
        .filter((col("_c6") == "SAO PAULO - SP")) \
            .limit(100) \
                    .display()

_c0,_c1,_c2,_c3,_c4,_c5,_c6
4537740,SECRETARIA MUNICIPAL DE DESENVOLVIMENTO ECONOMICO E TRABALHO,1031,5,0,5,SAO PAULO - SP
4543079,SECRETARIA EXECUTIVA DE COMUNICACAO,1031,5,0,5,SAO PAULO - SP
4545693,SECRETARIA MUNICIPAL DE JUSTICA,1031,5,0,5,SAO PAULO - SP
4545723,SECRETARIA MUNICIPAL DE RELACOES INTERNACIONAIS - SMRI,1031,5,0,5,SAO PAULO - SP


In [0]:
df_raw_emp.select("_c0").distinct().orderBy("_c0", ascending=False).limit(100).display()

_c0
4631960
4631959
4631957
4631956
4631955
4631954
4631953
4631952
4631951
4631950


In [0]:
df_raw_emp.limit(10).display()

_c0,_c1,_c2,_c3,_c4,_c5,_c6
0,BANCO DO BRASIL SA,2038,10,12000000000000,5,
1,ASSOCIACAO DE AMIGOS DE BAIRRO DO CONJ PAULISTANO,3999,16,0,5,
2,WM&R EMPREITEIRA DE CONSTRUCAO CIVIL LIMITADA,2240,49,0,5,
3,CASA CARIDADE LUZETE ROBERTA DE MORAIS CONJ PAULISTANO,3999,16,0,5,
4,ASSOCIACAO DO PEQUENO ADOLECENTE DO CONJ PAULISTANO,3999,16,0,5,
5,SERRALHERIA PORTA DE ACO REAL S/C LTDA,2240,28,0,5,
6,ACADEMIA DE BALLET PAULA FIRETTI LTDA,2062,49,100000,1,
7,ADVOCACIA BERGANTIN E ASSOCIADOS,2240,49,0,1,
8,A.R. ZANOTI E SILVA S/C LTDA,2240,49,0,1,
9,SUWAN REPRESENTACOES LTDA,2240,49,0,1,


In [0]:
# definicao de schema
schemaEmpresas = StructType([
    StructField("id", IntegerType(), True),
    StructField("razao_social", StringType(), True),
    StructField("cod_natureza_juridica", IntegerType(), True),
    StructField("cod_qualificao_responsavel", IntegerType(), True),
    StructField("capital_social", FloatType(), True),
    StructField("cod_porte", StringType(), True),
    StructField("localizacao", StringType(), True)
])

df_list_emp = spark.read.options(header=False, inferSchema=True, sep=';') \
                .format("csv") \
                    .schema(schemaEmpresas) \
                        .load(path_bronze_empre)

df_list_emp.printSchema()

root
 |-- id: integer (nullable = true)
 |-- razao_social: string (nullable = true)
 |-- cod_natureza_juridica: integer (nullable = true)
 |-- cod_qualificao_responsavel: integer (nullable = true)
 |-- capital_social: float (nullable = true)
 |-- cod_porte: string (nullable = true)
 |-- localizacao: string (nullable = true)



In [0]:
df_list_emp.limit(20).display()

id,razao_social,cod_natureza_juridica,cod_qualificao_responsavel,capital_social,cod_porte,localizacao
0,BANCO DO BRASIL SA,2038,10,,5,
1,ASSOCIACAO DE AMIGOS DE BAIRRO DO CONJ PAULISTANO,3999,16,,5,
2,WM&R EMPREITEIRA DE CONSTRUCAO CIVIL LIMITADA,2240,49,,5,
3,CASA CARIDADE LUZETE ROBERTA DE MORAIS CONJ PAULISTANO,3999,16,,5,
4,ASSOCIACAO DO PEQUENO ADOLECENTE DO CONJ PAULISTANO,3999,16,,5,
5,SERRALHERIA PORTA DE ACO REAL S/C LTDA,2240,28,,5,
6,ACADEMIA DE BALLET PAULA FIRETTI LTDA,2062,49,,1,
7,ADVOCACIA BERGANTIN E ASSOCIADOS,2240,49,,1,
8,A.R. ZANOTI E SILVA S/C LTDA,2240,49,,1,
9,SUWAN REPRESENTACOES LTDA,2240,49,,1,


In [0]:
# lista de referencia para qualificação do responsável consta na documentação
df_emp_quali_resp = df_list_emp.withColumn("desc_qualificacao_responsavel",
                       F.when(col("cod_qualificao_responsavel") == 5, "Administrador")
                       .when(col("cod_qualificao_responsavel") == 10, "Diretor")
                       .when(col("cod_qualificao_responsavel") == 16, "Presidente")
                       .when(col("cod_qualificao_responsavel") == 17, "Procurador")
                       .when(col("cod_qualificao_responsavel") == 19, "Síndico (Condomínio)")
                       .when(col("cod_qualificao_responsavel") == 24, "Sócio Comanditado")
                       .when(col("cod_qualificao_responsavel") == 31, "Sócio Ostensivo")
                       .when(col("cod_qualificao_responsavel") == 32, "Tabelião")
                       .when(col("cod_qualificao_responsavel") == 34, "Titular de Empresa Individual Imobiliária")
                       .when(col("cod_qualificao_responsavel") == 39, "Diplomata")
                       .when(col("cod_qualificao_responsavel") == 40, "Cônsul")
                       .when(col("cod_qualificao_responsavel") == 41, "Representante de Organização Internacional")
                       .when(col("cod_qualificao_responsavel") == 42, "Oficial de Registro")
                       .when(col("cod_qualificao_responsavel") == 43, "Responsável")
                       .when(col("cod_qualificao_responsavel") == 46, "Ministro de Estado das Relações Exteriores")
                       .when(col("cod_qualificao_responsavel") == 49, "Sócio- Administrador")
                       .when(col("cod_qualificao_responsavel") == 50, "Empresário")
                       .when(col("cod_qualificao_responsavel") == 51, "Candidato a Cargo Político Eletivo")
                       .when(col("cod_qualificao_responsavel") == 54, "Fundador")
                       .when(col("cod_qualificao_responsavel") == 59, "Produtor Rural")
                       .when(col("cod_qualificao_responsavel") == 60, "Cônsul Honorário")
                       .when(col("cod_qualificao_responsavel") == 61, "Responsável Indígena")
                       .when(col("cod_qualificao_responsavel") == 62, "Representante da Instituição Extraterritorial")
                       .when(col("cod_qualificao_responsavel") == 65, "Titular Pessoa Física Residente ou Domiciliado no Brasil")
                       .otherwise("Qualificação Indefinida")
                       )

In [0]:
df_emp_quali_resp.limit(30).display()

id,razao_social,cod_natureza_juridica,cod_qualificao_responsavel,capital_social,cod_porte,localizacao,desc_qualificacao_responsavel
0,BANCO DO BRASIL SA,2038,10,,5,,Diretor
1,ASSOCIACAO DE AMIGOS DE BAIRRO DO CONJ PAULISTANO,3999,16,,5,,Presidente
2,WM&R EMPREITEIRA DE CONSTRUCAO CIVIL LIMITADA,2240,49,,5,,Sócio- Administrador
3,CASA CARIDADE LUZETE ROBERTA DE MORAIS CONJ PAULISTANO,3999,16,,5,,Presidente
4,ASSOCIACAO DO PEQUENO ADOLECENTE DO CONJ PAULISTANO,3999,16,,5,,Presidente
5,SERRALHERIA PORTA DE ACO REAL S/C LTDA,2240,28,,5,,Qualificação Indefinida
6,ACADEMIA DE BALLET PAULA FIRETTI LTDA,2062,49,,1,,Sócio- Administrador
7,ADVOCACIA BERGANTIN E ASSOCIADOS,2240,49,,1,,Sócio- Administrador
8,A.R. ZANOTI E SILVA S/C LTDA,2240,49,,1,,Sócio- Administrador
9,SUWAN REPRESENTACOES LTDA,2240,49,,1,,Sócio- Administrador


In [0]:
df_list_emp = (df_list_emp
               .withColumn("razao_social_format",
                           F.regexp_replace(col("razao_social"), "^\\s+", ""))
                    .drop("razao_social")
                        .withColumnRenamed("razao_social_format", "razao_social")
                        ).select(
                            'id'
                            , 'razao_social'
                            , 'cod_natureza_juridica'
                            , 'cod_qualificao_responsavel'
                            , 'capital_social'
                            , 'cod_porte'
                            , 'localizacao'
                        )

In [0]:
df_list_emp.limit(20).display()

id,cod_natureza_juridica,cod_qualificao_responsavel,capital_social,cod_porte,localizacao,razao_social
0,2038,10,,5,,BANCO DO BRASIL SA
1,3999,16,,5,,ASSOCIACAO DE AMIGOS DE BAIRRO DO CONJ PAULISTANO
2,2240,49,,5,,WM&R EMPREITEIRA DE CONSTRUCAO CIVIL LIMITADA
3,3999,16,,5,,CASA CARIDADE LUZETE ROBERTA DE MORAIS CONJ PAULISTANO
4,3999,16,,5,,ASSOCIACAO DO PEQUENO ADOLECENTE DO CONJ PAULISTANO
5,2240,28,,5,,SERRALHERIA PORTA DE ACO REAL S/C LTDA
6,2062,49,,1,,ACADEMIA DE BALLET PAULA FIRETTI LTDA
7,2240,49,,1,,ADVOCACIA BERGANTIN E ASSOCIADOS
8,2240,49,,1,,A.R. ZANOTI E SILVA S/C LTDA
9,2240,49,,1,,SUWAN REPRESENTACOES LTDA


In [0]:
df_list_emp.select("razao_social").filter(col("razao_social_format").like(' %')).display()

razao_social


In [0]:
df_list_emp.select("razao_social_format").limit(30).display()

razao_social_format
BANCO DO BRASIL SA
ASSOCIACAO DE AMIGOS DE BAIRRO DO CONJ PAULISTANO
WM&R EMPREITEIRA DE CONSTRUCAO CIVIL LIMITADA
CASA CARIDADE LUZETE ROBERTA DE MORAIS CONJ PAULISTANO
ASSOCIACAO DO PEQUENO ADOLECENTE DO CONJ PAULISTANO
SERRALHERIA PORTA DE ACO REAL S/C LTDA
ACADEMIA DE BALLET PAULA FIRETTI LTDA
ADVOCACIA BERGANTIN E ASSOCIADOS
A.R. ZANOTI E SILVA S/C LTDA
SUWAN REPRESENTACOES LTDA


In [0]:
df_list_emp.select("razao_social").filter(col("razao_social").like('%";"%')).limit(100).display()

razao_social
"""RONALD RIBEIRO CARDOSO"";""2135"""
"""FRIOPAN FRIOS & CONDIMENTOS LTDA"";""2062"""
"""CAIXA ESCOLAR DORGIVAL PINHEIRO DE SOUSA"";""3999"""
"""SOLANGE DA S.LEITE GOES"";""2135"""
"""AMARILDO ANACLETO DA COSTA"";""2135"""


In [0]:
split_df = (df_list_emp.filter(col("razao_social").like('%";"%'))
            .select([split(col(c), ';').alias(c) for c in df_list_emp.columns]))

display(split_df)

id,razao_social,cod_natureza_juridica,cod_qualificao_responsavel,capital_social,cod_porte,localizacao,desc_qualificacao_responsavel,razao_social_format
List(1718532),"List(""RONALD RIBEIRO CARDOSO"", ""2135"")",List(50),,List(1.0),,,List(Qualificação Indefinida),"List(""RONALD RIBEIRO CARDOSO"", ""2135"")"
List(1724006),"List(""FRIOPAN FRIOS & CONDIMENTOS LTDA"", ""2062"")",List(49),,List(5.0),,,List(Qualificação Indefinida),"List(""FRIOPAN FRIOS & CONDIMENTOS LTDA"", ""2062"")"
List(1794396),"List(""CAIXA ESCOLAR DORGIVAL PINHEIRO DE SOUSA"", ""3999"")",List(16),,List(5.0),,,List(Qualificação Indefinida),"List(""CAIXA ESCOLAR DORGIVAL PINHEIRO DE SOUSA"", ""3999"")"
List(2209756),"List(""SOLANGE DA S.LEITE GOES"", ""2135"")",List(50),,List(5.0),,,List(Qualificação Indefinida),"List(""SOLANGE DA S.LEITE GOES"", ""2135"")"
List(2649520),"List(""AMARILDO ANACLETO DA COSTA"", ""2135"")",List(50),,List(1.0),,,List(Qualificação Indefinida),"List(""AMARILDO ANACLETO DA COSTA"", ""2135"")"


In [0]:
%python
from pyspark.sql.functions import col, split, regexp_replace

# Split all columns by ';'
split_df = (df_list_emp.filter(col("razao_social").like('%";"%'))
            .select([split(col(c), ';').alias(c) for c in df_list_emp.columns]))

# Remove square brackets from all columns
cleaned_df = split_df.select([regexp_replace(col(c).cast("string"), r'[\[\]]', '').alias(c) for c in split_df.columns])

display(cleaned_df)

id,razao_social,cod_natureza_juridica,cod_qualificao_responsavel,capital_social,cod_porte,localizacao,desc_qualificacao_responsavel,razao_social_format
1718532,"""RONALD RIBEIRO CARDOSO"", ""2135""",50,,1.0,,,Qualificação Indefinida,"""RONALD RIBEIRO CARDOSO"", ""2135"""
1724006,"""FRIOPAN FRIOS & CONDIMENTOS LTDA"", ""2062""",49,,5.0,,,Qualificação Indefinida,"""FRIOPAN FRIOS & CONDIMENTOS LTDA"", ""2062"""
1794396,"""CAIXA ESCOLAR DORGIVAL PINHEIRO DE SOUSA"", ""3999""",16,,5.0,,,Qualificação Indefinida,"""CAIXA ESCOLAR DORGIVAL PINHEIRO DE SOUSA"", ""3999"""
2209756,"""SOLANGE DA S.LEITE GOES"", ""2135""",50,,5.0,,,Qualificação Indefinida,"""SOLANGE DA S.LEITE GOES"", ""2135"""
2649520,"""AMARILDO ANACLETO DA COSTA"", ""2135""",50,,1.0,,,Qualificação Indefinida,"""AMARILDO ANACLETO DA COSTA"", ""2135"""


In [0]:
df_list_emp.limit(20).display()

id,razao_social,cod_natureza_juridica,cod_qualificao_responsavel,capital_social,cod_porte,localizacao,desc_qualificacao_responsavel,razao_social_format
0,BANCO DO BRASIL SA,2038,10,,5,,Diretor,BANCO DO BRASIL SA
1,ASSOCIACAO DE AMIGOS DE BAIRRO DO CONJ PAULISTANO,3999,16,,5,,Presidente,ASSOCIACAO DE AMIGOS DE BAIRRO DO CONJ PAULISTANO
2,WM&R EMPREITEIRA DE CONSTRUCAO CIVIL LIMITADA,2240,49,,5,,Sócio- Administrador,WM&R EMPREITEIRA DE CONSTRUCAO CIVIL LIMITADA
3,CASA CARIDADE LUZETE ROBERTA DE MORAIS CONJ PAULISTANO,3999,16,,5,,Presidente,CASA CARIDADE LUZETE ROBERTA DE MORAIS CONJ PAULISTANO
4,ASSOCIACAO DO PEQUENO ADOLECENTE DO CONJ PAULISTANO,3999,16,,5,,Presidente,ASSOCIACAO DO PEQUENO ADOLECENTE DO CONJ PAULISTANO
5,SERRALHERIA PORTA DE ACO REAL S/C LTDA,2240,28,,5,,Qualificação Indefinida,SERRALHERIA PORTA DE ACO REAL S/C LTDA
6,ACADEMIA DE BALLET PAULA FIRETTI LTDA,2062,49,,1,,Sócio- Administrador,ACADEMIA DE BALLET PAULA FIRETTI LTDA
7,ADVOCACIA BERGANTIN E ASSOCIADOS,2240,49,,1,,Sócio- Administrador,ADVOCACIA BERGANTIN E ASSOCIADOS
8,A.R. ZANOTI E SILVA S/C LTDA,2240,49,,1,,Sócio- Administrador,A.R. ZANOTI E SILVA S/C LTDA
9,SUWAN REPRESENTACOES LTDA,2240,49,,1,,Sócio- Administrador,SUWAN REPRESENTACOES LTDA


In [0]:
# Criar schema no metastore
spark.sql("CREATE SCHEMA IF NOT EXISTS hive_metastore.db_rfb")
# Salvar tabela delta
df_list_emp.write.mode("append").format("delta").saveAsTable("hive_metastore.db_rfb.tbl_slv_empresas")

In [0]:
# Path source
path_bronze_empre = "dbfs:/FileStore/shared_uploads/default_user/bronze/*EMPRECSV"

# definicao de schema
schemaEmpresas = StructType([
    StructField("cnpj", IntegerType(), True),
    StructField("razao_social", StringType(), True),
    StructField("natureza_juridica", IntegerType(), True),
    StructField("qualificao_responsavel", IntegerType(), True),
    StructField("capital_social", FloatType(), True),
    StructField("cod_porte", StringType(), True),
    StructField("localizacao", StringType(), True)
])

# Leitura de arquivo bruto
df_list_emp = spark.read.options(header=False, inferSchema=True, sep=';') \
                .format("csv") \
                    .schema(schemaEmpresas) \
                        .load(path_bronze_empre)

# Remoção de espaços em branco                       
df_list_emp = (df_list_emp
               .withColumn("razao_social_format",
                           F.regexp_replace(col("razao_social"), "^\\s+", ""))
                    .drop("razao_social")
                        .withColumnRenamed("razao_social_format", "razao_social")
                        ).select(
                            'cnpj'
                            , 'razao_social'
                            , 'natureza_juridica'
                            , 'qualificao_responsavel'
                            , 'capital_social'
                            , 'cod_porte'
                        )

In [0]:
# Criar schema no metastore
spark.sql("CREATE SCHEMA IF NOT EXISTS hive_metastore.db_rfb")
# Salvar tabela delta
df_list_emp.write.mode("append").format("delta").saveAsTable("hive_metastore.db_rfb.tbl_slv_empresas")