In [1]:
from pyspark.sql.types import DoubleType, StringType
from pyspark.sql import functions as f
from pyspark.sql import SparkSession

In [2]:
spark = SparkSession.builder.appName("SimpleApp").getOrCreate()

In [3]:
pathEmpresas = "empresas"
pathEstabelecimentos = "estabelecimentos"
pathSocios = "socios"

In [4]:
empresas = spark.read.csv(pathEmpresas, sep=';', inferSchema=True)
estabelecimentos = spark.read.csv(pathEstabelecimentos, sep=';', inferSchema=True)
socios = spark.read.csv(pathSocios, sep=';', inferSchema=True)

In [5]:
empresas.count()

4585679

In [6]:
estabelecimentos.count()

4836219

In [7]:
socios.count()

2046430

In [8]:
estabelecimentos.limit(5).toPandas()

Unnamed: 0,_c0,_c1,_c2,_c3,_c4,_c5,_c6,_c7,_c8,_c9,...,_c20,_c21,_c22,_c23,_c24,_c25,_c26,_c27,_c28,_c29
0,4519,1,48,1,GIRAFFAS,8,19950331,1,,,...,6219,,,,,,,,,
1,8638,1,79,1,AGROPECUARIA FAGUNDES,8,20150209,73,,,...,7255,,,,,,,,,
2,11748,1,90,1,,4,20181219,63,,,...,7097,,,,,,,,,
3,12027,1,2,1,,8,20081231,71,,,...,7107,,,,,,,,,
4,13289,1,83,1,JS MATERIAIS DE CONSTRUCAO,2,20040123,0,,,...,6915,19.0,35811286.0,,,,,CONTATO@LEONECONTABIL.COM.BR,,


## Manipulação de Dataframes
### Renomeando as colunas

In [9]:
empresasColNames = ['cnpj_basico', 'razao_social_nome_empresarial', 'natureza_juridica', 'qualificacao_do_responsavel', 'capital_social_da_empresa', 'porte_da_empresa', 'ente_federativo_responsavel']

estabsColNames = ['cnpj_basico', 'cnpj_ordem', 'cnpj_dv', 'identificador_matriz_filial', 'nome_fantasia', 'situacao_cadastral', 'data_situacao_cadastral', 'motivo_situacao_cadastral', 'nome_da_cidade_no_exterior', 'pais', 'data_de_inicio_atividade', 'cnae_fiscal_principal', 'cnae_fiscal_secundaria', 'tipo_de_logradouro', 'logradouro', 'numero', 'complemento', 'bairro', 'cep', 'uf', 'municipio', 'ddd_1', 'telefone_1', 'ddd_2', 'telefone_2', 'ddd_do_fax', 'fax', 'correio_eletronico', 'situacao_especial', 'data_da_situacao_especial']

sociosColNames = ['cnpj_basico', 'identificador_de_socio', 'nome_do_socio_ou_razao_social', 'cnpj_ou_cpf_do_socio', 'qualificacao_do_socio', 'data_de_entrada_sociedade', 'pais', 'representante_legal', 'nome_do_representante', 'qualificacao_do_representante_legal', 'faixa_etaria']

In [10]:
# Código do curso

# for index, colName in enumerate(empresasColNames):
#     empresas = empresas.withColumnRenamed(f"_c{index}", colName)

# for index, colName in enumerate(estabsColNames):
#     estabelecimentos = estabelecimentos.withColumnRenamed(f"_c{index}", colName)

# for index, colName in enumerate(sociosColNames):
#     socios = socios.withColumnRenamed(f"_c{index}", colName)

# Melhor forma
empresas = empresas.toDF(*empresasColNames)
estabelecimentos = estabelecimentos.toDF(*estabsColNames)
socios = socios.toDF(*sociosColNames)

In [11]:
empresas.columns

['cnpj_basico',
 'razao_social_nome_empresarial',
 'natureza_juridica',
 'qualificacao_do_responsavel',
 'capital_social_da_empresa',
 'porte_da_empresa',
 'ente_federativo_responsavel']

In [12]:
empresas.limit(5).toPandas()

Unnamed: 0,cnpj_basico,razao_social_nome_empresarial,natureza_juridica,qualificacao_do_responsavel,capital_social_da_empresa,porte_da_empresa,ente_federativo_responsavel
0,4519,DANIELA DA SILVA CRUZ,2135,50,0,5,
1,8638,JOAO DOS SANTOS FAGUNDES,2135,50,0,5,
2,11748,PANIFICADORA E CONFEITARIA CONFIANCA RIO PRETO...,2062,49,0,1,
3,12027,L G SORVETERIA LTDA,2062,49,0,5,
4,13289,ANDREIA CRISTINA DELSIN EIRELI,2305,65,10000000,1,


In [13]:
estabelecimentos.limit(5).toPandas()

Unnamed: 0,cnpj_basico,cnpj_ordem,cnpj_dv,identificador_matriz_filial,nome_fantasia,situacao_cadastral,data_situacao_cadastral,motivo_situacao_cadastral,nome_da_cidade_no_exterior,pais,...,municipio,ddd_1,telefone_1,ddd_2,telefone_2,ddd_do_fax,fax,correio_eletronico,situacao_especial,data_da_situacao_especial
0,4519,1,48,1,GIRAFFAS,8,19950331,1,,,...,6219,,,,,,,,,
1,8638,1,79,1,AGROPECUARIA FAGUNDES,8,20150209,73,,,...,7255,,,,,,,,,
2,11748,1,90,1,,4,20181219,63,,,...,7097,,,,,,,,,
3,12027,1,2,1,,8,20081231,71,,,...,7107,,,,,,,,,
4,13289,1,83,1,JS MATERIAIS DE CONSTRUCAO,2,20040123,0,,,...,6915,19.0,35811286.0,,,,,CONTATO@LEONECONTABIL.COM.BR,,


In [14]:
socios.limit(5).toPandas()

Unnamed: 0,cnpj_basico,identificador_de_socio,nome_do_socio_ou_razao_social,cnpj_ou_cpf_do_socio,qualificacao_do_socio,data_de_entrada_sociedade,pais,representante_legal,nome_do_representante,qualificacao_do_representante_legal,faixa_etaria
0,411,2,LILIANA PATRICIA GUASTAVINO,***678188**,22,19940725,,***000000**,,0,7
1,411,2,CRISTINA HUNDERTMARK,***637848**,28,19940725,,***000000**,,0,7
2,5813,2,CELSO EDUARDO DE CASTRO STEPHAN,***786068**,49,19940516,,***000000**,,0,8
3,5813,2,EDUARDO BERRINGER STEPHAN,***442348**,49,19940516,,***000000**,,0,5
4,14798,2,HANNE MAHFOUD FADEL,***760388**,49,19940609,,***000000**,,0,8


In [15]:
empresas.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- razao_social_nome_empresarial: string (nullable = true)
 |-- natureza_juridica: integer (nullable = true)
 |-- qualificacao_do_responsavel: integer (nullable = true)
 |-- capital_social_da_empresa: string (nullable = true)
 |-- porte_da_empresa: integer (nullable = true)
 |-- ente_federativo_responsavel: string (nullable = true)



In [16]:
estabelecimentos.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- cnpj_ordem: integer (nullable = true)
 |-- cnpj_dv: integer (nullable = true)
 |-- identificador_matriz_filial: integer (nullable = true)
 |-- nome_fantasia: string (nullable = true)
 |-- situacao_cadastral: integer (nullable = true)
 |-- data_situacao_cadastral: integer (nullable = true)
 |-- motivo_situacao_cadastral: integer (nullable = true)
 |-- nome_da_cidade_no_exterior: string (nullable = true)
 |-- pais: integer (nullable = true)
 |-- data_de_inicio_atividade: integer (nullable = true)
 |-- cnae_fiscal_principal: integer (nullable = true)
 |-- cnae_fiscal_secundaria: string (nullable = true)
 |-- tipo_de_logradouro: string (nullable = true)
 |-- logradouro: string (nullable = true)
 |-- numero: string (nullable = true)
 |-- complemento: string (nullable = true)
 |-- bairro: string (nullable = true)
 |-- cep: integer (nullable = true)
 |-- uf: string (nullable = true)
 |-- municipio: integer (nullable = true)
 |-- ddd_1: str

In [17]:
socios.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- identificador_de_socio: integer (nullable = true)
 |-- nome_do_socio_ou_razao_social: string (nullable = true)
 |-- cnpj_ou_cpf_do_socio: string (nullable = true)
 |-- qualificacao_do_socio: integer (nullable = true)
 |-- data_de_entrada_sociedade: integer (nullable = true)
 |-- pais: integer (nullable = true)
 |-- representante_legal: string (nullable = true)
 |-- nome_do_representante: string (nullable = true)
 |-- qualificacao_do_representante_legal: integer (nullable = true)
 |-- faixa_etaria: integer (nullable = true)



In [18]:
empresas = empresas.withColumn('capital_social_da_empresa', f.regexp_replace('capital_social_da_empresa', ',', '.'))

In [19]:
empresas = empresas.withColumn('capital_social_da_empresa', empresas['capital_social_da_empresa'].cast(DoubleType()))

In [20]:
empresas.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- razao_social_nome_empresarial: string (nullable = true)
 |-- natureza_juridica: integer (nullable = true)
 |-- qualificacao_do_responsavel: integer (nullable = true)
 |-- capital_social_da_empresa: double (nullable = true)
 |-- porte_da_empresa: integer (nullable = true)
 |-- ente_federativo_responsavel: string (nullable = true)



In [21]:
estabelecimentos = estabelecimentos.withColumn(
        "data_situacao_cadastral",
        f.to_date(estabelecimentos.data_situacao_cadastral.cast(StringType()), 'yyyyMMdd')
    ).withColumn(
        "data_de_inicio_atividade",
        f.to_date(estabelecimentos.data_de_inicio_atividade.cast(StringType()), 'yyyyMMdd')
    ).withColumn(
        "data_da_situacao_especial",
        f.to_date(estabelecimentos.data_da_situacao_especial.cast(StringType()), 'yyyyMMdd')
    )

In [22]:
estabelecimentos.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- cnpj_ordem: integer (nullable = true)
 |-- cnpj_dv: integer (nullable = true)
 |-- identificador_matriz_filial: integer (nullable = true)
 |-- nome_fantasia: string (nullable = true)
 |-- situacao_cadastral: integer (nullable = true)
 |-- data_situacao_cadastral: date (nullable = true)
 |-- motivo_situacao_cadastral: integer (nullable = true)
 |-- nome_da_cidade_no_exterior: string (nullable = true)
 |-- pais: integer (nullable = true)
 |-- data_de_inicio_atividade: date (nullable = true)
 |-- cnae_fiscal_principal: integer (nullable = true)
 |-- cnae_fiscal_secundaria: string (nullable = true)
 |-- tipo_de_logradouro: string (nullable = true)
 |-- logradouro: string (nullable = true)
 |-- numero: string (nullable = true)
 |-- complemento: string (nullable = true)
 |-- bairro: string (nullable = true)
 |-- cep: integer (nullable = true)
 |-- uf: string (nullable = true)
 |-- municipio: integer (nullable = true)
 |-- ddd_1: string (n

In [23]:
estabelecimentos.limit(5).toPandas()

Unnamed: 0,cnpj_basico,cnpj_ordem,cnpj_dv,identificador_matriz_filial,nome_fantasia,situacao_cadastral,data_situacao_cadastral,motivo_situacao_cadastral,nome_da_cidade_no_exterior,pais,...,municipio,ddd_1,telefone_1,ddd_2,telefone_2,ddd_do_fax,fax,correio_eletronico,situacao_especial,data_da_situacao_especial
0,4519,1,48,1,GIRAFFAS,8,1995-03-31,1,,,...,6219,,,,,,,,,
1,8638,1,79,1,AGROPECUARIA FAGUNDES,8,2015-02-09,73,,,...,7255,,,,,,,,,
2,11748,1,90,1,,4,2018-12-19,63,,,...,7097,,,,,,,,,
3,12027,1,2,1,,8,2008-12-31,71,,,...,7107,,,,,,,,,
4,13289,1,83,1,JS MATERIAIS DE CONSTRUCAO,2,2004-01-23,0,,,...,6915,19.0,35811286.0,,,,,CONTATO@LEONECONTABIL.COM.BR,,


In [24]:
socios = socios.withColumn(
        "data_de_entrada_sociedade",
        f.to_date(socios.data_de_entrada_sociedade.cast(StringType()), 'yyyyMMdd')
    )

## Seleções e consultas

In [25]:
empresas.select('*').show(5, False)

+-----------+---------------------------------------------------+-----------------+---------------------------+-------------------------+----------------+---------------------------+
|cnpj_basico|razao_social_nome_empresarial                      |natureza_juridica|qualificacao_do_responsavel|capital_social_da_empresa|porte_da_empresa|ente_federativo_responsavel|
+-----------+---------------------------------------------------+-----------------+---------------------------+-------------------------+----------------+---------------------------+
|4519       |DANIELA DA SILVA CRUZ                              |2135             |50                         |0.0                      |5               |NULL                       |
|8638       |JOAO DOS SANTOS FAGUNDES                           |2135             |50                         |0.0                      |5               |NULL                       |
|11748      |PANIFICADORA E CONFEITARIA CONFIANCA RIO PRETO LTDA|2062             |49

In [26]:
empresas.select('natureza_juridica', 'porte_da_empresa', 'capital_social_da_empresa').show(5, False)

+-----------------+----------------+-------------------------+
|natureza_juridica|porte_da_empresa|capital_social_da_empresa|
+-----------------+----------------+-------------------------+
|2135             |5               |0.0                      |
|2135             |5               |0.0                      |
|2062             |1               |0.0                      |
|2062             |5               |0.0                      |
|2305             |1               |100000.0                 |
+-----------------+----------------+-------------------------+
only showing top 5 rows



In [27]:
socios.select(
    'nome_do_socio_ou_razao_social', 'faixa_etaria', f.year('data_de_entrada_sociedade').alias('data_entrada')
).show(5, False)

+-------------------------------+------------+------------+
|nome_do_socio_ou_razao_social  |faixa_etaria|data_entrada|
+-------------------------------+------------+------------+
|LILIANA PATRICIA GUASTAVINO    |7           |1994        |
|CRISTINA HUNDERTMARK           |7           |1994        |
|CELSO EDUARDO DE CASTRO STEPHAN|8           |1994        |
|EDUARDO BERRINGER STEPHAN      |5           |1994        |
|HANNE MAHFOUD FADEL            |8           |1994        |
+-------------------------------+------------+------------+
only showing top 5 rows



In [28]:
estabelecimentos.select(
    'nome_fantasia', 'municipio',
    f.year('data_de_inicio_atividade').alias('ano_de_inicio_atividade'),
    f.month('data_de_inicio_atividade').alias('mes_de_inicio_atividade'),
).show(5, False)

+--------------------------+---------+-----------------------+-----------------------+
|nome_fantasia             |municipio|ano_de_inicio_atividade|mes_de_inicio_atividade|
+--------------------------+---------+-----------------------+-----------------------+
|GIRAFFAS                  |6219     |1994                   |5                      |
|AGROPECUARIA FAGUNDES     |7255     |1994                   |5                      |
|NULL                      |7097     |1994                   |5                      |
|NULL                      |7107     |1994                   |6                      |
|JS MATERIAIS DE CONSTRUCAO|6915     |1994                   |6                      |
+--------------------------+---------+-----------------------+-----------------------+
only showing top 5 rows



## Identificando valores nulos

In [29]:
estabelecimentos.limit(2).show()

+-----------+----------+-------+---------------------------+--------------------+------------------+-----------------------+-------------------------+--------------------------+----+------------------------+---------------------+----------------------+------------------+-----------------+------+-------------------+----------------+--------+---+---------+-----+----------+-----+----------+----------+----+------------------+-----------------+-------------------------+
|cnpj_basico|cnpj_ordem|cnpj_dv|identificador_matriz_filial|       nome_fantasia|situacao_cadastral|data_situacao_cadastral|motivo_situacao_cadastral|nome_da_cidade_no_exterior|pais|data_de_inicio_atividade|cnae_fiscal_principal|cnae_fiscal_secundaria|tipo_de_logradouro|       logradouro|numero|        complemento|          bairro|     cep| uf|municipio|ddd_1|telefone_1|ddd_2|telefone_2|ddd_do_fax| fax|correio_eletronico|situacao_especial|data_da_situacao_especial|
+-----------+----------+-------+---------------------------+

In [30]:
socios.select([f.count(f.when(f.isnull(c), 1)).alias(c) for c in socios.columns]).show()

+-----------+----------------------+-----------------------------+--------------------+---------------------+-------------------------+-------+-------------------+---------------------+-----------------------------------+------------+
|cnpj_basico|identificador_de_socio|nome_do_socio_ou_razao_social|cnpj_ou_cpf_do_socio|qualificacao_do_socio|data_de_entrada_sociedade|   pais|representante_legal|nome_do_representante|qualificacao_do_representante_legal|faixa_etaria|
+-----------+----------------------+-----------------------------+--------------------+---------------------+-------------------------+-------+-------------------+---------------------+-----------------------------------+------------+
|          0|                     0|                          208|                1234|                    0|                        1|2038255|                  0|              1995432|                                  0|           0|
+-----------+----------------------+------------------------

In [31]:
socios.na.fill(0).limit(5).toPandas()

Unnamed: 0,cnpj_basico,identificador_de_socio,nome_do_socio_ou_razao_social,cnpj_ou_cpf_do_socio,qualificacao_do_socio,data_de_entrada_sociedade,pais,representante_legal,nome_do_representante,qualificacao_do_representante_legal,faixa_etaria
0,411,2,LILIANA PATRICIA GUASTAVINO,***678188**,22,1994-07-25,0,***000000**,,0,7
1,411,2,CRISTINA HUNDERTMARK,***637848**,28,1994-07-25,0,***000000**,,0,7
2,5813,2,CELSO EDUARDO DE CASTRO STEPHAN,***786068**,49,1994-05-16,0,***000000**,,0,8
3,5813,2,EDUARDO BERRINGER STEPHAN,***442348**,49,1994-05-16,0,***000000**,,0,5
4,14798,2,HANNE MAHFOUD FADEL,***760388**,49,1994-06-09,0,***000000**,,0,8


In [32]:
socios.na.fill('-').limit(5).toPandas()

Unnamed: 0,cnpj_basico,identificador_de_socio,nome_do_socio_ou_razao_social,cnpj_ou_cpf_do_socio,qualificacao_do_socio,data_de_entrada_sociedade,pais,representante_legal,nome_do_representante,qualificacao_do_representante_legal,faixa_etaria
0,411,2,LILIANA PATRICIA GUASTAVINO,***678188**,22,1994-07-25,,***000000**,-,0,7
1,411,2,CRISTINA HUNDERTMARK,***637848**,28,1994-07-25,,***000000**,-,0,7
2,5813,2,CELSO EDUARDO DE CASTRO STEPHAN,***786068**,49,1994-05-16,,***000000**,-,0,8
3,5813,2,EDUARDO BERRINGER STEPHAN,***442348**,49,1994-05-16,,***000000**,-,0,5
4,14798,2,HANNE MAHFOUD FADEL,***760388**,49,1994-06-09,,***000000**,-,0,8


## Ordenando os valores

In [33]:
socios.select(
    "nome_do_socio_ou_razao_social", "faixa_etaria", f.year('data_de_entrada_sociedade').alias('ano_de_entrada')
).show(5, False)

+-------------------------------+------------+--------------+
|nome_do_socio_ou_razao_social  |faixa_etaria|ano_de_entrada|
+-------------------------------+------------+--------------+
|LILIANA PATRICIA GUASTAVINO    |7           |1994          |
|CRISTINA HUNDERTMARK           |7           |1994          |
|CELSO EDUARDO DE CASTRO STEPHAN|8           |1994          |
|EDUARDO BERRINGER STEPHAN      |5           |1994          |
|HANNE MAHFOUD FADEL            |8           |1994          |
+-------------------------------+------------+--------------+
only showing top 5 rows



In [34]:
socios.select(
    "nome_do_socio_ou_razao_social", "faixa_etaria", f.year('data_de_entrada_sociedade').alias('ano_de_entrada')
).orderBy(['faixa_etaria', 'ano_de_entrada'], ascending=[False, False]).show(15, False)

+-----------------------------+------------+--------------+
|nome_do_socio_ou_razao_social|faixa_etaria|ano_de_entrada|
+-----------------------------+------------+--------------+
|ANDRE PAUL GABAY             |9           |2021          |
|APPARECIDA ALBANI DE LIMA    |9           |2021          |
|YASUKO KIYOMOTO HORIE        |9           |2021          |
|UMBERTO BASTOS SACCHELLI     |9           |2021          |
|OTAVIO BENTO DO NACIMENTO    |9           |2021          |
|MARIA CELIAO SACCHELLI       |9           |2021          |
|JANYR BELLUCI MIDUATI        |9           |2021          |
|NORBERTO AGOSTINHO           |9           |2021          |
|CARMINDA ALICE DE MORAIS     |9           |2021          |
|HERCILIO COSTA               |9           |2021          |
|ALTIVO DE SOUZA              |9           |2021          |
|RUY BARRETO                  |9           |2021          |
|MARIZE DA ROSA LIMA          |9           |2021          |
|MARIA DO CEU DOS SANTOS      |9        

In [35]:
empresas.where(
    "capital_social_da_empresa==50"
).show(5, False)

+-----------+--------------------------------------------+-----------------+---------------------------+-------------------------+----------------+---------------------------+
|cnpj_basico|razao_social_nome_empresarial               |natureza_juridica|qualificacao_do_responsavel|capital_social_da_empresa|porte_da_empresa|ente_federativo_responsavel|
+-----------+--------------------------------------------+-----------------+---------------------------+-------------------------+----------------+---------------------------+
|14715041   |LIDIANE MARIA DO NASCIMENTO 14542418707     |2135             |50                         |50.0                     |1               |NULL                       |
|20601885   |CRISTIANO AKIHITO BORDIN 04370949955        |2135             |50                         |50.0                     |1               |NULL                       |
|23661983   |VITOR ALOISIO DO NASCIMENTO GUIA 12663882739|2135             |50                         |50.0            

In [36]:
socios.select(
    "nome_do_socio_ou_razao_social"
).filter(
    socios.nome_do_socio_ou_razao_social.startswith("ANTONIO")
).filter(
    socios.nome_do_socio_ou_razao_social.endswith("ALVES")
).limit(10).toPandas()

Unnamed: 0,nome_do_socio_ou_razao_social
0,ANTONIO ELICIO SANTOS ALVES
1,ANTONIO DE PADUA ALVES
2,ANTONIO EDUARDO ROCHA ALVES
3,ANTONIO ALCINO ALVES
4,ANTONIO MASCARENHAS ALVES
5,ANTONIO MARCELO ARAUJO GONCALVES
6,ANTONIO VILMAR PEREIRA ALVES
7,ANTONIO RODRIGUES GONCALVES
8,ANTONIO JOSE ALVES
9,ANTONIO APARECIDO GONCALVES


In [37]:
socios.where(socios.nome_do_socio_ou_razao_social.like('%ALVES%')).show(truncate=False)

+-----------+----------------------+-------------------------------------------------+--------------------+---------------------+-------------------------+----+-------------------+---------------------+-----------------------------------+------------+
|cnpj_basico|identificador_de_socio|nome_do_socio_ou_razao_social                    |cnpj_ou_cpf_do_socio|qualificacao_do_socio|data_de_entrada_sociedade|pais|representante_legal|nome_do_representante|qualificacao_do_representante_legal|faixa_etaria|
+-----------+----------------------+-------------------------------------------------+--------------------+---------------------+-------------------------+----+-------------------+---------------------+-----------------------------------+------------+
|427873     |2                     |ADRIANA GONCALVES ROBERTA FERREIRA               |***143386**         |22                   |2004-01-13               |NULL|***000000**        |NULL                 |0                                  |5     

## Agregações e junções

In [38]:
socios.select(
    f.year('data_de_entrada_sociedade').alias('ano_de_entrada')
).where(
    'ano_de_entrada >= 2010'
).groupBy(
    'ano_de_entrada'
).count().orderBy('ano_de_entrada', ascending=True).show()

+--------------+------+
|ano_de_entrada| count|
+--------------+------+
|          2010| 79337|
|          2011| 83906|
|          2012| 80101|
|          2013| 83919|
|          2014| 80590|
|          2015| 80906|
|          2016| 81587|
|          2017| 90221|
|          2018| 99935|
|          2019|118248|
|          2020|125927|
|          2021| 56316|
+--------------+------+



In [39]:
empresas.select(
    'cnpj_basico', 'porte_da_empresa', 'capital_social_da_empresa'
).groupBy('porte_da_empresa').agg(
    f.avg('capital_social_da_empresa').alias('capital_social_medio'),
    f.count('cnpj_basico').alias('frequencia')
).orderBy('porte_da_empresa', ascending=True).show()

+----------------+--------------------+----------+
|porte_da_empresa|capital_social_medio|frequencia|
+----------------+--------------------+----------+
|            NULL|    8.35421888053467|      5985|
|               1|   339994.5331350705|   3129043|
|               3|  2601001.7677092687|    115151|
|               5|   708660.4208249793|   1335500|
+----------------+--------------------+----------+



In [40]:
empresas.select(
    'capital_social_da_empresa'
).summary().show()

+-------+-------------------------+
|summary|capital_social_da_empresa|
+-------+-------------------------+
|  count|                  4585679|
|   mean|        503694.5478542674|
| stddev|     2.1118691490537742E8|
|    min|                      0.0|
|    25%|                      0.0|
|    50%|                   1000.0|
|    75%|                   7000.0|
|    max|         3.22014670262E11|
+-------+-------------------------+



In [41]:
socios.select(
    'nome_do_socio_ou_razao_social'
).summary().show()

+-------+-----------------------------+
|summary|nome_do_socio_ou_razao_social|
+-------+-----------------------------+
|  count|                      2046222|
|   mean|                         NULL|
| stddev|                         NULL|
|    min|         '' PROTENDE '' SI...|
|    25%|                         NULL|
|    50%|                         NULL|
|    75%|                         NULL|
|    max|         iDtrust Tecnologi...|
+-------+-----------------------------+



In [42]:
estabelecimentos.select(
    'nome_fantasia'
).summary().show()

+-------+-------------+
|summary|nome_fantasia|
+-------+-------------+
|  count|      2821513|
|   mean|     Infinity|
| stddev|          NaN|
|    min|    !000 GRAU|
|    25%|         33.0|
|    50%|       9981.0|
|    75%| 9.75695942E8|
|    max|        �VILA|
+-------+-------------+



## Joins

In [43]:
empresas_join = estabelecimentos.join(empresas, 'cnpj_basico', how='inner')

In [44]:
empresas_join.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- cnpj_ordem: integer (nullable = true)
 |-- cnpj_dv: integer (nullable = true)
 |-- identificador_matriz_filial: integer (nullable = true)
 |-- nome_fantasia: string (nullable = true)
 |-- situacao_cadastral: integer (nullable = true)
 |-- data_situacao_cadastral: date (nullable = true)
 |-- motivo_situacao_cadastral: integer (nullable = true)
 |-- nome_da_cidade_no_exterior: string (nullable = true)
 |-- pais: integer (nullable = true)
 |-- data_de_inicio_atividade: date (nullable = true)
 |-- cnae_fiscal_principal: integer (nullable = true)
 |-- cnae_fiscal_secundaria: string (nullable = true)
 |-- tipo_de_logradouro: string (nullable = true)
 |-- logradouro: string (nullable = true)
 |-- numero: string (nullable = true)
 |-- complemento: string (nullable = true)
 |-- bairro: string (nullable = true)
 |-- cep: integer (nullable = true)
 |-- uf: string (nullable = true)
 |-- municipio: integer (nullable = true)
 |-- ddd_1: string (n

In [45]:
freq = empresas_join.select(
    'cnpj_basico',
    f.year('data_de_inicio_atividade').alias('data_de_inicio')
).where('data_de_inicio >= 2010').groupBy('data_de_inicio').agg(
    f.count('cnpj_basico').alias('frequencia')
).orderBy('data_de_inicio', ascending=True)

In [46]:
freq.toPandas()

Unnamed: 0,data_de_inicio,frequencia
0,2010,154159
1,2011,172677
2,2012,232480
3,2013,198424
4,2014,202276
5,2015,212523
6,2016,265417
7,2017,237292
8,2018,275435
9,2019,325922


In [47]:
freq.union(
    freq.select(
        f.lit('Total').alias('data_de_inicio'),
        f.sum(freq.frequencia).alias('frequencia')
    )
).show()

+--------------+----------+
|data_de_inicio|frequencia|
+--------------+----------+
|          2010|    154159|
|          2011|    172677|
|          2012|    232480|
|          2013|    198424|
|          2014|    202276|
|          2015|    212523|
|          2016|    265417|
|          2017|    237292|
|          2018|    275435|
|          2019|    325922|
|          2020|    400654|
|          2021|    153275|
|         Total|   2830534|
+--------------+----------+



In [48]:
empresas.createOrReplaceTempView("empresasView")

In [49]:
spark.sql("SELECT * FROM empresasView").show(5)

+-----------+-----------------------------+-----------------+---------------------------+-------------------------+----------------+---------------------------+
|cnpj_basico|razao_social_nome_empresarial|natureza_juridica|qualificacao_do_responsavel|capital_social_da_empresa|porte_da_empresa|ente_federativo_responsavel|
+-----------+-----------------------------+-----------------+---------------------------+-------------------------+----------------+---------------------------+
|       4519|         DANIELA DA SILVA ...|             2135|                         50|                      0.0|               5|                       NULL|
|       8638|         JOAO DOS SANTOS F...|             2135|                         50|                      0.0|               5|                       NULL|
|      11748|         PANIFICADORA E CO...|             2062|                         49|                      0.0|               1|                       NULL|
|      12027|          L G SORVETE

In [50]:
spark.sql("""
SELECT *
FROM empresasView
WHERE qualificacao_do_responsavel = 0
""").show(5)

+-----------+-----------------------------+-----------------+---------------------------+-------------------------+----------------+---------------------------+
|cnpj_basico|razao_social_nome_empresarial|natureza_juridica|qualificacao_do_responsavel|capital_social_da_empresa|porte_da_empresa|ente_federativo_responsavel|
+-----------+-----------------------------+-----------------+---------------------------+-------------------------+----------------+---------------------------+
|   17734526|         INSTITUTO EDUCACI...|             8885|                          0|                      0.0|               5|                       NULL|
|   20914560|         SERVICO DE NOTAS ...|             3034|                          0|                      0.0|               5|                       NULL|
|    1436343|         CARTORIO DO REGIS...|             3034|                          0|                      0.0|               5|                       NULL|
|    5716949|         CARTORIO DE 

In [51]:
empresas.write.csv(
    path='output',
    mode='overwrite',
    sep=';',
    header=True
)

In [52]:
# spark.stop()