
Spark MLlib.


Construído sobre o Spark, MLlib é uma biblioteca de aprendizado de máquina escalável que fornece um conjunto uniforme de APIs de alto nível que ajudam os usuários a criar e ajustar pipelines de aprendizado de máquina práticos.

Spark SQL.


Este é o módulo Spark para processamento de dados estruturados. Ele fornece uma abstração de programação chamada DataFrame e também pode atuar como mecanismo de consulta SQL distribuído.

Spark Streaming.


Alternativa correta! Executando em cima do Spark, o recurso de streaming no Apache Spark possibilita o uso de poderosas aplicações interativas e analíticas em streaming e dados históricos, enquanto herda a facilidade de uso do Spark e as características de tolerância a falhas. Com Spark Streaming podemos consumir as informações do Twitter conforme elas vão sendo geradas.

##**Vamos Focar no Spark sql**

In [None]:
# instalando as dependecias ou seja instalando o java
# é responsável por instalar a versão 8 do Java.

!apt-get install openjdk-8-jdk-headless -qq > /dev/null


In [None]:

# baixa os arquivos do Spark versão 3.1.2 , que virão zipados com a extensão Apache Hadoop 2.7.
!wget -q https://archive.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop2.7.tgz

In [None]:
# responsável por extrair esses arquivos comprimidos.
!tar xf spark-3.1.2-bin-hadoop2.7.tgz


In [None]:
# faz a instalação da ferramenta Find Spark.
!pip install -q findspark

In [None]:
import os
os.environ['JAVA_HOME'] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.1.2-bin-hadoop2.7"


In [None]:
import findspark
findspark.init()

# **Carregando os Dados**

O ponto de entrada para programar o Spark com a API Dataset e DataFrame.

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
     .master('local[*]')\
     .appName("Iniciando com Spark")\
     .getOrCreate()

In [None]:
spark


apache spark link = https://spark.apache.org/       
o que é spark link = https://spark.apache.org/powered-by.html           
documentação pyspark = https://spark.apache.org/docs/latest/      

 o Resilient Distributed Dataset ("Conjunto de dados distribuídos resilientes" em português, também chamado pela sigla RDD; o DataFrame e o Dataset. Perceba que todas estão melhor explicadas no notebook disponibilizado.

A abstração principal que o Spark fornece é justamente o RDD, que consiste em uma coleção de elementos particionados nos nós do cluster que podem ser operados em paralelo. O RDD é a API do Spark de nível mais baixo e há várias formas de criá-lo. Está disponível nas linguagens Java, Python e Scala, então conseguimos utilizá-lo com o PySpark. Embora seja a estrutura original de dados do Spark, não entraremos em mais detalhes sobre esta API porque nosso foco é o DataFrame.

O DataFrame é um conceito similar ao dataframe do Pandas e da linguagem R, estando disponível nas linguagens Java, Python, R e Scala.

O Dataset, por sua vez, é uma interface mais recente que fornece os benefícios do RDD em conjunto com os do DataFrame. Em suma, trata-se de uma combinação das duas interfaces anteriores e está disponível apenas nas linguagens Java e Scala

DataFrames com Spark
interfaces Spark
existem três interfaces principais do Apache Spark que você deve conhecer:

In [None]:
data = [('Zeca','35'),('Eva','29')]
colunas = ['Nome','Idade']
df = spark.createDataFrame(data, colunas)

In [None]:
df.show()

+----+-----+
|Nome|Idade|
+----+-----+
|Zeca|   35|
| Eva|   29|
+----+-----+



In [None]:
df.toPandas()

Unnamed: 0,Nome,Idade
0,Zeca,35
1,Eva,29


# **PROJETO**
**Dados públicos CNPJ**    
Receita Federal

In [None]:
# Conectando no dados e enviando para o google drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## **Carregando os dados** empresas

In [None]:
import zipfile

zipfile.ZipFile('/content/drive/MyDrive/curso_spark/empresas/Empresas.zip', 'r').extractall('/content/drive/MyDrive/curso_spark')

In [None]:
part='/content/drive/MyDrive/curso_spark/empresas/K3241.K03200Y8.D30708.EMPRECSV'
empresas = spark.read.csv(part,sep=';',inferSchema=True)

In [None]:
empresas.count()

4494860

In [None]:
empresas.limit(5).toPandas()

Unnamed: 0,cnpj,razao_social,natureza_juritica,qualificacao_responsavel,capital_social,porte_empresa,ente_federativo
0,32066829,KARINA CRISTINA BARROS KRETZSCHMAR 22543951814,2135,50,100000,1,
1,32066830,32.066.830 KAROLINE FELICIANO DA SILVA PIMENTA,2135,50,500000,1,
2,32066831,PARTIDO REPUBLICANO DA ORDEM SOCIAL - PACATUBA...,3271,16,0,5,
3,32066832,JOSE ALIPIO GARCIA GOUVEA - ESPORTES,2135,50,1000000,1,
4,32066833,M&M COMERCIO DE PRODUTOS AGROPECUARIOS LTDA,2062,49,1000000,3,


# **Carregando os dados** estabelicimentos

In [None]:
zipfile.ZipFile('/content/drive/MyDrive/curso_spark/estabelicimentos/Estabelecimentos8.zip', 'r').extractall('/content/drive/MyDrive/curso_spark/estabelicimentos')

In [None]:
part='/content/drive/MyDrive/curso_spark/estabelicimentos/K3241.K03200Y8.D30708.ESTABELE'
estabelecimentos = spark.read.csv(part,sep=';',inferSchema=True)

In [None]:
estabelecimentos.count()

4753435

In [None]:
estabelecimentos.limit(5).toPandas()

Unnamed: 0,_c0,_c1,_c2,_c3,_c4,_c5,_c6,_c7,_c8,_c9,...,_c20,_c21,_c22,_c23,_c24,_c25,_c26,_c27,_c28,_c29
0,31964672,1,40,1,LUIZA SEMI JOIAS,4,20210325,63,,,...,6001,21,0,,,,,ednasouza.goncalves@hotmail.com,,
1,31986687,1,0,1,ANAPAULA SERVICOS E VENDAS DE LINGERRIE,4,20210325,63,,,...,6001,21,99191706,,,,,CRISTINA.SILVA.SANTOS72@GMAIL.COM,,
2,32016011,1,56,1,2R'S PINTURAS,4,20210325,63,,,...,6001,21,33143545,,,,,digao_digo1@hotmail.com,,
3,32035600,1,81,1,MAE E FILHOS FESTAS,4,20210325,63,,,...,6001,21,22696641,,,,,janainacristina297@gmail.com,,
4,41363533,1,15,1,,2,20210326,0,,,...,5625,27,92253414,,,,,DEPAULASOUZANUNES@GMAIL.COM,,


# **Carregando os dados** Socios

In [None]:
zipfile.ZipFile('/content/drive/MyDrive/curso_spark/socios/Socios8.zip', 'r').extractall('/content/drive/MyDrive/curso_spark/socios')

In [None]:
part='/content/drive/MyDrive/curso_spark/socios/K3241.K03200Y8.D30708.SOCIOCSV'
socios = spark.read.csv(part,sep=';',inferSchema=True)

In [None]:
socios.count()

2019150

In [None]:
socios.limit(5).toPandas()

Unnamed: 0,cnpj_basico,identificador_de_socio,nome_do_socio_ou_razao_social,cnpj_ou_cpf_do_socio,qualificacao_do_socio,data_de_entrada_sociedade,pais,representante_legal,nome_do_representante,qualificacao_do_representante_legal,faixa_etaria
0,4611849,2,ROSANA ZAIATZ SCHIMANDEIRO,***005229**,22,20190930,,***000000**,,0,5
1,6768438,2,GILBERTO MACHADO DE PINHO,***224810**,16,20050912,,***000000**,,0,9
2,6768440,2,ORLANDO ALEXANDRE DA SILVA,***264158**,16,20050912,,***000000**,,0,7
3,2853754,2,PAULO GONZAGA DOS SANTOS,***955741**,16,20050912,,***000000**,,0,6
4,1235378,2,LUIZ YUJI TAMAI,***396528**,49,19960508,,***000000**,,0,8


------------------------------------------------------------------------------------------------------------------------------------------------

In [None]:
empresas.limit(5).toPandas()

Unnamed: 0,_c0,_c1,_c2,_c3,_c4,_c5,_c6
0,32066829,KARINA CRISTINA BARROS KRETZSCHMAR 22543951814,2135,50,100000,1,
1,32066830,32.066.830 KAROLINE FELICIANO DA SILVA PIMENTA,2135,50,500000,1,
2,32066831,PARTIDO REPUBLICANO DA ORDEM SOCIAL - PACATUBA...,3271,16,0,5,
3,32066832,JOSE ALIPIO GARCIA GOUVEA - ESPORTES,2135,50,1000000,1,
4,32066833,M&M COMERCIO DE PRODUTOS AGROPECUARIOS LTDA,2062,49,1000000,3,


In [None]:
# renomeando as colunas

colunas_empresas = ['cnpj','razao_social','natureza_juritica','qualificacao_responsavel','capital_social','porte_empresa','ente_federativo']
colunas_estabelecimentos = ['cnpj_basico', 'cnpj_ordem', 'cnpj_dv', 'identificador_matriz_filial', 'nome_fantasia', 'situacao_cadastral', 'data_situacao_cadastral', 'motivo_situacao_cadastral', 'nome_da_cidade_no_exterior', 'pais', 'data_de_inicio_atividade', 'cnae_fiscal_principal', 'cnae_fiscal_secundaria', 'tipo_de_logradouro', 'logradouro', 'numero', 'complemento', 'bairro', 'cep', 'uf', 'municipio', 'ddd_1', 'telefone_1', 'ddd_2', 'telefone_2', 'ddd_do_fax', 'fax', 'correio_eletronico', 'situacao_especial', 'data_da_situacao_especial']
colunas_socios = ['cnpj_basico', 'identificador_de_socio', 'nome_do_socio_ou_razao_social', 'cnpj_ou_cpf_do_socio', 'qualificacao_do_socio', 'data_de_entrada_sociedade', 'pais', 'representante_legal', 'nome_do_representante', 'qualificacao_do_representante_legal', 'faixa_etaria']

In [None]:
# empresas

for index, colunas in enumerate(colunas_empresas):
  empresas = empresas.withColumnRenamed(f'_c{index}',colunas)

In [None]:
empresas.columns

['cnpj',
 'razao_social',
 'natureza_juritica',
 'qualificacao_responsavel',
 'capital_social',
 'porte_empresa',
 'ente_federativo']

In [None]:
# estabelecimentos
for index, colunas in enumerate(colunas_estabelecimentos):
  estabelecimentos = estabelecimentos.withColumnRenamed(f'_c{index}',colunas)

In [None]:
estabelecimentos.columns

['cnpj_basico',
 'cnpj_ordem',
 'cnpj_dv',
 'identificador_matriz_filial',
 'nome_fantasia',
 'situacao_cadastral',
 'data_situacao_cadastral',
 'motivo_situacao_cadastral',
 'nome_da_cidade_no_exterior',
 'pais',
 'data_de_inicio_atividade',
 'cnae_fiscal_principal',
 'cnae_fiscal_secundaria',
 'tipo_de_logradouro',
 'logradouro',
 'numero',
 'complemento',
 'bairro',
 'cep',
 'uf',
 'municipio',
 'ddd_1',
 'telefone_1',
 'ddd_2',
 'telefone_2',
 'ddd_do_fax',
 'fax',
 'correio_eletronico',
 'situacao_especial',
 'data_da_situacao_especial']

In [None]:
# socios
for index, colunas in enumerate(colunas_socios):
  socios = socios.withColumnRenamed(f'_c{index}',colunas)

In [None]:
socios.columns

['cnpj_basico',
 'identificador_de_socio',
 'nome_do_socio_ou_razao_social',
 'cnpj_ou_cpf_do_socio',
 'qualificacao_do_socio',
 'data_de_entrada_sociedade',
 'pais',
 'representante_legal',
 'nome_do_representante',
 'qualificacao_do_representante_legal',
 'faixa_etaria']

 # **Visualizando os Dados**

In [None]:
# tipos de dados
empresas.printSchema()

root
 |-- cnpj: integer (nullable = true)
 |-- razao_social: string (nullable = true)
 |-- natureza_juritica: integer (nullable = true)
 |-- qualificacao_responsavel: integer (nullable = true)
 |-- capital_social: string (nullable = true)
 |-- porte_empresa: integer (nullable = true)
 |-- ente_federativo: string (nullable = true)



In [None]:
# tipos de dados
estabelecimentos.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- cnpj_ordem: integer (nullable = true)
 |-- cnpj_dv: integer (nullable = true)
 |-- identificador_matriz_filial: integer (nullable = true)
 |-- nome_fantasia: string (nullable = true)
 |-- situacao_cadastral: integer (nullable = true)
 |-- data_situacao_cadastral: integer (nullable = true)
 |-- motivo_situacao_cadastral: integer (nullable = true)
 |-- nome_da_cidade_no_exterior: string (nullable = true)
 |-- pais: integer (nullable = true)
 |-- data_de_inicio_atividade: integer (nullable = true)
 |-- cnae_fiscal_principal: integer (nullable = true)
 |-- cnae_fiscal_secundaria: string (nullable = true)
 |-- tipo_de_logradouro: string (nullable = true)
 |-- logradouro: string (nullable = true)
 |-- numero: string (nullable = true)
 |-- complemento: string (nullable = true)
 |-- bairro: string (nullable = true)
 |-- cep: string (nullable = true)
 |-- uf: string (nullable = true)
 |-- municipio: string (nullable = true)
 |-- ddd_1: strin

In [None]:
socios.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- identificador_de_socio: integer (nullable = true)
 |-- nome_do_socio_ou_razao_social: string (nullable = true)
 |-- cnpj_ou_cpf_do_socio: string (nullable = true)
 |-- qualificacao_do_socio: integer (nullable = true)
 |-- data_de_entrada_sociedade: integer (nullable = true)
 |-- pais: integer (nullable = true)
 |-- representante_legal: string (nullable = true)
 |-- nome_do_representante: string (nullable = true)
 |-- qualificacao_do_representante_legal: integer (nullable = true)
 |-- faixa_etaria: integer (nullable = true)



# **Tratandos os Dados**

In [None]:
from pyspark.sql.types import DoubleType
from pyspark.sql.types import StringType

# transformações
from pyspark.sql import functions as f


In [None]:
empresas.printSchema()

root
 |-- cnpj: integer (nullable = true)
 |-- razao_social: string (nullable = true)
 |-- natureza_juritica: integer (nullable = true)
 |-- qualificacao_responsavel: integer (nullable = true)
 |-- capital_social: string (nullable = true)
 |-- porte_empresa: integer (nullable = true)
 |-- ente_federativo: string (nullable = true)



In [None]:
empresas.limit(3).toPandas()

Unnamed: 0,cnpj,razao_social,natureza_juritica,qualificacao_responsavel,capital_social,porte_empresa,ente_federativo
0,32066829,KARINA CRISTINA BARROS KRETZSCHMAR 22543951814,2135,50,100000,1,
1,32066830,32.066.830 KAROLINE FELICIANO DA SILVA PIMENTA,2135,50,500000,1,
2,32066831,PARTIDO REPUBLICANO DA ORDEM SOCIAL - PACATUBA...,3271,16,0,5,


In [None]:
# mudando a virgula por ponto
# o 'f' é do from pyspark.sql import functions as f
empresas  = empresas.withColumn('capital_social',f.regexp_replace('capital_social',',','.'))

In [None]:
mostrar = empresas.limit(3).toPandas()

In [None]:
mostrar

Unnamed: 0,cnpj,razao_social,natureza_juritica,qualificacao_responsavel,capital_social,porte_empresa,ente_federativo
0,32066829,KARINA CRISTINA BARROS KRETZSCHMAR 22543951814,2135,50,1000.0,1,
1,32066830,32.066.830 KAROLINE FELICIANO DA SILVA PIMENTA,2135,50,5000.0,1,
2,32066831,PARTIDO REPUBLICANO DA ORDEM SOCIAL - PACATUBA...,3271,16,0.0,5,


In [None]:
# transformando os tipos de dados

empresas  = empresas.withColumn('capital_social',empresas['capital_social'].cast(DoubleType()))

In [None]:
empresas.printSchema()

root
 |-- cnpj: integer (nullable = true)
 |-- razao_social: string (nullable = true)
 |-- natureza_juritica: integer (nullable = true)
 |-- qualificacao_responsavel: integer (nullable = true)
 |-- capital_social: double (nullable = true)
 |-- porte_empresa: integer (nullable = true)
 |-- ente_federativo: string (nullable = true)



# **Convertendo para tipo string**

observação: para converter uma data se tiver em numero primeiro converte para string e depois para data.

In [None]:
# exemplo

df = spark.createDataFrame([(20210612,),(20211210,),(20210206,)],['data'])
df

DataFrame[data: bigint]

In [None]:
df.printSchema()

root
 |-- data: long (nullable = true)



In [None]:
df.toPandas()

Unnamed: 0,data
0,20210612
1,20211210
2,20210206


In [None]:
df = df.withColumn('data', f.to_date(df.data.cast(StringType()),'yyyyMMdd'))

In [None]:
df.toPandas()

Unnamed: 0,data
0,2021-06-12
1,2021-12-10
2,2021-02-06


In [None]:
df.printSchema()

root
 |-- data: date (nullable = true)



In [None]:
socios.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- identificador_de_socio: integer (nullable = true)
 |-- nome_do_socio_ou_razao_social: string (nullable = true)
 |-- cnpj_ou_cpf_do_socio: string (nullable = true)
 |-- qualificacao_do_socio: integer (nullable = true)
 |-- data_de_entrada_sociedade: integer (nullable = true)
 |-- pais: integer (nullable = true)
 |-- representante_legal: string (nullable = true)
 |-- nome_do_representante: string (nullable = true)
 |-- qualificacao_do_representante_legal: integer (nullable = true)
 |-- faixa_etaria: integer (nullable = true)



In [None]:
 # da tabela socio data_de_entrada_sociedade: integer (nullable = true) mudar para tipo data

 socios = socios.withColumn('data_de_entrada_sociedade',f.to_date(socios.data_de_entrada_sociedade.cast(StringType()),'yyyyMMdd'))

In [None]:
socios.limit(5).toPandas()

Unnamed: 0,cnpj_basico,identificador_de_socio,nome_do_socio_ou_razao_social,cnpj_ou_cpf_do_socio,qualificacao_do_socio,data_de_entrada_sociedade,pais,representante_legal,nome_do_representante,qualificacao_do_representante_legal,faixa_etaria
0,4611849,2,ROSANA ZAIATZ SCHIMANDEIRO,***005229**,22,2019-09-30,,***000000**,,0,5
1,6768438,2,GILBERTO MACHADO DE PINHO,***224810**,16,2005-09-12,,***000000**,,0,9
2,6768440,2,ORLANDO ALEXANDRE DA SILVA,***264158**,16,2005-09-12,,***000000**,,0,7
3,2853754,2,PAULO GONZAGA DOS SANTOS,***955741**,16,2005-09-12,,***000000**,,0,6
4,1235378,2,LUIZ YUJI TAMAI,***396528**,49,1996-05-08,,***000000**,,0,8


In [None]:
# visualizando os tipo de dados
dict(socios.dtypes)["data_de_entrada_sociedade"]

'date'

In [None]:
empresas.limit(3).toPandas()

Unnamed: 0,cnpj,razao_social,natureza_juritica,qualificacao_responsavel,capital_social,porte_empresa,ente_federativo
0,32066829,KARINA CRISTINA BARROS KRETZSCHMAR 22543951814,2135,50,1000.0,1,
1,32066830,32.066.830 KAROLINE FELICIANO DA SILVA PIMENTA,2135,50,5000.0,1,
2,32066831,PARTIDO REPUBLICANO DA ORDEM SOCIAL - PACATUBA...,3271,16,0.0,5,


In [None]:
# Usando groupBy e count para contar a ocorrência de valores em "coluna_contagem" por grupo em "coluna_grupo"

# exemplo --> contagem_por_grupo = empresas.groupBy("coluna_grupo", "coluna_contagem").count()

# como vai demorar por um grande volume de dados vou colocar um limite
# visualizacao = empresas.groupBy('razao_social','natureza_juritica').count()

limite_empresas = empresas.limit(1000)




In [None]:
visualizacao = limite_empresas.groupBy('natureza_juritica','porte_empresa').count()

In [None]:
visualizacao.limit(10).show()

+-----------------+-------------+-----+
|natureza_juritica|porte_empresa|count|
+-----------------+-------------+-----+
|             2135|            1|  727|
|             3271|            5|    1|
|             2062|            3|   26|
|             2062|            1|  118|
|             2305|            1|    6|
|             2062|            5|   60|
|             2143|            5|    1|
|             2135|            5|   17|
|             2127|            5|    2|
|             2135|            3|    5|
+-----------------+-------------+-----+



In [None]:
# visualizacao.persist()
resultado = visualizacao.limit(50).toPandas()


# visualizacao.unpersist()  # Lembre-se de liberar o cache após o uso.

In [None]:
visualizacao.unpersist()  # Lembre-se de liberar o cache após o uso.

DataFrame[natureza_juritica: int, porte_empresa: int, count: bigint]

In [None]:
resultado

Unnamed: 0,natureza_juritica,porte_empresa,count
0,2135,1,727
1,3271,5,1
2,2062,3,26
3,2062,1,118
4,2305,1,6
5,2062,5,60
6,2143,5,1
7,2135,5,17
8,2127,5,2
9,2135,3,5


In [None]:
# visualizar grafico
!pip install plotly



In [None]:
import plotly.express as px

fig = px.bar(resultado, x='porte_empresa', y='natureza_juritica',color ='count', barmode='group')
fig.show()

In [None]:
estabelecimentos.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- cnpj_ordem: integer (nullable = true)
 |-- cnpj_dv: integer (nullable = true)
 |-- identificador_matriz_filial: integer (nullable = true)
 |-- nome_fantasia: string (nullable = true)
 |-- situacao_cadastral: integer (nullable = true)
 |-- data_situacao_cadastral: date (nullable = true)
 |-- motivo_situacao_cadastral: integer (nullable = true)
 |-- nome_da_cidade_no_exterior: string (nullable = true)
 |-- pais: integer (nullable = true)
 |-- data_de_inicio_atividade: integer (nullable = true)
 |-- cnae_fiscal_principal: integer (nullable = true)
 |-- cnae_fiscal_secundaria: string (nullable = true)
 |-- tipo_de_logradouro: string (nullable = true)
 |-- logradouro: string (nullable = true)
 |-- numero: string (nullable = true)
 |-- complemento: string (nullable = true)
 |-- bairro: string (nullable = true)
 |-- cep: string (nullable = true)
 |-- uf: string (nullable = true)
 |-- municipio: string (nullable = true)
 |-- ddd_1: string (

In [None]:
estabelecimentos = estabelecimentos\
    .withColumn('data_situacao_cadastral',
                f.to_date(estabelecimentos.data_situacao_cadastral.cast(StringType()),'yyyyMMdd'))\
    .withColumn('data_de_inicio_atividade',
                f.to_date(estabelecimentos.data_de_inicio_atividade.cast(StringType()),'yyyyMMdd'))\
    .withColumn('data_da_situacao_especial',
                f.to_date(estabelecimentos.data_da_situacao_especial.cast(StringType()),'yyyyMMdd'))




In [None]:
estabelecimentos.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- cnpj_ordem: integer (nullable = true)
 |-- cnpj_dv: integer (nullable = true)
 |-- identificador_matriz_filial: integer (nullable = true)
 |-- nome_fantasia: string (nullable = true)
 |-- situacao_cadastral: integer (nullable = true)
 |-- data_situacao_cadastral: date (nullable = true)
 |-- motivo_situacao_cadastral: integer (nullable = true)
 |-- nome_da_cidade_no_exterior: string (nullable = true)
 |-- pais: integer (nullable = true)
 |-- data_de_inicio_atividade: date (nullable = true)
 |-- cnae_fiscal_principal: integer (nullable = true)
 |-- cnae_fiscal_secundaria: string (nullable = true)
 |-- tipo_de_logradouro: string (nullable = true)
 |-- logradouro: string (nullable = true)
 |-- numero: string (nullable = true)
 |-- complemento: string (nullable = true)
 |-- bairro: string (nullable = true)
 |-- cep: string (nullable = true)
 |-- uf: string (nullable = true)
 |-- municipio: string (nullable = true)
 |-- ddd_1: string (nul

# Seleções e consultas

In [None]:
# o False representa como os dados vão esta simplificados colocar False ele exibi os dados completos da s colunas
empresas.select('*').show(5,False)

+--------+---------------------------------------------------------------+-----------------+------------------------+--------------+-------------+---------------+
|cnpj    |razao_social                                                   |natureza_juritica|qualificacao_responsavel|capital_social|porte_empresa|ente_federativo|
+--------+---------------------------------------------------------------+-----------------+------------------------+--------------+-------------+---------------+
|32066829|KARINA CRISTINA BARROS KRETZSCHMAR 22543951814                 |2135             |50                      |1000.0        |1            |null           |
|32066830|32.066.830 KAROLINE FELICIANO DA SILVA PIMENTA                 |2135             |50                      |5000.0        |1            |null           |
|32066831|PARTIDO REPUBLICANO DA ORDEM SOCIAL - PACATUBA - CE - MUNICIPAL|3271             |16                      |0.0           |5            |null           |
|32066832|JOSE ALIPIO 

In [None]:
empresas\
    .select('natureza_juritica','porte_empresa','capital_social')\
    .show(5)

+-----------------+-------------+--------------+
|natureza_juritica|porte_empresa|capital_social|
+-----------------+-------------+--------------+
|             2135|            1|        1000.0|
|             2135|            1|        5000.0|
|             3271|            5|           0.0|
|             2135|            1|       10000.0|
|             2062|            3|       10000.0|
+-----------------+-------------+--------------+
only showing top 5 rows



In [None]:
# year para representar a coluna e alias para mudar o nome da coluna.

socios\
    .select('nome_do_socio_ou_razao_social','faixa_etaria',f.year('data_de_entrada_sociedade').alias('ano_de_entrada'))\
    .show(5,False)

+-----------------------------+------------+--------------+
|nome_do_socio_ou_razao_social|faixa_etaria|ano_de_entrada|
+-----------------------------+------------+--------------+
|ROSANA ZAIATZ SCHIMANDEIRO   |5           |2019          |
|GILBERTO MACHADO DE PINHO    |9           |2005          |
|ORLANDO ALEXANDRE DA SILVA   |7           |2005          |
|PAULO GONZAGA DOS SANTOS     |6           |2005          |
|LUIZ YUJI TAMAI              |8           |1996          |
+-----------------------------+------------+--------------+
only showing top 5 rows



In [None]:
# mês
socios\
    .select('nome_do_socio_ou_razao_social','faixa_etaria',f.month('data_de_entrada_sociedade').alias('mes_de_inicio_atividade'))\
    .show(5,False)

+-----------------------------+------------+-----------------------+
|nome_do_socio_ou_razao_social|faixa_etaria|mes_de_inicio_atividade|
+-----------------------------+------------+-----------------------+
|ROSANA ZAIATZ SCHIMANDEIRO   |5           |9                      |
|GILBERTO MACHADO DE PINHO    |9           |9                      |
|ORLANDO ALEXANDRE DA SILVA   |7           |9                      |
|PAULO GONZAGA DOS SANTOS     |6           |9                      |
|LUIZ YUJI TAMAI              |8           |5                      |
+-----------------------------+------------+-----------------------+
only showing top 5 rows



In [None]:
# ano
socios\
    .select('nome_do_socio_ou_razao_social','faixa_etaria',f.dayofmonth('data_de_entrada_sociedade').alias('dia_do_inicio_atividade'))\
    .show(5,False)

+-----------------------------+------------+-----------------------+
|nome_do_socio_ou_razao_social|faixa_etaria|dia_do_inicio_atividade|
+-----------------------------+------------+-----------------------+
|ROSANA ZAIATZ SCHIMANDEIRO   |5           |30                     |
|GILBERTO MACHADO DE PINHO    |9           |12                     |
|ORLANDO ALEXANDRE DA SILVA   |7           |12                     |
|PAULO GONZAGA DOS SANTOS     |6           |12                     |
|LUIZ YUJI TAMAI              |8           |8                      |
+-----------------------------+------------+-----------------------+
only showing top 5 rows

