In [58]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master('local[*]') \
    .appName("Carregando dados estabelecimentos") \
    .getOrCreate()

In [59]:
# imports and path
from pyspark.sql.types import DoubleType, StringType
from pyspark.sql import functions as func

path = "../datasets/alura/01/socios/"

In [60]:
socios = spark.read.csv(path, sep=';', inferSchema=True)
socios.count()

                                                                                

2046430

In [61]:
socios.limit(5).toPandas()

Unnamed: 0,_c0,_c1,_c2,_c3,_c4,_c5,_c6,_c7,_c8,_c9,_c10
0,411,2,LILIANA PATRICIA GUASTAVINO,***678188**,22,19940725,,***000000**,,0,7
1,411,2,CRISTINA HUNDERTMARK,***637848**,28,19940725,,***000000**,,0,7
2,5813,2,CELSO EDUARDO DE CASTRO STEPHAN,***786068**,49,19940516,,***000000**,,0,8
3,5813,2,EDUARDO BERRINGER STEPHAN,***442348**,49,19940516,,***000000**,,0,5
4,14798,2,HANNE MAHFOUD FADEL,***760388**,49,19940609,,***000000**,,0,8


In [62]:
sociosColNames = ['cnpj_basico', 'identificador_de_socio', 'nome_do_socio_ou_razao_social', 'cnpj_ou_cpf_do_socio', 'qualificacao_do_socio', 'data_de_entrada_sociedade', 'pais', 'representante_legal', 'nome_do_representante', 'qualificacao_do_representante_legal', 'faixa_etaria']

In [63]:
for idx, name in enumerate(sociosColNames):
    socios = socios.withColumnRenamed(f"_c{idx}", name)

In [64]:
socios.limit(5).toPandas()

Unnamed: 0,cnpj_basico,identificador_de_socio,nome_do_socio_ou_razao_social,cnpj_ou_cpf_do_socio,qualificacao_do_socio,data_de_entrada_sociedade,pais,representante_legal,nome_do_representante,qualificacao_do_representante_legal,faixa_etaria
0,411,2,LILIANA PATRICIA GUASTAVINO,***678188**,22,19940725,,***000000**,,0,7
1,411,2,CRISTINA HUNDERTMARK,***637848**,28,19940725,,***000000**,,0,7
2,5813,2,CELSO EDUARDO DE CASTRO STEPHAN,***786068**,49,19940516,,***000000**,,0,8
3,5813,2,EDUARDO BERRINGER STEPHAN,***442348**,49,19940516,,***000000**,,0,5
4,14798,2,HANNE MAHFOUD FADEL,***760388**,49,19940609,,***000000**,,0,8


In [65]:

socios.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- identificador_de_socio: integer (nullable = true)
 |-- nome_do_socio_ou_razao_social: string (nullable = true)
 |-- cnpj_ou_cpf_do_socio: string (nullable = true)
 |-- qualificacao_do_socio: integer (nullable = true)
 |-- data_de_entrada_sociedade: integer (nullable = true)
 |-- pais: integer (nullable = true)
 |-- representante_legal: string (nullable = true)
 |-- nome_do_representante: string (nullable = true)
 |-- qualificacao_do_representante_legal: integer (nullable = true)
 |-- faixa_etaria: integer (nullable = true)



In [66]:
socios = socios\
    .withColumn(
        "data_de_entrada_sociedade", 
        func.to_date(socios.data_de_entrada_sociedade.cast(StringType()), 'yyyyMMdd')
    )

socios.printSchema()

root
 |-- cnpj_basico: integer (nullable = true)
 |-- identificador_de_socio: integer (nullable = true)
 |-- nome_do_socio_ou_razao_social: string (nullable = true)
 |-- cnpj_ou_cpf_do_socio: string (nullable = true)
 |-- qualificacao_do_socio: integer (nullable = true)
 |-- data_de_entrada_sociedade: date (nullable = true)
 |-- pais: integer (nullable = true)
 |-- representante_legal: string (nullable = true)
 |-- nome_do_representante: string (nullable = true)
 |-- qualificacao_do_representante_legal: integer (nullable = true)
 |-- faixa_etaria: integer (nullable = true)



In [67]:
socios.limit(5).show()

+-----------+----------------------+-----------------------------+--------------------+---------------------+-------------------------+----+-------------------+---------------------+-----------------------------------+------------+
|cnpj_basico|identificador_de_socio|nome_do_socio_ou_razao_social|cnpj_ou_cpf_do_socio|qualificacao_do_socio|data_de_entrada_sociedade|pais|representante_legal|nome_do_representante|qualificacao_do_representante_legal|faixa_etaria|
+-----------+----------------------+-----------------------------+--------------------+---------------------+-------------------------+----+-------------------+---------------------+-----------------------------------+------------+
|        411|                     2|         LILIANA PATRICIA ...|         ***678188**|                   22|               1994-07-25|null|        ***000000**|                 null|                                  0|           7|
|        411|                     2|         CRISTINA HUNDERTMARK|      

In [68]:
socios.limit(5).toPandas()

Unnamed: 0,cnpj_basico,identificador_de_socio,nome_do_socio_ou_razao_social,cnpj_ou_cpf_do_socio,qualificacao_do_socio,data_de_entrada_sociedade,pais,representante_legal,nome_do_representante,qualificacao_do_representante_legal,faixa_etaria
0,411,2,LILIANA PATRICIA GUASTAVINO,***678188**,22,1994-07-25,,***000000**,,0,7
1,411,2,CRISTINA HUNDERTMARK,***637848**,28,1994-07-25,,***000000**,,0,7
2,5813,2,CELSO EDUARDO DE CASTRO STEPHAN,***786068**,49,1994-05-16,,***000000**,,0,8
3,5813,2,EDUARDO BERRINGER STEPHAN,***442348**,49,1994-05-16,,***000000**,,0,5
4,14798,2,HANNE MAHFOUD FADEL,***760388**,49,1994-06-09,,***000000**,,0,8


In [69]:
sel = socios.select([func.count(func.when(func.isnull(c), 1)).alias(c) for c in socios.columns])
sel.limit(5).show()



+-----------+----------------------+-----------------------------+--------------------+---------------------+-------------------------+-------+-------------------+---------------------+-----------------------------------+------------+
|cnpj_basico|identificador_de_socio|nome_do_socio_ou_razao_social|cnpj_ou_cpf_do_socio|qualificacao_do_socio|data_de_entrada_sociedade|   pais|representante_legal|nome_do_representante|qualificacao_do_representante_legal|faixa_etaria|
+-----------+----------------------+-----------------------------+--------------------+---------------------+-------------------------+-------+-------------------+---------------------+-----------------------------------+------------+
|          0|                     0|                          208|                1234|                    0|                        1|2038255|                  0|              1995432|                                  0|           0|
+-----------+----------------------+------------------------

                                                                                

In [70]:
socios = socios.na.fill(0)
socios = socios.na.fill("-")
socios.limit(5).toPandas()

Unnamed: 0,cnpj_basico,identificador_de_socio,nome_do_socio_ou_razao_social,cnpj_ou_cpf_do_socio,qualificacao_do_socio,data_de_entrada_sociedade,pais,representante_legal,nome_do_representante,qualificacao_do_representante_legal,faixa_etaria
0,411,2,LILIANA PATRICIA GUASTAVINO,***678188**,22,1994-07-25,0,***000000**,-,0,7
1,411,2,CRISTINA HUNDERTMARK,***637848**,28,1994-07-25,0,***000000**,-,0,7
2,5813,2,CELSO EDUARDO DE CASTRO STEPHAN,***786068**,49,1994-05-16,0,***000000**,-,0,8
3,5813,2,EDUARDO BERRINGER STEPHAN,***442348**,49,1994-05-16,0,***000000**,-,0,5
4,14798,2,HANNE MAHFOUD FADEL,***760388**,49,1994-06-09,0,***000000**,-,0,8


In [71]:
sel = socios.select('nome_do_socio_ou_razao_social', 'faixa_etaria', func.year('data_de_entrada_sociedade').alias("ano_entrada"))
sel.limit(5).toPandas()

Unnamed: 0,nome_do_socio_ou_razao_social,faixa_etaria,ano_entrada
0,LILIANA PATRICIA GUASTAVINO,7,1994
1,CRISTINA HUNDERTMARK,7,1994
2,CELSO EDUARDO DE CASTRO STEPHAN,8,1994
3,EDUARDO BERRINGER STEPHAN,5,1994
4,HANNE MAHFOUD FADEL,8,1994


# Ordernando os dados

In [72]:
sel = socios.select('nome_do_socio_ou_razao_social', 'faixa_etaria', func.year('data_de_entrada_sociedade').alias("ano_entrada"))\
    .orderBy('ano_entrada', ascending=False)
sel.limit(5).toPandas()

                                                                                

Unnamed: 0,nome_do_socio_ou_razao_social,faixa_etaria,ano_entrada
0,JOSE ALCEU DO ROSARIO JUNIOR,5,2021
1,LEILANE CRISTINA CARRIJO CLAUSING,4,2021
2,JOSE HUMBERTO PAIVA,6,2021
3,MARCELO MOCELIN,5,2021
4,ROBERTA BENELLI,4,2021


In [73]:
order = socios.select('nome_do_socio_ou_razao_social', 'faixa_etaria', func.year('data_de_entrada_sociedade').alias("ano_entrada"))\
    .orderBy(['ano_entrada','faixa_etaria'], ascending=[False, False])
order.show(10, False)



+-----------------------------+------------+-----------+
|nome_do_socio_ou_razao_social|faixa_etaria|ano_entrada|
+-----------------------------+------------+-----------+
|HERCILIO COSTA               |9           |2021       |
|APPARECIDA ALBANI DE LIMA    |9           |2021       |
|MARIA CELIAO SACCHELLI       |9           |2021       |
|NORBERTO AGOSTINHO           |9           |2021       |
|UMBERTO BASTOS SACCHELLI     |9           |2021       |
|RUY BARRETO                  |9           |2021       |
|MARIA DO CEU DOS SANTOS      |9           |2021       |
|INGO DOHLER                  |9           |2021       |
|HORTENSIA FRANCA RESENDE     |9           |2021       |
|ALBERTO DANIEL               |9           |2021       |
+-----------------------------+------------+-----------+
only showing top 10 rows



                                                                                

In [74]:
socios.select("nome_do_socio_ou_razao_social")\
    .filter(socios.nome_do_socio_ou_razao_social.startswith("DIEGO"))\
    .filter(socios.nome_do_socio_ou_razao_social.endswith("DOS SANTOS")).limit(10).toPandas()

Unnamed: 0,nome_do_socio_ou_razao_social
0,DIEGO LACERDA DOS SANTOS
1,DIEGO ARAUJO DOS SANTOS
2,DIEGO REIS DOS SANTOS
3,DIEGO ROBERT NAZARETH DOS SANTOS
4,DIEGO PEREIRA DOS SANTOS
5,DIEGO ALEXANDRE DOS SANTOS
6,DIEGO DOS SANTOS
7,DIEGO AMANCIO SALES DOS SANTOS
8,DIEGO SOARES DOS SANTOS
9,DIEGO TORRES DOS SANTOS


# Agregação

In [80]:
socios.select(func.year('data_de_entrada_sociedade').alias("ano_de_entrada"))\
    .where("ano_de_entrada >= 2010")\
    .groupBy("ano_de_entrada")\
    .count()\
    .orderBy('ano_de_entrada', ascending=True).show()



+--------------+------+
|ano_de_entrada| count|
+--------------+------+
|          2010| 79337|
|          2011| 83906|
|          2012| 80101|
|          2013| 83919|
|          2014| 80590|
|          2015| 80906|
|          2016| 81587|
|          2017| 90221|
|          2018| 99935|
|          2019|118248|
|          2020|125927|
|          2021| 56316|
+--------------+------+



                                                                                