                                    TODOS IMPORT NECESSÁRIOS PARA RODAR PYSPARK + DELTA

In [14]:
import findspark
findspark.init()

- Aqui configura o Hadoop localmente, essencial para que o Spark funcione corretamente no Windows.

In [15]:
import os
os.environ["HADOOP_HOME"] = "C:\\hadoop"
os.environ["HADOOP_COMMON_HOME"] = "C:\\hadoop"
os.environ["HADOOP_HDFS_HOME"] = "C:\\hadoop"
os.environ["HADOOP_TMP_DIR"] = "C:\\hadoop\\tmp"
os.environ["PATH"] = f"{os.environ['PATH']};C:\\hadoop\\bin"

In [16]:
#Garante que a pasta tmp exista para o Hadoop não dar erro ao iniciar.
if not os.path.exists("C:\\hadoop\\tmp"):
    os.makedirs("C:\\hadoop\\tmp")

# Configurações essenciais para Windows
os.environ["HADOOP_USER_NAME"] = os.getlogin()  # Usuário atual do Windows

In [17]:
from pyspark.sql import SparkSession
from delta import configure_spark_with_delta_pip

- Adiciona os JARs do Hadoop à variável de ambiente SPARK_CLASSPATH para que o Spark consiga usá-los.

In [18]:
from pyspark import SparkFiles
spark_jars = ":".join([
    "C:\\hadoop\\share\\hadoop\\common\\*.jar",
    "C:\\hadoop\\share\\hadoop\\common\\lib\\*.jar"
])
os.environ["SPARK_CLASSPATH"] = spark_jars

                                CRIAÇÃO DE SESSÃO COM CONFIGURAÇÃO NECESSÁRIO PARA O FUNCIONANDO DO DELTA

- Configura a sessão com suporte a Delta Lake, manipulação local de arquivos (LocalFileSystem) e aumento da memória do driver para 4 GB (melhora performance)

In [19]:
builder = SparkSession.builder \
    .appName('DW_analise') \
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
    .config("spark.hadoop.fs.file.impl", "org.apache.hadoop.fs.LocalFileSystem") \
    .config("spark.driver.extraJavaOptions", "-Dio.netty.tryReflectionSetAccessible=true") \
    .config("spark.sql.warehouse.dir", "file:///C:/temp/spark-warehouse") \
    .config("spark.network.timeout", "600s") \
    .config("spark.hadoop.fs.defaultFS", "file:///") \
    .config("spark.delta.logStore.class", "org.apache.spark.sql.delta.storage.HDFSLogStore")\
    .config("spark.driver.memory", "4g")

In [20]:
spark = configure_spark_with_delta_pip(builder).getOrCreate() #Cria e inicia a sessão do Spark com o Delta configurado.

                                           CARREGANDO O TRUSTED

In [21]:
df_trusted = spark.read.format('delta').load(r'C:\Users\ResTIC16\Documents\IBGE_PROJETO\datawarehouse_ibge\data\TRS\empresas2')

                                           NÚMERO TOTAL DE EMPRESAS

In [22]:
print("Total de empresas:", df_trusted.count())

Total de empresas: 5000


                                         NÚMERO DE EMPRESA POR ESTADO

In [23]:
df_trusted.groupBy("uf").count().orderBy("count", ascending=False).show(20, truncate=False)

+----+-----+
|uf  |count|
+----+-----+
|NULL|4459 |
|SP  |131  |
|MG  |39   |
|EX  |34   |
|RN  |34   |
|RS  |33   |
|RJ  |32   |
|PR  |30   |
|PB  |26   |
|SC  |24   |
|BA  |23   |
|PE  |20   |
|CE  |17   |
|PA  |16   |
|GO  |13   |
|MA  |12   |
|ES  |10   |
|DF  |9    |
|MT  |8    |
|MS  |7    |
+----+-----+
only showing top 20 rows


                                        TIPOS MAIS COMUNS DE NATUREZA JURÍDICA

In [24]:
df_trusted.groupBy("descricao").count().orderBy("count", ascending=False).show(10, truncate=False)

+----------------------------------------------+-----+
|descricao                                     |count|
+----------------------------------------------+-----+
|Sociedade Empresária Limitada                 |1739 |
|Empresário (Individual)                       |1522 |
|Candidato a Cargo Político Eletivo            |577  |
|Fundação ou Associação Domiciliada no Exterior|337  |
|Associação Privada                            |295  |
|Produtor Rural (Pessoa Física)                |172  |
|Sociedade Simples Limitada                    |166  |
|Condomínio Edilício                           |51   |
|Empresa Domiciliada no Exterior               |20   |
|Sociedade Simples Pura                        |17   |
+----------------------------------------------+-----+
only showing top 10 rows


                                        EMPRESAS OPTANTES PELA SIMPLES NACIONAL

In [25]:
from pyspark.sql.functions import col

df_trusted.filter(col("opcao_simples") == "S").groupBy("uf").count().orderBy("count", ascending=False).show()

+----+-----+
|  uf|count|
+----+-----+
|NULL|  524|
|  SP|   20|
|  MG|    6|
|  RS|    5|
|  RJ|    4|
|  BA|    3|
|  PR|    3|
|  GO|    2|
|  ES|    2|
|  CE|    2|
|  MA|    2|
|  SC|    1|
|  RO|    1|
|  MS|    1|
|  SE|    1|
|  PE|    1|
+----+-----+



                                                VERSÕES DO DELTA LAKE

In [27]:
spark.sql("""
    DESCRIBE HISTORY delta.`C:/Users/ResTIC16/Documents/IBGE_PROJETO/datawarehouse_ibge/data/TRS/empresas2`
""").show(truncate=False)

+-------+-----------------------+------+--------+---------+--------------------------------------+----+--------+---------+-----------+--------------+-------------+---------------------------------------------------------------------------------------------------------------------+------------+-----------------------------------+
|version|timestamp              |userId|userName|operation|operationParameters                   |job |notebook|clusterId|readVersion|isolationLevel|isBlindAppend|operationMetrics                                                                                                     |userMetadata|engineInfo                         |
+-------+-----------------------+------+--------+---------+--------------------------------------+----+--------+---------+-----------+--------------+-------------+---------------------------------------------------------------------------------------------------------------------+------------+-----------------------------------+
|1     