In [None]:
import os

# coloca as variáveis de ambiente necessárias para o PySpark no windows
os.environ['JAVA_HOME'] = r"C:\Program Files\Eclipse Adoptium\jdk-8.0.452.9-hotspot"
os.environ['SPARK_HOME'] = r"C:\spark\spark-3.5.6-bin-hadoop3"

os.environ['PYSPARK_PYTHON'] = r"C:\Users\diego\Desktop\spark_alura\.venv\Scripts\python.exe"
os.environ['PYSPARK_DRIVER_PYTHON'] = r"C:\Users\diego\Desktop\spark_alura\.venv\Scripts\python.exe"


In [None]:
import findspark # busca o PySpark no sistema
findspark.init()

In [None]:
# importa a classe que inicia uma sessão do Spark para usar o Spark SQL
from pyspark.sql import SparkSession

In [None]:
# inicia uma sessão do Spark, que é o ponto de entrada para usar o Spark SQL
spark = SparkSession.builder.master('local[*]').appName("Iniciando").config("spark.hadoop.io.native.lib", "false").getOrCreate()
spark

In [None]:
# exemplo de criação de um DataFrame usando tuplas
data = [('zeca', '35'), ('eva', '29')]
col_names = ['nome', 'idade']

df = spark.createDataFrame(data, col_names)

df.show()

In [None]:
# exemplo de criação de um DataFrame usando dicionários
data_dict = [{'nome': 'zeca', 'idade': '35'}, {'nome': 'eva', 'idade': '29'}]

df = spark.createDataFrame(data_dict)

df.show()

In [None]:
# converte o DataFrame do Spark para um DataFrame do Pandas
df.toPandas()

In [None]:
zip_path = os.path.abspath(r'.\zip_files')
data_path = os.path.abspath(r'.\data')

In [None]:
import zipfile # biblioteca nativa do Python para manipular arquivos zip

zipfile.ZipFile(os.path.join(zip_path, 'empresas.zip'), 'r').extractall(data_path)
zipfile.ZipFile(os.path.join(zip_path, 'estabelecimentos.zip'), 'r').extractall(data_path)
zipfile.ZipFile(os.path.join(zip_path, 'socios.zip'), 'r').extractall(data_path)

In [None]:
# retorna uma lista com os caminhos dos arquivos de um diretório
def get_files_from_directory(directory):
    files = [
        os.path.join(directory, f)
        for f in os.listdir(directory)
    ]
    return files

In [None]:
# lê todos os arquivos CSV do diretório especificado e cria um DataFrame
df_empresa = spark.read.csv(
    get_files_from_directory(os.path.join(data_path, 'empresas')), 
    sep=";", header=False, inferSchema=True)

df_empresa.count()

In [None]:
df_estabelecimentos = spark.read.csv(
    get_files_from_directory(os.path.join(data_path, 'estabelecimentos')), 
    sep=";", header=False, inferSchema=True)

df_estabelecimentos.count()

In [None]:
df_socios = spark.read.csv(
    get_files_from_directory(os.path.join(data_path, 'socios')), 
    sep=";", header=False, inferSchema=True)

df_socios.count()

In [None]:
# exibe as primeiras 3 linhas dos DataFrames
df_empresa.show(3)
df_estabelecimentos.show(3)
df_socios.show(3)

In [None]:
# converte as primeiras 3 linhas do DataFrame do Spark para um DataFrame do Pandas
df_socios.limit(3).toPandas()

In [None]:
# define os nomes das colunas para os DataFrames

empresas_col_names = ['cnpj_basico', 'razao_social_nome_empresarial', 'natureza_juridica', 'qualificacao_do_responsavel', 'capital_social_da_empresa', 'porte_da_empresa', 'ente_federativo_responsavel']

estabs_col_names = ['cnpj_basico', 'cnpj_ordem', 'cnpj_dv', 'identificador_matriz_filial', 'nome_fantasia', 'situacao_cadastral', 'data_situacao_cadastral', 'motivo_situacao_cadastral', 'nome_da_cidade_no_exterior', 'pais', 'data_de_inicio_atividade', 'cnae_fiscal_principal', 'cnae_fiscal_secundaria', 'tipo_de_logradouro', 'logradouro', 'numero', 'complemento', 'bairro', 'cep', 'uf', 'municipio', 'ddd_1', 'telefone_1', 'ddd_2', 'telefone_2', 'ddd_do_fax', 'fax', 'correio_eletronico', 'situacao_especial', 'data_da_situacao_especial']

socios_col_names = ['cnpj_basico', 'identificador_de_socio', 'nome_do_socio_ou_razao_social', 'cnpj_ou_cpf_do_socio', 'qualificacao_do_socio', 'data_de_entrada_sociedade', 'pais', 'representante_legal', 'nome_do_representante', 'qualificacao_do_representante_legal', 'faixa_etaria']

In [None]:
# exibe os nomes das colunas dos DataFrames em formato enumerado para mapeamento das colunas quando renomear
for i, col_name in enumerate(empresas_col_names):
    print([i, col_name])

In [None]:
# função para renomear as colunas de um DataFrame utilizando o mapeamento de nomes de colunas
def rename_columns(df, col_names):
    for i, col_name in enumerate(col_names):
        df = df.withColumnRenamed(f'_c{i}', col_name)
    return df

In [None]:
# renomeia as colunas dos DataFrames
df_empresa = rename_columns(df_empresa, empresas_col_names)
df_estabelecimentos = rename_columns(df_estabelecimentos, estabs_col_names)
df_socios = rename_columns(df_socios, socios_col_names)

In [None]:
# exibe as primeiras 3 linhas dos DataFrames com os nomes das colunas renomeados
df_empresa.show(3)
df_estabelecimentos.show(3)
df_socios.show(3)

In [None]:
# converte as primeiras 3 linhas do DataFrame do Spark para DataFrame do Pandas com o nomes das colunas renomeados
df_socios.limit(3).toPandas()