# Trabalho Final Nb. 1 - Fundamentos de Big Data

CIMATEC 2025.05

Gustavo Campos

João Carneiro

Uziel Araújo

## Inicialização

In [16]:
# Importa bibliotecas
import pyspark.sql.functions as F
from pyspark.sql import SparkSession

In [17]:
# Inicia sessao spark
sc = SparkSession.builder.appName("SparkSQL") \
    .config("spark.jars.packages", "mysql:mysql-connector-java:8.0.29") \
    .getOrCreate()

## Carregamento

In [18]:
# Monta google drive para acesso ao dataset
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [19]:
# Carrega como dataframe spark 'notafiscal.csv', salvo previamente na raiz do drive
path = "/content/drive/MyDrive/"
df = sc.read.csv(path + 'notafiscal.csv', inferSchema=True, header=True)

## Visualização

In [20]:
# Imprime schema e amostra de dados
df.printSchema()

df.show(10)

root
 |-- id_venda: integer (nullable = true)
 |-- cod_cliente: integer (nullable = true)
 |-- nom_cliente: string (nullable = true)
 |-- cod_vendedor: integer (nullable = true)
 |-- nom_vendedor: string (nullable = true)
 |-- cod_cidade: integer (nullable = true)
 |-- nom_cidade: string (nullable = true)
 |-- cod_produto: integer (nullable = true)
 |-- Nom_produto: string (nullable = true)
 |-- cod_marca: integer (nullable = true)
 |-- Nom_marca: string (nullable = true)
 |-- cod_departamento: integer (nullable = true)
 |-- nom_departamento: string (nullable = true)
 |-- cod_gerencia: integer (nullable = true)
 |-- nom_gerencia: string (nullable = true)
 |-- dtc_venda: date (nullable = true)
 |-- qtd_venda: integer (nullable = true)
 |-- val_venda: double (nullable = true)
 |-- num_nota: integer (nullable = true)

+--------+-----------+---------------+------------+---------------+----------+-----------+-----------+------------+---------+-------------+----------------+----------------+

## Seleção

Separa dados em tabelas 'cliente', 'cidade', 'gerencia' e 'departamento'

In [21]:
# Cria e visualiza amostra da tabela de clientes
df_cliente = df.select('cod_cliente', 'nom_cliente').distinct()

df_cliente.show(5)

+-----------+---------------+
|cod_cliente|    nom_cliente|
+-----------+---------------+
|          3|   Renato Russo|
|          5|  Edson Arantes|
|          4|      Tom Jobim|
|          6|Reginaldo Rossi|
|          1|   João do Pulo|
+-----------+---------------+
only showing top 5 rows



In [22]:
# Cria e visualiza amostra da tabela de cidades
df_cidade = df.select('cod_cidade', 'nom_cidade').distinct()

df_cidade.show(5)

+----------+-----------+
|cod_cidade| nom_cidade|
+----------+-----------+
|         5|  Budapeste|
|         1|   Salvador|
|         4|      Bagdá|
|         3|       Roma|
|         2|Nova Iorque|
+----------+-----------+



In [23]:
# Cria e visualiza amostra da tabela de gerencias
df_gerencia = df.select('cod_gerencia', 'nom_gerencia').distinct()

df_gerencia.show(5)

+------------+-------------------+
|cod_gerencia|       nom_gerencia|
+------------+-------------------+
|           3|  Eletro Eletrônico|
|           1|         Tecnologia|
|           4|   Casa e Decoração|
|           2|papelaria/cosmético|
+------------+-------------------+



In [24]:
# Cria e visualiza amostra da tabela de departamentos
df_dept = df.select('cod_departamento', 'nom_departamento').distinct()

df_dept.show(5)

+----------------+----------------+
|cod_departamento|nom_departamento|
+----------------+----------------+
|               6| Eletrodomestico|
|               3|       Papelaria|
|               7|          Movéis|
|               1|     Informática|
|               4|       cosmético|
+----------------+----------------+
only showing top 5 rows



## Registro

Salva novos dataframes como csv no 'path' (diretório raiz do google drive)

In [25]:
# Converte nomes de clientes para maiusculas
df_cliente = df_cliente.withColumn('nom_cliente', F.upper(F.col('nom_cliente')))

df_cliente.show(5)

# Salva csv do dataframe de cliente
df_cliente.toPandas().to_csv(path + 'notafiscal_cliente.csv', index=False)

#df_cliente.write.format('jdbc').options(
#  url='jdbc:mysql://localhost/bigdatadb',
#  serverTimezone = "UTC",
#  driver='com.mysql.jdbc.Driver',
#  dbtable='cliente',
#  user='bigdata',
#  password='bigdata'
#).save()

+-----------+---------------+
|cod_cliente|    nom_cliente|
+-----------+---------------+
|          3|   RENATO RUSSO|
|          5|  EDSON ARANTES|
|          4|      TOM JOBIM|
|          6|REGINALDO ROSSI|
|          1|   JOÃO DO PULO|
+-----------+---------------+
only showing top 5 rows



In [26]:
# Salva dataframe de cidade no banco mysql
df_cidade = df_cidade.withColumn('nom_cidade', F.upper(F.col('nom_cidade')))

df_cidade.show(5)

# Salva csv do dataframe de cidade
df_cidade.toPandas().to_csv(path + 'notafiscal_cidade.csv', index=False)

#df_cidade.write.format('jdbc').options(
#    url='jdbc:mysql://localhost/bigdatadb',
#    serverTimezone = "UTC",
#    driver='com.mysql.jdbc.Driver',
#    dbtable='cidade',
#    user='bigdata',
#    password='bigdata'
#).save()

+----------+-----------+
|cod_cidade| nom_cidade|
+----------+-----------+
|         5|  BUDAPESTE|
|         1|   SALVADOR|
|         4|      BAGDÁ|
|         3|       ROMA|
|         2|NOVA IORQUE|
+----------+-----------+



In [27]:
# Salva dataframe de gerencia no banco mysql
df_gerencia.toPandas().to_csv(path + 'notafiscal_gerencia.csv', index=False)

#df_gerencia.write.format('jdbc').options(
#    url='jdbc:mysql://localhost/bigdatadb',
#    serverTimezone = "UTC",
#    driver='com.mysql.jdbc.Driver',
#    dbtable='gerencia',
#    user='bigdata',
#    password='bigdata'
#).save()

In [28]:
# Salva csv do dataframe de departamento
df_dept.toPandas().to_csv(path + 'notafiscal_dept.csv', index=False)

#df_dept.write.format('jdbc').options(
#    url='jdbc:mysql://localhost/bigdatadb',
#    serverTimezone = "UTC",
#    driver='com.mysql.jdbc.Driver',
#    dbtable='departamento',
#    user='bigdata',
#    password='bigdata'
#).save()