In [37]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, avg, sum

In [38]:
# Iniciar uma sessão Spark
spark = SparkSession.builder.appName("Demo").getOrCreate()

# Leitura do arquivo CSV
df_vendas = spark.read.csv("vendas.csv", header=True, inferSchema=True)

df_vendas.show()

+---+---------------+----------+------+
| id|        produto|quantidade| valor|
+---+---------------+----------+------+
|  1|       Notebook|         2|2500.0|
|  2|     Smartphone|         5|1000.0|
|  3|         Tablet|         3| 800.0|
|  4|Fones de ouvido|        10| 150.0|
|  5|     Smartwatch|         4| 500.0|
+---+---------------+----------+------+



In [40]:
# O PySpark suporta dois formatos principais de arquivos JSON:

In [None]:
# 1. JSON de linha única (single-line JSON), onde todo o conteúdo está dentro de uma lista ([ ... ]). Esse formato é geralmente usado para pequenos arquivos JSON.

example_data = [
    {"id": 1, "nome": "Valter", "idade": 28, "cidade": "São Paulo"},
    {"id": 2, "nome": "Ana", "idade": 34, "cidade": "Rio de Janeiro"}
]

import json

# Salvar um JSON de teste
with open("clientes_single_line.json", "w") as file:
    json.dump(example_data, file)

# Tente ler o novo JSON
df_teste = spark.read.json("clientes_single_line.json")
df_teste.show()

+--------------+---+-----+------+
|        cidade| id|idade|  nome|
+--------------+---+-----+------+
|     São Paulo|  1|   28|Valter|
|Rio de Janeiro|  2|   34|   Ana|
+--------------+---+-----+------+



In [None]:
# 2. JSON de linha (line-delimited JSON), onde cada objeto JSON está em uma linha separada. 
# Esse formato é mais eficiente para grandes conjuntos de dados e é o padrão usado pelo PySpark para leitura de JSON.

In [None]:
# with open("clientes.json", "r") as file:
#     print(file.read())

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Definir esquema
schema = StructType([
    StructField("id", IntegerType(), True),
    StructField("nome", StringType(), True),
    StructField("idade", IntegerType(), True),
    StructField("cidade", StringType(), True)
])

# Ler JSON com esquema explícito
# df_clientes = spark.read.schema(schema).json("clientes.json")

df_clientes = spark.read.json("clientes.json")

df_clientes.describe()

# df_clientes = spark.read.option("mode", "PERMISSIVE").json("clientes.json")
# df_clientes.select("_corrupt_record").show(truncate=False)

In [43]:
import json

# Dados
data = [
    {"id": 1, "nome": "Valter", "idade": 28, "cidade": "Sao Paulo"},
    {"id": 2, "nome": "Ana", "idade": 34, "cidade": "Rio de Janeiro"},
    {"id": 3, "nome": "Carlos", "idade": 25, "cidade": "Belo Horizonte"},
    {"id": 4, "nome": "Fernanda", "idade": 40, "cidade": "Porto Alegre"},
    {"id": 5, "nome": "Roberto", "idade": 31, "cidade": "Curitiba"}
]

# Salvar em JSON de linha
with open("clientes_line.json", "w") as file:
    for record in data:
        file.write(json.dumps(record) + "\n")