# PySpark no Jupyter 

Este notebook mostra como configurar PySpark corretamente no Jupyter.


In [1]:
# Configurar variáveis de ambiente ANTES de importar PySpark
import os
os.environ['PYSPARK_PYTHON'] = 'python'
os.environ['PYSPARK_DRIVER_PYTHON'] = 'python'


In [12]:
# Importar PySpark APÓS configurar as variáveis
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType


In [13]:
# Criar SparkSession
spark = SparkSession.builder \
    .appName("PySpark_Jupyter") \
    .master("local[*]") \
    .config("spark.sql.adaptive.enabled", "true") \
    .getOrCreate()

print(f"✅ Spark {spark.version} iniciado com sucesso!")


✅ Spark 3.5.0 iniciado com sucesso!


In [14]:
# Dados de exemplo
data = [
    ("João", "Silva", 25, 5000),
    ("Maria", "Santos", 30, 6000),
    ("Pedro", "Oliveira", 28, 5500)
]



In [15]:
schema = StructType([
    StructField("nome", StringType(), True),
    StructField("sobrenome", StringType(), True),
    StructField("idade", IntegerType(), True),
    StructField("salario", IntegerType(), True)
])



In [16]:
df = spark.createDataFrame(data, schema)


In [17]:
df.printSchema()

root
 |-- nome: string (nullable = true)
 |-- sobrenome: string (nullable = true)
 |-- idade: integer (nullable = true)
 |-- salario: integer (nullable = true)



In [18]:
df.show()

+-----+---------+-----+-------+
| nome|sobrenome|idade|salario|
+-----+---------+-----+-------+
| João|    Silva|   25|   5000|
|Maria|   Santos|   30|   6000|
|Pedro| Oliveira|   28|   5500|
+-----+---------+-----+-------+



#truncate = False para as strings não precisar mostrar inteiras 

#vertical = True para ver na vertical

In [19]:
df.show(2, truncate=False, vertical=True)

-RECORD 0-----------
 nome      | João   
 sobrenome | Silva  
 idade     | 25     
 salario   | 5000   
-RECORD 1-----------
 nome      | Maria  
 sobrenome | Santos 
 idade     | 30     
 salario   | 6000   
only showing top 2 rows



In [20]:
df.show(5, truncate=False, vertical=True)

-RECORD 0-------------
 nome      | João     
 sobrenome | Silva    
 idade     | 25       
 salario   | 5000     
-RECORD 1-------------
 nome      | Maria    
 sobrenome | Santos   
 idade     | 30       
 salario   | 6000     
-RECORD 2-------------
 nome      | Pedro    
 sobrenome | Oliveira 
 idade     | 28       
 salario   | 5500     



In [21]:
df.show(5, truncate=True, vertical=True)

-RECORD 0-------------
 nome      | João     
 sobrenome | Silva    
 idade     | 25       
 salario   | 5000     
-RECORD 1-------------
 nome      | Maria    
 sobrenome | Santos   
 idade     | 30       
 salario   | 6000     
-RECORD 2-------------
 nome      | Pedro    
 sobrenome | Oliveira 
 idade     | 28       
 salario   | 5500     

