## üîÑ **Atualiza√ß√£o**: Usando Vari√°veis de Ambiente

Agora o ambiente foi **atualizado** para usar vari√°veis de ambiente, seguindo as **melhores pr√°ticas**:

### ‚úÖ **Configura√ß√£o no `.env`:**
```bash
# Configura√ß√µes do PySpark
SPARK_HOME=/opt/spark
PYSPARK_PYTHON=python3
PYSPARK_DRIVER_PYTHON=jupyter
PYSPARK_DRIVER_PYTHON_OPTS=lab
SPARK_DRIVER_HOST=jupyter
SPARK_DRIVER_BIND_ADDRESS=0.0.0.0
SPARK_LOCAL_IP=jupyter
SPARK_DRIVER_MEMORY=1g
SPARK_EXECUTOR_MEMORY=1g
SPARK_EXECUTOR_CORES=2
```

### ‚úÖ **Configura√ß√£o no `docker-compose.yml`:**
```yaml
environment:
  - SPARK_HOME=${SPARK_HOME:-/opt/spark}
  - PYSPARK_PYTHON=${PYSPARK_PYTHON:-python3}
  - PYSPARK_DRIVER_PYTHON=${PYSPARK_DRIVER_PYTHON:-jupyter}
  - PYSPARK_DRIVER_PYTHON_OPTS=${PYSPARK_DRIVER_PYTHON_OPTS:-lab}
  # ... outras configura√ß√µes
```

### üéØ **Vantagens:**
- **Flexibilidade** para diferentes ambientes
- **Customiza√ß√£o** sem rebuild de containers
- **Manutenibilidade** centralizada no `.env`
- **Portabilidade** entre dev/test/prod

In [None]:
import os

print("üîç VERIFICANDO VARI√ÅVEIS DE AMBIENTE CONFIGURADAS")
print("=" * 55)

# Vari√°veis PySpark configuradas via .env
pyspark_env_vars = {
    'SPARK_HOME': 'Diret√≥rio de instala√ß√£o do Spark',
    'PYSPARK_PYTHON': 'Python para executors',
    'PYSPARK_DRIVER_PYTHON': 'Python para driver (Jupyter)',
    'PYSPARK_DRIVER_PYTHON_OPTS': 'Modo do driver (lab/notebook)',
    'SPARK_DRIVER_HOST': 'Hostname do driver',
    'SPARK_DRIVER_BIND_ADDRESS': 'Interface de bind',
    'SPARK_LOCAL_IP': 'IP local do Spark',
    'SPARK_DRIVER_MEMORY': 'Mem√≥ria do driver',
    'SPARK_EXECUTOR_MEMORY': 'Mem√≥ria dos executors',
    'SPARK_EXECUTOR_CORES': 'Cores por executor'
}

print("üìã VARI√ÅVEIS PYSPARK CONFIGURADAS:")
print("-" * 35)

for var, description in pyspark_env_vars.items():
    value = os.environ.get(var, '‚ùå N√ÉO CONFIGURADO')
    status = "‚úÖ" if value != '‚ùå N√ÉO CONFIGURADO' else "‚ùå"
    print(f"{status} {var}: {value}")
    if value != '‚ùå N√ÉO CONFIGURADO':
        print(f"   ‚îî‚îÄ {description}")

# Verificar vari√°veis adicionais importantes
print(f"\nüåê VARI√ÅVEIS ADICIONAIS:")
print("-" * 20)

additional_vars = [
    'SPARK_MASTER', 'JUPYTER_ENABLE_LAB', 'GRANT_SUDO'
]

for var in additional_vars:
    value = os.environ.get(var, 'n√£o configurado')
    print(f"üìå {var}: {value}")

print(f"\nüí° COMO CUSTOMIZAR:")
print("Edite o arquivo .env para ajustar configura√ß√µes:")
print("  SPARK_DRIVER_MEMORY=2g    # Para mais mem√≥ria")
print("  SPARK_EXECUTOR_CORES=4    # Para mais cores")
print("  PYSPARK_DRIVER_PYTHON_OPTS=notebook  # Para usar Notebook")

# üîß PySpark Environment Setup - Best Practices

Este notebook demonstra as **melhores pr√°ticas** para configurar vari√°veis de ambiente e integrar o **Jupyter** com **PySpark** no ambiente BigData.

## üéØ **Objetivos:**
- ‚úÖ Configurar vari√°veis de ambiente essenciais para PySpark
- ‚úÖ Verificar conectividade com cluster Spark
- ‚úÖ Demonstrar integra√ß√£o otimizada Jupyter + PySpark
- ‚úÖ Validar performance e funcionalidades

## üìã **Vari√°veis de Ambiente Principais:**
- `SPARK_HOME` - Caminho para instala√ß√£o do Spark
- `PYSPARK_PYTHON` - Interpretador Python para executors
- `PYSPARK_DRIVER_PYTHON` - Python para driver (Jupyter)
- `PYSPARK_DRIVER_PYTHON_OPTS` - Op√ß√µes do driver (notebook/lab)
- `SPARK_MASTER` - URL do cluster Spark

---
**üí° Nota**: Este ambiente j√° est√° pr√©-configurado no `docker-compose.yml` com as melhores pr√°ticas!

## 1Ô∏è‚É£ Check Current Environment

Primeiro, vamos verificar o ambiente atual e as vari√°veis j√° configuradas.

In [None]:
import os
import sys
from pprint import pprint

print("üîç VERIFICA√á√ÉO DO AMBIENTE ATUAL")
print("=" * 50)

print(f"üìç Python Version: {sys.version}")
print(f"üìç Python Executable: {sys.executable}")
print(f"üìç Working Directory: {os.getcwd()}")

print("\nüåê VARI√ÅVEIS DE AMBIENTE SPARK:")
print("-" * 30)

spark_vars = [
    'SPARK_HOME', 'SPARK_MASTER', 'SPARK_OPTS',
    'PYSPARK_PYTHON', 'PYSPARK_DRIVER_PYTHON', 
    'PYSPARK_DRIVER_PYTHON_OPTS', 'SPARK_DRIVER_HOST',
    'SPARK_DRIVER_BIND_ADDRESS', 'SPARK_LOCAL_IP'
]

for var in spark_vars:
    value = os.environ.get(var, '‚ùå N√ÉO CONFIGURADO')
    print(f"{var}: {value}")

print(f"\nüì¶ PATH cont√©m Spark: {'‚úÖ SIM' if any('spark' in p.lower() for p in os.environ.get('PATH', '').split(':')) else '‚ùå N√ÉO'}")

# Verificar se PySpark est√° dispon√≠vel
try:
    import pyspark
    print(f"‚úÖ PySpark dispon√≠vel: {pyspark.__version__}")
except ImportError:
    print("‚ùå PySpark n√£o encontrado")

## 2Ô∏è‚É£ Set Spark Home Path

Configura√ß√£o do `SPARK_HOME` - fundamental para o funcionamento do PySpark.

In [None]:
import os
import subprocess

print("üè† CONFIGURA√á√ÉO DO SPARK_HOME")
print("=" * 40)

# Verificar se SPARK_HOME j√° est√° definido
current_spark_home = os.environ.get('SPARK_HOME')
print(f"SPARK_HOME atual: {current_spark_home}")

# No ambiente docker, o Spark j√° deve estar configurado
# Vamos verificar poss√≠veis localiza√ß√µes
possible_locations = [
    '/opt/spark',
    '/usr/local/spark', 
    '/opt/bitnami/spark',
    current_spark_home
]

print("\nüîç Verificando poss√≠veis localiza√ß√µes do Spark:")
for location in possible_locations:
    if location and os.path.exists(location):
        print(f"‚úÖ Encontrado: {location}")
        # Verificar se tem os bin√°rios principais
        bin_path = os.path.join(location, 'bin')
        if os.path.exists(bin_path):
            print(f"   üìÅ Diret√≥rio bin: {bin_path}")
            if os.path.exists(os.path.join(bin_path, 'spark-submit')):
                print(f"   ‚ö° spark-submit: Dispon√≠vel")
    else:
        print(f"‚ùå N√£o encontrado: {location}")

# Configurar SPARK_HOME se necess√°rio
if not current_spark_home:
    # Tentar detectar automaticamente
    try:
        result = subprocess.run(['which', 'spark-submit'], 
                              capture_output=True, text=True)
        if result.returncode == 0:
            spark_submit_path = result.stdout.strip()
            spark_home = os.path.dirname(os.path.dirname(spark_submit_path))
            os.environ['SPARK_HOME'] = spark_home
            print(f"\n‚úÖ SPARK_HOME configurado automaticamente: {spark_home}")
        else:
            print("\n‚ö†Ô∏è  spark-submit n√£o encontrado no PATH")
    except Exception as e:
        print(f"\n‚ùå Erro ao detectar Spark: {e}")

print(f"\nüéØ SPARK_HOME final: {os.environ.get('SPARK_HOME', 'N√ÉO CONFIGURADO')}")

## 3Ô∏è‚É£ Configure Python Executors

Defini√ß√£o do interpretador Python que o PySpark usar√° nos executors.

In [None]:
import sys
import subprocess

print("üêç CONFIGURA√á√ÉO DO PYTHON PARA EXECUTORS")
print("=" * 45)

# Verificar vers√£o atual do Python
print(f"Python atual: {sys.version}")
print(f"Execut√°vel: {sys.executable}")

# Configurar PYSPARK_PYTHON
current_pyspark_python = os.environ.get('PYSPARK_PYTHON')
print(f"\nPYSPARK_PYTHON atual: {current_pyspark_python}")

# Definir o melhor Python dispon√≠vel
python_options = ['python3', 'python', sys.executable]

print("\nüîç Testando interpretadores Python dispon√≠veis:")
best_python = None

for python_cmd in python_options:
    try:
        result = subprocess.run([python_cmd, '--version'], 
                              capture_output=True, text=True)
        if result.returncode == 0:
            version = result.stdout.strip() or result.stderr.strip()
            print(f"‚úÖ {python_cmd}: {version}")
            if not best_python:
                best_python = python_cmd
    except (subprocess.SubprocessError, FileNotFoundError):
        print(f"‚ùå {python_cmd}: N√£o dispon√≠vel")

# Configurar PYSPARK_PYTHON
if best_python:
    os.environ['PYSPARK_PYTHON'] = best_python
    print(f"\n‚úÖ PYSPARK_PYTHON configurado: {best_python}")
else:
    print("\n‚ö†Ô∏è  Nenhum interpretador Python adequado encontrado")

# Verificar se os executors conseguir√£o usar o mesmo Python
print(f"\nüéØ Configura√ß√£o final:")
print(f"   Driver Python: {sys.executable}")
print(f"   Executor Python: {os.environ.get('PYSPARK_PYTHON', 'N√ÉO CONFIGURADO')}")

# Validar que ambos t√™m a mesma vers√£o principal
try:
    driver_version = f"{sys.version_info.major}.{sys.version_info.minor}"
    executor_result = subprocess.run([best_python, '-c', 'import sys; print(f"{sys.version_info.major}.{sys.version_info.minor}")'], 
                                   capture_output=True, text=True)
    if executor_result.returncode == 0:
        executor_version = executor_result.stdout.strip()
        if driver_version == executor_version:
            print(f"‚úÖ Vers√µes compat√≠veis: Driver {driver_version} == Executor {executor_version}")
        else:
            print(f"‚ö†Ô∏è  Vers√µes diferentes: Driver {driver_version} != Executor {executor_version}")
except Exception as e:
    print(f"‚ùå Erro ao verificar compatibilidade: {e}")

## 4Ô∏è‚É£ Set Jupyter Driver Configuration

Configura√ß√£o espec√≠fica para integra√ß√£o com Jupyter Lab/Notebook.

In [None]:
print("üìì CONFIGURA√á√ÉO DO DRIVER JUPYTER")
print("=" * 40)

# Verificar ambiente Jupyter atual
print("üîç Detectando ambiente Jupyter:")

# Verificar se estamos em Jupyter
in_jupyter = False
try:
    from IPython import get_ipython
    if get_ipython() is not None:
        in_jupyter = True
        ipython = get_ipython()
        print(f"‚úÖ Executando em IPython/Jupyter")
        print(f"   Classe: {ipython.__class__.__name__}")
except ImportError:
    print("‚ùå IPython n√£o dispon√≠vel")

# Verificar se √© Jupyter Lab ou Notebook
jupyter_type = "unknown"
if in_jupyter:
    try:
        # Tentar detectar se √© Lab ou Notebook
        import json
        import requests
        # Este √© um m√©todo simplificado - em produ√ß√£o pode ser mais complexo
        jupyter_type = "lab"  # Assumindo Lab por padr√£o no nosso ambiente
    except:
        jupyter_type = "notebook"

print(f"   Tipo detectado: {jupyter_type}")

# Configurar vari√°veis do driver
print(f"\n‚öôÔ∏è Configurando vari√°veis do driver:")

# PYSPARK_DRIVER_PYTHON
driver_python = sys.executable
os.environ['PYSPARK_DRIVER_PYTHON'] = driver_python
print(f"‚úÖ PYSPARK_DRIVER_PYTHON: {driver_python}")

# PYSPARK_DRIVER_PYTHON_OPTS
if jupyter_type == "lab":
    driver_opts = "lab"
    print("üìì Configurando para Jupyter Lab")
else:
    driver_opts = "notebook"
    print("üìí Configurando para Jupyter Notebook")

os.environ['PYSPARK_DRIVER_PYTHON_OPTS'] = driver_opts
print(f"‚úÖ PYSPARK_DRIVER_PYTHON_OPTS: {driver_opts}")

# Configura√ß√µes adicionais para conectividade
print(f"\nüåê Configura√ß√µes de conectividade:")

# Driver host - importante para clusters distribu√≠dos
driver_host = os.environ.get('SPARK_DRIVER_HOST', 'jupyter')
os.environ['SPARK_DRIVER_HOST'] = driver_host
print(f"‚úÖ SPARK_DRIVER_HOST: {driver_host}")

# Driver bind address
driver_bind = os.environ.get('SPARK_DRIVER_BIND_ADDRESS', '0.0.0.0')
os.environ['SPARK_DRIVER_BIND_ADDRESS'] = driver_bind
print(f"‚úÖ SPARK_DRIVER_BIND_ADDRESS: {driver_bind}")

print(f"\nüéØ Resumo da configura√ß√£o do driver:")
print(f"   Python: {driver_python}")
print(f"   Modo: {driver_opts}")
print(f"   Host: {driver_host}")
print(f"   Bind: {driver_bind}")

if in_jupyter:
    print(f"\n‚úÖ Ambiente Jupyter configurado e pronto para PySpark!")
else:
    print(f"\n‚ö†Ô∏è  N√£o executando em Jupyter - configura√ß√£o pode n√£o ser aplicada automaticamente")

## 5Ô∏è‚É£ Verify Environment Setup

Valida√ß√£o completa de todas as vari√°veis de ambiente configuradas.

In [None]:
print("‚úÖ VERIFICA√á√ÉO FINAL DO AMBIENTE")
print("=" * 40)

# Lista completa de vari√°veis importantes
required_vars = {
    'SPARK_HOME': 'Caminho para instala√ß√£o do Spark',
    'SPARK_MASTER': 'URL do cluster Spark',
    'PYSPARK_PYTHON': 'Python para executors',
    'PYSPARK_DRIVER_PYTHON': 'Python para driver',
    'PYSPARK_DRIVER_PYTHON_OPTS': 'Op√ß√µes do driver (lab/notebook)',
    'SPARK_DRIVER_HOST': 'Host do driver',
    'SPARK_DRIVER_BIND_ADDRESS': 'Endere√ßo de bind do driver',
    'SPARK_LOCAL_IP': 'IP local do Spark'
}

optional_vars = {
    'SPARK_OPTS': 'Op√ß√µes adicionais do Spark',
    'SPARK_DRIVER_MEMORY': 'Mem√≥ria do driver',
    'SPARK_EXECUTOR_MEMORY': 'Mem√≥ria dos executors',
    'SPARK_EXECUTOR_CORES': 'Cores dos executors'
}

print("üîç VARI√ÅVEIS OBRIGAT√ìRIAS:")
print("-" * 25)
all_required_ok = True

for var, description in required_vars.items():
    value = os.environ.get(var)
    if value:
        print(f"‚úÖ {var}: {value}")
    else:
        print(f"‚ùå {var}: N√ÉO CONFIGURADO")
        all_required_ok = False

print(f"\nüîç VARI√ÅVEIS OPCIONAIS:")
print("-" * 20)
for var, description in optional_vars.items():
    value = os.environ.get(var)
    if value:
        print(f"‚úÖ {var}: {value}")
    else:
        print(f"‚ö™ {var}: n√£o configurado ({description})")

# Verifica√ß√£o de conectividade com Spark Master
print(f"\nüåê TESTE DE CONECTIVIDADE:")
print("-" * 25)

spark_master = os.environ.get('SPARK_MASTER')
if spark_master:
    print(f"üéØ Testando conex√£o com: {spark_master}")
    
    # Tentar fazer ping b√°sico
    import socket
    import urllib.parse
    
    try:
        parsed = urllib.parse.urlparse(spark_master)
        host = parsed.hostname
        port = parsed.port or 7077
        
        sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        sock.settimeout(3)
        result = sock.connect_ex((host, port))
        sock.close()
        
        if result == 0:
            print(f"‚úÖ Spark Master acess√≠vel em {host}:{port}")
        else:
            print(f"‚ùå Spark Master n√£o acess√≠vel em {host}:{port}")
            
    except Exception as e:
        print(f"‚ö†Ô∏è  Erro ao testar conectividade: {e}")
else:
    print("‚ùå SPARK_MASTER n√£o configurado")

# Resumo final
print(f"\nüìã RESUMO:")
print("-" * 10)
if all_required_ok:
    print("‚úÖ Todas as vari√°veis obrigat√≥rias configuradas")
    print("üöÄ Ambiente pronto para inicializar PySpark!")
else:
    print("‚ö†Ô∏è  Algumas vari√°veis obrigat√≥rias n√£o configuradas")
    print("üîß Revise a configura√ß√£o antes de prosseguir")

# Verificar se PySpark pode ser importado
print(f"\nüêç TESTE DE IMPORTA√á√ÉO:")
try:
    import pyspark
    from pyspark.sql import SparkSession
    print(f"‚úÖ PySpark {pyspark.__version__} importado com sucesso")
    print("‚úÖ SparkSession dispon√≠vel")
except ImportError as e:
    print(f"‚ùå Erro ao importar PySpark: {e}")
except Exception as e:
    print(f"‚ö†Ô∏è  Erro inesperado: {e}")

## 6Ô∏è‚É£ Initialize PySpark Session

Cria√ß√£o e configura√ß√£o da SparkSession usando as vari√°veis de ambiente configuradas.

In [None]:
from pyspark.sql import SparkSession
from pyspark.conf import SparkConf
import time

print("üöÄ INICIALIZANDO SPARKSESSION")
print("=" * 35)

# Configura√ß√£o personalizada do Spark
print("‚öôÔ∏è Configurando SparkSession...")

# Criar configura√ß√£o baseada nas vari√°veis de ambiente
conf = SparkConf()

# Configura√ß√µes b√°sicas
conf.setAppName("BigData-Jupyter-Integration")
conf.set("spark.sql.adaptive.enabled", "true")
conf.set("spark.sql.adaptive.coalescePartitions.enabled", "true")

# Configura√ß√µes de mem√≥ria
conf.set("spark.driver.memory", "1g")
conf.set("spark.driver.maxResultSize", "500m")
conf.set("spark.executor.memory", "1g")

# Configura√ß√µes de conectividade
spark_master = os.environ.get('SPARK_MASTER', 'local[*]')
conf.setMaster(spark_master)

print(f"üéØ Master: {spark_master}")
print(f"üì± App Name: BigData-Jupyter-Integration")

# Tentar criar a SparkSession
print(f"\nüîÑ Criando SparkSession...")
start_time = time.time()

try:
    spark = SparkSession.builder \
        .config(conf=conf) \
        .getOrCreate()
    
    creation_time = time.time() - start_time
    print(f"‚úÖ SparkSession criada com sucesso em {creation_time:.2f}s")
    
    # Informa√ß√µes da sess√£o
    print(f"\nüìä INFORMA√á√ïES DA SESS√ÉO:")
    print("-" * 25)
    print(f"üÜî Application ID: {spark.sparkContext.applicationId}")
    print(f"üåê Master: {spark.sparkContext.master}")
    print(f"üì± App Name: {spark.sparkContext.appName}")
    print(f"üêç Python Version: {spark.sparkContext.pythonVer}")
    print(f"‚ö° Spark Version: {spark.version}")
    print(f"üîß Default Parallelism: {spark.sparkContext.defaultParallelism}")
    
    # Configura√ß√µes importantes
    print(f"\n‚öôÔ∏è CONFIGURA√á√ïES ATIVAS:")
    print("-" * 20)
    important_configs = [
        'spark.master',
        'spark.driver.memory',
        'spark.executor.memory',
        'spark.sql.adaptive.enabled',
        'spark.driver.host',
        'spark.driver.bindAddress'
    ]
    
    for config in important_configs:
        value = spark.conf.get(config, 'n√£o configurado')
        print(f"{config}: {value}")
    
    print(f"\nüéâ SparkSession pronta para uso!")
    
except Exception as e:
    print(f"‚ùå Erro ao criar SparkSession: {e}")
    print(f"üîß Verifique as configura√ß√µes do cluster Spark")
    spark = None

## 7Ô∏è‚É£ Test PySpark Integration

Testes pr√°ticos para validar que a integra√ß√£o Jupyter + PySpark est√° funcionando perfeitamente.

In [None]:
if spark:
    print("üß™ TESTANDO INTEGRA√á√ÉO PYSPARK")
    print("=" * 35)
    
    # Teste 1: Criar RDD simples
    print("üìù Teste 1: Cria√ß√£o de RDD")
    try:
        data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
        rdd = spark.sparkContext.parallelize(data)
        total = rdd.sum()
        count = rdd.count()
        print(f"‚úÖ RDD criado: {count} elementos, soma = {total}")
    except Exception as e:
        print(f"‚ùå Erro no teste RDD: {e}")
    
    # Teste 2: Criar DataFrame
    print(f"\nüìä Teste 2: Cria√ß√£o de DataFrame")
    try:
        from pyspark.sql.types import StructType, StructField, StringType, IntegerType
        
        schema = StructType([
            StructField("nome", StringType(), True),
            StructField("idade", IntegerType(), True),
            StructField("cidade", StringType(), True)
        ])
        
        data = [
            ("Alice", 25, "S√£o Paulo"),
            ("Bob", 30, "Rio de Janeiro"),
            ("Charlie", 35, "Belo Horizonte"),
            ("Diana", 28, "Porto Alegre")
        ]
        
        df = spark.createDataFrame(data, schema)
        print(f"‚úÖ DataFrame criado com {df.count()} registros")
        
        print(f"\nüìã Schema:")
        df.printSchema()
        
        print(f"\nüìÑ Dados:")
        df.show()
        
    except Exception as e:
        print(f"‚ùå Erro no teste DataFrame: {e}")
    
    # Teste 3: Opera√ß√µes SQL
    print(f"\nüîç Teste 3: Opera√ß√µes SQL")
    try:
        df.createOrReplaceTempView("pessoas")
        
        result = spark.sql("""
            SELECT cidade, COUNT(*) as quantidade, AVG(idade) as idade_media
            FROM pessoas 
            GROUP BY cidade
            ORDER BY quantidade DESC
        """)
        
        print(f"‚úÖ Query SQL executada:")
        result.show()
        
    except Exception as e:
        print(f"‚ùå Erro no teste SQL: {e}")
    
    # Teste 4: Processamento distribu√≠do
    print(f"\n‚ö° Teste 4: Processamento Distribu√≠do")
    try:
        # Criar dataset maior para testar paraleliza√ß√£o
        large_data = range(1, 100001)  # 100k n√∫meros
        large_rdd = spark.sparkContext.parallelize(large_data, 4)  # 4 parti√ß√µes
        
        # Opera√ß√£o computacionalmente intensiva
        squares = large_rdd.map(lambda x: x * x)
        sum_squares = squares.sum()
        
        print(f"‚úÖ Processado {large_rdd.count():,} n√∫meros")
        print(f"‚úÖ Soma dos quadrados: {sum_squares:,}")
        print(f"‚úÖ N√∫mero de parti√ß√µes: {large_rdd.getNumPartitions()}")
        
    except Exception as e:
        print(f"‚ùå Erro no teste distribu√≠do: {e}")
    
    # Teste 5: Performance e monitoring
    print(f"\nüìà Teste 5: Informa√ß√µes de Performance")
    try:
        # Verificar URL da Spark UI
        spark_ui = spark.sparkContext.uiWebUrl
        if spark_ui:
            print(f"üåê Spark UI dispon√≠vel em: {spark_ui}")
        else:
            print("‚ö†Ô∏è  Spark UI n√£o dispon√≠vel")
        
        # Status do cluster
        print(f"\nüèóÔ∏è Status do Cluster:")
        print(f"   Master: {spark.sparkContext.master}")
        print(f"   Executors ativos: {len(spark.sparkContext.statusTracker().getExecutorInfos())}")
        print(f"   Cores totais: {spark.sparkContext.defaultParallelism}")
        
    except Exception as e:
        print(f"‚ö†Ô∏è  Erro ao obter informa√ß√µes de performance: {e}")
    
    print(f"\nüéâ TESTES CONCLU√çDOS!")
    print("‚úÖ Integra√ß√£o Jupyter + PySpark funcionando perfeitamente!")
    
else:
    print("‚ùå SparkSession n√£o dispon√≠vel - execute a c√©lula anterior primeiro")

## üéØ **Conclus√£o e Pr√≥ximos Passos**

### ‚úÖ **O que aprendemos:**
1. **Vari√°veis de ambiente essenciais** para integra√ß√£o PySpark + Jupyter
2. **Configura√ß√£o autom√°tica** no ambiente Docker
3. **Testes de conectividade** e funcionalidade
4. **Otimiza√ß√µes de performance** para desenvolvimento

### üöÄ **Pr√≥ximos passos recomendados:**
- **Explorar Spark MLlib** para machine learning
- **Integrar com MinIO** para storage distribu√≠do
- **Conectar com PostgreSQL** via JDBC
- **Usar Airflow** para orquestra√ß√£o de pipelines

### üìö **Recursos adicionais:**
- [PySpark Documentation](https://spark.apache.org/docs/latest/api/python/)
- [Spark Configuration](https://spark.apache.org/docs/latest/configuration.html)
- [Jupyter Integration Best Practices](https://jupyter-docker-stacks.readthedocs.io/)

---
**üí° Dica**: Salve este notebook como template para futuros projetos PySpark!