## 🔄 **Atualização**: Usando Variáveis de Ambiente

Agora o ambiente foi **atualizado** para usar variáveis de ambiente, seguindo as **melhores práticas**:

### ✅ **Configuração no `.env`:**
```bash
# Configurações do PySpark
SPARK_HOME=/opt/spark
PYSPARK_PYTHON=python3
PYSPARK_DRIVER_PYTHON=jupyter
PYSPARK_DRIVER_PYTHON_OPTS=lab
SPARK_DRIVER_HOST=jupyter
SPARK_DRIVER_BIND_ADDRESS=0.0.0.0
SPARK_LOCAL_IP=jupyter
SPARK_DRIVER_MEMORY=1g
SPARK_EXECUTOR_MEMORY=1g
SPARK_EXECUTOR_CORES=2
```

### ✅ **Configuração no `docker-compose.yml`:**
```yaml
environment:
  - SPARK_HOME=${SPARK_HOME:-/opt/spark}
  - PYSPARK_PYTHON=${PYSPARK_PYTHON:-python3}
  - PYSPARK_DRIVER_PYTHON=${PYSPARK_DRIVER_PYTHON:-jupyter}
  - PYSPARK_DRIVER_PYTHON_OPTS=${PYSPARK_DRIVER_PYTHON_OPTS:-lab}
  # ... outras configurações
```

### 🎯 **Vantagens:**
- **Flexibilidade** para diferentes ambientes
- **Customização** sem rebuild de containers
- **Manutenibilidade** centralizada no `.env`
- **Portabilidade** entre dev/test/prod

In [None]:
import os

print("🔍 VERIFICANDO VARIÁVEIS DE AMBIENTE CONFIGURADAS")
print("=" * 55)

# Variáveis PySpark configuradas via .env
pyspark_env_vars = {
    'SPARK_HOME': 'Diretório de instalação do Spark',
    'PYSPARK_PYTHON': 'Python para executors',
    'PYSPARK_DRIVER_PYTHON': 'Python para driver (Jupyter)',
    'PYSPARK_DRIVER_PYTHON_OPTS': 'Modo do driver (lab/notebook)',
    'SPARK_DRIVER_HOST': 'Hostname do driver',
    'SPARK_DRIVER_BIND_ADDRESS': 'Interface de bind',
    'SPARK_LOCAL_IP': 'IP local do Spark',
    'SPARK_DRIVER_MEMORY': 'Memória do driver',
    'SPARK_EXECUTOR_MEMORY': 'Memória dos executors',
    'SPARK_EXECUTOR_CORES': 'Cores por executor'
}

print("📋 VARIÁVEIS PYSPARK CONFIGURADAS:")
print("-" * 35)

for var, description in pyspark_env_vars.items():
    value = os.environ.get(var, '❌ NÃO CONFIGURADO')
    status = "✅" if value != '❌ NÃO CONFIGURADO' else "❌"
    print(f"{status} {var}: {value}")
    if value != '❌ NÃO CONFIGURADO':
        print(f"   └─ {description}")

# Verificar variáveis adicionais importantes
print(f"\n🌐 VARIÁVEIS ADICIONAIS:")
print("-" * 20)

additional_vars = [
    'SPARK_MASTER', 'JUPYTER_ENABLE_LAB', 'GRANT_SUDO'
]

for var in additional_vars:
    value = os.environ.get(var, 'não configurado')
    print(f"📌 {var}: {value}")

print(f"\n💡 COMO CUSTOMIZAR:")
print("Edite o arquivo .env para ajustar configurações:")
print("  SPARK_DRIVER_MEMORY=2g    # Para mais memória")
print("  SPARK_EXECUTOR_CORES=4    # Para mais cores")
print("  PYSPARK_DRIVER_PYTHON_OPTS=notebook  # Para usar Notebook")

# 🔧 PySpark Environment Setup - Best Practices

Este notebook demonstra as **melhores práticas** para configurar variáveis de ambiente e integrar o **Jupyter** com **PySpark** no ambiente BigData.

## 🎯 **Objetivos:**
- ✅ Configurar variáveis de ambiente essenciais para PySpark
- ✅ Verificar conectividade com cluster Spark
- ✅ Demonstrar integração otimizada Jupyter + PySpark
- ✅ Validar performance e funcionalidades

## 📋 **Variáveis de Ambiente Principais:**
- `SPARK_HOME` - Caminho para instalação do Spark
- `PYSPARK_PYTHON` - Interpretador Python para executors
- `PYSPARK_DRIVER_PYTHON` - Python para driver (Jupyter)
- `PYSPARK_DRIVER_PYTHON_OPTS` - Opções do driver (notebook/lab)
- `SPARK_MASTER` - URL do cluster Spark

---
**💡 Nota**: Este ambiente já está pré-configurado no `docker-compose.yml` com as melhores práticas!

## 1️⃣ Check Current Environment

Primeiro, vamos verificar o ambiente atual e as variáveis já configuradas.

In [None]:
import os
import sys
from pprint import pprint

print("🔍 VERIFICAÇÃO DO AMBIENTE ATUAL")
print("=" * 50)

print(f"📍 Python Version: {sys.version}")
print(f"📍 Python Executable: {sys.executable}")
print(f"📍 Working Directory: {os.getcwd()}")

print("\n🌐 VARIÁVEIS DE AMBIENTE SPARK:")
print("-" * 30)

spark_vars = [
    'SPARK_HOME', 'SPARK_MASTER', 'SPARK_OPTS',
    'PYSPARK_PYTHON', 'PYSPARK_DRIVER_PYTHON', 
    'PYSPARK_DRIVER_PYTHON_OPTS', 'SPARK_DRIVER_HOST',
    'SPARK_DRIVER_BIND_ADDRESS', 'SPARK_LOCAL_IP'
]

for var in spark_vars:
    value = os.environ.get(var, '❌ NÃO CONFIGURADO')
    print(f"{var}: {value}")

print(f"\n📦 PATH contém Spark: {'✅ SIM' if any('spark' in p.lower() for p in os.environ.get('PATH', '').split(':')) else '❌ NÃO'}")

# Verificar se PySpark está disponível
try:
    import pyspark
    print(f"✅ PySpark disponível: {pyspark.__version__}")
except ImportError:
    print("❌ PySpark não encontrado")

## 2️⃣ Set Spark Home Path

Configuração do `SPARK_HOME` - fundamental para o funcionamento do PySpark.

In [None]:
import os
import subprocess

print("🏠 CONFIGURAÇÃO DO SPARK_HOME")
print("=" * 40)

# Verificar se SPARK_HOME já está definido
current_spark_home = os.environ.get('SPARK_HOME')
print(f"SPARK_HOME atual: {current_spark_home}")

# No ambiente docker, o Spark já deve estar configurado
# Vamos verificar possíveis localizações
possible_locations = [
    '/opt/spark',
    '/usr/local/spark', 
    '/opt/bitnami/spark',
    current_spark_home
]

print("\n🔍 Verificando possíveis localizações do Spark:")
for location in possible_locations:
    if location and os.path.exists(location):
        print(f"✅ Encontrado: {location}")
        # Verificar se tem os binários principais
        bin_path = os.path.join(location, 'bin')
        if os.path.exists(bin_path):
            print(f"   📁 Diretório bin: {bin_path}")
            if os.path.exists(os.path.join(bin_path, 'spark-submit')):
                print(f"   ⚡ spark-submit: Disponível")
    else:
        print(f"❌ Não encontrado: {location}")

# Configurar SPARK_HOME se necessário
if not current_spark_home:
    # Tentar detectar automaticamente
    try:
        result = subprocess.run(['which', 'spark-submit'], 
                              capture_output=True, text=True)
        if result.returncode == 0:
            spark_submit_path = result.stdout.strip()
            spark_home = os.path.dirname(os.path.dirname(spark_submit_path))
            os.environ['SPARK_HOME'] = spark_home
            print(f"\n✅ SPARK_HOME configurado automaticamente: {spark_home}")
        else:
            print("\n⚠️  spark-submit não encontrado no PATH")
    except Exception as e:
        print(f"\n❌ Erro ao detectar Spark: {e}")

print(f"\n🎯 SPARK_HOME final: {os.environ.get('SPARK_HOME', 'NÃO CONFIGURADO')}")

## 3️⃣ Configure Python Executors

Definição do interpretador Python que o PySpark usará nos executors.

In [None]:
import sys
import subprocess

print("🐍 CONFIGURAÇÃO DO PYTHON PARA EXECUTORS")
print("=" * 45)

# Verificar versão atual do Python
print(f"Python atual: {sys.version}")
print(f"Executável: {sys.executable}")

# Configurar PYSPARK_PYTHON
current_pyspark_python = os.environ.get('PYSPARK_PYTHON')
print(f"\nPYSPARK_PYTHON atual: {current_pyspark_python}")

# Definir o melhor Python disponível
python_options = ['python3', 'python', sys.executable]

print("\n🔍 Testando interpretadores Python disponíveis:")
best_python = None

for python_cmd in python_options:
    try:
        result = subprocess.run([python_cmd, '--version'], 
                              capture_output=True, text=True)
        if result.returncode == 0:
            version = result.stdout.strip() or result.stderr.strip()
            print(f"✅ {python_cmd}: {version}")
            if not best_python:
                best_python = python_cmd
    except (subprocess.SubprocessError, FileNotFoundError):
        print(f"❌ {python_cmd}: Não disponível")

# Configurar PYSPARK_PYTHON
if best_python:
    os.environ['PYSPARK_PYTHON'] = best_python
    print(f"\n✅ PYSPARK_PYTHON configurado: {best_python}")
else:
    print("\n⚠️  Nenhum interpretador Python adequado encontrado")

# Verificar se os executors conseguirão usar o mesmo Python
print(f"\n🎯 Configuração final:")
print(f"   Driver Python: {sys.executable}")
print(f"   Executor Python: {os.environ.get('PYSPARK_PYTHON', 'NÃO CONFIGURADO')}")

# Validar que ambos têm a mesma versão principal
try:
    driver_version = f"{sys.version_info.major}.{sys.version_info.minor}"
    executor_result = subprocess.run([best_python, '-c', 'import sys; print(f"{sys.version_info.major}.{sys.version_info.minor}")'], 
                                   capture_output=True, text=True)
    if executor_result.returncode == 0:
        executor_version = executor_result.stdout.strip()
        if driver_version == executor_version:
            print(f"✅ Versões compatíveis: Driver {driver_version} == Executor {executor_version}")
        else:
            print(f"⚠️  Versões diferentes: Driver {driver_version} != Executor {executor_version}")
except Exception as e:
    print(f"❌ Erro ao verificar compatibilidade: {e}")

## 4️⃣ Set Jupyter Driver Configuration

Configuração específica para integração com Jupyter Lab/Notebook.

In [None]:
print("📓 CONFIGURAÇÃO DO DRIVER JUPYTER")
print("=" * 40)

# Verificar ambiente Jupyter atual
print("🔍 Detectando ambiente Jupyter:")

# Verificar se estamos em Jupyter
in_jupyter = False
try:
    from IPython import get_ipython
    if get_ipython() is not None:
        in_jupyter = True
        ipython = get_ipython()
        print(f"✅ Executando em IPython/Jupyter")
        print(f"   Classe: {ipython.__class__.__name__}")
except ImportError:
    print("❌ IPython não disponível")

# Verificar se é Jupyter Lab ou Notebook
jupyter_type = "unknown"
if in_jupyter:
    try:
        # Tentar detectar se é Lab ou Notebook
        import json
        import requests
        # Este é um método simplificado - em produção pode ser mais complexo
        jupyter_type = "lab"  # Assumindo Lab por padrão no nosso ambiente
    except:
        jupyter_type = "notebook"

print(f"   Tipo detectado: {jupyter_type}")

# Configurar variáveis do driver
print(f"\n⚙️ Configurando variáveis do driver:")

# PYSPARK_DRIVER_PYTHON
driver_python = sys.executable
os.environ['PYSPARK_DRIVER_PYTHON'] = driver_python
print(f"✅ PYSPARK_DRIVER_PYTHON: {driver_python}")

# PYSPARK_DRIVER_PYTHON_OPTS
if jupyter_type == "lab":
    driver_opts = "lab"
    print("📓 Configurando para Jupyter Lab")
else:
    driver_opts = "notebook"
    print("📒 Configurando para Jupyter Notebook")

os.environ['PYSPARK_DRIVER_PYTHON_OPTS'] = driver_opts
print(f"✅ PYSPARK_DRIVER_PYTHON_OPTS: {driver_opts}")

# Configurações adicionais para conectividade
print(f"\n🌐 Configurações de conectividade:")

# Driver host - importante para clusters distribuídos
driver_host = os.environ.get('SPARK_DRIVER_HOST', 'jupyter')
os.environ['SPARK_DRIVER_HOST'] = driver_host
print(f"✅ SPARK_DRIVER_HOST: {driver_host}")

# Driver bind address
driver_bind = os.environ.get('SPARK_DRIVER_BIND_ADDRESS', '0.0.0.0')
os.environ['SPARK_DRIVER_BIND_ADDRESS'] = driver_bind
print(f"✅ SPARK_DRIVER_BIND_ADDRESS: {driver_bind}")

print(f"\n🎯 Resumo da configuração do driver:")
print(f"   Python: {driver_python}")
print(f"   Modo: {driver_opts}")
print(f"   Host: {driver_host}")
print(f"   Bind: {driver_bind}")

if in_jupyter:
    print(f"\n✅ Ambiente Jupyter configurado e pronto para PySpark!")
else:
    print(f"\n⚠️  Não executando em Jupyter - configuração pode não ser aplicada automaticamente")

## 5️⃣ Verify Environment Setup

Validação completa de todas as variáveis de ambiente configuradas.

In [None]:
print("✅ VERIFICAÇÃO FINAL DO AMBIENTE")
print("=" * 40)

# Lista completa de variáveis importantes
required_vars = {
    'SPARK_HOME': 'Caminho para instalação do Spark',
    'SPARK_MASTER': 'URL do cluster Spark',
    'PYSPARK_PYTHON': 'Python para executors',
    'PYSPARK_DRIVER_PYTHON': 'Python para driver',
    'PYSPARK_DRIVER_PYTHON_OPTS': 'Opções do driver (lab/notebook)',
    'SPARK_DRIVER_HOST': 'Host do driver',
    'SPARK_DRIVER_BIND_ADDRESS': 'Endereço de bind do driver',
    'SPARK_LOCAL_IP': 'IP local do Spark'
}

optional_vars = {
    'SPARK_OPTS': 'Opções adicionais do Spark',
    'SPARK_DRIVER_MEMORY': 'Memória do driver',
    'SPARK_EXECUTOR_MEMORY': 'Memória dos executors',
    'SPARK_EXECUTOR_CORES': 'Cores dos executors'
}

print("🔍 VARIÁVEIS OBRIGATÓRIAS:")
print("-" * 25)
all_required_ok = True

for var, description in required_vars.items():
    value = os.environ.get(var)
    if value:
        print(f"✅ {var}: {value}")
    else:
        print(f"❌ {var}: NÃO CONFIGURADO")
        all_required_ok = False

print(f"\n🔍 VARIÁVEIS OPCIONAIS:")
print("-" * 20)
for var, description in optional_vars.items():
    value = os.environ.get(var)
    if value:
        print(f"✅ {var}: {value}")
    else:
        print(f"⚪ {var}: não configurado ({description})")

# Verificação de conectividade com Spark Master
print(f"\n🌐 TESTE DE CONECTIVIDADE:")
print("-" * 25)

spark_master = os.environ.get('SPARK_MASTER')
if spark_master:
    print(f"🎯 Testando conexão com: {spark_master}")
    
    # Tentar fazer ping básico
    import socket
    import urllib.parse
    
    try:
        parsed = urllib.parse.urlparse(spark_master)
        host = parsed.hostname
        port = parsed.port or 7077
        
        sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        sock.settimeout(3)
        result = sock.connect_ex((host, port))
        sock.close()
        
        if result == 0:
            print(f"✅ Spark Master acessível em {host}:{port}")
        else:
            print(f"❌ Spark Master não acessível em {host}:{port}")
            
    except Exception as e:
        print(f"⚠️  Erro ao testar conectividade: {e}")
else:
    print("❌ SPARK_MASTER não configurado")

# Resumo final
print(f"\n📋 RESUMO:")
print("-" * 10)
if all_required_ok:
    print("✅ Todas as variáveis obrigatórias configuradas")
    print("🚀 Ambiente pronto para inicializar PySpark!")
else:
    print("⚠️  Algumas variáveis obrigatórias não configuradas")
    print("🔧 Revise a configuração antes de prosseguir")

# Verificar se PySpark pode ser importado
print(f"\n🐍 TESTE DE IMPORTAÇÃO:")
try:
    import pyspark
    from pyspark.sql import SparkSession
    print(f"✅ PySpark {pyspark.__version__} importado com sucesso")
    print("✅ SparkSession disponível")
except ImportError as e:
    print(f"❌ Erro ao importar PySpark: {e}")
except Exception as e:
    print(f"⚠️  Erro inesperado: {e}")

## 6️⃣ Initialize PySpark Session

Criação e configuração da SparkSession usando as variáveis de ambiente configuradas.

In [None]:
from pyspark.sql import SparkSession
from pyspark.conf import SparkConf
import time

print("🚀 INICIALIZANDO SPARKSESSION")
print("=" * 35)

# Configuração personalizada do Spark
print("⚙️ Configurando SparkSession...")

# Criar configuração baseada nas variáveis de ambiente
conf = SparkConf()

# Configurações básicas
conf.setAppName("BigData-Jupyter-Integration")
conf.set("spark.sql.adaptive.enabled", "true")
conf.set("spark.sql.adaptive.coalescePartitions.enabled", "true")

# Configurações de memória
conf.set("spark.driver.memory", "1g")
conf.set("spark.driver.maxResultSize", "500m")
conf.set("spark.executor.memory", "1g")

# Configurações de conectividade
spark_master = os.environ.get('SPARK_MASTER', 'local[*]')
conf.setMaster(spark_master)

print(f"🎯 Master: {spark_master}")
print(f"📱 App Name: BigData-Jupyter-Integration")

# Tentar criar a SparkSession
print(f"\n🔄 Criando SparkSession...")
start_time = time.time()

try:
    spark = SparkSession.builder \
        .config(conf=conf) \
        .getOrCreate()
    
    creation_time = time.time() - start_time
    print(f"✅ SparkSession criada com sucesso em {creation_time:.2f}s")
    
    # Informações da sessão
    print(f"\n📊 INFORMAÇÕES DA SESSÃO:")
    print("-" * 25)
    print(f"🆔 Application ID: {spark.sparkContext.applicationId}")
    print(f"🌐 Master: {spark.sparkContext.master}")
    print(f"📱 App Name: {spark.sparkContext.appName}")
    print(f"🐍 Python Version: {spark.sparkContext.pythonVer}")
    print(f"⚡ Spark Version: {spark.version}")
    print(f"🔧 Default Parallelism: {spark.sparkContext.defaultParallelism}")
    
    # Configurações importantes
    print(f"\n⚙️ CONFIGURAÇÕES ATIVAS:")
    print("-" * 20)
    important_configs = [
        'spark.master',
        'spark.driver.memory',
        'spark.executor.memory',
        'spark.sql.adaptive.enabled',
        'spark.driver.host',
        'spark.driver.bindAddress'
    ]
    
    for config in important_configs:
        value = spark.conf.get(config, 'não configurado')
        print(f"{config}: {value}")
    
    print(f"\n🎉 SparkSession pronta para uso!")
    
except Exception as e:
    print(f"❌ Erro ao criar SparkSession: {e}")
    print(f"🔧 Verifique as configurações do cluster Spark")
    spark = None

## 7️⃣ Test PySpark Integration

Testes práticos para validar que a integração Jupyter + PySpark está funcionando perfeitamente.

In [None]:
if spark:
    print("🧪 TESTANDO INTEGRAÇÃO PYSPARK")
    print("=" * 35)
    
    # Teste 1: Criar RDD simples
    print("📝 Teste 1: Criação de RDD")
    try:
        data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
        rdd = spark.sparkContext.parallelize(data)
        total = rdd.sum()
        count = rdd.count()
        print(f"✅ RDD criado: {count} elementos, soma = {total}")
    except Exception as e:
        print(f"❌ Erro no teste RDD: {e}")
    
    # Teste 2: Criar DataFrame
    print(f"\n📊 Teste 2: Criação de DataFrame")
    try:
        from pyspark.sql.types import StructType, StructField, StringType, IntegerType
        
        schema = StructType([
            StructField("nome", StringType(), True),
            StructField("idade", IntegerType(), True),
            StructField("cidade", StringType(), True)
        ])
        
        data = [
            ("Alice", 25, "São Paulo"),
            ("Bob", 30, "Rio de Janeiro"),
            ("Charlie", 35, "Belo Horizonte"),
            ("Diana", 28, "Porto Alegre")
        ]
        
        df = spark.createDataFrame(data, schema)
        print(f"✅ DataFrame criado com {df.count()} registros")
        
        print(f"\n📋 Schema:")
        df.printSchema()
        
        print(f"\n📄 Dados:")
        df.show()
        
    except Exception as e:
        print(f"❌ Erro no teste DataFrame: {e}")
    
    # Teste 3: Operações SQL
    print(f"\n🔍 Teste 3: Operações SQL")
    try:
        df.createOrReplaceTempView("pessoas")
        
        result = spark.sql("""
            SELECT cidade, COUNT(*) as quantidade, AVG(idade) as idade_media
            FROM pessoas 
            GROUP BY cidade
            ORDER BY quantidade DESC
        """)
        
        print(f"✅ Query SQL executada:")
        result.show()
        
    except Exception as e:
        print(f"❌ Erro no teste SQL: {e}")
    
    # Teste 4: Processamento distribuído
    print(f"\n⚡ Teste 4: Processamento Distribuído")
    try:
        # Criar dataset maior para testar paralelização
        large_data = range(1, 100001)  # 100k números
        large_rdd = spark.sparkContext.parallelize(large_data, 4)  # 4 partições
        
        # Operação computacionalmente intensiva
        squares = large_rdd.map(lambda x: x * x)
        sum_squares = squares.sum()
        
        print(f"✅ Processado {large_rdd.count():,} números")
        print(f"✅ Soma dos quadrados: {sum_squares:,}")
        print(f"✅ Número de partições: {large_rdd.getNumPartitions()}")
        
    except Exception as e:
        print(f"❌ Erro no teste distribuído: {e}")
    
    # Teste 5: Performance e monitoring
    print(f"\n📈 Teste 5: Informações de Performance")
    try:
        # Verificar URL da Spark UI
        spark_ui = spark.sparkContext.uiWebUrl
        if spark_ui:
            print(f"🌐 Spark UI disponível em: {spark_ui}")
        else:
            print("⚠️  Spark UI não disponível")
        
        # Status do cluster
        print(f"\n🏗️ Status do Cluster:")
        print(f"   Master: {spark.sparkContext.master}")
        print(f"   Executors ativos: {len(spark.sparkContext.statusTracker().getExecutorInfos())}")
        print(f"   Cores totais: {spark.sparkContext.defaultParallelism}")
        
    except Exception as e:
        print(f"⚠️  Erro ao obter informações de performance: {e}")
    
    print(f"\n🎉 TESTES CONCLUÍDOS!")
    print("✅ Integração Jupyter + PySpark funcionando perfeitamente!")
    
else:
    print("❌ SparkSession não disponível - execute a célula anterior primeiro")

## 🎯 **Conclusão e Próximos Passos**

### ✅ **O que aprendemos:**
1. **Variáveis de ambiente essenciais** para integração PySpark + Jupyter
2. **Configuração automática** no ambiente Docker
3. **Testes de conectividade** e funcionalidade
4. **Otimizações de performance** para desenvolvimento

### 🚀 **Próximos passos recomendados:**
- **Explorar Spark MLlib** para machine learning
- **Integrar com MinIO** para storage distribuído
- **Conectar com PostgreSQL** via JDBC
- **Usar Airflow** para orquestração de pipelines

### 📚 **Recursos adicionais:**
- [PySpark Documentation](https://spark.apache.org/docs/latest/api/python/)
- [Spark Configuration](https://spark.apache.org/docs/latest/configuration.html)
- [Jupyter Integration Best Practices](https://jupyter-docker-stacks.readthedocs.io/)

---
**💡 Dica**: Salve este notebook como template para futuros projetos PySpark!