
1. `pyspark.sql` é usado para manipulação e otimização: O `pyspark.sql` fornece uma API mais amigável para manipular e consultar dados usando DataFrames, que são estruturas de dados tabulares e distribuídas. O Spark SQL também é responsável por otimizar as operações no DataFrame para executá-las de forma eficiente em um ambiente distribuído. Isso significa que, quando você executa operações em um DataFrame usando `pyspark.sql`, o Spark SQL otimiza as operações e as traduz em um plano de execução mais eficiente, que é executado no RDD.

2. RDD executa as operações reais: O RDD (Resilient Distributed Datasets) é a estrutura de dados principal do Spark e representa uma coleção distribuída e imutável de objetos. Os RDDs são a base de todo o processamento do Spark e são responsáveis por executar as operações reais. Quando você executa operações em um DataFrame usando o `pyspark.sql`, o Spark SQL traduz essas operações em transformações e ações no RDD subjacente, que é onde as operações são efetivamente executadas.

3. Integração entre `pyspark.sql` e RDD: O `pyspark.sql` e o RDD estão interconectados no Spark. O `pyspark.sql` fornece abstrações de nível superior como DataFrames e permite que você consulte dados usando a sintaxe SQL ou DSL (Domain-Specific Language) do DataFrame. Internamente, o Spark SQL otimiza essas operações e as transforma em operações no RDD. Portanto, o `pyspark.sql` usa o RDD como sua base para a execução.

4. Escolha entre `pyspark.sql` e RDD: Em geral, para operações comuns de manipulação e consultas de dados, é recomendado usar o `pyspark.sql` com DataFrames, pois eles oferecem uma interface mais fácil de usar e otimizações de consulta. Os RDDs são mais adequados para situações mais complexas ou personalizadas, onde você precisa de maior flexibilidade ou controle sobre o processamento. No entanto, a maioria dos casos de uso pode ser tratada de forma eficiente usando DataFrames com `pyspark.sql`.

Portanto, em resumo, o `pyspark.sql` é usado para manipulação e consulta de dados usando DataFrames, que são estruturas de dados tabulares. O Spark SQL otimiza as operações no DataFrame e as executa no RDD subjacente, que é a estrutura de dados principal do Spark usada para executar as operações reais.

In [2]:
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.4.1.tar.gz (310.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m310.8/310.8 MB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.4.1-py2.py3-none-any.whl size=311285397 sha256=6658080b7ec3e81a5c4cd68fda25143926a315cc812fe7d9d9e5632f13232939
  Stored in directory: /root/.cache/pip/wheels/0d/77/a3/ff2f74cc9ab41f8f594dabf0579c2a7c6de920d584206e0834
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.4.1


In [5]:
from pyspark import SparkContext

In [7]:
sc = SparkContext()

In [8]:
data = [1,2,3,4,5]

In [9]:
rdd = sc.parallelize(data)

In [10]:
rdd

ParallelCollectionRDD[0] at readRDDFromFile at PythonRDD.scala:287

In [11]:
# operações de ação

# exibindo dados, como os dados vai estar em nó quando exibir ele uni
rdd.collect()

[1, 2, 3, 4, 5]

In [12]:
# O método reduce é uma das ações disponíveis para RDDs (Resilient Distributed Datasets) no Spark.
# Ele é usado para realizar uma redução de todos os elementos do RDD para um único valor.
# A operação de redução é aplicada de forma iterativa
# a todos os elementos do RDD, reduzindo gradualmente o conjunto de dados a um único valor resultante.
rdd.reduce(lambda x, y: x + y)

15

In [13]:
rdd.count()

5

In [18]:
# operações de transformação

# tem que criar uma nova variavel porque ele vai salvar os dados em um novo objeto ou nova rdd então cria uma nova variavel representando a nova rdd
rdd2 = rdd.map(lambda x: x +10)

In [16]:
rdd.collect()

[1, 2, 3, 4, 5]

In [19]:
rdd2.collect()

[11, 12, 13, 14, 15]

In [20]:
# tem que criar uma nova variavel porque ele vai salvar os dados em um novo objeto ou nova rdd então cria uma nova variavel representando a nova rdd
rdd3 = rdd.filter(lambda x: x%2 ==0)

In [21]:
rdd3.collect()

[2, 4]

In [23]:
# Ao usar o Spark, é uma boa prática parar o contexto do Spark antes de finalizar
# o programa ou encerrar uma sessão interativa, como uma sessão do Jupyter Notebook.
# Isso evita conflitos e problemas relacionados ao uso de recursos do cluster Spark ou do ambiente local.
sc.stop()