## Introdução ao Databricks e Apache Spark

Databricks é uma plataforma de análise baseada em nuvem otimizada para o uso do Apache Spark, que facilita o processamento de grandes conjuntos de dados e a colaboração entre usuários. Apache Spark é um sistema de computação em cluster que oferece interfaces para programação de clusters com tolerância a falhas e dados paralelos. Ele é projetado para ser rápido para consultas ad-hoc e para processamento de dados em larga escala.

### Criando DataFrames
DataFrame é uma estrutura de dados imutável, distribuída, que permite o processamento de dados em formato tabular de maneira otimizada. Vamos iniciar criando um DataFrame simple

In [0]:
%python
df1 = spark.createDataFrame([("Pedro",10),("Maria",20),("José",40)])
#show é ação, então tudo o que foi feito anteriormente é executado, lazzy
df1.show()

+-----+---+
|   _1| _2|
+-----+---+
|Pedro| 10|
|Maria| 20|
| José| 40|
+-----+---+



Este código acima cria um DataFrame a partir de uma lista de tuplas, onde cada tupla representa uma linha. A operação show() é usada para visualizar os dados do DataFrame. O Spark executa todas as transformações de forma lazy (preguiçosa), o que significa que ele aguarda até que uma ação como show() seja chamada para executar todas as transformações anteriores

### Definindo Schema Explicitamente

É possível definir explicitamente o esquema dos dados ao criar um DataFrame, o que ajuda a garantir que os tipos de dados estão corretos e otimiza o desempenho do Spark:

Aqui, definimos um schema como uma string que especifica os nomes das colunas e os tipos de dados. Após criar o DataFrame df2, utilizamos createOrReplaceTempView para registrar uma tabela temporária que pode ser utilizada em consultas SQL.

In [0]:
#criar df com schema
schema = "Id INT, Nome STRING"
dados = [[1,"Pedro"],[2,"Maria"]]
df2 = spark.createDataFrame(dados, schema)
df2.show()
df2.show(1)
#cria tabela temporária
df2.createOrReplaceTempView("df2")

+---+-----+
| Id| Nome|
+---+-----+
|  1|Pedro|
|  2|Maria|
+---+-----+

+---+-----+
| Id| Nome|
+---+-----+
|  1|Pedro|
+---+-----+
only showing top 1 row



### Consultas SQL
Com o Spark, você pode realizar consultas SQL diretamente nos DataFrames registrados como tabelas temporárias.
Este comando SQL seleciona todas as colunas da tabela temporária df2 que criamos anteriormente. Isso ilustra como você pode interagir com DataFrames usando SQL, o que pode ser muito familiar para usuários com experiência em bancos de dados relacionais.

In [0]:
%sql
select * from df2

Id,Nome
1,Pedro
2,Maria


### Transformações e Agregações
Você pode realizar várias transformações e agregações nos DataFrames. Por exemplo, vamos agrupar dados e calcular a soma:

In [0]:
#com transformação
from pyspark.sql.functions import sum
schema2 = "Produtos STRING, Vendas INT"
vendas = [["Caneta",10],["Lápis",20],["Caneta",40]]
df3 = spark.createDataFrame(vendas , schema2 )
agrupado = df3.groupBy("Produtos").agg(sum("Vendas"))
agrupado.show()
#podemos contatenar as operações, neste caso sem persitir
df3.groupBy("Produtos").agg(sum("Vendas")).show()

+--------+-----------+
|Produtos|sum(Vendas)|
+--------+-----------+
|  Caneta|         50|
|   Lápis|         20|
+--------+-----------+

+--------+-----------+
|Produtos|sum(Vendas)|
+--------+-----------+
|  Caneta|         50|
|   Lápis|         20|
+--------+-----------+



### Seleção e Manipulação de Colunas
Além de transformações simples, o Spark também suporta a manipulação avançada de colunas:

In [0]:
#selecionar colunas específicas
df3.select("Produtos").show()
df3.select("Produtos","Vendas").show()

+--------+
|Produtos|
+--------+
|  Caneta|
|   Lápis|
|  Caneta|
+--------+

+--------+------+
|Produtos|Vendas|
+--------+------+
|  Caneta|    10|
|   Lápis|    20|
|  Caneta|    40|
+--------+------+



Neste exemplo, select é usado não apenas para selecionar colunas, mas também para criar uma nova coluna calculada (Vendas * 0.2), demonstrando como você pode facilmente realizar cálculos dentro de um DataFrame.

In [0]:
#expressões e select
from pyspark.sql.functions import expr
df3.select("Produtos", "Vendas", expr("Vendas * 0.2")).show()

+--------+------+--------------+
|Produtos|Vendas|(Vendas * 0.2)|
+--------+------+--------------+
|  Caneta|    10|           2.0|
|   Lápis|    20|           4.0|
|  Caneta|    40|           8.0|
+--------+------+--------------+



In [0]:
#ver schema
from pyspark.sql.types import StructType
schema = df3.schema
print(schema)

StructType([StructField('Produtos', StringType(), True), StructField('Vendas', IntegerType(), True)])


Este tutorial passou pelos fundamentos de criar e manipular DataFrames no Databricks usando Apache Spark. Você aprendeu como definir DataFrames, visualizar dados, executar consultas SQL, e fazer transformações e agregações complexas. Estas são habilidades fundamentais para análise de dados em larga escala usando Spark no Databricks.