# Aula 06 - Configurando o PySpark 3.5.3 no Google Colab

## Instalar Dependências

O primeiro passo é instalar o PySpark 3.5.3, que é a versão mais recente, usando o pip. Lembre-se de verificar a versão, pois as mudanças podem afetar a configuração do ambiente e o comportamento do código. O primeiro comando instala a versão mais atual, enquanto o segundo especifica a versão 3.5.3, que é a versão atual.

In [None]:
!pip install pyspark

Em seguida, é necessário realizar a instalação de alguma JDK. Acabei optando pela versão 21 da OpenJDK:

In [None]:
!apt-get install openjdk-21-jdk

O próximo passo é o download do Spark na versão 3.5.3 no site oficial. Além disso, fiz a verificação se o arquivo foi realmente baixado e fiz a extração:

In [None]:
!wget -q https://dlcdn.apache.org/spark/spark-3.5.3/spark-3.5.3-bin-hadoop3.tgz -O spark-3.5.3-bin-hadoop3.tgz

!ls -lh spark-3.5.3-bin-hadoop3.tgz

!tar xf spark-3.5.3-bin-hadoop3.tgz

## Declarando Variáveis de Ambiente

Depois dos downloads realizados, é necessário inserir as variáveis de ambiente. Para o nosso notebook funcionar da forma correta, temos que declarar o Java e Spark como variável de ambiente, assim ele não vai dar erro ao executar por não encontrar dependências.


In [None]:
import os
os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-21-openjdk-amd64'
os.environ['SPARK_HOME'] = '/content/spark-3.5.3-bin-hadoop3'

## Criando uma SparkSession

Temos aqui um exemplo que podemos colocar o nome na nossa sessão, utilizando o appName()

O master com o local[*] serve para pegar todas as CPU’s disponíveis, posso deixar vazio que ele vai entender ou então colocar uma quantidade, ele vai funcionar também.

In [None]:
from pyspark.sql import SparkSession, Row
from datetime import datetime, date

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder\
  .master('local[*]')\
  .appName("Iniciando com Spark")\
  .getOrCreate()

Com isso, o PySpark está configurado e pronto para ser utilizado no Colab para você testar. Com o apoio da documentação, acabei criando um pequeno DataFrame com 3 linhas para testar.

In [None]:
df = spark.createDataFrame([
    Row(a=1, b=2., c='string1', d=date(2024,1, 1), e=datetime(2024, 1, 10, 0) ),
    Row(a=2, b=3., c='string2', d=date(2024,2, 1), e=datetime(2024, 2, 10, 0) ),
    Row(a=3, b=4., c='string3', d=date(2024,3, 1), e=datetime(2024, 3, 10, 0) )
])

In [None]:
df.show()

## Montar o Google Drive no Colab

Cria uma celula no notebook com o seguinte conteudo:

In [None]:
from google.colab import drive

drive.mount('/content/drive')

Ao fazer isso ira aparecer uma mensagem para autorizar a conexão do Colab com o Drive.

### Enviar o arquivo para Google Drive

Com o drive montado, va no seu Google Drive e faca upload do arquivo.

- Exemplo: Datasets/exemplo.csv.

### Abrir Dataset no Colab

Com o arquivo no Google Drive, crie uma cella com os seguintes valores:

In [None]:
import pandas as pd

path = '/content/drive/My Drive/Datasets/heart.csv'

df = pd.read_csv(path)
df.head()

In [None]:

df = spark.read.format("csv").option("header", "true").option("sep", ",").load(path)

df.show()