#### Framework de Big Data

#### Conteúdo - Bases e Notebook da aula

https://github.com/FIAP/Pos_Tech_DTAT/tree/Framework-de-Big-Data

#### Importação de pacotes, bibliotecas e funções (def)

In [1]:
# Importar biblioteca completa
import pandas as pd 
import findspark
import urllib.request

# Importar função especifica de um módulo
from pyspark.sql import SparkSession

# Import spark libraries
from pyspark.sql import Row, DataFrame
from pyspark.sql.types import StringType, StructType, StructField, IntegerType
from pyspark.sql.functions import col, expr, lit, substring, concat, concat_ws, when, coalesce
from pyspark.sql import functions as F
from functools import reduce

In [2]:
# Como não queremos configurar as variaveis de ambiente, precisamos usar o findspark.init
findspark.init()

#### Aula 1 - Conhecendo o Spark

In [3]:
"""

1. spark = SparkSession.builder.master("local[*]").getOrCreate()
Esta é a linha que inicializa o Spark. Ela é o ponto de entrada para qualquer funcionalidade do Spark.

SparkSession: É o principal ponto de entrada para a programação com DataFrames e Datasets no Spark.

.builder: É um padrão de projeto (builder pattern) usado para construir o objeto SparkSession com diferentes configurações.

.master("local[*]"): Esta é uma das configurações mais importantes. Ela define como e onde o Spark irá executar suas tarefas.

"local[*]" instrui o Spark a ser executado em modo local, utilizando todos os núcleos de processamento (cores) disponíveis na sua máquina. 
Se você quisesse usar apenas 2 núcleos, por exemplo, usaria "local[2]". Este modo é ideal para desenvolvimento, testes e aprendizado em uma única máquina.

.getOrCreate(): Este método cria uma nova SparkSession se uma não existir. Se já houver uma sessão ativa com as mesmas configurações, ele simplesmente a retorna. 
Isso evita a criação de múltiplas sessões desnecessariamente.

Em resumo: esta linha cria e configura uma sessão do Spark para rodar localmente na sua máquina, usando todos os recursos de processamento disponíveis, e armazena essa sessão na variável spark.

2. df = spark.read.csv(link, sep= ",", inferSchema = True, header = True)
Esta é a linha que efetivamente lê os dados e os transforma em um DataFrame, que é a principal estrutura de dados do Spark.

spark.read: É o objeto usado para ler dados de fontes externas (arquivos, bancos de dados, etc.).

.csv(link, ...): Especifica que o formato do arquivo a ser lido é CSV. O primeiro argumento, link, é o caminho para o arquivo.

sep= ",": Este parâmetro (separador) informa ao Spark que as colunas no arquivo CSV são delimitadas por uma vírgula. É o padrão para arquivos CSV, mas é uma boa prática especificá-lo.

inferSchema = True: Esta é uma opção muito útil. Ela instrui o Spark a analisar uma amostra dos dados para inferir (deduzir) automaticamente o tipo de dado de cada coluna. 
Por exemplo, ele tentará identificar se uma coluna contém números inteiros (IntegerType), números decimais (DoubleType) ou texto (StringType). Sem isso, todas as colunas seriam tratadas como texto (String).

header = True: Esta opção informa ao Spark que a primeira linha do arquivo CSV contém os nomes das colunas (cabeçalho) e que essa linha não deve ser tratada como dados. 
O Spark usará esses nomes para as colunas do DataFrame.

"""

spark = SparkSession.builder.master("local[*]").getOrCreate()

# Baixar o arquivo pois não conseguimos usar o Spark para ler diretamnte o arquivo no Github
url = "https://raw.githubusercontent.com/FIAP/Pos_Tech_DTAT/refs/heads/Framework-de-Big-Data/Aula%201/banklist.csv"
local_path = "banklist.csv"
urllib.request.urlretrieve(url, local_path)

# Ler com Spark
df = spark.read.csv(local_path, sep=",", header=True, inferSchema=True)

print(f"df.count: {df.count()}")
print(f"df.col ct: {len(df.columns)}")
print(f"df.columns: {df.columns}")

df.count: 561
df.col ct: 6
df.columns: ['Bank Name', 'City', 'ST', 'CERT', 'Acquiring Institution', 'Closing Date']


#### Aula 2 - Operações Básicas no Spark

#### Aula 3 - Consultas e Seleções

#### Aula 4 - Operações entre Dataframes e Armazenamento

#### Aula 5 - Introdução aos Sistemas de Recomendação

#### Aula 6 - Recomendações com o Algoritmo ALS