<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
# <font color='blue'>Data Science Academy</font>
## <font color='blue'>PySpark e Apache Kafka Para Processamento de Dados em Batch e Streaming</font>
## <font color='blue'>Projeto 3</font>
### <font color='blue'>Pipeline de Limpeza e Transformação Para Aplicações de IA com PySpark SQL</font>

## Pacotes Python Usados no Projeto

In [1]:
# Imports
import os
import pyspark
import pandas as pd
import numpy as np
import pyspark.sql.functions as F
import pyspark.ml.evaluation as evals
import pyspark.ml.tuning as tune
from pyspark.sql import SparkSession
from pyspark.ml import Pipeline
from pyspark.ml.feature import StringIndexer, OneHotEncoder
from pyspark.ml.feature import  VectorAssembler
from pyspark.ml.classification import LogisticRegression, LogisticRegressionModel
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.tuning import ParamGridBuilder, CrossValidator
from pyspark.sql.functions import round

In [2]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy"

Author: Data Science Academy



## Criando a Sessão Spark e Definindo o Nível de Log

In [3]:
# Cria a sessão
spark = SparkSession.builder.appName('Projeto3-Exp').getOrCreate()

/opt/spark/bin/spark-class: line 71: /usr/lib/jvm/java-11-openjdk-amd64/bin/java: No such file or directory
/opt/spark/bin/spark-class: line 97: CMD: bad array subscript


PySparkRuntimeError: [JAVA_GATEWAY_EXITED] Java gateway process exited before sending its port number.

In [None]:
# Cria a sessão e especifica parâmetros do cluster
spark = SparkSession.builder \
    .appName('Projeto3-Exp') \
    .config('spark.driver.memory', '4g') \
    .config('spark.executor.cores', '2') \
    .getOrCreate()

In [3]:
# Cria a sessão Spark com YARN como gerenciador de recursos e especifica parâmetros do cluster
spark = SparkSession.builder \
    .appName('Projeto3-Exp') \
    .master('yarn') \
    .config('spark.submit.deployMode', 'client') \
    .config('spark.driver.memory', '4g') \
    .config('spark.executor.memory', '1g') \
    .config('spark.executor.cores', '2') \
    .getOrCreate()

/opt/spark/bin/spark-class: line 71: /usr/lib/jvm/java-11-openjdk-amd64/bin/java: No such file or directory
/opt/spark/bin/spark-class: line 97: CMD: bad array subscript


PySparkRuntimeError: [JAVA_GATEWAY_EXITED] Java gateway process exited before sending its port number.

**SparkSession.builder \:** Inicia a construção de uma nova sessão Spark. A SparkSession é a entrada principal para a programação com Spark SQL e fornece uma interface unificada para configurar a aplicação.

**.appName('Projeto3-Exp') \:** Define o nome da aplicação, que será exibido na interface do YARN e do Spark UI. Isso ajuda a identificar a aplicação no cluster.

**.master('yarn') \:** Define o gerenciador de recursos do cluster. Ao especificar 'yarn', você informa ao Spark que deve usar o YARN para gerenciar os recursos da aplicação (como memória e núcleos de CPU).

**.config('spark.submit.deployMode', 'client') \:** Define o modo de execução do driver:

- 'client': O driver é executado na máquina local onde o código foi iniciado. Isso é comum em testes ou quando você precisa de interação direta com o driver.

- 'cluster': O driver é executado em um dos nós do cluster gerenciado pelo YARN, sendo mais adequado para produção, pois mantém a aplicação independente da máquina de origem. ESSE MODO NÃO FUNCIONA VIA JUPYTER NOTEBOOK.

**.config('spark.driver.memory', '4g') \:** Define a quantidade de memória alocada para o processo do driver (4 GB neste caso). O driver é responsável por gerenciar a execução da aplicação.

**.config('spark.executor.memory', '1g') \:** Define a quantidade de memória alocada para cada executor (1 GB neste caso). Os executores são os processos que executam as tarefas distribuídas pelo cluster.

**.config('spark.executor.cores', '2') \:** Define o número de núcleos de CPU alocados para cada executor (2 núcleos por executor). Isso influencia o paralelismo do processamento das tarefas.

**.getOrCreate()**: Finaliza a construção da sessão Spark e retorna a sessão criada. Se uma sessão com as mesmas configurações já estiver ativa, ela será reutilizada.

In [None]:
# Define o nível de log
spark.sparkContext.setLogLevel("ERROR")

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
## Carregando os Datasets a Partir do HDFS

In [None]:
# Carrega o arquivo 1
df_dsa_aeroportos = spark.read.csv("/opt/spark/data/dataset1.csv", header = True)

In [None]:
type(df_dsa_aeroportos)

In [None]:
df_dsa_aeroportos.show(10)

In [None]:
# Carrega o arquivo 2
df_dsa_voos = spark.read.csv("/opt/spark/data/dataset2.csv", header = True)

In [None]:
df_dsa_voos.show(10)

In [None]:
# Carrega o arquivo 3
df_dsa_aeronaves = spark.read.csv("/opt/spark/data/dataset3.csv", header = True)

In [None]:
df_dsa_aeronaves.show(10)

Vamos converter esses dados para o formato:

- Dados de entrada --> ['month', 'air_time', 'carr_fact', 'dest_fact', 'plane_age'] como o vetor features.
- Dados de saída --> ['is_late'] com o nome label.

E então usaremos os dados nesse formato para treinar e avaliar dois modelos de Machine Learning. Escolheremos o melhor modelo e então criaremos o job de automação do processo de treinamento no cluster Spark.

## Continuaremos no Próximo Capítulo.

In [None]:
%reload_ext watermark
%watermark -a "Data Science Academy"

# Fim