<span style="color: green; font-size: 40px; font-weight: bold;">Apache Spark SQL</span>

<br> <br>

# Manipulação de Dados com SparkSQL, PandaSQL, SQLAlchemy, PostgreSQL e Docker

<br>

### Contexto

Para este Lab não definimos um problema de negócio específico. Nosso principal objetivo aqui é trazer para você um exemplo completo de carga e manipulação de dados em um ambiente com diversas ferramentas, integrações, conexões e queries SQL.

<br>

### Objetivo

O **objetivo do Lab** é aproximar você do dia a dia no mercado de trabalho, com uma série de atividades de manipulação de dados usando diferentes ferramentas de formasimultânea e em todos os casos aplicando Linguagem SQL.

<br>

### Sobre o Conjunto de Dados

Os dados (sobre futebol) estão sendo fornecidos a você e foram extraídos do site abaixo:

<br>

https://datahub.io/collections/footballData

<br> <br>

# Sobre as Ferramentas

<br>

## SparkSQL
- **O que é:** SparkSQL é um módulo do Apache Spark que permite trabalhar com dados estruturados usando uma interface SQL.
- **Principais Funcionalidades:** Permite executar consultas SQL, oferece suporte a DataFrames e Datasets, e é integrado com diversas fontes de dados (JSON, CSV, Parquet, etc.).
- **Uso Comum:** Utilizado para análise de grandes volumes de dados (Big Data) de forma distribuída e eficiente.

## PandaSQL
- **O que é:** PandaSQL é uma biblioteca Python que permite executar consultas SQL em DataFrames do pandas.
- **Principais Funcionalidades:** Facilita a combinação do poder da linguagem SQL com a manipulação de dados oferecida pelo pandas, permitindo consultas SQL diretamente sobre DataFrames.
- **Uso Comum:** Utilizado em cenários onde a familiaridade com SQL é alta e se deseja aplicar essas habilidades diretamente em DataFrames sem aprender a API pandas.

## SQLAlchemy
- **O que é:** SQLAlchemy é uma biblioteca Python que fornece um conjunto de ferramentas para trabalhar com bancos de dados relacionais de forma programática.
- **Principais Funcionalidades:** Oferece um ORM (Object-Relational Mapping), permitindo manipular tabelas do banco de dados como objetos Python. Também suporta execução de queries SQL diretamente.
- **Uso Comum:** Utilizado para interagir com bancos de dados dentro de aplicações Python, seja através de consultas SQL ou através de um mapeamento de objetos.

## PostgreSQL
- **O que é:** PostgreSQL é um sistema de gerenciamento de banco de dados relacional open-source.
- **Principais Funcionalidades:** Suporta SQL completo, possui robustez e escalabilidade, oferece suporte a diversos tipos de dados, e tem características avançadas como transações ACID, replicação e extensões.
- **Uso Comum:** Amplamente utilizado para armazenamento e gerenciamento de dados em aplicações de pequeno a grande porte, devido à sua confiabilidade e capacidade de lidar com grandes volumes de dados.

## Docker
- **O que é:** Docker é uma plataforma que permite criar, distribuir e executar aplicações em containers.
- **Principais Funcionalidades:** Isolamento de ambiente, portabilidade entre diferentes sistemas operacionais e fácil escalabilidade.
- **Uso Comum:** Utilizado para garantir que as aplicações rodem de forma consistente em diferentes ambientes, facilitando o desenvolvimento, testes e deploy.

### Diferença entre Imagem Docker e Contêiner Docker

#### Imagem Docker
- **O que é:** Uma imagem Docker é um arquivo estático, imutável, que contém o código necessário para rodar uma aplicação, incluindo bibliotecas, dependências, código fonte, e outras configurações necessárias.
- **Natureza:** Imutável e read-only.
- **Uso:** As imagens são usadas como "modelos" para criar contêineres. Elas são construídas a partir de um Dockerfile, que contém um conjunto de instruções para configurar o ambiente e instalar a aplicação.
- **Armazenamento:** As imagens são armazenadas em registries, como Docker Hub, de onde podem ser puxadas para criar contêineres em diferentes ambientes.

#### Contêiner Docker
- **O que é:** Um contêiner Docker é uma instância em execução de uma imagem Docker. Ele inclui tudo o que a imagem contém, além de todas as alterações em runtime feitas durante a execução do contêiner.
- **Natureza:** Mutável e read-write. Isso significa que você pode alterar o estado do contêiner enquanto ele está rodando.
- **Uso:** Contêineres são usados para rodar aplicações em um ambiente isolado e consistente. Cada contêiner tem seu próprio sistema de arquivos, processos, e rede.
- **Armazenamento:** Contêineres são efêmeros por natureza. Quando um contêiner é deletado, todas as suas alterações e dados em runtime são perdidos, a menos que os dados sejam persistidos em volumes externos.

#### Resumo das Diferenças

| Característica      | Imagem Docker                       | Contêiner Docker                    |
|---------------------|-------------------------------------|-------------------------------------|
| **Natureza**        | Imutável e read-only                | Mutável e read-write                |
| **Conteúdo**        | Código, bibliotecas, dependências   | Instância da imagem com possíveis alterações em runtime |
| **Uso**             | Modelo para criar contêineres       | Executa a aplicação isoladamente    |
| **Armazenamento**   | Armazenada em registries            | Efêmero, alterações não persistem após deleção |
| **Persistência**    | Permanente até ser removida         | Efêmero, a menos que volumes sejam usados para persistência |


## Integração das Ferramentas
No contexto do Lab, essas ferramentas podem ser integradas da seguinte forma:

1. **SparkSQL** pode ser utilizado para processar e analisar grandes volumes de dados de futebol.
2. **PandaSQL** pode ser utilizado para consultas rápidas e interativas diretamente nos DataFrames durante o desenvolvimento.
3. **SQLAlchemy** facilita a conexão e interação com o banco de dados PostgreSQL, permitindo a persistência de dados processados e resultados de análises.
4. **PostgreSQL** pode armazenar os dados de futebol e resultados intermediários ou finais das análises.
5. **Docker** pode ser utilizado para criar containers para cada uma dessas ferramentas, garantindo que todas rodem em um ambiente controlado e replicável.

Essa combinação de ferramentas permite um fluxo de trabalho eficiente e integrado para a manipulação e análise de dados usando SQL em diferentes contextos.


<br> <br> <br> <br>

# Importando Pacotes

In [1]:
# Importando bibliotecas necessárias para manipulação e análise de dados

# Importa o findspark e inicializa
import findspark
findspark.init()

# psycopg2: Um adaptador para conectar e interagir com bancos de dados PostgreSQL a partir do Python.
import psycopg2

# pandasql: Permite usar SQL queries sobre DataFrames do pandas.
import pandasql

# sqlalchemy: Um conjunto de ferramentas para trabalhar com bancos de dados relacionais usando SQL e ORM.
import sqlalchemy

# pandas: Biblioteca para manipulação e análise de dados, com estruturas de dados poderosas como DataFrames.
import pandas as pd

# Biblioteca para cálculos numéricos e manipulação de arrays
import numpy as np

# sqldf: Função do pandasql que executa queries SQL em DataFrames do pandas.
from pandasql import sqldf

# ISOLATION_LEVEL_AUTOCOMMIT: Constante do psycopg2 para definir o nível de isolamento de transações como
# autocommit.
from psycopg2.extensions import ISOLATION_LEVEL_AUTOCOMMIT

# create_engine: Função do SQLAlchemy para criar uma conexão de engine com o banco de dados.
from sqlalchemy import create_engine

# SparkSession: Ponto de entrada para usar a funcionalidade do Spark SQL.
from pyspark.sql import SparkSession

# udf: Função do PySpark para definir User Defined Functions (UDFs) para operações personalizadas em colunas
# de DataFrame.
from pyspark.sql.functions import udf


## Bibliotecas de Visualização de Dados

import seaborn as sns                    # Biblioteca para visualização de dados estatísticos.
from matplotlib import pyplot as plt     # Biblioteca para criação de gráficos e visualizações.


## Bibliotecas Principais do PySpark

import pyspark                           # Biblioteca para processamento de dados em grande escala usando clusters.
from pyspark import SparkConf            # Configuração e criação do contexto do Spark.
from pyspark import SparkContext         # Configuração e criação do contexto do Spark.   
from pyspark.sql import SparkSession     # Criação e manipulação de sessões e contextos SQL no Spark.
from pyspark.sql import SQLContext       # Criação e manipulação de sessões e contextos SQL no Spark.
from pyspark.sql.types import *          # Tipos de dados usados na criação de schemas de DataFrames no Spark.
from pyspark.sql.functions import *      # Funções SQL usadas para manipulação e transformação de dados no Spark.
from pyspark.sql.functions import col, count, when, isnan
from pyspark.sql.functions import from_unixtime, col, expr, date_format, from_utc_timestamp

RuntimeError: module was compiled against NumPy C-API version 0x10 (NumPy 1.23) but the running NumPy has C-API version 0xf. Check the section C-API incompatibility at the Troubleshooting ImportError section at https://numpy.org/devdocs/user/troubleshooting-importerror.html#c-api-incompatibility for indications on how to solve this problem.

In [2]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

numpy     : 1.22.4
sqlalchemy: 1.4.22
findspark : 2.0.1
matplotlib: 3.4.3
pandas    : 1.3.5
decimal   : 1.70
seaborn   : 0.11.2
pandasql  : 0.7.3
sys       : 3.9.7 (default, Sep 16 2021, 13:09:58) 
[GCC 7.5.0]
psycopg2  : 2.9.9
pyspark   : 3.5.1



<br> <br>

# <span style="color: green; font-size: 38px; font-weight: bold;">Preparando o Ambiente Spark</span>

In [3]:
# Definindo semente aleatória (seed) para reprodutibilidade do notebook
rnd_seed = 23
np.random.seed = rnd_seed
np.random.set_state = rnd_seed

# Criando o Spark Context
conf = SparkConf().setAppName("Mini-Projeto3") \
                  .set("spark.ui.showConsoleProgress", "false") \
                  .set("spark.executor.heartbeatInterval", "20s") \
                  .set("spark.eventLog.enabled", "false") \
                  .set("spark.sql.shuffle.partitions", "2") \
                  .set("spark.sql.debug.maxToStringFields", "100") \
                  .set("spark.executor.memory", "4g") \
                  .set("spark.driver.memory", "4g") \
                  .set("spark.driver.maxResultSize", "2g")  # Configuração adicional para limitar o tamanho do resultado

# Criar o Spark Context e a Spark Session
sc = SparkContext(conf=conf)
spark_session = SparkSession.builder.config(conf=conf).getOrCreate()

# Ajustar o nível de log para ERROR
sc.setLogLevel("ERROR")

# Configurar log4j para suprimir avisos (deixar como comentário e volta ao normal)
log4j_logger = sc._jvm.org.apache.log4j
log4j_logger.LogManager.getLogger("org").setLevel(log4j_logger.Level.ERROR)
log4j_logger.LogManager.getLogger("akka").setLevel(log4j_logger.Level.ERROR)

# Visualizar o objeto spark_session
spark_session

24/07/29 11:24:58 WARN Utils: Your hostname, eduardo-Inspiron-15-3520 resolves to a loopback address: 127.0.1.1; using 192.168.0.13 instead (on interface wlp0s20f3)
24/07/29 11:24:58 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/07/29 11:24:59 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


<br><br><br>

# <span style="color: green; font-size: 38px; font-weight: bold;">Carregando os Dados com Pandas</span>

<br>

#### Carregando Dataset 1 (com dados de nomes de jogadores)

In [4]:
# Carregando o dataset 1 com dados de nomes de jogadores
df1 = pd.read_csv("dados/lab/dataset1.csv", index_col = False)
# Shape
print(df1.shape)
print('--------------------------------------------------------------------------------')

# Tipos de dados
print(df1.dtypes)
print('--------------------------------------------------------------------------------')

# Visualiza as 5 primeiras linhas do dataframe
display(df1.head())

(17588, 2)
--------------------------------------------------------------------------------
Name    object
url     object
dtype: object
--------------------------------------------------------------------------------


Unnamed: 0,Name,url
0,Cristiano Ronaldo,/player/20801/cristiano-ronaldo/
1,Lionel Messi,/player/158023/lionel-messi/
2,Neymar,/player/190871/neymar/
3,Luis Suárez,/player/176580/luis-su%C3%A1rez/
4,Manuel Neuer,/player/167495/manuel-neuer/


<br>

#### Carregando Dataset 2 (com os dados de nomes de clubes de futebol)

In [5]:
# Carregando o dataset 2 com os dados de nomes de clubes de futebol
df2 = pd.read_csv("dados/lab/dataset2.csv", index_col = False)
# Shape
print(df2.shape)
print('--------------------------------------------------------------------------------')

# Tipos de dados
print(df2.dtypes)
print('--------------------------------------------------------------------------------')

# Visualiza as 5 primeiras linhas do dataframe
display(df2.head())

(633, 2)
--------------------------------------------------------------------------------
Name    object
url     object
dtype: object
--------------------------------------------------------------------------------


Unnamed: 0,Name,url
0,FC Bayern,/team/21/fc-bayern/
1,Real Madrid,/team/243/real-madrid/
2,FC Barcelona,/team/241/fc-barcelona/
3,Juventus,/team/45/juventus/
4,Manchester Utd,/team/11/manchester-utd/


<br>

#### Carregando Dataset 3 (com nome de seleções)

In [6]:
# Carregando o dataset 3 com nome de seleções
df3 = pd.read_csv("dados/lab/dataset3.csv", index_col = False)
# Shape
print(df3.shape)
print('--------------------------------------------------------------------------------')

# Tipos de dados
print(df3.dtypes)
print('--------------------------------------------------------------------------------')

# Visualiza as 5 primeiras linhas do dataframe
display(df3.head())

(47, 2)
--------------------------------------------------------------------------------
Name    object
url     object
dtype: object
--------------------------------------------------------------------------------


Unnamed: 0,Name,url
0,Spain,/team/1362/spain/
1,Germany,/team/1337/germany/
2,Brazil,/team/1370/brazil/
3,Belgium,/team/1325/belgium/
4,Argentina,/team/1369/argentina/


<br>

#### Carregando Dataset 4 (com estatísticas dos jogadores)

In [7]:
# Carregando o dataset 4 com estatísticas dos jogadores
df4 = pd.read_csv("dados/lab/dataset4.csv", index_col = False)
# Shape
print(df4.shape)
print('--------------------------------------------------------------------------------')

# Tipos de dados
print(df4.dtypes)
print('--------------------------------------------------------------------------------')

# Visualiza as 5 primeiras linhas do dataframe
display(df4.head())

(17588, 53)
--------------------------------------------------------------------------------
Name                   object
Nationality            object
National_Position      object
National_Kit          float64
Club                   object
Club_Position          object
Club_Kit              float64
Club_Joining           object
Contract_Expiry       float64
Rating                  int64
Height                 object
Weight                 object
Preffered_Foot         object
Birth_Date             object
Age                     int64
Preffered_Position     object
Work_Rate              object
Weak_foot               int64
Skill_Moves             int64
Ball_Control            int64
Dribbling               int64
Marking                 int64
Sliding_Tackle          int64
Standing_Tackle         int64
Aggression              int64
Reactions               int64
Attacking_Position      int64
Interceptions           int64
Vision                  int64
Composure               int64
Crossin

Unnamed: 0,Name,Nationality,National_Position,National_Kit,Club,Club_Position,Club_Kit,Club_Joining,Contract_Expiry,Rating,...,Long_Shots,Curve,Freekick_Accuracy,Penalties,Volleys,GK_Positioning,GK_Diving,GK_Kicking,GK_Handling,GK_Reflexes
0,Cristiano Ronaldo,Portugal,LS,7.0,Real Madrid,LW,7.0,07/01/2009,2021.0,94,...,90,81,76,85,88,14,7,15,11,11
1,Lionel Messi,Argentina,RW,10.0,FC Barcelona,RW,10.0,07/01/2004,2018.0,93,...,88,89,90,74,85,14,6,15,11,8
2,Neymar,Brazil,LW,10.0,FC Barcelona,LW,11.0,07/01/2013,2021.0,92,...,77,79,84,81,83,15,9,15,9,11
3,Luis Suárez,Uruguay,LS,9.0,FC Barcelona,ST,9.0,07/11/2014,2021.0,92,...,86,86,84,85,88,33,27,31,25,37
4,Manuel Neuer,Germany,GK,1.0,FC Bayern,GK,1.0,07/01/2011,2021.0,92,...,16,14,11,47,11,91,89,95,90,89


In [8]:
# Describe
df4.describe()

Unnamed: 0,National_Kit,Club_Kit,Contract_Expiry,Rating,Age,Weak_foot,Skill_Moves,Ball_Control,Dribbling,Marking,...,Long_Shots,Curve,Freekick_Accuracy,Penalties,Volleys,GK_Positioning,GK_Diving,GK_Kicking,GK_Handling,GK_Reflexes
count,1075.0,17587.0,17587.0,17588.0,17588.0,17588.0,17588.0,17588.0,17588.0,17588.0,...,17588.0,17588.0,17588.0,17588.0,17588.0,17588.0,17588.0,17588.0,17588.0,17588.0
mean,12.219535,21.294536,2018.899414,66.166193,25.460314,2.934103,2.303161,57.972766,54.802877,44.230327,...,47.403173,47.181146,43.383443,49.165738,43.275586,16.60962,16.823061,16.458324,16.559814,16.901183
std,6.933187,19.163741,1.698787,7.083012,4.680217,0.655927,0.746156,16.834779,18.913857,21.561703,...,19.211887,18.464396,17.701903,15.871735,17.710839,17.139904,17.798052,16.600741,16.967256,18.034485
min,1.0,1.0,2017.0,45.0,17.0,1.0,1.0,5.0,4.0,3.0,...,4.0,6.0,4.0,7.0,3.0,1.0,1.0,1.0,1.0,1.0
25%,6.0,9.0,2017.0,62.0,22.0,3.0,2.0,53.0,47.0,22.0,...,32.0,34.0,31.0,39.0,30.0,8.0,8.0,8.0,8.0,8.0
50%,12.0,18.0,2019.0,66.0,25.0,3.0,2.0,63.0,60.0,48.0,...,52.0,48.0,42.0,50.0,44.0,11.0,11.0,11.0,11.0,11.0
75%,18.0,27.0,2020.0,71.0,29.0,3.0,3.0,69.0,68.0,64.0,...,63.0,62.0,57.0,61.0,57.0,14.0,14.0,14.0,14.0,14.0
max,36.0,99.0,2023.0,94.0,47.0,5.0,5.0,95.0,97.0,92.0,...,91.0,92.0,93.0,96.0,93.0,91.0,89.0,95.0,91.0,90.0


<br><br><br>

# <span style="color: green; font-size: 38px; font-weight: bold;">Conectando ao SGBD PostgreSQL no Docker</span>

<br>

#### Importante

- Um container docker chamado "dsa" com SGBD PostgreSQL, user "postgres" e senha "dsa123" precisa ser criado no terminal e após a criação **colocar em execução**: 
> docker run --name dsa -e POSTGRES_PASSWORD=dsa123 -p 5432:5432 -d postgres

#### Objetivo

> Conectar ao servidor PostgreSQL no contêiner Docker, dropar/deletar o banco de dados dbdsa se ele já existir, criar um novo banco de dados dbdsa e encerrar a conexão.

#### O que está acontecendo aqui:
- **Cria a conexão**: Conecta ao servidor PostgreSQL no contêiner Docker já criado com o comando acima sem especificar nenhum banco de dados (o padrão é postgres).
- **Abre um cursor**: Abre um cursor para executar comandos SQL.
- **Define o nível de isolamento**: Configura a conexão para autocommit, o que significa que cada comando SQL é automaticamente comitado.
- **Drop do banco de dados (se existir)**: Remove o banco de dados dbdsa se ele já existir.
- **Cria o banco de dados**: Cria um novo banco de dados chamado dbdsa.
- **Fecha a conexão**: Fecha a conexão com o servidor PostgreSQL.

In [9]:
# Cria a conexão
pgconn = psycopg2.connect(host = "localhost", user = "postgres", password = "dsa123")

# Abre um cursor
pgcursor = pgconn.cursor()

# Objeto cursor
pgcursor

<cursor object at 0x7f3d6315fb80; closed: 0>

In [10]:
# Define o nível de isolamento para executar queries SQL no SGBD
pgconn.set_isolation_level(ISOLATION_LEVEL_AUTOCOMMIT) 

# Terminar todas as conexões ativas com o banco de dados dbdsa
pgcursor.execute("""
    SELECT pg_terminate_backend(pg_stat_activity.pid)
    FROM pg_stat_activity
    WHERE pg_stat_activity.datname = 'dbdsa'
    AND pid <> pg_backend_pid();
""")

# Drop do banco de dados (se existir)
pgcursor.execute('DROP DATABASE IF EXISTS dbdsa')

# Cria o banco de dados no SGBD
pgcursor.execute('CREATE DATABASE dbdsa')

# Fecha a conexão
pgconn.close()

<br>

> Esta etapa é necessária para configurar e garantir que o banco de dados dbdsa existe antes de tentar usá-lo.

<br>

# <span style="color: green; font-size: 38px; font-weight: bold;">Conectando ao Banco de Dados no SGBD PostgreSQL no Docker</span>

<br>

#### Objetivo

> Conectar especificamente ao banco de dados dbdsa para realizar operações subsequentes.

#### O que está acontecendo aqui:
- **Cria a conexão**: Conecta ao servidor PostgreSQL, mas desta vez especificando o banco de dados dbdsa.

<br>

> Esta etapa é necessária para realizar operações dentro do banco de dados dbdsa.

In [11]:
# Cria a conexão
pgconn = psycopg2.connect(host = "localhost", database = "dbdsa", user = "postgres", password = "dsa123")

pgconn

<connection object at 0x7f3d911c42c0; dsn: 'user=postgres password=xxx dbname=dbdsa host=localhost', closed: 0>

## Diferença entre as duas conexões:

#### São ambas as etapas obrigatórias?

- Sim, ambas são necessárias:
  - A primeira etapa (conexão inicial) é necessária para criar o banco de dados dbdsa.
  - A segunda etapa (conexão ao banco de dados específico) é necessária para operar no banco de dados dbdsa criado na primeira etapa.
  
<br>

<br>

# <span style="color: green; font-size: 38px; font-weight: bold;">Criando um Objeto do tipo 'engine' usando SQLAlchemy de Conexão ao PostgreSQL no Docker</span>

<br>

#### Objetivo

- Facilitar a interação com o banco de dados criado anteriormente **dbdsa** usando **SQLAlchemy** para executar consultas, transações e mapeamento objeto-relacional (ORM).

In [12]:
# Cria o engine SQLAlchemy
engine = create_engine('postgresql+psycopg2://postgres:dsa123@localhost/dbdsa')
engine

Engine(postgresql+psycopg2://postgres:***@localhost/dbdsa)

In [13]:
# Testar a conexão executando uma consulta simples
with engine.connect() as connection:
    result = connection.execute("SELECT 1")
    for row in result:
        print(row)

(1,)


<br>

## Resumo

- Os **três passos** acima garante que o banco de dados *dbdsa* esteja configurado corretamente e que você possa realizar operações nele de maneira eficiente utilizando tanto psycopg2 quanto SQLAlchemy.

<br> <br>

# <span style="color: green; font-size: 38px; font-weight: bold;">Criando e Salvando Tabelas no Banco de Dados PostgreSQL a partir de DataFrames do Pandas</span>

<br>

- Iremos utilizar os objetos pandas criados e carregados anteriormente.

#### Salvando os dataframe na tabela do PostgreSQL 

In [14]:
## Agora usaremos o método to_sql() para salvar os objetos dataframe do Pandas na tabela do PostgreSQL

# Se a tabela já existir será sobrescrita
df1.to_sql('tabela_df1', engine, if_exists = 'replace', index = False)

# Se a tabela já existir será sobrescrita
df2.to_sql('tabela_df2', engine, if_exists = 'replace', index = False)

# Se a tabela já existir será sobrescrita
df3.to_sql('tabela_df3', engine, if_exists = 'replace', index = False)

# Se a tabela já existir será sobrescrita
df4.to_sql('tabela_df4', engine, if_exists = 'replace', index = False)

<br> <br>

# <span style="color: green; font-size: 38px; font-weight: bold;">Carregando e Consultando Tabelas do PostgreSQL como Dataframes do Pandas usando PandaSQL</span>

- Vamos verificar e carregar as tabelas salvas no banco de dados PostgreSQL na etapa anterior, utilizando PandaSQL para facilitar a consulta dos dados.

In [15]:
# Verificando o número de linhas de uma das tabelas
pd.read_sql_query('select count(*) from tabela_df2', engine)

Unnamed: 0,count
0,633


<br>

#### Salvando e visalizando as tabelas carregadas em um objeto do tipo pandas

In [22]:
# Carrega todos os dados de uma tabela no PostgreSQL em um dataframe do Pandas
df_tabela_df4 = pd.read_sql('select * from tabela_df4', engine)

# Verifica o Shape
print(df_tabela_df4.shape)

# Visualiza as primeiras linhas
display(df_tabela_df4.head())

(17588, 53)


Unnamed: 0,Name,Nationality,National_Position,National_Kit,Club,Club_Position,Club_Kit,Club_Joining,Contract_Expiry,Rating,...,Long_Shots,Curve,Freekick_Accuracy,Penalties,Volleys,GK_Positioning,GK_Diving,GK_Kicking,GK_Handling,GK_Reflexes
0,Cristiano Ronaldo,Portugal,LS,7.0,Real Madrid,LW,7.0,07/01/2009,2021.0,94,...,90,81,76,85,88,14,7,15,11,11
1,Lionel Messi,Argentina,RW,10.0,FC Barcelona,RW,10.0,07/01/2004,2018.0,93,...,88,89,90,74,85,14,6,15,11,8
2,Neymar,Brazil,LW,10.0,FC Barcelona,LW,11.0,07/01/2013,2021.0,92,...,77,79,84,81,83,15,9,15,9,11
3,Luis Suárez,Uruguay,LS,9.0,FC Barcelona,ST,9.0,07/11/2014,2021.0,92,...,86,86,84,85,88,33,27,31,25,37
4,Manuel Neuer,Germany,GK,1.0,FC Bayern,GK,1.0,07/01/2011,2021.0,92,...,16,14,11,47,11,91,89,95,90,89


In [23]:
# Carrega somente os dados das colunas indicadas
select_df = pd.read_sql('tabela_df4', engine, columns = ['Name', 'Age' ,'Speed', 'Height', 'Weight'])

# Verifica o Shape
print(select_df.shape)

# Visualiza as primeiras linhas
display(select_df.head())

(17588, 5)


Unnamed: 0,Name,Age,Speed,Height,Weight
0,Cristiano Ronaldo,32,92,185 cm,80 kg
1,Lionel Messi,29,87,170 cm,72 kg
2,Neymar,25,90,174 cm,68 kg
3,Luis Suárez,30,77,182 cm,85 kg
4,Manuel Neuer,31,61,193 cm,92 kg


<br>

#### Usando Linguagem SQL ao Objeto Pandas

- Agora usando o **sqldf para aplicar SQL em dataframes do Pandas**. A função sqldf é do pacote PandaSQL.
- Quando você chama **pysqldf(query)**, o pandasql usa o **ambiente passado (neste caso, 'globals()')** para encontrar os DataFrames referenciados na query. 

In [24]:
# Função lambda com sqldf
pysqldf = lambda q: sqldf(q, globals())

type(pysqldf)

function

In [25]:
## Criando a Query (Exemplo 1)

# Query
query = 'SELECT * FROM select_df LIMIT 5'

type(query)

str

In [28]:
# Executa a função e grava o resultado em um dataframe do Pandas
df_sqldf_1 = pysqldf(query)

display(df_sqldf_1)

Unnamed: 0,Name,Age,Speed,Height,Weight
0,Cristiano Ronaldo,32,92,185 cm,80 kg
1,Lionel Messi,29,87,170 cm,72 kg
2,Neymar,25,90,174 cm,68 kg
3,Luis Suárez,30,77,182 cm,85 kg
4,Manuel Neuer,31,61,193 cm,92 kg


In [29]:
## Criando a Query (Exemplo 2)

# Query
query = 'SELECT Age, AVG("Speed") AS mean_Speed FROM select_df GROUP BY Age LIMIT 10'

type(query)

# Executa a função e grava o resultado em um dataframe do Pandas
df_sqldf_2 = pysqldf(query)

display(df_sqldf_2)

Unnamed: 0,Age,mean_Speed
0,17,62.280255
1,18,63.440901
2,19,64.053785
3,20,65.536424
4,21,66.754181
5,22,67.62198
6,23,68.19469
7,24,68.244599
8,25,68.352453
9,26,68.457741


<br> <br>

# <span style="color: green; font-size: 38px; font-weight: bold;">Carregando Dados do PostgreSQL em Dataframes do Apache Spark</span>

- Iremos carregar os dados do PostgreSQL em um DataFrame do Pandas e, em seguida, convertê-lo em um DataFrame do tipo Spark.

<br>

In [30]:
# Carrega os dados do PostgreSQL em um dataframe do Pandas (etapa anterior)
df = pd.read_sql('select * from tabela_df1', engine)

print(type(df))

display(df.head())

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Name,url
0,Cristiano Ronaldo,/player/20801/cristiano-ronaldo/
1,Lionel Messi,/player/158023/lionel-messi/
2,Neymar,/player/190871/neymar/
3,Luis Suárez,/player/176580/luis-su%C3%A1rez/
4,Manuel Neuer,/player/167495/manuel-neuer/


<br>

#### Converte para Dataframe do Spark

In [32]:
# Converte Dataframe do Pandas em Dataframe do Spark
df_spark = spark_session.createDataFrame(df)

print(type(df_spark))

<class 'pyspark.sql.dataframe.DataFrame'>


In [33]:
# Schema
print(df_spark.printSchema())

print('\n--------------------------------------------------------------------------------------------\n')

# Visualiza 5 primeiras linhas
df_spark.show(5)

root
 |-- Name: string (nullable = true)
 |-- url: string (nullable = true)

None

--------------------------------------------------------------------------------------------

+-----------------+--------------------+
|             Name|                 url|
+-----------------+--------------------+
|Cristiano Ronaldo|/player/20801/cri...|
|     Lionel Messi|/player/158023/li...|
|           Neymar|/player/190871/ne...|
|      Luis Suárez|/player/176580/lu...|
|     Manuel Neuer|/player/167495/ma...|
+-----------------+--------------------+
only showing top 5 rows



<br>

# Manipulação de Dados com Apache SparkSQL

In [37]:
# Carregando a tabela (etapa anterior)
df_1 = pd.read_sql('select * from tabela_df4', engine)

print(type(df_1))
print(df_1.shape)

display(df_1.head())

<class 'pandas.core.frame.DataFrame'>
(17588, 53)


Unnamed: 0,Name,Nationality,National_Position,National_Kit,Club,Club_Position,Club_Kit,Club_Joining,Contract_Expiry,Rating,...,Long_Shots,Curve,Freekick_Accuracy,Penalties,Volleys,GK_Positioning,GK_Diving,GK_Kicking,GK_Handling,GK_Reflexes
0,Cristiano Ronaldo,Portugal,LS,7.0,Real Madrid,LW,7.0,07/01/2009,2021.0,94,...,90,81,76,85,88,14,7,15,11,11
1,Lionel Messi,Argentina,RW,10.0,FC Barcelona,RW,10.0,07/01/2004,2018.0,93,...,88,89,90,74,85,14,6,15,11,8
2,Neymar,Brazil,LW,10.0,FC Barcelona,LW,11.0,07/01/2013,2021.0,92,...,77,79,84,81,83,15,9,15,9,11
3,Luis Suárez,Uruguay,LS,9.0,FC Barcelona,ST,9.0,07/11/2014,2021.0,92,...,86,86,84,85,88,33,27,31,25,37
4,Manuel Neuer,Germany,GK,1.0,FC Bayern,GK,1.0,07/01/2011,2021.0,92,...,16,14,11,47,11,91,89,95,90,89


<br>

#### Converte para Dataframe do Spark

In [39]:
# Convertendo o dataframe Pandas em dataframe Spark
df_1_spark = spark_session.createDataFrame(df_1)

# Schema
df_1_spark.printSchema()

root
 |-- Name: string (nullable = true)
 |-- Nationality: string (nullable = true)
 |-- National_Position: string (nullable = true)
 |-- National_Kit: double (nullable = true)
 |-- Club: string (nullable = true)
 |-- Club_Position: string (nullable = true)
 |-- Club_Kit: double (nullable = true)
 |-- Club_Joining: string (nullable = true)
 |-- Contract_Expiry: double (nullable = true)
 |-- Rating: long (nullable = true)
 |-- Height: string (nullable = true)
 |-- Weight: string (nullable = true)
 |-- Preffered_Foot: string (nullable = true)
 |-- Birth_Date: string (nullable = true)
 |-- Age: long (nullable = true)
 |-- Preffered_Position: string (nullable = true)
 |-- Work_Rate: string (nullable = true)
 |-- Weak_foot: long (nullable = true)
 |-- Skill_Moves: long (nullable = true)
 |-- Ball_Control: long (nullable = true)
 |-- Dribbling: long (nullable = true)
 |-- Marking: long (nullable = true)
 |-- Sliding_Tackle: long (nullable = true)
 |-- Standing_Tackle: long (nullable = true)


In [40]:
## Selecionando e Visualizando Por Colunas Selecionadas

# Select por nome de coluna
df_select = df_1_spark.select('Name',
                              'Nationality',
                              'Club_Joining',
                              'Height',
                              'Weight',
                              'Age',
                              'Speed',
                              'Reactions')

# Visualizando as 5 primeiras linhas
df_select.show(5)

+-----------------+-----------+------------+------+------+---+-----+---------+
|             Name|Nationality|Club_Joining|Height|Weight|Age|Speed|Reactions|
+-----------------+-----------+------------+------+------+---+-----+---------+
|Cristiano Ronaldo|   Portugal|  07/01/2009|185 cm| 80 kg| 32|   92|       96|
|     Lionel Messi|  Argentina|  07/01/2004|170 cm| 72 kg| 29|   87|       95|
|           Neymar|     Brazil|  07/01/2013|174 cm| 68 kg| 25|   90|       88|
|      Luis Suárez|    Uruguay|  07/11/2014|182 cm| 85 kg| 30|   77|       93|
|     Manuel Neuer|    Germany|  07/01/2011|193 cm| 92 kg| 31|   61|       85|
+-----------------+-----------+------------+------+------+---+-----+---------+
only showing top 5 rows



In [41]:
# Filtros
df_select.where((df_1_spark.Age < 25) & (df_1_spark.Speed > 80)).show()

+--------------------+-----------+------------+------+------+---+-----+---------+
|                Name|Nationality|Club_Joining|Height|Weight|Age|Speed|Reactions|
+--------------------+-----------+------------+------+------+---+-----+---------+
|        Paulo Dybala|  Argentina|  07/01/2015|177 cm| 74 kg| 23|   86|       85|
|         David Alaba|    Austria|  02/10/2010|180 cm| 76 kg| 24|   86|       84|
|       Romelu Lukaku|    Belgium|  07/30/2014|190 cm| 94 kg| 23|   89|       77|
|    Yannick Carrasco|    Belgium|  07/10/2015|180 cm| 66 kg| 23|   89|       83|
|      Raphaël Varane|     France|  07/01/2011|191 cm| 78 kg| 23|   83|       79|
|         Eric Bailly|Ivory Coast|  07/01/2016|187 cm| 77 kg| 22|   83|       75|
|     Raheem Sterling|    England|  07/14/2015|170 cm| 69 kg| 22|   92|       79|
|     Anthony Martial|     France|  09/01/2015|184 cm| 76 kg| 21|   91|       81|
|       Mohamed Salah|      Egypt|  01/26/2014|175 cm| 72 kg| 24|   92|       80|
|          Sadio

> Esta etapa aplica uma cláusula WHERE ao DataFrame para selecionar apenas as linhas onde a idade (Age) é menor que 25 e a velocidade (Speed) é maior que 80. Isto é útil para identificar jogadores jovens e rápidos.

<br><br>

In [42]:
# Agregação
df_select.agg({'Speed':'avg'}).show()

+-----------------+
|       avg(Speed)|
+-----------------+
|65.48385262679099|
+-----------------+



> Nesta etapa, usamos a função de agregação agg para calcular a média da coluna Speed no DataFrame. Isso nos dá uma visão geral da velocidade média dos jogadores no conjunto de dados.

<br><br>

In [43]:
# Group By, Agregação e Ordenação
df_select.groupBy('Weight').agg({'Speed':'avg'}).orderBy('avg(Speed)', ascending = False).show()

+------+-----------------+
|Weight|       avg(Speed)|
+------+-----------------+
| 49 kg|             85.0|
| 50 kg|             80.5|
| 59 kg|79.34782608695652|
| 56 kg|             77.1|
| 61 kg|75.70833333333333|
| 58 kg|75.47826086956522|
| 62 kg| 75.1592356687898|
| 60 kg|73.97435897435898|
| 57 kg|             73.2|
| 63 kg|73.09895833333333|
| 66 kg|           72.875|
| 65 kg|72.42163355408388|
| 64 kg|71.76530612244898|
| 68 kg|71.35082458770614|
| 67 kg|71.24511930585683|
| 55 kg|           70.625|
| 71 kg|70.52202283849918|
| 69 kg|70.31856540084388|
| 53 kg|             70.0|
| 54 kg|69.66666666666667|
+------+-----------------+
only showing top 20 rows



> Isso nos permite ver como a velocidade média varia entre jogadores de diferentes pesos e identificar os grupos de peso com a maior velocidade média.

<br><br>

<br> <br>

# <span style="color: green; font-size: 38px; font-weight: bold;">User-Defined Functions (UDF)</span>

<br>

# O que é uma UDF?

- Uma UDF (User-Defined Function) é uma função definida pelo usuário que pode ser aplicada a colunas de um DataFrame no Apache Spark. Ela permite que você aplique lógica personalizada para transformar dados, preenchendo a lacuna quando as funções embutidas do Spark não são suficientes para realizar uma tarefa específica.

## Para que usaremos a UDF?

- No seu exemplo, UDFs serão usadas para criar colunas adicionais no DataFrame com base em transformações personalizadas:

#### Criar Faixa Etária (AgeGroup):

- Uma UDF será criada para categorizar a idade dos jogadores em faixas etárias (10-20, 20-30, 30-40, 40+).

#### Criar Faixa de Velocidade (SpeedGroup):

- Outra UDF será criada para categorizar a velocidade dos jogadores em Baixa Velocidade, Velocidade Média e Alta Velocidade.

<br><br>

#### Função para Criar Faixa Etária
- Primeiro, uma função Python é definida para categorizar a idade:

In [44]:
## Criando a Função

# Cria a Função
def cria_faixa_etaria(age):
    if age < 20:
        return '10–20'
    elif age < 30:
        return '20–30'
    elif age < 40:
        return '30–40'
    else:
        return '40+'
    

## Registra a Função como uma UDF no Spark

# Cria a UDF
udf_agegroup = udf(lambda z: cria_faixa_etaria(z))
udf_agegroup

<function __main__.<lambda>(z)>

In [45]:
# Visualiza Dados Antes de Aplicar a UDF
df_select.show(2)

+-----------------+-----------+------------+------+------+---+-----+---------+
|             Name|Nationality|Club_Joining|Height|Weight|Age|Speed|Reactions|
+-----------------+-----------+------------+------+------+---+-----+---------+
|Cristiano Ronaldo|   Portugal|  07/01/2009|185 cm| 80 kg| 32|   92|       96|
|     Lionel Messi|  Argentina|  07/01/2004|170 cm| 72 kg| 29|   87|       95|
+-----------------+-----------+------------+------+------+---+-----+---------+
only showing top 2 rows



In [48]:
## Aplica a UDF e Visualiza o Resultado

# Aplica a UDF
userDFAgeGroup = df_select.withColumn('AgeGroup', udf_agegroup('age'))

# Visualiza Dados Após Aplicar a UDF
userDFAgeGroup.show(5)

+-----------------+-----------+------------+------+------+---+-----+---------+--------+
|             Name|Nationality|Club_Joining|Height|Weight|Age|Speed|Reactions|AgeGroup|
+-----------------+-----------+------------+------+------+---+-----+---------+--------+
|Cristiano Ronaldo|   Portugal|  07/01/2009|185 cm| 80 kg| 32|   92|       96|   30–40|
|     Lionel Messi|  Argentina|  07/01/2004|170 cm| 72 kg| 29|   87|       95|   20–30|
|           Neymar|     Brazil|  07/01/2013|174 cm| 68 kg| 25|   90|       88|   20–30|
|      Luis Suárez|    Uruguay|  07/11/2014|182 cm| 85 kg| 30|   77|       93|   30–40|
|     Manuel Neuer|    Germany|  07/01/2011|193 cm| 92 kg| 31|   61|       85|   30–40|
+-----------------+-----------+------------+------+------+---+-----+---------+--------+
only showing top 5 rows



<br>

#### Função para Criar Faixa Etária
- De forma semelhante, uma função Python é definida para categorizar a velocidade:

In [49]:
## Criando a Função

# Cria a Função
def cria_faixa_veloc(speed):
    if speed < 50:
        return 'Baixa Velocidade'
    elif speed < 80:
        return 'Velocidade Média'
    else:
        return 'Alta Velocidade'

    

## Registra a Função como uma UDF no Spark

# Cria a UDF
udf_speedgroup = udf(lambda z: cria_faixa_veloc(z))
udf_agegroup

<function __main__.<lambda>(z)>

In [50]:
## Aplica a UDF e Visualiza o Resultado

# Aplica a UDF
userDFSpeedGroup = userDFAgeGroup.withColumn('SpeedGroup', udf_speedgroup('speed'))

# Visualiza Dados Após Aplicar a UDF
userDFSpeedGroup.show(5)

+-----------------+-----------+------------+------+------+---+-----+---------+--------+----------------+
|             Name|Nationality|Club_Joining|Height|Weight|Age|Speed|Reactions|AgeGroup|      SpeedGroup|
+-----------------+-----------+------------+------+------+---+-----+---------+--------+----------------+
|Cristiano Ronaldo|   Portugal|  07/01/2009|185 cm| 80 kg| 32|   92|       96|   30–40| Alta Velocidade|
|     Lionel Messi|  Argentina|  07/01/2004|170 cm| 72 kg| 29|   87|       95|   20–30| Alta Velocidade|
|           Neymar|     Brazil|  07/01/2013|174 cm| 68 kg| 25|   90|       88|   20–30| Alta Velocidade|
|      Luis Suárez|    Uruguay|  07/11/2014|182 cm| 85 kg| 30|   77|       93|   30–40|Velocidade Média|
|     Manuel Neuer|    Germany|  07/01/2011|193 cm| 92 kg| 31|   61|       85|   30–40|Velocidade Média|
+-----------------+-----------+------------+------+------+---+-----+---------+--------+----------------+
only showing top 5 rows



<br>

#### Agrupamento e Agregação
- Com as novas colunas AgeGroup e SpeedGroup criadas, você pode realizar operações de agrupamento e agregação:

In [51]:
# Média de velocidade por faixa etária
userDFAgeGroup.groupBy('AgeGroup').agg({'Speed':'avg'}).orderBy('avg(Speed)', ascending=False).show()

+--------+------------------+
|AgeGroup|        avg(Speed)|
+--------+------------------+
|   20–30| 67.50301057770545|
|   10–20|63.696576151121604|
|   30–40| 59.62748390708089|
|     40+|37.645161290322584|
+--------+------------------+



In [52]:
# Média de velocidade por grupo de velocidade
userDFSpeedGroup.groupBy('SpeedGroup').agg({'Speed':'avg'}).orderBy('avg(Speed)', ascending=False).show()

+----------------+------------------+
|      SpeedGroup|        avg(Speed)|
+----------------+------------------+
| Alta Velocidade| 84.59178082191781|
|Velocidade Média| 67.06720183486239|
|Baixa Velocidade|38.496548748921484|
+----------------+------------------+



### Conclusão
- As UDFs foram usadas para adicionar lógica personalizada ao DataFrame do Spark. Elas permitiram criar novas colunas categorizadas (**AgeGroup** e **SpeedGroup**) com base nas transformações personalizadas das colunas **Age** e **Speed**. Isso demonstrou a flexibilidade e o poder das UDFs para realizar operações específicas que não são diretamente suportadas pelas funções embutidas do Spark.

<br><br>
# Fim