<a href="https://colab.research.google.com/github/Daniel022de/DataEnginner_SoulCode/blob/main/Study%20PySpark/Study_PySpark_WindowFunctions.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📗 **SPARK - WINDOW FUNCTIONS**

Esse Notebook é referente as instruções feitas pelo professor **Bismark William** no bootcamp **engenharia de dados** da **SoulCode** visando a consolidação dos conhecimentos sobre Window Functions.







! **Você pode encontrar esse notebook no meu repositório** [GitHub](https://github.com/Daniel022de/Bootcamp_SoulCode_EngenhariaDados)

! **Você pode entrar em contato comigo através do meu email** ddololiveira.pessoal@gmail.com **e** [Linkedin](https://www.linkedin.com/in/daniel-oliveira-503b0323b/).

! **Toda dúvida,recomendações e feedbacks serão bem-vindas.**



# ▶ 1 Instalação

In [None]:
!pip install pyspark

#▶ 2 Importação bibliotecas

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.window import Window
import pyspark.sql.functions as F

# ▶ 3 Configurando variável ambiente

In [None]:
spark = (
    SparkSession.builder
                .master('local')
                .appName('window')
                .config('spark.ui.port', '4050')
                .getOrCreate()
)

#▶ 4 Criando DataFrame Spark

In [None]:
#esquemas

schema = ['nome', 'departamento', 'estado', 'salario']

In [None]:
#dados

dados = [('Anderson', 'vendas', 'SP', 9000),
         ('Kennedy', 'vendas', 'RJ', 4500),
         ('Luciana', 'vendas', 'SP', 4500),
         ('Marta', 'vendas', 'SP', 4500),
         ('João', 'vendas', 'SP', 4500),
         ('Diego', 'vendas', 'SP', 4500),
         ('Marilia', 'vendas', 'SP', 1200),
         ('Gustavo', 'financeiro', 'AM', 8000),
         ('Pedro', 'financeiro', 'AM', 2750),
         ('Juliana', 'financeiro', 'MG', 3000),
         ('Leticia', 'financeiro', 'RJ', 7500),
('Oswaldo', 'marketing', 'RJ', 2450),
         ('Denis', 'marketing', 'MG', 1300)
         
        ]

In [None]:
df = spark.createDataFrame(dados,schema)
df.show()

+--------+------------+------+-------+
|    nome|departamento|estado|salario|
+--------+------------+------+-------+
|Anderson|      vendas|    SP|   9000|
| Kennedy|      vendas|    RJ|   4500|
| Luciana|      vendas|    SP|   4500|
|   Marta|      vendas|    SP|   4500|
|    João|      vendas|    SP|   4500|
|   Diego|      vendas|    SP|   4500|
| Marilia|      vendas|    SP|   1200|
| Gustavo|  financeiro|    AM|   8000|
|   Pedro|  financeiro|    AM|   2750|
| Juliana|  financeiro|    MG|   3000|
| Leticia|  financeiro|    RJ|   7500|
| Oswaldo|   marketing|    RJ|   2450|
|   Denis|   marketing|    MG|   1300|
+--------+------------+------+-------+



# ▶ 5 Window Functions

In [None]:
#Criando partição

w0 = Window.partitionBy(F.col('estado')).orderBy(F.col('salario').desc())

##  ◼ 5.1 row_number

**Usa-se pra saber quantas linhas há em uma determinada partição.**

In [None]:
df.withColumn('numero_linha',F.row_number().over(w0)).show()

+--------+------------+------+-------+------------+
|    nome|departamento|estado|salario|numero_linha|
+--------+------------+------+-------+------------+
| Gustavo|  financeiro|    AM|   8000|           1|
|   Pedro|  financeiro|    AM|   2750|           2|
| Juliana|  financeiro|    MG|   3000|           1|
|   Denis|   marketing|    MG|   1300|           2|
| Leticia|  financeiro|    RJ|   7500|           1|
| Kennedy|      vendas|    RJ|   4500|           2|
| Oswaldo|   marketing|    RJ|   2450|           3|
|Anderson|      vendas|    SP|   9000|           1|
| Luciana|      vendas|    SP|   4500|           2|
|   Marta|      vendas|    SP|   4500|           3|
|    João|      vendas|    SP|   4500|           4|
|   Diego|      vendas|    SP|   4500|           5|
| Marilia|      vendas|    SP|   1200|           6|
+--------+------------+------+-------+------------+



## ◼ 5.2 rank

**Ranquear partição.**

In [None]:
df.withColumn('rank',F.rank().over(w0)).show()

+--------+------------+------+-------+----+
|    nome|departamento|estado|salario|rank|
+--------+------------+------+-------+----+
| Gustavo|  financeiro|    AM|   8000|   1|
|   Pedro|  financeiro|    AM|   2750|   2|
| Juliana|  financeiro|    MG|   3000|   1|
|   Denis|   marketing|    MG|   1300|   2|
| Leticia|  financeiro|    RJ|   7500|   1|
| Kennedy|      vendas|    RJ|   4500|   2|
| Oswaldo|   marketing|    RJ|   2450|   3|
|Anderson|      vendas|    SP|   9000|   1|
| Luciana|      vendas|    SP|   4500|   2|
|   Marta|      vendas|    SP|   4500|   2|
|    João|      vendas|    SP|   4500|   2|
|   Diego|      vendas|    SP|   4500|   2|
| Marilia|      vendas|    SP|   1200|   6|
+--------+------------+------+-------+----+



## ◼ 5.3 dense_rank

**Ranquear partição. Desconsiderando para uma determinada classificação os empates anteriores**

In [None]:
df.withColumn('rank',F.dense_rank().over(w0)).show()

+--------+------------+------+-------+----+
|    nome|departamento|estado|salario|rank|
+--------+------------+------+-------+----+
| Gustavo|  financeiro|    AM|   8000|   1|
|   Pedro|  financeiro|    AM|   2750|   2|
| Juliana|  financeiro|    MG|   3000|   1|
|   Denis|   marketing|    MG|   1300|   2|
| Leticia|  financeiro|    RJ|   7500|   1|
| Kennedy|      vendas|    RJ|   4500|   2|
| Oswaldo|   marketing|    RJ|   2450|   3|
|Anderson|      vendas|    SP|   9000|   1|
| Luciana|      vendas|    SP|   4500|   2|
|   Marta|      vendas|    SP|   4500|   2|
|    João|      vendas|    SP|   4500|   2|
|   Diego|      vendas|    SP|   4500|   2|
| Marilia|      vendas|    SP|   1200|   3|
+--------+------------+------+-------+----+



#▶ 6 lag

**Pegar o X valor N acima.**

In [None]:
df.withColumn('lag',F.lag('nome',1).over(w0)).show()

+--------+------------+------+-------+--------+
|    nome|departamento|estado|salario|     lag|
+--------+------------+------+-------+--------+
| Gustavo|  financeiro|    AM|   8000|    null|
|   Pedro|  financeiro|    AM|   2750| Gustavo|
| Juliana|  financeiro|    MG|   3000|    null|
|   Denis|   marketing|    MG|   1300| Juliana|
| Leticia|  financeiro|    RJ|   7500|    null|
| Kennedy|      vendas|    RJ|   4500| Leticia|
| Oswaldo|   marketing|    RJ|   2450| Kennedy|
|Anderson|      vendas|    SP|   9000|    null|
| Luciana|      vendas|    SP|   4500|Anderson|
|   Marta|      vendas|    SP|   4500| Luciana|
|    João|      vendas|    SP|   4500|   Marta|
|   Diego|      vendas|    SP|   4500|    João|
| Marilia|      vendas|    SP|   1200|   Diego|
+--------+------------+------+-------+--------+



# ▶ 7 lead

**Pegar o X valor N abaixo.**

In [None]:
df.withColumn('lead',F.lead('nome',1).over(w0)).show()

+--------+------------+------+-------+-------+
|    nome|departamento|estado|salario|   lead|
+--------+------------+------+-------+-------+
| Gustavo|  financeiro|    AM|   8000|  Pedro|
|   Pedro|  financeiro|    AM|   2750|   null|
| Juliana|  financeiro|    MG|   3000|  Denis|
|   Denis|   marketing|    MG|   1300|   null|
| Leticia|  financeiro|    RJ|   7500|Kennedy|
| Kennedy|      vendas|    RJ|   4500|Oswaldo|
| Oswaldo|   marketing|    RJ|   2450|   null|
|Anderson|      vendas|    SP|   9000|Luciana|
| Luciana|      vendas|    SP|   4500|  Marta|
|   Marta|      vendas|    SP|   4500|   João|
|    João|      vendas|    SP|   4500|  Diego|
|   Diego|      vendas|    SP|   4500|Marilia|
| Marilia|      vendas|    SP|   1200|   null|
+--------+------------+------+-------+-------+

