### Manipulação de Dados com DataFrames no PySpark - Operadores de Comparação 

| Operador      | Descrição                                                                    | Exemplo PySpark (com `F.col`)                                                               | Resultado                                                                                         |
|---------------|------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------|
| `==` ou `===` | Compara se os valores são **iguais**                                         | `df.filter(F.col("col1") == F.col("col2"))` ou `df.filter(F.col("col1") === F.col("col2"))` | Retorna as linhas onde os valores em `col1` e `col2` são iguais                                   |
| `!=` ou `<>`  | Compara se os valores são **diferentes**                                     | `df.filter(F.col("col1") != F.col("col2"))` ou `df.filter(F.col("col1") <> F.col("col2"))`  | Retorna as linhas onde os valores em `col1` e `col2` são diferentes                               |
| `>`           | Compara se o valor da coluna da esquerda é **maior** que o da direita        | `df.filter(F.col("col1") > F.col("col2"))`                                                  | Retorna as linhas onde o valor em `col1` é maior que o valor em `col2`                            |
| `<`           | Compara se o valor da coluna da esquerda é **menor** que o da direita        | `df.filter(F.col("col1") < F.col("col2"))`                                                  | Retorna as linhas onde o valor em `col1` é menor que o valor em `col2`                            |
| `>=`          | Compara se o valor da coluna da esquerda é **maior ou igual** ao da direita  | `df.filter(F.col("col1") >= F.col("col2"))`                                                 | Retorna as linhas onde o valor em `col1` é maior ou igual ao valor em `col2`                      |
| `<=`          | Compara se o valor da coluna da esquerda é **menor ou igual** ao da direita  | `df.filter(F.col("col1") <= F.col("col2"))`                                                 | Retorna as linhas onde o valor em `col1` é menor ou igual ao valor em `col2`                      |
| `isNull`      | Verifica se o valor da coluna é **nulo**                                     | `df.filter(F.col("col1").isNull())`                                                         | Retorna as linhas onde o valor em `col1` é `null`                                                 |
| `isNotNull`   | Verifica se o valor da coluna **não é nulo**                                 | `df.filter(F.col("col1").isNotNull())`                                                      | Retorna as linhas onde o valor em `col1` não é `null`                                             |
| `between`     | Verifica se o valor da coluna está **entre** dois valores (inclusive)        | `df.filter(F.col("col1").between(10, 20))`                                                  | Retorna as linhas onde o valor em `col1` está entre 10 e 20, inclusive                            |
| `like`        | Verifica se o valor da coluna **corresponde ao padrão** especificado         | `df.filter(F.col("col1").like("%valor%"))`                                                  | Retorna as linhas onde o valor em `col1` corresponde ao padrão `%valor%` (com caracteres curinga) | 
| `rlike`       | Verifica se o valor da coluna corresponde a uma **expressão regular**        | `df.filter(F.col("col1").rlike("^val.*"))`                                                  | Retorna as linhas onde o valor em `col1` corresponde à expressão regular `^val.*`                 |
| `startswith`  | Verifica se o valor da coluna **começa com** um determinado valor            | `df.filter(F.col("col1").startswith("val"))`                                                | Retorna as linhas onde o valor em `col1` começa com `"val"`                                       |
| `endswith`    | Verifica se o valor da coluna **termina com** um determinado valor           | `df.filter(F.col("col1").endswith("or"))`                                                   | Retorna as linhas onde o valor em `col1` termina com `"or"`                                       |
| `in`          | Verifica se o valor da coluna está **em uma lista** de valores               | `df.filter(F.col("col1").isin("valor1", "valor2", "valor3"))`                               | Retorna as linhas onde o valor em `col1` está em `("valor1", "valor2", "valor3")`                 |
| `contains`    | Verifica se o valor da coluna **contém** um determinado valor                | `df.filter(F.col("col1").contains("valor"))`                                                | Retorna as linhas onde o valor em `col1` contém o valor `"valor"`                                 |
| `&` (AND)     | Compara se **ambas** as condições são verdadeiras                            | `df.filter((F.col("age") > 30) & (F.col("salary") > 5000))`                                 | Retorna as linhas onde `age > 30` **e** `salary > 5000`                                           |
| `\|` (OR)     | Compara se **uma ou ambas** as condições são verdadeiras                     | `df.filter((F.col("age") > 30) \| (F.col("salary") > 5000))`                                | Retorna as linhas onde `age > 30` **ou** `salary > 5000`                                          |
| `~` (NOT)     | Nega a condição fornecida                                                    | `df.filter(~(F.col("age") > 30))`                                                           | Retorna as linhas onde `age` **não é** maior que 30                                               |

#### Preparando os dados 


In [0]:
spark

In [0]:
from pyspark.sql import functions as F

# Massa de dados
data = [("Alice", 30, 5000), ("Bob", 45, 6000), ("Charlie", 25, 4000), ("David", 35, 4500), ("Eve", 40, 5500)]

# Criar DataFrame
df = spark.createDataFrame(data, ["name", "age", "salary"])

df.createOrReplaceTempView('person')

display(df)


#### Filtro: maior que


In [0]:
# Exemplo de comparação: idade maior que 30
display(df.filter(F.col("age") > 30))


**Equivalente em SQL**


In [0]:
%sql
SELECT *
  FROM person
 WHERE age > 30


#### Filtro: começa com


In [0]:
# Exemplo de comparação: nome começa com 'A'
display(df.filter(F.col("name").startswith("A")))


**Equivalente em SQL**


In [0]:
%sql
SELECT *
  FROM person
 WHERE name LIKE 'A%'


#### Filtro: contém


In [0]:
# Exemplo de comparação: nome contém 'e'
display(df.filter(F.col("name").contains("e")))


**Equivalente em SQL**


In [0]:
%sql
SELECT *
  FROM person
 WHERE name LIKE '%e%'


#### Filtro: between


In [0]:
# Exemplo de comparação: idade está entre 25 e 40
display(df.filter(F.col("age").between(25, 40)))


**Equivalente em SQL**


In [0]:
%sql
SELECT *
  FROM person
 WHERE age BETWEEN 25 AND 40


#### Filtro: coluna NÃO NULA


In [0]:
# Exemplo de comparação: idade não nula
display(df.filter(F.col("age").isNotNull()))


**Equivalente em SQL**


In [0]:
%sql
SELECT *
  FROM person
 WHERE age IS NOT NULL


#### Filtro: operador lógico AND (E)


In [0]:
# Exemplo de AND: idade > 30 e salário > 5000
display(df.filter((F.col("age") > 30) & (F.col("salary") > 5000)))


**Equivalente em SQL**


In [0]:
%sql
SELECT *
  FROM person
 WHERE age > 30 AND salary > 5000


#### Filtro: operador lógico OR (OU)


In [0]:
# Exemplo de OR: idade > 30 ou salário > 5000
display(df.filter((F.col("age") > 30) | (F.col("salary") > 5000)))


**Equivalente em SQL**


In [0]:
%sql
SELECT *
  FROM person
 WHERE age > 30 OR salary > 5000


#### Filtro: operador lógico NOT (NÃO)


In [0]:
# Exemplo de NOT: idade não maior que 30
display(df.filter(~(F.col("age") > 30)))


**Equivalente em SQL**


In [0]:
%sql
SELECT *
  FROM person
 WHERE NOT (age > 30)

`[INFO]: FIM DO NOTEBOOK`