In [0]:
import pyspark.sql.functions as F
from pyspark.sql.window import Window

In [0]:
dados = [
          (1, 'Bob', 45, 'M'),
          (2, 'Gloria', 43, 'F'),
          (4, 'Albert', 28, 'M'),
          (5, 'Laura', 33, 'F'),
          (8, 'Simone', 18, 'T'),
          (12, 'Marta', 45, 'F'),
          (45, 'Jairo', 82, 'M'),
          (13, 'Teste', 38, 'T')
]
 
schema = ['id', 'nome', 'idade', 'genero']
 
df = spark.createDataFrame(data=dados, schema=schema)
 
df.printSchema()
df.display()

root
 |-- id: long (nullable = true)
 |-- nome: string (nullable = true)
 |-- idade: long (nullable = true)
 |-- genero: string (nullable = true)



id,nome,idade,genero
1,Bob,45,M
2,Gloria,43,F
4,Albert,28,M
5,Laura,33,F
8,Simone,18,T
12,Marta,45,F
45,Jairo,82,M
13,Teste,38,T


In [0]:
df.select(F.col('nome'), F.col('idade')).where(F.col('idade') > 30).display()

id,nome,idade,genero
1,Bob,45,M
2,Gloria,43,F
5,Laura,33,F
12,Marta,45,F
45,Jairo,82,M
13,Teste,38,T


Outras formas de verificação

df.where((F.col('idade') > 30)).show()

df.filter(F.col('idade') > 30).display()

In [0]:
df.select(F.col('nome'), F.col('genero')).where(F.col('genero') == 'F').display()

id,nome,idade,genero
2,Gloria,43,F
5,Laura,33,F
12,Marta,45,F


Outras formas de verificação

df.where(F.col('genero') == 'F').display()

df.filter(F.col('genero') == 'F').display()

In [0]:
df.groupBy(F.col('genero')).count().display()

genero,count
M,3
F,3
T,2


In [0]:
df.select(F.mean(F.col('idade')).alias('Media_idade')).show()

+-----------+
|Media_idade|
+-----------+
|       41.5|
+-----------+



Outras formas de calcular a média

df.groupBy().mean('idade').display()

df.agg({'Idade': 'avg'}).show()

In [0]:
df.select(F.col('nome'), F.col('idade')).orderBy('nome').display()

nome,idade
Albert,28
Bob,45
Gloria,43
Jairo,82
Laura,33
Marta,45
Simone,18
Teste,38


Outra forma de fazer a seleção

df.select('nome', 'idade').orderBy('nome').show()

In [0]:
w1 = Window.orderBy('idade')
df.withColumn('rank', F.row_number().over(w1)).show()

+---+------+-----+------+----+
| id|  nome|idade|genero|rank|
+---+------+-----+------+----+
|  8|Simone|   18|     T|   1|
|  4|Albert|   28|     M|   2|
|  5| Laura|   33|     F|   3|
| 13| Teste|   38|     T|   4|
|  2|Gloria|   43|     F|   5|
|  1|   Bob|   45|     M|   6|
| 12| Marta|   45|     F|   7|
| 45| Jairo|   82|     M|   8|
+---+------+-----+------+----+



Outra forma de mostrar o ranking

df.orderBy(F.desc (F.col('idade')), F.col('nome')).show()