In [76]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [77]:
spark = (
    SparkSession.builder
    .appName("Curso de PySpark")
    .config("spark.sql.repl.eagerEval.enabled", True)
    .getOrCreate()
)

In [78]:
spark

In [79]:
path = "C:/Users/marlos.barros/Cursos/pyspark_na_pratica/DATASETS/IMC.parquet"

In [80]:
df = spark.read.format("parquet").load(path)

In [81]:
df

nome,altura,peso
Pietra Fernandes,176,97.88
Ana Júlia da Rosa,163,80.56
Fernando Martins,150,85.55
Isis Silveira,173,70.1
Cecília Porto,190,93.42
Sra. Bruna Almeida,198,73.07
Maria Julia Silva,170,71.36
Pedro Henrique da...,188,105.57
Davi Lucas Campos,180,98.49
Juan Gonçalves,175,71.87


### Arredondamento com **round()**
- Função: **F.round()** arredonda o valor da coluna **peso** para o número de casas decimais especificado (neste caso, 1 casa decimal).
- **Exemplo:** Se o valor da coluna **peso** for, por exemplo, 72.456, o resultado será 72.5.

In [82]:
(
    df
    .withColumn("round", F.round(F.col("peso"), 1))
)

nome,altura,peso,round
Pietra Fernandes,176,97.88,97.9
Ana Júlia da Rosa,163,80.56,80.6
Fernando Martins,150,85.55,85.6
Isis Silveira,173,70.1,70.1
Cecília Porto,190,93.42,93.4
Sra. Bruna Almeida,198,73.07,73.1
Maria Julia Silva,170,71.36,71.4
Pedro Henrique da...,188,105.57,105.6
Davi Lucas Campos,180,98.49,98.5
Juan Gonçalves,175,71.87,71.9


### Arredondamento para o valor superior com **ceil()**
- Função: **F.ceil()** arredonda o valor da coluna **peso** para o próximo número inteiro superior.
- **Exemplo:** Se o valor da coluna **peso** for, por exemplo, **72.456**, o resultado será **73**.

In [83]:
(
    df
    .withColumn("ceil", F.ceil(F.col("peso")))
)

nome,altura,peso,ceil
Pietra Fernandes,176,97.88,98
Ana Júlia da Rosa,163,80.56,81
Fernando Martins,150,85.55,86
Isis Silveira,173,70.1,71
Cecília Porto,190,93.42,94
Sra. Bruna Almeida,198,73.07,74
Maria Julia Silva,170,71.36,72
Pedro Henrique da...,188,105.57,106
Davi Lucas Campos,180,98.49,99
Juan Gonçalves,175,71.87,72


### Arredondamento para o valor inferior com **floor()**
- Função: **F.floor()** arredonda o valor da coluna **peso** para o número inteiro inferior mais próximo.
- **Exemplo:** Se o valor for **72.45**6, o resultado será **72**.

In [84]:
(
    df
    .withColumn("floor", F.floor(F.col("peso")))
)

nome,altura,peso,floor
Pietra Fernandes,176,97.88,97
Ana Júlia da Rosa,163,80.56,80
Fernando Martins,150,85.55,85
Isis Silveira,173,70.1,70
Cecília Porto,190,93.42,93
Sra. Bruna Almeida,198,73.07,73
Maria Julia Silva,170,71.36,71
Pedro Henrique da...,188,105.57,105
Davi Lucas Campos,180,98.49,98
Juan Gonçalves,175,71.87,71


### Criação de valor negativo e módulo "valor absoluto" (abs)
- Função: **F.abs()** retorna o valor absoluto da coluna **altura**, ou seja, transforma números negativos em positivos.
- Criei uma coluna chamada **altura_negativa** como exemplo para demonstra.

In [85]:
(
    df
    # criei a coluna altura_negaviva de exemplo
    .withColumn("altura_negaviva", -F.col("altura"))
    .withColumn("abs", F.abs(F.col("altura")))
)

nome,altura,peso,altura_negaviva,abs
Pietra Fernandes,176,97.88,-176,176
Ana Júlia da Rosa,163,80.56,-163,163
Fernando Martins,150,85.55,-150,150
Isis Silveira,173,70.1,-173,173
Cecília Porto,190,93.42,-190,190
Sra. Bruna Almeida,198,73.07,-198,198
Maria Julia Silva,170,71.36,-170,170
Pedro Henrique da...,188,105.57,-188,188
Davi Lucas Campos,180,98.49,-180,180
Juan Gonçalves,175,71.87,-175,175


### Potência e Raiz Quadrada
- Função: **F.pow(coluna, expoente)** eleva o valor da coluna **peso** ao quadrado.
- **F.sqrt()** retorna a raiz quadrada da coluna **pow_peso**.

In [86]:
(
    df
    .withColumn("pow_peso", F.pow(F.col("peso"), 2))
    .withColumn("sqrt_pow", F.sqrt(F.col("pow_peso")))
)

nome,altura,peso,pow_peso,sqrt_pow
Pietra Fernandes,176,97.88,9580.4944,97.88
Ana Júlia da Rosa,163,80.56,6489.913600000001,80.56
Fernando Martins,150,85.55,7318.8025,85.55
Isis Silveira,173,70.1,4914.009999999999,70.1
Cecília Porto,190,93.42,8727.296400000001,93.42
Sra. Bruna Almeida,198,73.07,5339.224899999999,73.07
Maria Julia Silva,170,71.36,5092.2496,71.36
Pedro Henrique da...,188,105.57,11145.0249,105.57
Davi Lucas Campos,180,98.49,9700.280099999998,98.49
Juan Gonçalves,175,71.87,5165.2969,71.87


### Cálculo do IMC (Índice de Massa Corporal)
- Altura convertida para metros: **F.col("altura") / 100**
- Altura ao quadrado: **F.pow(F.col("altura") / 100, 2)**
- Divisão do peso pela altura ao quadrado: **F.col("peso") / F.pow(F.col("altura") / 100, 2)**
- Arredondamento do resultado: **F.round(..., 2)**

In [87]:
(
    df
    .withColumn("imc", F.round(F.col("peso") / F.pow(F.col("altura") / 100, 2), 2))
)

nome,altura,peso,imc
Pietra Fernandes,176,97.88,31.6
Ana Júlia da Rosa,163,80.56,30.32
Fernando Martins,150,85.55,38.02
Isis Silveira,173,70.1,23.42
Cecília Porto,190,93.42,25.88
Sra. Bruna Almeida,198,73.07,18.64
Maria Julia Silva,170,71.36,24.69
Pedro Henrique da...,188,105.57,29.87
Davi Lucas Campos,180,98.49,30.4
Juan Gonçalves,175,71.87,23.47
