In [16]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

spark = (
    SparkSession.builder.appName('Curso PySpark')
    .config('spark.sql.repl.eagerEval.enabled',True)
    .getOrCreate()
)

spark

In [20]:
df = spark.read.parquet('C:/Users/Kimura/Desktop/Curso PySpark/DATASETS/DATASETS/IMC.parquet')
df

nome,altura,peso
Pietra Fernandes,176,97.88
Ana Júlia da Rosa,163,80.56
Fernando Martins,150,85.55
Isis Silveira,173,70.1
Cecília Porto,190,93.42
Sra. Bruna Almeida,198,73.07
Maria Julia Silva,170,71.36
Pedro Henrique da...,188,105.57
Davi Lucas Campos,180,98.49
Juan Gonçalves,175,71.87


In [40]:
# Round = Arredondamento | 1 parâmetro -> coluna | 2 parâmetro -> quantidade de casas decimais
# Ceil = Arredonda para um número inteiro para cima. Ex.: 51.5 --> 52
# Floor = Arredonda para um número inteiro para baixo Ex.: 51.5 --> 51
# ABS = Transforma qualquer valor (positiva e negativo) para um valor absoluto
# pow = eleva o valor da coluna a n potência
# sqrt = raiz quadrada

(
    df
    .withColumn('Round', F.round(df.peso,1))
    .withColumn('Ceil', F.ceil(df.peso))
    .withColumn('Floor', F.floor(df.peso))
    .withColumn('Valor_Abs', F.abs(df.altura))
    .withColumn('Potencia', F.pow(df.peso,2))
    .withColumn('Raiz', F.sqrt(F.col('Potencia')))
)

nome,altura,peso,Round,Ceil,Floor,Valor_Abs,Potencia,Raiz
Pietra Fernandes,176,97.88,97.9,98,97,176,9580.4944,97.88
Ana Júlia da Rosa,163,80.56,80.6,81,80,163,6489.913600000001,80.56
Fernando Martins,150,85.55,85.6,86,85,150,7318.8025,85.55
Isis Silveira,173,70.1,70.1,71,70,173,4914.009999999999,70.1
Cecília Porto,190,93.42,93.4,94,93,190,8727.296400000001,93.42
Sra. Bruna Almeida,198,73.07,73.1,74,73,198,5339.224899999999,73.07
Maria Julia Silva,170,71.36,71.4,72,71,170,5092.2496,71.36
Pedro Henrique da...,188,105.57,105.6,106,105,188,11145.0249,105.57
Davi Lucas Campos,180,98.49,98.5,99,98,180,9700.280099999998,98.49
Juan Gonçalves,175,71.87,71.9,72,71,175,5165.2969,71.87


In [48]:
# Cálculo de IMC:

(
    df
    .withColumn('imc', F.round(F.pow(df.peso,2) / df.altura,1))
)

nome,altura,peso,imc
Pietra Fernandes,176,97.88,54.4
Ana Júlia da Rosa,163,80.56,39.8
Fernando Martins,150,85.55,48.8
Isis Silveira,173,70.1,28.4
Cecília Porto,190,93.42,45.9
Sra. Bruna Almeida,198,73.07,27.0
Maria Julia Silva,170,71.36,30.0
Pedro Henrique da...,188,105.57,59.3
Davi Lucas Campos,180,98.49,53.9
Juan Gonçalves,175,71.87,29.5


## Resumo

Desenvolvemos algumas operações numéricas utilizando funções do PySpark.

#### Round
Arrendonda o número considerando N casas decimais:
- `.withColumn('Round', F.round(df.peso,1))`: Parâmetro 1 = seleção coluna | Parâmetro 2 = quantidade de casas decimais;

#### Ceil
Arredonda o valor para cima:
- `.withColumn('Ceil', F.ceil(df.peso))`: basta selecionar a coluna;

#### Floor
Arredonda o valor para baixo:
- `.withColumn('Floor', F.floor(df.peso))`: basta adicionar a coluna;

#### ABS
Transforma o valor (positivo ou negativo) em um valor absoluto:
- `.withColumn('Valor_Abs', F.abs(df.altura))`: basta adicionar a coluna;

#### POW
Método para calcular a potência:
- `.withColumn('Potencia', F.pow(df.peso,2))`: adiona a coluna e o valor da potência;

#### SQRT
Método que calcula a raiz quadrada:
- `.withColumn('Raiz', F.sqrt(F.col('Potencia')))`: basta adicionar o valor;

