In [1]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F 

In [2]:
spark = (
    SparkSession.builder.appName('Aula 6 - FUNÇÕES NUMÉRICAS: Manipulando Números com Funções')
    .config('spark.sql.repl.eagerEval.enabled', True)
    .getOrCreate())

In [3]:
spark

In [7]:
local_file = r'C:\Users\mluiz\Documents\05_Python\PySpark\datasets\IMC.parquet'

In [8]:
df = spark.read.parquet(local_file)

In [9]:
df.show(3)

+-----------------+------+-----+
|             nome|altura| peso|
+-----------------+------+-----+
| Pietra Fernandes|   176|97.88|
|Ana Júlia da Rosa|   163|80.56|
| Fernando Martins|   150|85.55|
+-----------------+------+-----+
only showing top 3 rows



In [13]:
(
    df
    # Arredonda para a quantidade de casas decimais solicitadas
    .withColumn('round', F.round(df.peso, 1))
    # Como na tabela só tem dus casas decimais ele mantém o numero de casas da tabela
    .withColumn('round2', F.round(df.peso, 3))
    .withColumn('round3', F.round(df.peso, 0))
).show(5)


+-----------------+------+-----+-----+------+------+
|             nome|altura| peso|round|round2|round3|
+-----------------+------+-----+-----+------+------+
| Pietra Fernandes|   176|97.88| 97.9| 97.88|  98.0|
|Ana Júlia da Rosa|   163|80.56| 80.6| 80.56|  81.0|
| Fernando Martins|   150|85.55| 85.6| 85.55|  86.0|
|    Isis Silveira|   173| 70.1| 70.1|  70.1|  70.0|
|    Cecília Porto|   190|93.42| 93.4| 93.42|  93.0|
+-----------------+------+-----+-----+------+------+
only showing top 5 rows



In [22]:
(
    #Arredonda para o maior número inteiro mais próximo
    df
    .withColumn('ceil', F.ceil(df.peso))
    #Arredonda para o menor número inteiro mais próximo
    .withColumn('floor', F.floor(df.peso)) 
    # Deixa os numeros da coluna negativos
    .withColumn('altura_negativa', -F.col('altura'))
    # deixa os numeros da coluna positivos
    .withColumn('abs', F.abs(F.col('altura_negativa'))) 
    # Eleva a potência
    .withColumn('pow', F.pow(df.peso, 2))
    # Descobrir a raiz quadrada
    .withColumn('sqrt', F.sqrt(F.col('pow'))) 
    # Se quiser outra raiz é só elevar por 1/raiz, exemplo raiz cubica
    .withColumn('cub', F.pow(df.peso, 1/3))   
).show(5)

+-----------------+------+-----+----+-----+---------------+---+-----------------+-----+-----------------+
|             nome|altura| peso|ceil|floor|altura_negativa|abs|              pow| sqrt|              cub|
+-----------------+------+-----+----+-----+---------------+---+-----------------+-----+-----------------+
| Pietra Fernandes|   176|97.88|  98|   97|           -176|176|        9580.4944|97.88|4.608553712718047|
|Ana Júlia da Rosa|   163|80.56|  81|   80|           -163|163|6489.913600000001|80.56| 4.31890004002472|
| Fernando Martins|   150|85.55|  86|   85|           -150|150|        7318.8025|85.55| 4.40629264918563|
|    Isis Silveira|   173| 70.1|  71|   70|           -173|173|4914.009999999999| 70.1|4.123246882827162|
|    Cecília Porto|   190|93.42|  94|   93|           -190|190|8727.296400000001|93.42|4.537464995290367|
+-----------------+------+-----+----+-----+---------------+---+-----------------+-----+-----------------+
only showing top 5 rows



In [26]:
(
    df
    .withColumn('imc', F.round(F.pow(df.peso, 2)/df.altura,2))
).show(5)

+-----------------+------+-----+-----+
|             nome|altura| peso|  imc|
+-----------------+------+-----+-----+
| Pietra Fernandes|   176|97.88|54.43|
|Ana Júlia da Rosa|   163|80.56|39.82|
| Fernando Martins|   150|85.55|48.79|
|    Isis Silveira|   173| 70.1| 28.4|
|    Cecília Porto|   190|93.42|45.93|
+-----------------+------+-----+-----+
only showing top 5 rows

