## Trabalhando com funções de agrupamento
Neste notebook iremos aprender a agrupar dados

### Importando as bibliotecas
Nesta etapa iremos apenas importar todas as bibliotecas e funções necessárias para rodar o programa

In [3]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import lit, col, avg, min, max, count, approx_count_distinct, first, last, expr, collect_set, collect_list

### Criando uma SparkSession
Por meio de uma SparkSession terei acesso ao SparkContext da minha aplicação.

In [5]:
spark = SparkSession.builder.appName('Select').getOrCreate()

### Carregando os dados
Nesta etapa estamos carregando os dados que utilizaremos neste notebook

In [7]:
dados = spark \
    .read.option("header","true") \
    .option("inferSchema","true") \
    .option("delimiter",";") \
    .format("csv") \
    .load("/FileStore/tables/bank_additional_full-3fd09.csv")

### Usando funcoes de agrupamento

**Calcula a média de idade por job<br>
Podemos usar tanto o método .agg quanto a própria funcao de grupo**

In [10]:
dados.groupBy("job").agg(avg("age")).show()

In [11]:
dados.groupBy("job").avg("age").show()

**Acrescenta nome para a coluna agrupada (alias ou withColumnRenamed)**

In [13]:
dados.groupBy("job").agg(avg("age").alias("idade")).show()

In [14]:
dados.groupBy("job").agg(avg("age")).withColumnRenamed("avg(age)", "idade").show()

**Limita as 5 maiores idades**

In [16]:
dados.groupBy("job").agg(avg("age").alias("idade")).orderBy(desc("idade")).limit(5).show()

**Calcula mais métricas por job**

In [18]:
dados.groupBy("job").agg(min("age").alias("min_age"), max("age").alias("max_age")).show()

**Também é possível agrupar os dados por meio de dicionários**

In [20]:
aggregations = dict()
aggregations['age'] = 'min'
aggregations['pdays'] = 'max'
dados.groupBy("job").agg(aggregations).show()

**Calcula countDistinct aproximado**

In [22]:
dados.groupBy("job").agg(approx_count_distinct("age", 0.1)).show()

**Seleciona o primeiro o ultimo registro do dataframe**

In [24]:
dados.select(first("age"), last("age")).show()

**Aplicando funcao de grupo com expr**

In [26]:
dados.select(expr("max(age)")).show()

**Agrupamento de dados complexos. Podemos concatenar lista de valores**

In [28]:
dados.groupBy("job").agg(collect_set("education"), collect_list("education")).show()

**Verifica a distribuicao da variavel resposta**

In [30]:
dados1 = dados.groupBy("y").agg(count("y").alias("count_class"))
total = dados1.selectExpr("sum(count_class)").collect()
dados1.select(["y", "count_class"]).withColumn("percentage", col("count_class") / lit(total[0][0])).show()

### Obrigado!
Quer construir uma carreira em Data Science? Acesse meu blog pessoal em https://www.hackinganalytics.com/