# Opera√ß√µes B√°sicas com PySpark e Spark DataFrames

Ap√≥s darmos os primeiros passos com o PySpark no Objeto de Aprendizagem anterior, vamos agora aplicar algumas t√©cnicas b√°sicas de manipula√ß√£o de dados para nos familiarizarmos mais com a tecnologia antes de lidar com maiores volumes de dados.

Vamos prosseguir com o exemplo de disciplinas da especializa√ß√£o e enriquec√™-lo com mais conte√∫do. Ao final pedirei que voc√™s complementem nosso DataFrame com mais dados coletados de outras disciplinas para uma pequena atividade. Pe√ßo tamb√©m um pouco de paci√™ncia com rela√ß√£o aos dados. No pr√≥ximo Objeto de Aprendizagem passaremos a utilizar fontes de dados externas!

## Preparativos

Assim como no notebook anterior, vamos iniciar carregando o m√≥dulo `pyspark.sql`, criando uma sess√£o local e montando nosso DataFrame.

In [4]:
# Uso do Spark Dataframes no PySpark
from pyspark.sql import *

# Vamos trabalhar com o Spark localmente, sem o uso de um cluster.
spark = SparkSession \
    .builder \
    .master("local[4]") \
    .appName("Opera√ß√µes B√°sicas") \
    .getOrCreate()

In [5]:
# Estrutura do nosso DataFrame
Disciplina = Row("nome", "carga_horaria")

# Cada uma das disciplinas da especializa√ß√£o √© criada como uma inst√¢ncia do registro Disciplina.
d01 = Disciplina("Introdu√ß√£o a BigData e Analytics", 36)
d02 = Disciplina("Estat√≠stica aplicada", 24)
d03 = Disciplina("Visualiza√ß√£o de dados e informa√ß√£o", 24)
d04 = Disciplina("Compartilhamento e seguran√ßa de dados", 24)
d05 = Disciplina("Introdu√ß√£o a Python e linguagem R", 36)
d06 = Disciplina("Machine Learning", 24)
d07 = Disciplina("Processamento de Alto Desempenho e Aplica√ß√µes", 24)
d08 = Disciplina("Lidando com BigData: Apache Spark, Hadoop, MapReduce, Hive", 24)
d09 = Disciplina("Gerenciamento e Processamento de grande volume de dados", 24)
d10 = Disciplina("Internet das Coisas e Aplica√ß√µes Distribu√≠das", 24)
d11 = Disciplina("Deep Learning", 24)
d12 = Disciplina("Business Intelligence e BigData", 24)
d13 = Disciplina("Atividades Integradoras", 12)
d14 = Disciplina("Prepara√ß√£o para Projeto Aplicado", 36)

especializacao_bigdata_datascience = [d01, d02, d03, d04, d05, d06, d07, d08, d09, d10, d11, d12, d13, d14]

df_especializacao = spark.createDataFrame(especializacao_bigdata_datascience)

## Sele√ß√£o de Colunas

Como visto no texto base, h√° diferentes formas de selecionar colunas de um DataFrame. Hora de aplicar!

In [7]:
display(df_especializacao)


nome,carga_horaria
Introdu√ß√£o a BigData e Analytics,36
Estat√≠stica aplicada,24
Visualiza√ß√£o de dados e informa√ß√£o,24
Compartilhamento e seguran√ßa de dados,24
Introdu√ß√£o a Python e linguagem R,36
Machine Learning,24
Processamento de Alto Desempenho e Aplica√ß√µes,24
"Lidando com BigData: Apache Spark, Hadoop, MapReduce, Hive",24
Gerenciamento e Processamento de grande volume de dados,24
Internet das Coisas e Aplica√ß√µes Distribu√≠das,24


### Sele√ß√£o das colunas com retorno de valor

#### Por meio de Indexa√ß√£o (formato Python)

As 3 formas abaixo retornar√£o um DataFrame somente com a coluna `nome`.

##### Diretamente pelo nome da coluna

In [11]:
#df_especializacao.show()
df_especializacao[["nome"]].show()

##### Utilizando a fun√ß√£o `col`

In [13]:
## Mais um m√≥dulo para nossa cole√ß√£o de m√≥dulos dominados!!
from pyspark.sql.functions import *

df_especializacao[[col('nome')]].show()

##### Pela nota√ß√£o de ponto

In [15]:
df_especializacao[[df_especializacao.nome]].show()

#### Pelo m√©todo `select` (API Spark DataFrame)

As 3 formas abaixo retornar√£o um DataFrame somente com a coluna carga_horaria.

In [18]:
# Diretamente pelo nome da coluna
df_especializacao.select('carga_horaria').show()

In [19]:
# Utilizando a fun√ß√£o col
df_especializacao.select(col('carga_horaria')).show()

In [20]:
# Pela nota√ß√£o de ponto
df_especializacao.select(df_especializacao.carga_horaria).show()

### Refer√™ncia ao objeto `Column`

Como dito no texto base, a fun√ß√£o `col` e a nota√ß√£o de ponto fazem refer√™ncia ao objeto `Column` do DataFrame. Este objeto √© necess√°rio para uso em opera√ß√µes l√≥gicas, para diferenciar os operadores l√≥gicos da linguagem Python dos operadores l√≥gicos existentes no Spark DataFrames/Spark SQL. Entraremos em maiores detalhes quando estudarmos a arquitetura do Apache Spark.

In [22]:
type(df_especializacao.nome)

In [23]:
type(col('nome'))

Para fixar a diferen√ßa, vamos tentar usar o m√©todo `show` numa abordagem que retorna valor e numa abordagem que retorna o objeto `Column`:

In [25]:
# .show() em retorno de valor
df_especializacao[[df_especializacao.carga_horaria]].show(5)

In [26]:
# .show() em objeto Column. 
# Ocorre um erro do tipo TypeError alertando que n√£o √© poss√≠vel chamar este m√©todo no objeto Column.

try:
    df_especializacao.carga_horaria.show(5)

except TypeError as err:
    print("Erro: {}".format(err))


## Filtros

Vimos no texto base que os filtros removem registros que n√£o correspondem aos crit√©rios especificados. Nada melhor que um exemplo pra mostrar na pr√°tica o que isso significa. Das nossas experimenta√ß√µes anteriores j√° sabemos que as disciplinas possuem dura√ß√µes de 12, 24 ou 36 horas. 

O que fazer se quisermos visualizar somente aquelas com 36 horas? A√≠ que entram os filtros. Basta especificarmos um crit√©rio de carga hor√°ria igual a 36 horas, como demonstrado abaixo.

In [29]:
df_especializacao[df_especializacao["carga_horaria"] == 36].show(truncate=60)

Falta s√≥ mais uma com essa carga hor√°ria üôÇ

E quantas possuem dura√ß√£o **menor** que 36 horas?

In [31]:
df_especializacao[df_especializacao["carga_horaria"] < 36].show(truncate=60)

## Agrega√ß√£o

Aqui exploraremos algumas formas simples de agrega√ß√£o, que aprofundaremos nos materiais seguintes. Este primeiro exemplo abaixo parece bem auto-descritivo n√©? Significa agrupar por carga hor√°ria - criar nossos subconjuntos onde cada subconjunto concentra registros de mesma carga hor√°ria - e ent√£o contar a quantidade de registros por subconjunto.

In [34]:
df_especializacao.groupBy(df_especializacao.carga_horaria).count().show()

Uma forma diferente de agrupamento √© colocar todo o DataFrame em um √∫nico subconjunto. Isso se faz necess√°rio pois n√£o temos como aplicar as opera√ß√µes de subconjuntos sem agrupamento. Abaixo vemos como calcular uma m√©dia de carga hor√°ria para toda a especializa√ß√£o.

In [36]:
df_especializacao.groupBy().mean('carga_horaria').show()

Para aplicar mais de uma opera√ß√£o de subconjuntos podemos listar todas elas dentro de uma opera√ß√£o de agrega√ß√£o (**`agg`**). Neste caso estamos tirando proveito do grupo criado para aplicar as tr√™s opera√ß√µes: m√©dia, m√≠nimo e m√°ximo. Isto √© interessante pois opera√ß√µes de agrega√ß√£o em grandes volumes de dados podem ser computacionalmente custosas (e demoradas), ent√£o calcular tudo de uma vez faz mais sentido.

In [38]:
df_especializacao.groupBy().agg(mean('carga_horaria'), min('carga_horaria'), max('carga_horaria')).show()

Finalizando... voc√™s devem ter percebido que os nomes das colunas ap√≥s agrega√ß√£o ficam muito extensos e s√£o ruins para referenciar em pr√≥ximas opera√ß√µes. No exemplo abaixo mostro como atribuir novos nomes para o resultado de cada opera√ß√£o de agrega√ß√£o por meio do m√©todo **`alias`**.

In [40]:
import pyspark.sql.functions as F

df_especializacao.groupBy() \
    .agg(mean('carga_horaria').alias('media'), \
         min('carga_horaria').alias('minimo'), \
         max('carga_horaria').alias('maximo')).show()

#### Atividade 1

Acesse a p√°gina de especializa√ß√µes da Unisinos [neste link](http://www.unisinos.br/pos#especializacao) e escolha uma especializa√ß√£o diferente desta de Big Data, Data Science e Data Analytics. Construa a sua estrutura curricular da mesma forma que fizemos no in√≠cio deste Objeto de Aprendizagem at√© o ponto em que o DataFrame no Spark √© criado. O nome do Spark DataFrame deve ser **`df_outra_especializacao`**.

Utilize o bloco de c√≥digo abaixo para cria√ß√£o deste DataFrame:

In [42]:
# Estrutura do nosso DataFrame
Disciplina = Row("nome", "carga_horaria")

# Cada uma das disciplinas da especializa√ß√£o √© criada como uma inst√¢ncia do registro Disciplina.
d01 = Disciplina("Fundamentos e Metodologia da Bio√©tica e da √âtica Aplicada", 36)
d02 = Disciplina("Princ√≠pios e Filosofia da Bio√©tica e da √âtica Aplicada", 24)
d03 = Disciplina("Bio√©tica e Sa√∫de", 24)
d04 = Disciplina("Bio√©tica: Sociedade, Meio Ambiente e Animais", 24)
d05 = Disciplina("Hist√≥ria do surgimento e do desenvolvimento da bio√©tica no contexto da √©tica", 36)
d06 = Disciplina("L√≥gica e metodologia cient√≠fica aplicadas √† √©tica e √† bio√©tica", 24)
d07 = Disciplina("T√≥picos especiais em √âtica em Pesquisa", 24)
d08 = Disciplina("√âtica e pesquisa qualitativa e √©tica em pesquisa nas humanidades", 24)
d09 = Disciplina("Melhoramento humano, Neuro√©tica e gen√©tica", 24)
d10 = Disciplina("Princ√≠pio e responsabilidade e o problema das futuras gera√ß√µes", 24)
d11 = Disciplina("Comit√™s de √âtica em Pesquisa e o consentimento informado em pesquisa", 24)
d12 = Disciplina("Semin√°rio Bio√©tica Cl√≠nica", 24)
d13 = Disciplina("Atividades Integradoras", 12)
d14 = Disciplina("Semin√°rio de Bio√©tica e Sa√∫de Coletiva", 31)

df_bioetica_especializacao = [d01, d02, d03, d04, d05, d06, d07, d08, d09, d10, d11, d12, d13, d14]

df_outra_especializacao = spark.createDataFrame(df_bioetica_especializacao)

df_outra_especializacao.show()


#### Atividade 2

Agora que temos dois DataFrames representando duas especializa√ß√µes diferentes ser√° importante diferenciar um do outro. Vamos utilizar o nome de cada especializa√ß√£o para possibilitar esta diferencia√ß√£o.

O c√≥digo abaixo aplica uma opera√ß√£o de cria√ß√£o de nova coluna no nosso DataFrame da especializa√ß√£o em Big Data, Data Science e Data Analytics. Aproveitei para modificar o nome da coluna de nome da disciplina, pois agora temos dois nomes diferentes: da especializa√ß√£o e da disciplina.

In [44]:
# A fun√ß√£o lit() √© necess√°ria para indicar ao Spark que o conte√∫do passado para ela ser√° o valor da coluna criada. Voc√™ deve achar isso um exagero, e concordo. M√°s √© assim mesmo =/

df_bd_ds_da = df_especializacao \
      .withColumn("nome_especializacao", lit("Big Data, Data Science e Data Analytics")) \
      .withColumnRenamed("nome", "nome_disciplina")

df_bd_ds_da.show()

Sua atividade √© criar a coluna no DataFrame da outra especializa√ß√£o a partir do **`df_outra_especializacao`** e aproveitar para renomear a coluna do nome da disciplina. O DataFrame resultante deve se chamar **`df_especializacao_criada`**:

In [46]:
#df_especializacao_criada = ...
df_outra_especializacao_bioetica = df_outra_especializacao \
      .withColumn("nome_especializacao", lit("Bioetica e Etica Aplicada")) \
      .withColumnRenamed("nome", "nome_disciplina")

df_outra_especializacao_bioetica.show()

#### Atividade 3

Com as duas especializa√ß√µes batizadas, vamos fazer algo mais interessante: criar um DataFrame que combina as duas especializa√ß√µes! O Spark DataFrames fornece uma opera√ß√£o para isso, chamada de `unionAll`.

In [48]:
df_especializacoes = df_bd_ds_da.unionAll(df_outra_especializacao_bioetica)
df_especializacoes.show()

Utilizando nosso novo DataFrame de duas especializa√ß√µes, responda √†s seguintes quest√µes usando as opera√ß√µes de filtro e agrega√ß√µes estudadas at√© aqui. N√£o esque√ßa de utilizar a opera√ß√£o `show()` ou a fun√ß√£o `display()` para mostrar o resultado!

1- Quantas disciplinas em cada especializa√ß√£o?

In [51]:
## seu c√≥digo aqui:
df_especializacoes.groupBy(df_especializacoes.nome_especializacao).count().show()

2- Qual das especializa√ß√µes possui mais disciplinas de 36h?

In [53]:
## seu c√≥digo aqui:
##df_especializacao[[col('nome')]]
df_count_esp = df_especializacoes[df_especializacoes["carga_horaria"] == 36].groupBy(df_especializacoes.nome_especializacao).count()
df_count_esp.show()
df_res = df_count_esp[['nome_especializacao','count']].groupBy().max('count')
#df_res[['max(count)']].show()

v = df_count_esp[['nome_especializacao','count']].groupBy().max('count').collect()

print(v)


3- Qual a m√©dia de carga hor√°ria de cada especializa√ß√£o?

In [55]:
## seu c√≥digo aqui:

#df_especializacoes.show()

df_especializacoes.groupBy(df_especializacoes.nome_especializacao).agg(mean('carga_horaria')).show()

4- Existe alguma disciplina com mesmo nome nas duas especializa√ß√µes? Liste o nome das disciplinas que se repetirem. Mesmo que n√£o exista repeti√ß√£o, o DataFrame resultante deve retornar a coluna `nome_disciplina`.

**Dica**: Use count(), filter() e select() para isso.

In [57]:
## seu c√≥digo aqui:
#df_especializacoes.select('nome_disciplina').show()
df_refine = df_especializacoes.groupBy(df_especializacoes.nome_disciplina).count()
df_refine2 = df_refine[df_refine["count"] >1]
df_refine2.show()

