# Apache Spark

## Características
- Plataforma de computação em Cluster rápida, tolerante a falhas e de propósito geral.
- 100x mais rápido que Mapreduce em memória.
- 10x mais rápido que Mapreduce em disco.
- Compatível com Hadoop.
- Open Source.
- Desenvolvido em Scala.
- Aplicações em Java, Scala, Python e R.
- Bibliotecas para SQL, Streaming, Machine Learning e grafos.

## Componentes
![Componentes](https://s3-sa-east-1.amazonaws.com/lcpi/89684467-39f5-4a10-9b1d-5a7788603adf.png)

## SparkContext

- É o ponto de entrada da sessão Spark
- Pode ser usado para criar RDDs, acumuladores e variáveis de transmissão no cluster
- Em modo local (spark-shell ou pyspark) um objeto SparkContext é criado automaticamente e a variável sc refere-se ao objeto SparkContext

In [0]:
sc

In [0]:
spark

## RDD
Um RDD significa Conjuntos de dados distribuídos resilientes. É uma coleção de registros de partição somente leitura. RDD é a estrutura de dados fundamental do Spark. Ele permite que um programador execute cálculos na memória em grandes grupos de maneira tolerante a falhas . Assim, acelere a tarefa.

RDD era a principal API voltada para o usuário no Spark desde o seu início. No núcleo, um **RDD é uma coleção distribuída imutável** de elementos de seus dados, particionada em nós no cluster que pode ser operada em paralelo com uma API de baixo nível que oferece transformações e ações.

![RDD](https://s3-sa-east-1.amazonaws.com/lcpi/85bc10e4-4dd4-4c83-b64b-50a815b77009.png)

Exemplos de transformações:
- map() - Aplica uma função a cada elemento no RDD e retorna um RDD do resultado
- filter() - Retorna um RDD com os elementos que correspondem condição de filtro
- union() – Retorna um RDD contendo elementos de ambos os RDDs.

Exemplos de ações:
- collect() - Retornar todos os elementos do RDD.
- count() - Retorna o número de elementos do RDD.
- take(10) - Retorna 10 elementos do RDD.
- foreach(func) - Aplica a função fornecida a cada elemento do RDD.

## Operações básicas

In [0]:
num_list =  [1,2,3,4,5,6,7,8,9,0]
numeros = sc.parallelize(num_list)

In [0]:
numeros.collect()

In [0]:
numeros.sum()

In [0]:
numeros.mean()

Mostra primeiro elemento:
    
    numeros.first()
 
    
Mostra os 5 maiores:

    numeros.top(5)


Mostra todos elementos:

    numeros.collect()


Contar os elementos:

    numeros.count()
    

Media dos numeros:

    numeros.mean()
    
   
Somar os elementos:

    numeros.sum()


Mostra maior elemento:

    numeros.max()


Mostra menor elemento:

    numeros.min()
    
 
Calcula desvio padrão:

    numeros.stdev()

## Dataframe
Ao contrário de um RDD, os dados são organizados em colunas nomeadas. Por exemplo, uma tabela em um banco de dados relacional. É uma coleção imutável de dados distribuídos. O DataFrame no Spark permite que os desenvolvedores imponham uma estrutura em uma coleção distribuída de dados, permitindo abstração de nível superior.

- Um DataFrame é uma coleção distribuída de dados organizados em colunas nomeadas. É conceitualmente igual a uma tabela em um banco de dados relacional.

- Funciona apenas em dados estruturados e semiestruturados. Ele organiza os dados na coluna nomeada. Os DataFrames permitem que o Spark gerencie o esquema.

- A API da fonte de dados permite o processamento de dados em diferentes formatos (AVRO, CSV, JSON e sistema de armazenamento HDFS , tabelas HIVE , MySQL). Ele pode ler e gravar de várias fontes de dados mencionadas acima.

- Após a transformação no DataFrame, não é possível regenerar um objeto de domínio. Por exemplo, se você gerar testDF a partir de testRDD, não poderá recuperar o RDD original da classe de teste.

# PySpark

## Criar Data Frames a partir de `arquivos`

Baixe a base do Kaggle, em CSV, disponível no link abaixo:
https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017

Criar diretório `football`

Fazer upload do arquivo results.csv no diretório recém criado

### Criar uma variável RDD a partir do CSV

### Acessar um arquivo csv via pyspark

## Criar Data Frames a partir de `tabelas`

# Analíses com pyspark

## select

## filter e/ou where

## sum, min, max, mean

## agg

## [join](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.DataFrame.join.html)

## toPandas

## Bibliografia e Indicações

https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/index.html

## Exercícios

Quantos registro existem no dataframe?

Quantas equipes únicas mandantes existem no dataframe?

Quantas vezes as equipes mandantes saíram vitoriosas?

Quantas vezes as equipes visitantes saíram vitoriosas?

A partir de um dataframe, crie uma tabela no Hive com o nome de partida_pais com o total de partida em cadas país.

Utilizando o Apache Hive e a tabela partida_pais, em qual país ocorreram mais partidas?