# Introducao ao Apache Spark
* O que é?
  * Eh uma ferramenta de Big Data que tem o objetivo de processar grandes conjuntos de dados de forma paralela e distribuida.
* Por que ficou tao popular?
  * Estende o modelo de programacao MapReduce popularizado pelo Apache Hadoop, facilitando bastante o desenvolvimento de aplicacoes de processamento de grandes volumes de dados.
  * Permite a programacao em quatro linguagens: Java, Scala, R e Python. **Iremos utilizar o Python (Pyspark)**

# Databricks
* O que eh? 
  * Eh uma plataforma de analise baseada no Apache Spark e foi projetado por fundadores do Spark!
  * Por que ficou tao popular?
    * Fluxos de trabalhos simplificados e um workspace interativo que permite a colaboracao entre os cientistas de dados, os engenheiros de dados e os analistas de negocios;

# Iniciando com PySpark
* Para quem já conhece dataframes do pandas e com SQL, será bastante similar.

In [0]:
import pandas as pd
import numpy as np

spark.table("ipca_csv").show()

+-------------------+--------------------+-------------+-------------+------------------+-------------+
|           DateTime|meta_para_a_inflacao|IPCA_ocorrido|limite_maximo|focus_mais_recente|limite_minimo|
+-------------------+--------------------+-------------+-------------+------------------+-------------+
|2012-07-01 00:00:00|                 4.5|          5.2|          6.5|              null|          2.5|
|2012-08-01 00:00:00|                 4.5|         5.24|          6.5|              null|          2.5|
|2012-09-01 00:00:00|                 4.5|         5.28|          6.5|              null|          2.5|
|2012-10-01 00:00:00|                 4.5|         5.45|          6.5|              null|          2.5|
|2012-11-01 00:00:00|                 4.5|         5.53|          6.5|              null|          2.5|
|2012-12-01 00:00:00|                 4.5|         5.84|          6.5|              null|          2.5|
|2013-01-01 00:00:00|                 4.5|         6.15|        

### Carregando um dataframe:

In [0]:
df = spark.table("ipca_csv")
df.show()

+-------------------+--------------------+-------------+-------------+------------------+-------------+
|           DateTime|meta_para_a_inflacao|IPCA_ocorrido|limite_maximo|focus_mais_recente|limite_minimo|
+-------------------+--------------------+-------------+-------------+------------------+-------------+
|2012-07-01 00:00:00|                 4.5|          5.2|          6.5|              null|          2.5|
|2012-08-01 00:00:00|                 4.5|         5.24|          6.5|              null|          2.5|
|2012-09-01 00:00:00|                 4.5|         5.28|          6.5|              null|          2.5|
|2012-10-01 00:00:00|                 4.5|         5.45|          6.5|              null|          2.5|
|2012-11-01 00:00:00|                 4.5|         5.53|          6.5|              null|          2.5|
|2012-12-01 00:00:00|                 4.5|         5.84|          6.5|              null|          2.5|
|2013-01-01 00:00:00|                 4.5|         6.15|        

### Alguns metodos e funcoes:

`.printSchema()`: Vai mostrar o tipo dos nossos dados carregados.

`.columns`: Apresenta o nome das colunas.

`.describe()`: Faz um resumo igual ao describe() do pandas, com minino, maximo, media...

`.describe().show()`: O `.show()` vai fazer a apresentacao do resultado.

`.select()`: Seleciona colunas, onde o nome das coluna deve ser passado dentro dos parenteses.

In [0]:
df.printSchema()
print("************" * 4, "\n")
df.columns

root
 |-- DateTime: timestamp (nullable = true)
 |-- meta_para_a_inflacao: double (nullable = true)
 |-- IPCA_ocorrido: double (nullable = true)
 |-- limite_maximo: double (nullable = true)
 |-- focus_mais_recente: double (nullable = true)
 |-- limite_minimo: double (nullable = true)

************************************************ 

Out[15]: ['DateTime',
 'meta_para_a_inflacao',
 'IPCA_ocorrido',
 'limite_maximo',
 'focus_mais_recente',
 'limite_minimo']

In [0]:
df.describe().show()

+-------+--------------------+------------------+------------------+------------------+------------------+
|summary|meta_para_a_inflacao|     IPCA_ocorrido|     limite_maximo|focus_mais_recente|     limite_minimo|
+-------+--------------------+------------------+------------------+------------------+------------------+
|  count|                 150|               119|               150|                23|               150|
|   mean|                4.08|6.0565546218487345|              5.76| 6.516956521739131|               2.4|
| stddev|  0.5295939941669641|2.6401397744761224|0.7004792223468148| 2.594873328109256|0.4315571928936593|
|    min|                 3.0|              1.88|               4.5|              3.75|               1.5|
|    max|                 4.5|             12.13|               6.5|              11.6|               3.0|
+-------+--------------------+------------------+------------------+------------------+------------------+



In [0]:
df.select('IPCA_ocorrido').show()

+-------------+
|IPCA_ocorrido|
+-------------+
|          5.2|
|         5.24|
|         5.28|
|         5.45|
|         5.53|
|         5.84|
|         6.15|
|         6.31|
|         6.59|
|         6.49|
|          6.5|
|          6.7|
|         6.27|
|         6.09|
|         5.86|
|         5.84|
|         5.77|
|         5.91|
|         5.59|
|         5.68|
+-------------+
only showing top 20 rows



### Como criar novas colunas?

`.withColumn()`: Iremos entrar no nosso dataframe, escrever o `withColumn()`, passar o nome de uma coluna nova, e criar os valores desejados no argumento seguinte.

In [0]:
df_novo = df.withColumn('dif_meta_e_ipca_ocorrido', df['IPCA_ocorrido']-df['meta_para_a_inflacao'])
df_novo.show()

+-------------------+--------------------+-------------+-------------+------------------+-------------+------------------------+
|           DateTime|meta_para_a_inflacao|IPCA_ocorrido|limite_maximo|focus_mais_recente|limite_minimo|dif_meta_e_ipca_ocorrido|
+-------------------+--------------------+-------------+-------------+------------------+-------------+------------------------+
|2012-07-01 00:00:00|                 4.5|          5.2|          6.5|              null|          2.5|      0.7000000000000002|
|2012-08-01 00:00:00|                 4.5|         5.24|          6.5|              null|          2.5|      0.7400000000000002|
|2012-09-01 00:00:00|                 4.5|         5.28|          6.5|              null|          2.5|      0.7800000000000002|
|2012-10-01 00:00:00|                 4.5|         5.45|          6.5|              null|          2.5|      0.9500000000000002|
|2012-11-01 00:00:00|                 4.5|         5.53|          6.5|              null|        

### Podemos utilizar a sintaxe SQL para escrever no PySpark:
`.createOrReplaceTempView`: Para criar uma tabela temporária

In [0]:
# Vamos criar um tabela temporaria
df_novo.createOrReplaceTempView('tabela_df_novo')

In [0]:
# Fazendo uma Query no PySpark:
spark.sql('SELECT * FROM tabela_df_novo').show()

+-------------------+--------------------+-------------+-------------+------------------+-------------+------------------------+
|           DateTime|meta_para_a_inflacao|IPCA_ocorrido|limite_maximo|focus_mais_recente|limite_minimo|dif_meta_e_ipca_ocorrido|
+-------------------+--------------------+-------------+-------------+------------------+-------------+------------------------+
|2012-07-01 00:00:00|                 4.5|          5.2|          6.5|              null|          2.5|      0.7000000000000002|
|2012-08-01 00:00:00|                 4.5|         5.24|          6.5|              null|          2.5|      0.7400000000000002|
|2012-09-01 00:00:00|                 4.5|         5.28|          6.5|              null|          2.5|      0.7800000000000002|
|2012-10-01 00:00:00|                 4.5|         5.45|          6.5|              null|          2.5|      0.9500000000000002|
|2012-11-01 00:00:00|                 4.5|         5.53|          6.5|              null|        

In [0]:
# Fazendo uma Query no PySpark 2:
spark.sql('SELECT * FROM tabela_df_novo WHERE dif_meta_e_ipca_ocorrido < 0').show()

+-------------------+--------------------+-------------+-------------+------------------+-------------+------------------------+
|           DateTime|meta_para_a_inflacao|IPCA_ocorrido|limite_maximo|focus_mais_recente|limite_minimo|dif_meta_e_ipca_ocorrido|
+-------------------+--------------------+-------------+-------------+------------------+-------------+------------------------+
|2017-04-01 00:00:00|                 4.5|         4.08|          6.0|              null|          3.0|    -0.41999999999999993|
|2017-05-01 00:00:00|                 4.5|          3.6|          6.0|              null|          3.0|     -0.8999999999999999|
|2017-06-01 00:00:00|                 4.5|          3.0|          6.0|              null|          3.0|                    -1.5|
|2017-07-01 00:00:00|                 4.5|         2.71|          6.0|              null|          3.0|                   -1.79|
|2017-08-01 00:00:00|                 4.5|         2.46|          6.0|              null|        

### Como converter dataframe do spark para um dataframe no pandas.
`.toPandas()`: Para passar um arquivo para Pandas

`spark.createDataFrame()`: Passamos como argumento o dataframe

In [0]:
df_pandas = df_novo.toPandas()
type(df_pandas)

Out[31]: pandas.core.frame.DataFrame

In [0]:
df_novo_novo = spark.createDataFrame(df_pandas)

In [0]:
df_novo_novo.show()

+-------------------+--------------------+-------------+-------------+------------------+-------------+------------------------+
|           DateTime|meta_para_a_inflacao|IPCA_ocorrido|limite_maximo|focus_mais_recente|limite_minimo|dif_meta_e_ipca_ocorrido|
+-------------------+--------------------+-------------+-------------+------------------+-------------+------------------------+
|2012-07-01 00:00:00|                 4.5|          5.2|          6.5|              null|          2.5|      0.7000000000000002|
|2012-08-01 00:00:00|                 4.5|         5.24|          6.5|              null|          2.5|      0.7400000000000002|
|2012-09-01 00:00:00|                 4.5|         5.28|          6.5|              null|          2.5|      0.7800000000000002|
|2012-10-01 00:00:00|                 4.5|         5.45|          6.5|              null|          2.5|      0.9500000000000002|
|2012-11-01 00:00:00|                 4.5|         5.53|          6.5|              null|        