## Estudos PySpark

Notebook dedicado ao estudo de PySpark, com datasets públicos da CVM.

Fonte : [Dataset Ofertas de Distribuição]( http://dados.cvm.gov.br/dados/OFERTA/DISTRIB/DADOS/oferta_distribuicao.csv)

**Imports**

In [1]:
from pyspark.sql.functions import *
from pyspark.sql import SparkSession
from pyspark.sql.types import IntegerType
from pyspark.sql.window import Window

### SparkSession

Sem o SparkSession, sua aplicação spark não consegue rodar. Cria o SparkContext e SparkConfig.

**SparkContext**

* É o principal ponto de entrada na funcionalidade do Spark e, portanto, o coração de qualquer aplicativo Spark. 
* Permite que o Spark Driver acesse o cluster por meio de seu Cluster Resource Manager e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão no cluster. 
* O Spark Context também rastreia os executores em tempo real, enviando mensagens regulares de pulsação.
* O Spark Context é criado pelo Spark Driver para cada aplicativo Spark quando é enviado pela primeira vez pelo usuário. Ele existe durante todo o tempo de vida do aplicativo Spark.
* Para de funcionar depois que o aplicativo Spark é concluído. 
* Para cada JVM, apenas um Spark Context pode estar ativo.

In [2]:
spark = (SparkSession.builder 
        .master("local[*]") 
        .appName("workshop_spark")
        .getOrCreate())

### Spark UI

O Apache Spark fornece um conjunto de interfaces de usuário da web (UIs) que você pode usar para monitorar o status e o consumo de recursos do cluster Spark.

In [3]:
#Verificar a UI
spark

In [6]:
cursos_prouni = spark.read.option("header", True).csv("../data/cursos-prouni.csv")
enderecos = spark.read.option("header", True).csv("../data/enderecos-campi.csv")

### Conhecendo os dados 

**Cursos**

In [7]:
cursos_prouni.limit(3).toPandas()

Unnamed: 0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,curso_id,curso_busca,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
0,Bacharelado,Integral,9999.99,15,14.0,,,706710394154,Medicina,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
1,Bacharelado,Noturno,9836.4,1,,,,104191210567043,Enfermagem,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
2,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,1002328574024,Medicina,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64


In [9]:
print(cursos_prouni.dtypes)

[('grau', 'string'), ('turno', 'string'), ('mensalidade', 'string'), ('bolsa_integral_cotas', 'string'), ('bolsa_integral_ampla', 'string'), ('bolsa_parcial_cotas', 'string'), ('bolsa_parcial_ampla', 'string'), ('curso_id', 'string'), ('curso_busca', 'string'), ('cidade_busca', 'string'), ('uf_busca', 'string'), ('cidade_filtro', 'string'), ('universidade_nome', 'string'), ('campus_nome', 'string'), ('campus_id', 'string'), ('nome', 'string'), ('nota_integral_ampla', 'string'), ('nota_integral_cotas', 'string'), ('nota_parcial_ampla', 'string'), ('nota_parcial_cotas', 'string')]


In [11]:
print(cursos_prouni.count())

41447


In [12]:
cursos_prouni.columns

['grau',
 'turno',
 'mensalidade',
 'bolsa_integral_cotas',
 'bolsa_integral_ampla',
 'bolsa_parcial_cotas',
 'bolsa_parcial_ampla',
 'curso_id',
 'curso_busca',
 'cidade_busca',
 'uf_busca',
 'cidade_filtro',
 'universidade_nome',
 'campus_nome',
 'campus_id',
 'nome',
 'nota_integral_ampla',
 'nota_integral_cotas',
 'nota_parcial_ampla',
 'nota_parcial_cotas']

**Endereços**

In [14]:
enderecos.limit(3).toPandas()

Unnamed: 0,uf,municipio,logradouro,complemento,bairro,telefone,external_id
0,SP,Presidente Prudente,Rodovia Raposo Tavares Km 572,Km 572 -,Limoeiro,18 3229 2000,2522
1,SP,Sao Paulo,Avenida Interlagos,1329 - Universidade Ibirapuera,Jardim Umuarama,1150911193,1072704
2,SC,Balneario Camboriu,Avenida do Estado,3847 -,Centro,(47)3264-6813,8327


In [8]:
print(enderecos.dtypes)

[('uf', 'string'), ('municipio', 'string'), ('logradouro', 'string'), ('complemento', 'string'), ('bairro', 'string'), ('telefone', 'string'), ('external_id', 'string')]


In [13]:
print(enderecos.count())

5062


### Filtrando os dados

In [15]:
cusos_prouni_filter = cursos_prouni.select("grau","turno","mensalidade","curso_id","curso_busca")

In [16]:
enderecos_filter = enderecos.where(col("uf") == "SP")

In [18]:
cursos = cursos_prouni.withColumn("curso_id",cursos_prouni["curso_id"].cast(IntegerType()))

In [None]:
cursos

### Referências:

* [Spark - Anatomy of Spark Application](https://luminousmen.com/post/spark-anatomy-of-spark-application)
* [Spark UI](https://spark.apache.org/docs/3.0.0-preview2/web-ui.html)
* [Leitura de csv com o Spark](https://sparkbyexamples.com/spark/spark-read-csv-file-into-dataframe/)

