# Tutorial - Spark en Python
Este notebook foi desenvolvido para apresentar alguns conceitos básicos e ajudar você a se familiarizar com o uso do Spark no Python.

Neste notebook, carregaremos e exploraremos o conjunto de dados mtcars. Especificamente, este tutorial abrange:

1. Carregando dados na memória
1. Criando SQLContext
1. Criando Spark DataFrame
1. Agrupe dados por colunas
1. Operando em colunas
1. Executando consultas SQL a partir de um Spark DataFrame

## Carregando em um DataFrame

Para criar um Spark DataFrame, carregamos um DataFrame externo, chamado `mtcars`. Este DataFrame inclui 32 observações em 11 variáveis.

[, 1]	mpg	Miles/(US) --> gallon  
[, 2]	cyl	--> Number of cylinders  
[, 3]	disp	--> Displacement (cu.in.)  
[, 4]	hp -->	Gross horsepower  
[, 5]	drat -->	Rear axle ratio  
[, 6]	wt -->	Weight (lb/1000)  
[, 7]	qsec -->	1/4 mile time  
[, 8]	vs -->	V/S  
[, 9]	am -->	Transmission (0 = automatic, 1 = manual)  
[,10]	gear -->	Number of forward gears  
[,11]	carb -->	Number of carburetors

In [0]:
dbutils.fs.ls('FileStore/tables')

In [0]:
dbutils.fs.cp("FileStore/tables/mtcars.xls", "file:/tmp/mtcars.xls")
import pandas as pd
mtcars = pd.read_csv('file:/tmp/mtcars.xls')

In [0]:
mtcars.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


## Inicializar SQLContext
Para trabalhar com quadros de dados, precisamos de um SQLContext que seja criado usando `SQLContext (sc)`. SQLContext usa SparkContext que já foi criado, chamado `sqlContext`.

In [0]:
type(sqlContext)

## Criando quadros de dados do Spark
Com o SQLContext e um DataFrame local carregado, criamos um Spark DataFrame:

In [0]:
sdf = sqlContext.createDataFrame(mtcars) 
sdf.printSchema()

## Exibe o conteúdo do DataFrame

In [0]:
sdf.show(5)

## Selecionando colunas

In [0]:
sdf.select('mpg').show(5)

## Filtrando dados
Filtre o DataFrame para reter apenas linhas com mpg menor que 18

In [0]:
sdf.filter(sdf['mpg'] < 18).show(5)

## Operando em colunas
O Spark também fornece várias funções que podem ser aplicadas diretamente às colunas para processamento e agregação de dados. O exemplo abaixo mostra o uso de funções aritméticas básicas para converter lb em tonelada métrica.

In [0]:
sdf.withColumn('wtTon', sdf['wt'] * 0.45).show(6)

In [0]:
sdf.show(6)

## Agrupamento, Agregação
Os DataFrames do Spark oferecem suporte a várias funções comumente usadas para agregar dados após o agrupamento. Por exemplo, podemos calcular o peso médio dos carros por seus cilindros, como mostrado abaixo:

In [0]:
sdf.groupby(['cyl'])\
.agg({"wt": "avg"})\
.show(5)

In [0]:
# Também podemos classificar a saída da agregação para obter os carros mais comuns
car_counts = sdf.groupby(['cyl'])\
.agg({"wt": "count"})\
.sort("count(wt)", ascending=False)\
.show(5)


### Executando consultas SQL a partir de Spark DataFrames
Um Spark DataFrame também pode ser registrado como uma tabela temporária no Spark SQL e o registro de um DataFrame como uma tabela permite executar consultas SQL sobre seus dados. A função `sql` permite que os aplicativos executem consultas SQL programaticamente e retorna o resultado como um DataFrame.

In [0]:
# Register this DataFrame as a table.
sdf.registerTempTable("cars")

# SQL statements can be run by using the sql method
highgearcars = sqlContext.sql("SELECT gear FROM cars WHERE cyl >= 4 AND cyl <= 9")
highgearcars.show(6)
    