# Dataset MTCars

### Operações SQL simples

A base **MTCars** https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/mtcars.html já é conhecida, e é bastante utilizada para exemplos de Machine Learning.

Mesmo sendo uma base de dados com 32 linhas e 11 colunas, servirá bem para nosso exemplo de uso de consultas SQL a partir do Spark.

Vamos fazer algumas atividades com o SparkSQL, siga os exemplos.

### Carregando o PySpark

In [None]:
# !pip install pyspark

In [None]:
from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext

In [None]:
conf = SparkConf().setMaster('local').setAppName('PySpark SQL')
sc = SparkContext.getOrCreate(conf = conf)

Criação do contexto do objeto SparkSQL que será responsável por executar as *query* do Spark com comandos SQL.

In [None]:
sql = SQLContext(sc)

In [None]:
sql

Aqui é a criação de um Dataframe com os dados que estamos lendo do arquivo CSV. Usamos o contexto do SparkSQL, mas ainda sim é um Dataframe

In [None]:
dadosSpark = sql.read.format("csv").options(header='true').load('mtcars.csv')

In [None]:
dadosSpark.take(5)

In [None]:
dadosSpark.printSchema()

In [None]:
dadosSpark.select("model").show()

A partir do dataframe **dadosSpark**, vamos registrar uma tabela temporária do SQL, chamada **Carros**

In [None]:
dadosSpark.registerTempTable("carros")

A partir do motor do **SparkSQL** vamos escrever uma *query* em SQL que retornará todas as linhas e colunas da nossa base

In [None]:
sql.sql("select count(0) from carros").show(1)

In [None]:
sql.sql("select * from carros").show(32)

In [None]:
sql.sql("select cyl AS Cilindros, \
                round(avg(wt),2) AS PesoMedio \
         from carros group by cyl ").show()

In [None]:
sql.sql("select model from carros order by qsec desc").show()

E é possível converter em Dataframe e depois gerar visualizações com os dados

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
dados = sql.sql("select int(gear), float(wt), float(mpg) from carros")
df = dados.toPandas() 
df.info()

In [None]:
plt.figure(figsize=(15,8))

cores = {3:'tab:cyan',4:'tab:purple',5:'tab:green'}
marcadores = {3:'^',4:'s',5:'D'}

for cambio in df['gear'].unique():
    tmp = df[df['gear'] == cambio]
    plt.scatter(tmp['wt'], tmp['mpg'], color=cores[cambio], marker=marcadores[cambio], s=100)

plt.title("Motor Trend car Road Test")
plt.suptitle("Dados de 1974  Motor Trend US Magazine")
plt.xlabel("Peso do Carro")
plt.ylabel( "Milhas por Galão")