<img src="./barquinho.png">

# Teste Big Data da Beijaflore

Neste teste iremos avaliar as competências esperadas de PySpark e ETL.

## 1. Preparação

### 1.1 Depedências

In [6]:
# Importe aqui as bibliotecas usadas no desafio
from pyspark.sql import SparkSession

from pyspark import sql

from pyspark.sql.types import *

### 1.2 Spark e SQL Context

In [7]:
spark = SparkSession\
        .builder\
        .appName("bigdatatest")\
.getOrCreate()

### 1.3 Schema do Dataframe

Antes de carregar o DataFrame defina explicitamente o schema do dataset. Para entender melhor a estrutura dos dados confira a amostra `first100.csv`

In [8]:
schema = StructType([
    StructField("id", IntegerType(), True),
    StructField("country", StringType(), True),
    StructField("description", StringType(), True),
    StructField("designation", StringType(), True),
    StructField("points", StringType(), True),
    StructField("price", StringType(), True),
    StructField("province", StringType(), True),
    StructField("region_1", StringType(), True),
    StructField("region_2", StringType(), True),
    StructField("taster_name", StringType(), True),
    StructField("taster_twitter_handle", StringType(), True),
    StructField("title", StringType(), True),
    StructField("variety", StringType(), True),
    StructField("winery", StringType(), True)
        
])

### 1.4 Carregamento dos dados

Carregue os dados do arquivo `reviews.csv` em um DataFrame

In [None]:
ds = sqlContext.read.csv('/home/vinicios/pessoal/bigdata_test/reviews.csv', schema=schema)

In [None]:
ds.printSchema()

O esquema deve ser parecido com o exemplo acima.

## 2. Desafios

### 2.1 Quantos registros com vinhos franceses existem no dataset?

**Resposta:** ...

In [None]:
ds.filter(ds.country == "France").count()

### 2.2 Salve todos registros de vinhos franceses em um arquivo parquet.

https://parquet.apache.org/

In [None]:
france = ds.filter(ds.country == "France")

In [None]:
france.write.parquet('/home/vinicios/pessoal/bigdata_test/france_parquet')

### 2.3 Qual a província Italiana com o maior número de reviews no dataset?

**Resposta: ** ...

In [None]:
ds.filter(ds.country == "Italy").groupby('province').count().orderBy('count',ascending=False).show(1)

### 2.4 Dentro dessa província, quem fez mais reviews?
**Resposta: **

In [None]:
ds.filter(ds.country == "Italy").filter(ds.province == "Tuscany").groupby('taster_name').count().orderBy('count',ascending=False).show(1)

### 2.5 Salve todas reviews desta pessoa no formato JSON com as seguintes colunas: designation, points, price, title, variety e winery.

In [None]:
kerin = ds.filter(ds.taster_name == "Kerin O’Keefe").select(ds.designation, ds.points, ds.price, ds.title, ds.variety, ds.winery)

In [None]:
kerin.write.json('/home/vinicios/pessoal/bigdata_test/kerin_json')

### 2.6 Qual o vinho com mais pontos da variedade mais comentada?
**Resposta:** ...

In [None]:
ds.registerTempTable("reviews")

In [None]:
spark.sql("select winery, max(points), count(variety) from reviews group by winery order by 3 desc").show(1)

**Teste criado por Diego Rodrigues da Beijaflore.**