<img src="./barquinho.png">

# Teste Big Data da Beijaflore

Neste teste iremos avaliar as competências esperadas de PySpark e ETL.

## 1. Preparação

### 1.1 Depedências

In [None]:
from pyspark import SparkContext 
from pyspark.sql import SQLContext 
from pyspark.sql.functions import * 
from pyspark.sql.types import * 

### 1.2 Spark e SQL Context

In [None]:
sc = SparkContext("local", "Teste_Sacha")
sql = SQLContext(sc) 

### 1.3 Schema do Dataframe

Antes de carregar o DataFrame defina explicitamente o schema do dataset. Para entender melhor a estrutura dos dados confira a amostra `first100.csv`

In [None]:

schema_dataset = StructType([StructField("id", IntegerType(), True),  
                     StructField("country", StringType(), True),  
                     StructField("description", StringType(), True),  
                     StructField("designation", StringType(), True),  
                     StructField("points", IntegerType(), True),  
                     StructField("price", DoubleType(), True),  
                     StructField("province", StringType(), True),  
                     StructField("region_1", StringType(), True),  
                     StructField("region_2", StringType(), True),  
                     StructField("taster_name", StringType(), True),  
                     StructField("taser_twitter_handle", StringType(), True),  
                     StructField("title", StringType(), True),  
                     StructField("variety", StringType(), True),  
                     StructField("winery", StringType(), True) ])


### 1.4 Carregamento dos dados

Carregue os dados do arquivo `reviews.csv` em um DataFrame

In [None]:
df_reviews = sql.read.csv("reviews.csv", schema=schema_dataset, header=True)

In [None]:
print(df_reviews)

O esquema deve ser parecido com o exemplo acima.

## 2. Desafios

### 2.1 Quantos registros com vinhos franceses existem no dataset?

**Resposta:** ...

In [None]:
df_reviews.filter(df_reviews['country'] == 'France').count() 

### 2.2 Salve todos registros de vinhos franceses em um arquivo parquet.

https://parquet.apache.org/

In [None]:
france = df_reviews.filter(df_reviews['country'] == 'France') 

In [None]:
france.write.parquet("france.parquet") 

### 2.3 Qual a província Italiana com o maior número de reviews no dataset?

**Resposta: ** ...

In [None]:
df_reviews.filter(df_reviews['country'] == 'Italy').groupBy('province').count().sort('count', ascending=False).show(1) 

### 2.4 Dentro dessa província, quem fez mais reviews?
**Resposta: **

In [None]:
df_reviews.filter(df_reviews['province'] == 'Tuscany').groupBy('taster_name').count().sort('count', ascending=False).show(1)

### 2.5 Salve todas reviews desta pessoa no formato JSON com as seguintes colunas: designation, points, price, title, variety e winery.

In [None]:
kerin =  (df_reviews.filter((df_reviews['province'] == 'Tuscany') & (df_reviews['taster_name'] == "Kerin O’Keefe")).select("designation", "points", "price", "title", "variety", "winery")) 

In [None]:
kerin.write.json("kerin.json")

### 2.6 Qual o vinho com mais pontos da variedade mais comentada?
**Resposta:** ...

In [None]:
df_reviews.groupBy("variety").count().sort("count", ascending=False).show(1) 

**Teste criado por Diego Rodrigues da Beijaflore.**