## Spark SQL and DataFrames

source: https://spark.apache.org/docs/latest/sql-programming-guide.html

**Additional Reading:** [A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets](https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html)

In [3]:
from pyspark.sql import SparkSession
from pyspark.sq import functions as f_

In [4]:
# inst сессию
spark = SparkSession.builder.getOrCreate()

### Loading Data to DataFrame

In [6]:
ratings_df = spark.read.csv(".../movielens/ratings.csv", header=True)

In [7]:
# посмотреть данные
ratings_df.show(5)

# какие возможности есть ещё?

In [8]:
# printSchema без выполнения action
ratings_df.printSchema()

In [9]:
# заспрос схемы
ratings_df = spark.read.csv(".../movielens/ratings.csv", header=True, inferSchema=True)

In [10]:
# 
display(ratings_df)

### DataFrame Operations

In [12]:
# выбор данных
display(ratings_df.select(['movieId','rating']))

In [13]:
# группировки
display(ratings_df.groupBy("movieId").count())

### Running SQL Queries Programmatically

In [15]:
# Зарегистрировать DataFrame, как таблицу SQL
ratings_df.createOrReplaceTempView("ratings_df")

In [16]:
# Сделаем SQL запрос к таблице
sql_ratings_df = spark.sql("SELECT movieId, count(*) FROM ratings_df Group By movieId")

In [17]:
# 
display(sql_ratings_df)

In [18]:
# конвертация в RDD объект, иногда полезно
ratings_rdd = ratings_df.rdd
ratings_rdd.take(2)

In [None]:
# обращение к объектам RDD
ratings_rdd.map(lambda row: (row.movieId, row.rating)).take(10)