## Урок 3. Типы данных в Spark. Коллекции как объекты DataFrame. User-Defined Functions
* По данным habr_data получить таблицу с названиями топ-3 статей (по rating) для каждого автора
* По данным habr_data получить топ (по встречаемости) английских слов из заголовков.<br> 
_Возможное решение:_ <br>
1) выделение слов с помощью регулярных выражений, 
2) разделение на массивы слов 
3) explode массивовов 
4) группировка с подсчетом встречаемости

In [1]:
%pyspark

from pyspark.sql.functions import col
from pyspark.sql.types import IntegerType

habrData = spark.read.option("header", True)\
    .option("inferSchema", True)\
    .csv("/user/admin/habr_data.csv")\
    .withColumn("rating", col("rating").cast(IntegerType()))\
    .cache()

habrData.printSchema()

In [2]:
%pyspark
z.show(habrData)

In [3]:
%pyspark
from pyspark.sql.functions import col, row_number
from pyspark.sql.window import Window

windowSpec  = Window.partitionBy("author_name").orderBy(col("rating").desc())

z.show(
    habrData\
        .withColumn("row_number", row_number().over(windowSpec)) \
        .where(col("row_number") <= 3)\
        .select("title","author_name","rating")
)
    


In [4]:
%pyspark

from pyspark.sql.functions import udf
import re

def extract_english_words(title):
    clean_title = re.sub('\W+', ' ', title.lower())
    words = clean_title.split()
    return words

extract_english_words_udf = udf(extract_english_words)

z.show(
    habrData\
        .withColumn("words", extract_english_words_udf("title"))
        .select("words")
)

In [5]:
%pyspark

from pyspark.sql.functions import split, explode, col

z.show(
    habrData\
        .select(explode(split(col("title"), "\W+")).alias("word"))\
        .where((col("word") != '') & (col("word").rlike("[^0-9]")))
        .groupBy("word")\
        .count()\
        .orderBy(col("count").desc())
)