In [13]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, udf
from pyspark.sql.types import *
from pyspark.sql.types import StructType

In [14]:
spark

In [15]:
EXAMPLE = 'hello world'

In [16]:
len(EXAMPLE)

11

In [17]:
udf_len = udf(len)

In [18]:
udf_len.func(EXAMPLE)

11

In [19]:
# Load data

In [20]:
schema = StructType([
    StructField("sentence_id", IntegerType(), True),
    StructField("language_code", StringType(), True),
    StructField("text", StringType(), True)])
messages = spark.read.csv('data/sentences.csv', schema=schema, sep='\t')

In [21]:
messages.count()

5976658

In [22]:
messages.show()

+-----------+-------------+--------------------+
|sentence_id|language_code|                text|
+-----------+-------------+--------------------+
|          1|          cmn|              我們試試看！|
|          2|          cmn|             我该去睡觉了。|
|          3|          cmn|             你在干什麼啊？|
|          4|          cmn|              這是什麼啊？|
|          5|          cmn|今天是６月１８号，也是Muirie...|
|          6|          cmn|       生日快乐，Muiriel！|
|          7|          cmn|      Muiriel现在20岁了。|
|          8|          cmn|       密码是"Muiriel"。|
|          9|          cmn|            我很快就會回來。|
|         10|          cmn|               我不知道。|
|         11|          cmn|        我不知道應該說什麼才好。|
|         12|          cmn|           這個永遠完不了了。|
|         13|          cmn|     我只是不知道應該說什麼而已……|
|         14|          cmn|         那是一隻有惡意的兔子。|
|         15|          cmn|             我以前在山里。|
|         16|          cmn|            那是一张近照吗？|
|         17|          cmn|         我不知道我有沒有時間。|
|         18|       

## Count chars using UDF

In [23]:
messages = messages.withColumn('len', udf_len(col('text')))

In [24]:
messages.show()

+-----------+-------------+--------------------+---+
|sentence_id|language_code|                text|len|
+-----------+-------------+--------------------+---+
|          1|          cmn|              我們試試看！|  6|
|          2|          cmn|             我该去睡觉了。|  7|
|          3|          cmn|             你在干什麼啊？|  7|
|          4|          cmn|              這是什麼啊？|  6|
|          5|          cmn|今天是６月１８号，也是Muirie...| 22|
|          6|          cmn|       生日快乐，Muiriel！| 13|
|          7|          cmn|      Muiriel现在20岁了。| 14|
|          8|          cmn|       密码是"Muiriel"。| 13|
|          9|          cmn|            我很快就會回來。|  8|
|         10|          cmn|               我不知道。|  5|
|         11|          cmn|        我不知道應該說什麼才好。| 12|
|         12|          cmn|           這個永遠完不了了。|  9|
|         13|          cmn|     我只是不知道應該說什麼而已……| 15|
|         14|          cmn|         那是一隻有惡意的兔子。| 11|
|         15|          cmn|             我以前在山里。|  7|
|         16|          cmn|            那是一张近照吗