#DataFrame
DataFrame là một kiểu dữ liệu collection phân tán, được tổ chức thành các cột được đặt tên. Về mặt khái niệm, nó tương đương với các bảng quan hệ (relational tables) đi kèm với các kỹ thuật tối ưu tính toán.

DataFrame có thể được xây dựng từ nhiều nguồn dữ liệu khác nhau như Hive table, các file dữ liệu có cấu trúc hay bán cấu trúc (csv, json), các hệ cơ sở dữ liệu phổ biến (MySQL, MongoDB, Cassandra), hoặc RDDs hiện hành. API này được thiết kế cho các ứng dụng Big Data và Data Science hiện đại. Kiểu dữ liệu này được lấy cảm hứng từ DataFrame trong Lập trình R và Pandas trong Python hứa hẹn mang lại hiệu suất tính toán cao hơn. (nguồn: 
https://ongxuanhong.wordpress.com/2016/05/08/lam-viec-voi-spark-dataframes-truy-van-co-ban/#:~:text=DataFrame%20l%C3%A0%20m%E1%BB%99t%20ki%E1%BB%83u%20d%E1%BB%AF,c%C3%A1c%20c%E1%BB%99t%20%C4%91%C6%B0%E1%BB%A3c%20%C4%91%E1%BA%B7t%20t%C3%AAn.&text=DataFrame%20c%C3%B3%20th%E1%BB%83%20%C4%91%C6%B0%E1%BB%A3c%20x%C3%A2y,)%2C%20ho%E1%BA%B7c%20RDDs%20hi%E1%BB%87n%20h%C3%A0nh.)

In [1]:
!pip install pyspark
from pyspark import *
from pyspark.sql import *

Collecting pyspark
[?25l  Downloading https://files.pythonhosted.org/packages/45/b0/9d6860891ab14a39d4bddf80ba26ce51c2f9dc4805e5c6978ac0472c120a/pyspark-3.1.1.tar.gz (212.3MB)
[K     |████████████████████████████████| 212.3MB 72kB/s 
[?25hCollecting py4j==0.10.9
[?25l  Downloading https://files.pythonhosted.org/packages/9e/b6/6a4fb90cd235dc8e265a6a2067f2a2c99f0d91787f06aca4bcf7c23f3f80/py4j-0.10.9-py2.py3-none-any.whl (198kB)
[K     |████████████████████████████████| 204kB 42.1MB/s 
[?25hBuilding wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.1.1-py2.py3-none-any.whl size=212767604 sha256=5ee600e1b0a35ab4f70b503581e429f92ebb5ffe051eefb102d642d99380bd61
  Stored in directory: /root/.cache/pip/wheels/0b/90/c0/01de724414ef122bd05f056541fb6a0ecf47c7ca655f8b3c0f
Successfully built pyspark
Installing collected packages: py4j, pyspark
Successfully installed py4j-0.10.9 pyspark-3.1.1


In [2]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.read.csv('data.csv', header = True, inferSchema = True)
df.show()

+---+-------+--------------------+--------------------+------------------+
|_c0|movieId|               title|              genres|        avg_rating|
+---+-------+--------------------+--------------------+------------------+
|  0|      1|    Toy Story (1995)|Adventure|Animati...| 3.951883701883702|
|  1|      2|      Jumanji (1995)|Adventure|Childre...|3.2641764176417642|
|  2|      3|Grumpier Old Men ...|      Comedy|Romance|3.1927803379416284|
|  3|      4|Waiting to Exhale...|Comedy|Drama|Romance|3.0267175572519083|
|  4|      5|Father of the Bri...|              Comedy|3.1445686900958467|
|  5|      6|         Heat (1995)|Action|Crime|Thri...| 3.830685618729097|
|  6|      7|      Sabrina (1995)|      Comedy|Romance| 3.393712574850299|
|  7|      8| Tom and Huck (1995)|  Adventure|Children|3.3133333333333335|
|  8|      9| Sudden Death (1995)|              Action|3.0392670157068062|
|  9|     10|    GoldenEye (1995)|Action|Adventure|...| 3.422635135135135|
| 10|     11|American Pre

In [3]:
df.printSchema() 

root
 |-- _c0: integer (nullable = true)
 |-- movieId: integer (nullable = true)
 |-- title: string (nullable = true)
 |-- genres: string (nullable = true)
 |-- avg_rating: double (nullable = true)



In [4]:
df.columns

['_c0', 'movieId', 'title', 'genres', 'avg_rating']

In [6]:
df.count() # số dòng dữ liệu

13950

In [8]:
df.describe().show() #các thông tin mô tả df

+-------+-----------------+-----------------+--------------------+------------------+------------------+
|summary|              _c0|          movieId|               title|            genres|        avg_rating|
+-------+-----------------+-----------------+--------------------+------------------+------------------+
|  count|            13950|            13950|               13950|             13950|             13950|
|   mean|8752.473333333333|32093.99111111111|                null|              null|3.2128310133324427|
| stddev|6351.945635036617|36405.04321032151|                null|              null|0.7922779009469872|
|    min|                0|                1|"11'09\""01 - Sep...|(no genres listed)|               0.5|
|    max|            27154|           130642|À nous la liberté...|           Western|               5.0|
+-------+-----------------+-----------------+--------------------+------------------+------------------+



In [11]:
df.describe('avg_rating').show() #mô tả cột

+-------+------------------+------------------+
|summary|        avg_rating|            genres|
+-------+------------------+------------------+
|  count|             13950|             13950|
|   mean|3.2128310133324427|              null|
| stddev|0.7922779009469872|              null|
|    min|               0.5|(no genres listed)|
|    max|               5.0|           Western|
+-------+------------------+------------------+



In [12]:
df.select('movieId','avg_rating').show() # lấy dữ liệu theo tên cột

+-------+------------------+
|movieId|        avg_rating|
+-------+------------------+
|      1| 3.951883701883702|
|      2|3.2641764176417642|
|      3|3.1927803379416284|
|      4|3.0267175572519083|
|      5|3.1445686900958467|
|      6| 3.830685618729097|
|      7| 3.393712574850299|
|      8|3.3133333333333335|
|      9|3.0392670157068062|
|     10| 3.422635135135135|
|     11| 3.710035005834306|
|     12|            2.6875|
|     13|  3.24025974025974|
|     14|               3.4|
|     15|2.7211538461538463|
|     16| 3.838267543859649|
|     17|3.9370829361296473|
|     18|3.3423076923076924|
|     19|2.5894736842105264|
|     20| 2.876237623762376|
+-------+------------------+
only showing top 20 rows



In [17]:
df.filter(df.avg_rating >= '5').show() #lọc theo điều kiện

+----+-------+--------------------+--------------------+----------+
| _c0|movieId|               title|              genres|avg_rating|
+----+-------+--------------------+--------------------+----------+
| 132|    134|Sonic Outlaws (1995)|         Documentary|       5.0|
| 663|    672|   Tarantella (1995)|               Drama|       5.0|
| 715|    727|  War Stories (1995)|         Documentary|       5.0|
|1337|   1368|Forbidden Christ,...|               Drama|       5.0|
|1432|   1470|Rhyme & Reason (1...|         Documentary|       5.0|
|1647|   1706|          Tar (1996)|               Drama|       5.0|
|1696|   1764|      Tainted (1998)|     Comedy|Thriller|       5.0|
|1740|   1819|Storefront Hitchc...| Documentary|Musical|       5.0|
|1788|   1872|       Go Now (1995)|               Drama|       5.0|
|2223|   2308| Detroit 9000 (1973)|        Action|Crime|       5.0|
|2848|   2934|Amor brujo, El (L...|       Drama|Musical|       5.0|
|3067|   3154|Blood on the Sun ...|           Dr

In [21]:
df.filter(df.avg_rating >= '5').count()

160

In [22]:
df.filter((df.avg_rating == '3') & (df.movieId >= '10')).show() #lọc nhiều tham số

+---+-------+--------------------+--------------------+----------+
|_c0|movieId|               title|              genres|avg_rating|
+---+-------+--------------------+--------------------+----------+
| 32|     33|Wings of Courage ...|Adventure|Romance...|       3.0|
| 58|     59|Confessional, The...|       Drama|Mystery|       3.0|
|125|    127|Silences of the P...|               Drama|       3.0|
|134|    136|From the Journals...|         Documentary|       3.0|
|137|    139|       Target (1995)|        Action|Drama|       3.0|
|140|    142|Shadows (Cienie) ...|               Drama|       3.0|
|195|    197|Stars Fell on Hen...|               Drama|       3.0|
|238|    241|        Fluke (1995)|      Children|Drama|       3.0|
|281|    284|New York Cop (Nyû...|        Action|Crime|       3.0|
|395|    399|Girl in the Cadil...|               Drama|       3.0|
|396|    400|       Homage (1995)|               Drama|       3.0|
|405|    409|Above the Rim (1994)|         Crime|Drama|       

In [27]:
df.orderBy(df.avg_rating).show() #sắp xếp từ nhỏ -> lớn theo cột

+----+-------+--------------------+--------------------+----------+
| _c0|movieId|               title|              genres|avg_rating|
+----+-------+--------------------+--------------------+----------+
|4993|   5089|Honky Tonk Freewa...|              Comedy|       0.5|
|5880|   5979|Attack of the Cra...|       Horror|Sci-Fi|       0.5|
|5033|   5129| Big Bad Love (2001)|               Drama|       0.5|
|1639|   1697|         Bang (1995)|         Crime|Drama|       0.5|
|5053|   5149|Cattle Queen of M...|             Western|       0.5|
|3064|   3151|Bat Whispers, The...| Crime|Drama|Mystery|       0.5|
|5086|   5182|Hawk the Slayer (...|      Action|Fantasy|       0.5|
|4947|   5043| Formula, The (1980)|            Thriller|       0.5|
|5098|   5195|Zombie Lake (Lac ...|              Horror|       0.5|
|3512|   3603|Gay Deceivers, Th...|              Comedy|       0.5|
|5819|   5918|Alone in the Dark...|              Horror|       0.5|
|5180|   5277|Evil That Men Do,...|     Action|T

In [29]:
df.orderBy(df.avg_rating.desc()).show() #sắp xếp từ lớn -> nhỏ theo cột

+----+-------+--------------------+--------------------+----------+
| _c0|movieId|               title|              genres|avg_rating|
+----+-------+--------------------+--------------------+----------+
|3067|   3154|Blood on the Sun ...|           Drama|War|       5.0|
|4136|   4230|Too Much Sleep (1...|              Comedy|       5.0|
|4167|   4261|       Lilies (1996)|Drama|Fantasy|Rom...|       5.0|
| 663|    672|   Tarantella (1995)|               Drama|       5.0|
|4253|   4348|Whatever Happened...|              Comedy|       5.0|
| 132|    134|Sonic Outlaws (1995)|         Documentary|       5.0|
|4268|   4363|Too Late the Hero...|          Action|War|       5.0|
|1647|   1706|          Tar (1996)|               Drama|       5.0|
|4572|   4667|Slaves of New Yor...|               Drama|       5.0|
|1740|   1819|Storefront Hitchc...| Documentary|Musical|       5.0|
|4773|   4869|Burnt Money (Plat...|Action|Crime|Dram...|       5.0|
|2223|   2308| Detroit 9000 (1973)|        Actio