### 30 Days of Spark

#### 任务1：PySpark数据处理

*    步骤1：使用Python链接Spark环境
*    步骤2：创建dateframe数据
*    步骤3：用spark执行以下逻辑：找到数据行数、列数
*    步骤4：用spark筛选class为1的样本
*    步骤5：用spark筛选language >90 或 math> 90的样本


In [4]:
# 1、使用python链接Spark环境
import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName('pyspark') \
    .getOrCreate()
# 原始数据 
# 2、创建dataframe数据
test = spark.createDataFrame([('001','1',100,87,67,83,98), ('002','2',87,81,90,83,83), ('003','3',86,91,83,89,63),
                            ('004','2',65,87,94,73,88), ('005','1',76,62,89,81,98), ('006','3',84,82,85,73,99),
                            ('007','3',56,76,63,72,87), ('008','1',55,62,46,78,71), ('009','2',63,72,87,98,64)],
                             ['number','class','language','math','english','physic','chemical'])
test.show()

+------+-----+--------+----+-------+------+--------+
|number|class|language|math|english|physic|chemical|
+------+-----+--------+----+-------+------+--------+
|   001|    1|     100|  87|     67|    83|      98|
|   002|    2|      87|  81|     90|    83|      83|
|   003|    3|      86|  91|     83|    89|      63|
|   004|    2|      65|  87|     94|    73|      88|
|   005|    1|      76|  62|     89|    81|      98|
|   006|    3|      84|  82|     85|    73|      99|
|   007|    3|      56|  76|     63|    72|      87|
|   008|    1|      55|  62|     46|    78|      71|
|   009|    2|      63|  72|     87|    98|      64|
+------+-----+--------+----+-------+------+--------+



##### 找到数据的行数和列数

In [70]:
# 方法一
column_len = len(test.columns)
print("The length of DataFrame's columns is %s" % column_len)

The length of DataFrame's columns is 7


In [71]:
# 方法一
row_len = len(test.collect())
print("The length of DataFrame's rows is %s" % row_len)

                                                                                

The length of DataFrame's rows is 9


In [74]:
# 方法二
shape = (test.count(), len(test.columns))

print("The length of DataFrame's rows is %s" % shape[0])
print("The length of DataFrame's columns is %s" % shape[1])

The length of DataFrame's rows is 9
The length of DataFrame's columns is 7


In [34]:
# 用spark筛选class为1的样本
test.filter(test['class'] == 1).show()

                                                                                

+------+-----+--------+----+-------+------+--------+
|number|class|language|math|english|physic|chemical|
+------+-----+--------+----+-------+------+--------+
|   001|    1|     100|  87|     67|    83|      98|
|   005|    1|      76|  62|     89|    81|      98|
|   008|    1|      55|  62|     46|    78|      71|
+------+-----+--------+----+-------+------+--------+



In [36]:
# 用spark筛选language>90 或math>90的样本
test.filter((test['language'] > 90) | (test['math'] > 90)).show()

+------+-----+--------+----+-------+------+--------+
|number|class|language|math|english|physic|chemical|
+------+-----+--------+----+-------+------+--------+
|   001|    1|     100|  87|     67|    83|      98|
|   003|    3|      86|  91|     83|    89|      63|
+------+-----+--------+----+-------+------+--------+



-----------------------------

#### 任务2：PySpark数据统计

* 步骤1：读取文件https://cdn.coggle.club/Pokemon.csv
* 步骤2：将读取的进行保存，表头也需要保存
* 步骤3：分析每列的类型，取值个数
* 步骤4：分析每列是否包含缺失值


In [39]:
from pyspark import SparkFiles

# 读取文件
spark.sparkContext.addFile('https://cdn.coggle.club/Pokemon.csv')

# 将读取的进行保存
df = spark.read.csv("file://"+SparkFiles.get("Pokemon.csv"), header=True, inferSchema= True)
df = df.withColumnRenamed('Sp. Atk', 'Sp Atk')
df = df.withColumnRenamed('Sp. Def', 'Sp Def')

                                                                                

In [41]:
df.show()

                                                                                

+--------------------+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|                Name|Type 1|Type 2|Total| HP|Attack|Defense|Sp Atk|Sp Def|Speed|Generation|Legendary|
+--------------------+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|           Bulbasaur| Grass|Poison|  318| 45|    49|     49|    65|    65|   45|         1|    false|
|             Ivysaur| Grass|Poison|  405| 60|    62|     63|    80|    80|   60|         1|    false|
|            Venusaur| Grass|Poison|  525| 80|    82|     83|   100|   100|   80|         1|    false|
|VenusaurMega Venu...| Grass|Poison|  625| 80|   100|    123|   122|   120|   80|         1|    false|
|          Charmander|  Fire|  null|  309| 39|    52|     43|    60|    50|   65|         1|    false|
|          Charmeleon|  Fire|  null|  405| 58|    64|     58|    80|    65|   80|         1|    false|
|           Charizard|  Fire|Flying|  534| 78|    84|     78|   109|    8

##### 分析每一列的类型和取值个数

In [68]:
# 方法一
df.dtypes

[('Name', 'string'),
 ('Type 1', 'string'),
 ('Type 2', 'string'),
 ('Total', 'int'),
 ('HP', 'int'),
 ('Attack', 'int'),
 ('Defense', 'int'),
 ('Sp Atk', 'int'),
 ('Sp Def', 'int'),
 ('Speed', 'int'),
 ('Generation', 'int'),
 ('Legendary', 'boolean')]

In [69]:
# 方法二
df.printSchema()

root
 |-- Name: string (nullable = true)
 |-- Type 1: string (nullable = true)
 |-- Type 2: string (nullable = true)
 |-- Total: integer (nullable = true)
 |-- HP: integer (nullable = true)
 |-- Attack: integer (nullable = true)
 |-- Defense: integer (nullable = true)
 |-- Sp Atk: integer (nullable = true)
 |-- Sp Def: integer (nullable = true)
 |-- Speed: integer (nullable = true)
 |-- Generation: integer (nullable = true)
 |-- Legendary: boolean (nullable = true)



In [61]:
df.select('Name').count()

800

In [83]:
# 方法一：以去重的思想去分析列中的取值个数
# 可采用两种方法

# df.select('Name').drop_duplicates().count()

df.select('Name').distinct().count()

                                                                                

799

In [80]:
columns_list = df.columns

In [81]:
columns_list

['Name',
 'Type 1',
 'Type 2',
 'Total',
 'HP',
 'Attack',
 'Defense',
 'Sp Atk',
 'Sp Def',
 'Speed',
 'Generation',
 'Legendary']

In [95]:
for i in columns_list:
    value = df.select(i).drop_duplicates().count()
    print("列 %s 的取值为：%s" % (i, value))

列 Name 的取值为：799
列 Type 1 的取值为：18
列 Type 2 的取值为：19
列 Total 的取值为：200
列 HP 的取值为：94
列 Attack 的取值为：111
列 Defense 的取值为：103
列 Sp Atk 的取值为：105
列 Sp Def 的取值为：92
列 Speed 的取值为：108
列 Generation 的取值为：6
列 Legendary 的取值为：2


In [96]:
# 方法二：使用聚合函数 countDistinct
import pyspark.sql.functions as F
for i in columns_list:
    print(df.agg(F.countDistinct(i).alias(i)).collect())



[Row(Name=799)]
[Row(Type 1=18)]
[Row(Type 2=18)]
[Row(Total=200)]
[Row(HP=94)]
[Row(Attack=111)]
[Row(Defense=103)]
[Row(Sp Atk=105)]
[Row(Sp Def=92)]
[Row(Speed=108)]
[Row(Generation=6)]
[Row(Legendary=2)]


> 会发现上面的两个结果中，对于列“Type 2”的结果有所不同， 检查数据后发现是因为“Type 2”中包含有却是之的数据，在第一种方法中，会将空值“NULL”当作一个值去统计，而使用`countDisinct`函数，他会排除出空值数据后再进行统计。
> 下面先分析每列中是否包含有缺失值，然后再重新使用方法一统计。

##### 分析每列是否包含缺失值

In [101]:
# 增加对每一列进行去重处理后再统计取值
for i in columns_list:
    value = df.select(i).dropna().drop_duplicates().count()
    print("列 %s 的取值为：%s" % (i, value))

列 Name 的取值为：799
列 Type 1 的取值为：18
列 Type 2 的取值为：18
列 Total 的取值为：200
列 HP 的取值为：94
列 Attack 的取值为：111
列 Defense 的取值为：103
列 Sp Atk 的取值为：105
列 Sp Def 的取值为：92
列 Speed 的取值为：108
列 Generation 的取值为：6
列 Legendary 的取值为：2


In [117]:
#统计每列数据缺失占比情况
df.agg(*[(1 - (F.count(c) / F.count('*'))).alias(c) for c in df.columns]).show()

+----+------+-------------------+-----+---+------+-------+------+------+-----+----------+---------+
|Name|Type 1|             Type 2|Total| HP|Attack|Defense|Sp Atk|Sp Def|Speed|Generation|Legendary|
+----+------+-------------------+-----+---+------+-------+------+------+-----+----------+---------+
| 0.0|   0.0|0.48250000000000004|  0.0|0.0|   0.0|    0.0|   0.0|   0.0|  0.0|       0.0|      0.0|
+----+------+-------------------+-----+---+------+-------+------+------+-----+----------+---------+



In [115]:
# 分析每列中缺失值个数
df_agg = df.agg(*[F.count(F.when(F.isnull(c), c)).alias(c) for c in df.columns])

In [116]:
df_agg.show()

+----+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|Name|Type 1|Type 2|Total| HP|Attack|Defense|Sp Atk|Sp Def|Speed|Generation|Legendary|
+----+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|   0|     0|   386|    0|  0|     0|      0|     0|     0|    0|         0|        0|
+----+------+------+-----+---+------+-------+------+------+-----+----------+---------+

