### 30 Days of Spark

#### 任务1：PySpark数据处理

*    步骤1：使用Python链接Spark环境
*    步骤2：创建dateframe数据
*    步骤3：用spark执行以下逻辑：找到数据行数、列数
*    步骤4：用spark筛选class为1的样本
*    步骤5：用spark筛选language >90 或 math> 90的样本


In [4]:
# 1、使用python链接Spark环境
import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName('pyspark') \
    .getOrCreate()
# 原始数据 
# 2、创建dataframe数据
test = spark.createDataFrame([('001','1',100,87,67,83,98), ('002','2',87,81,90,83,83), ('003','3',86,91,83,89,63),
                            ('004','2',65,87,94,73,88), ('005','1',76,62,89,81,98), ('006','3',84,82,85,73,99),
                            ('007','3',56,76,63,72,87), ('008','1',55,62,46,78,71), ('009','2',63,72,87,98,64)],
                             ['number','class','language','math','english','physic','chemical'])
test.show()

+------+-----+--------+----+-------+------+--------+
|number|class|language|math|english|physic|chemical|
+------+-----+--------+----+-------+------+--------+
|   001|    1|     100|  87|     67|    83|      98|
|   002|    2|      87|  81|     90|    83|      83|
|   003|    3|      86|  91|     83|    89|      63|
|   004|    2|      65|  87|     94|    73|      88|
|   005|    1|      76|  62|     89|    81|      98|
|   006|    3|      84|  82|     85|    73|      99|
|   007|    3|      56|  76|     63|    72|      87|
|   008|    1|      55|  62|     46|    78|      71|
|   009|    2|      63|  72|     87|    98|      64|
+------+-----+--------+----+-------+------+--------+



##### 找到数据的行数和列数

In [70]:
# 方法一
column_len = len(test.columns)
print("The length of DataFrame's columns is %s" % column_len)

The length of DataFrame's columns is 7


In [71]:
# 方法一
row_len = len(test.collect())
print("The length of DataFrame's rows is %s" % row_len)

                                                                                

The length of DataFrame's rows is 9


In [74]:
# 方法二
shape = (test.count(), len(test.columns))

print("The length of DataFrame's rows is %s" % shape[0])
print("The length of DataFrame's columns is %s" % shape[1])

The length of DataFrame's rows is 9
The length of DataFrame's columns is 7


In [34]:
# 用spark筛选class为1的样本
test.filter(test['class'] == 1).show()

                                                                                

+------+-----+--------+----+-------+------+--------+
|number|class|language|math|english|physic|chemical|
+------+-----+--------+----+-------+------+--------+
|   001|    1|     100|  87|     67|    83|      98|
|   005|    1|      76|  62|     89|    81|      98|
|   008|    1|      55|  62|     46|    78|      71|
+------+-----+--------+----+-------+------+--------+



In [36]:
# 用spark筛选language>90 或math>90的样本
test.filter((test['language'] > 90) | (test['math'] > 90)).show()

+------+-----+--------+----+-------+------+--------+
|number|class|language|math|english|physic|chemical|
+------+-----+--------+----+-------+------+--------+
|   001|    1|     100|  87|     67|    83|      98|
|   003|    3|      86|  91|     83|    89|      63|
+------+-----+--------+----+-------+------+--------+



-----------------------------

#### 任务2：PySpark数据统计

* 步骤1：读取文件https://cdn.coggle.club/Pokemon.csv
* 步骤2：将读取的进行保存，表头也需要保存
* 步骤3：分析每列的类型，取值个数
* 步骤4：分析每列是否包含缺失值


In [39]:
from pyspark import SparkFiles

# 读取文件
spark.sparkContext.addFile('https://cdn.coggle.club/Pokemon.csv')

# 将读取的进行保存
df = spark.read.csv("file://"+SparkFiles.get("Pokemon.csv"), header=True, inferSchema= True)
df = df.withColumnRenamed('Sp. Atk', 'Sp Atk')
df = df.withColumnRenamed('Sp. Def', 'Sp Def')

                                                                                

In [41]:
df.show()

                                                                                

+--------------------+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|                Name|Type 1|Type 2|Total| HP|Attack|Defense|Sp Atk|Sp Def|Speed|Generation|Legendary|
+--------------------+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|           Bulbasaur| Grass|Poison|  318| 45|    49|     49|    65|    65|   45|         1|    false|
|             Ivysaur| Grass|Poison|  405| 60|    62|     63|    80|    80|   60|         1|    false|
|            Venusaur| Grass|Poison|  525| 80|    82|     83|   100|   100|   80|         1|    false|
|VenusaurMega Venu...| Grass|Poison|  625| 80|   100|    123|   122|   120|   80|         1|    false|
|          Charmander|  Fire|  null|  309| 39|    52|     43|    60|    50|   65|         1|    false|
|          Charmeleon|  Fire|  null|  405| 58|    64|     58|    80|    65|   80|         1|    false|
|           Charizard|  Fire|Flying|  534| 78|    84|     78|   109|    8

##### 分析每一列的类型和取值个数

In [68]:
# 方法一
df.dtypes

[('Name', 'string'),
 ('Type 1', 'string'),
 ('Type 2', 'string'),
 ('Total', 'int'),
 ('HP', 'int'),
 ('Attack', 'int'),
 ('Defense', 'int'),
 ('Sp Atk', 'int'),
 ('Sp Def', 'int'),
 ('Speed', 'int'),
 ('Generation', 'int'),
 ('Legendary', 'boolean')]

In [69]:
# 方法二
df.printSchema()

root
 |-- Name: string (nullable = true)
 |-- Type 1: string (nullable = true)
 |-- Type 2: string (nullable = true)
 |-- Total: integer (nullable = true)
 |-- HP: integer (nullable = true)
 |-- Attack: integer (nullable = true)
 |-- Defense: integer (nullable = true)
 |-- Sp Atk: integer (nullable = true)
 |-- Sp Def: integer (nullable = true)
 |-- Speed: integer (nullable = true)
 |-- Generation: integer (nullable = true)
 |-- Legendary: boolean (nullable = true)



In [61]:
df.select('Name').count()

800

In [83]:
# 方法一：以去重的思想去分析列中的取值个数
# 可采用两种方法

# df.select('Name').drop_duplicates().count()

df.select('Name').distinct().count()

                                                                                

799

In [80]:
columns_list = df.columns

In [81]:
columns_list

['Name',
 'Type 1',
 'Type 2',
 'Total',
 'HP',
 'Attack',
 'Defense',
 'Sp Atk',
 'Sp Def',
 'Speed',
 'Generation',
 'Legendary']

In [95]:
for i in columns_list:
    value = df.select(i).drop_duplicates().count()
    print("列 %s 的取值为：%s" % (i, value))

列 Name 的取值为：799
列 Type 1 的取值为：18
列 Type 2 的取值为：19
列 Total 的取值为：200
列 HP 的取值为：94
列 Attack 的取值为：111
列 Defense 的取值为：103
列 Sp Atk 的取值为：105
列 Sp Def 的取值为：92
列 Speed 的取值为：108
列 Generation 的取值为：6
列 Legendary 的取值为：2


In [96]:
# 方法二：使用聚合函数 countDistinct
import pyspark.sql.functions as F
for i in columns_list:
    print(df.agg(F.countDistinct(i).alias(i)).collect())



[Row(Name=799)]
[Row(Type 1=18)]
[Row(Type 2=18)]
[Row(Total=200)]
[Row(HP=94)]
[Row(Attack=111)]
[Row(Defense=103)]
[Row(Sp Atk=105)]
[Row(Sp Def=92)]
[Row(Speed=108)]
[Row(Generation=6)]
[Row(Legendary=2)]


> 会发现上面的两个结果中，对于列“Type 2”的结果有所不同， 检查数据后发现是因为“Type 2”中包含有却是之的数据，在第一种方法中，会将空值“NULL”当作一个值去统计，而使用`countDisinct`函数，他会排除出空值数据后再进行统计。
> 下面先分析每列中是否包含有缺失值，然后再重新使用方法一统计。

##### 分析每列是否包含缺失值

In [101]:
# 增加对每一列进行去重处理后再统计取值
for i in columns_list:
    value = df.select(i).dropna().drop_duplicates().count()
    print("列 %s 的取值为：%s" % (i, value))

列 Name 的取值为：799
列 Type 1 的取值为：18
列 Type 2 的取值为：18
列 Total 的取值为：200
列 HP 的取值为：94
列 Attack 的取值为：111
列 Defense 的取值为：103
列 Sp Atk 的取值为：105
列 Sp Def 的取值为：92
列 Speed 的取值为：108
列 Generation 的取值为：6
列 Legendary 的取值为：2


In [117]:
#统计每列数据缺失占比情况
df.agg(*[(1 - (F.count(c) / F.count('*'))).alias(c) for c in df.columns]).show()

+----+------+-------------------+-----+---+------+-------+------+------+-----+----------+---------+
|Name|Type 1|             Type 2|Total| HP|Attack|Defense|Sp Atk|Sp Def|Speed|Generation|Legendary|
+----+------+-------------------+-----+---+------+-------+------+------+-----+----------+---------+
| 0.0|   0.0|0.48250000000000004|  0.0|0.0|   0.0|    0.0|   0.0|   0.0|  0.0|       0.0|      0.0|
+----+------+-------------------+-----+---+------+-------+------+------+-----+----------+---------+



In [115]:
# 分析每列中缺失值个数
df_agg = df.agg(*[F.count(F.when(F.isnull(c), c)).alias(c) for c in df.columns])

In [116]:
df_agg.show()

+----+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|Name|Type 1|Type 2|Total| HP|Attack|Defense|Sp Atk|Sp Def|Speed|Generation|Legendary|
+----+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|   0|     0|   386|    0|  0|     0|      0|     0|     0|    0|         0|        0|
+----+------+------+-----+---+------+-------+------+------+-----+----------+---------+



---------------------------------------------------

#### 任务三：

* 步骤1：读取文件https://cdn.coggle.club/Pokemon.csv
* 步骤2：学习groupby分组聚合的使用
* 步骤3：学习agg分组聚合的使用
* 步骤4：学习transform的使用
* 步骤5：使用groupby、agg、transform，统计数据在Type 1分组下 HP的均值

In [1]:
from pyspark import SparkFiles

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName('pyspark') \
    .getOrCreate()
spark.sparkContext.addFile('https://cdn.coggle.club/Pokemon.csv')

df = spark.read.csv("file://"+SparkFiles.get("Pokemon.csv"), header=True, inferSchema= True)
df = df.withColumnRenamed('Sp. Atk', 'Sp Atk')
df = df.withColumnRenamed('Sp. Def', 'Sp Def')

22/03/09 22:14:22 WARN Utils: Your hostname, DESKTOP-4IJUD8K resolves to a loopback address: 127.0.1.1; using 192.168.31.58 instead (on interface eth0)
22/03/09 22:14:22 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/03/09 22:14:22 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


##### 步骤2：学习groupby分组聚合的使用

PySpark DataFrame 还提供了一种使用常用方法拆分-应用-组合策略来处理分组数据的方法。按特定条件对数据进行分组，对每个组应用一个函数，然后将它们组合回 DataFrame。

In [2]:
df.show()

+--------------------+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|                Name|Type 1|Type 2|Total| HP|Attack|Defense|Sp Atk|Sp Def|Speed|Generation|Legendary|
+--------------------+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|           Bulbasaur| Grass|Poison|  318| 45|    49|     49|    65|    65|   45|         1|    false|
|             Ivysaur| Grass|Poison|  405| 60|    62|     63|    80|    80|   60|         1|    false|
|            Venusaur| Grass|Poison|  525| 80|    82|     83|   100|   100|   80|         1|    false|
|VenusaurMega Venu...| Grass|Poison|  625| 80|   100|    123|   122|   120|   80|         1|    false|
|          Charmander|  Fire|  null|  309| 39|    52|     43|    60|    50|   65|         1|    false|
|          Charmeleon|  Fire|  null|  405| 58|    64|     58|    80|    65|   80|         1|    false|
|           Charizard|  Fire|Flying|  534| 78|    84|     78|   109|    8

`df.groupby()`后可以使用自带基本统计功能的方法得到对应的结果（类似Pandas中GroupBy的用法）：

其中可以指定返回某一列或某几列的统计结果。

* `.count()`：返回每一组的数量，也就是行数。
* `.mean()`：返回每一组的mean。
* `.avg()`： 返回每一组的average。
* `.sum()`：返回每一组的总和。
* `.max()`：返回每一组的最大值。
* `.min()`：返回每一组的最小值。


> 均值(mean)是对恒定的真实值进行测量后，把测量偏离于真实值的所有值进行平均所得的结果；平均值(average)直接对一系列具有内部差异的数值进行的测量值进行的平均结果。均值是“观测值的平均”，平均值是“统计量的平均”

In [5]:
# 按照某一个字段分组 并统计各组的数量
df.groupby('Type 1').count().show()

+--------+-----+
|  Type 1|count|
+--------+-----+
|   Water|  112|
|  Poison|   28|
|   Steel|   27|
|    Rock|   44|
|     Ice|   24|
|   Ghost|   32|
|   Fairy|   17|
| Psychic|   57|
|  Dragon|   32|
|  Flying|    4|
|     Bug|   69|
|Electric|   44|
|    Fire|   52|
|  Ground|   32|
|    Dark|   31|
|Fighting|   27|
|   Grass|   70|
|  Normal|   98|
+--------+-----+



In [15]:
# 按照某一个字段分组 并统计各组的平均值
df.groupby('Type 1').mean("Total", "HP").show()

+--------+------------------+-----------------+
|  Type 1|        avg(Total)|          avg(HP)|
+--------+------------------+-----------------+
|   Water|430.45535714285717|          72.0625|
|  Poison|399.14285714285717|            67.25|
|   Steel| 487.7037037037037|65.22222222222223|
|    Rock|            453.75|65.36363636363636|
|     Ice| 433.4583333333333|             72.0|
|   Ghost|          439.5625|          64.4375|
|   Fairy| 413.1764705882353|74.11764705882354|
| Psychic|475.94736842105266|70.63157894736842|
|  Dragon|         550.53125|          83.3125|
|  Flying|             485.0|            70.75|
|     Bug|378.92753623188406|56.88405797101449|
|Electric|443.40909090909093|59.79545454545455|
|    Fire| 458.0769230769231|69.90384615384616|
|  Ground|             437.5|         73.78125|
|    Dark|  445.741935483871|66.80645161290323|
|Fighting|416.44444444444446|69.85185185185185|
|   Grass|421.14285714285717|67.27142857142857|
|  Normal|401.68367346938777|77.27551020

In [9]:
# 按照某一个字段分组 并统计各组的平均值
df.groupby('Type 1').avg().show()

+--------+------------------+-----------------+------------------+------------------+------------------+------------------+------------------+------------------+
|  Type 1|        avg(Total)|          avg(HP)|       avg(Attack)|      avg(Defense)|       avg(Sp Atk)|       avg(Sp Def)|        avg(Speed)|   avg(Generation)|
+--------+------------------+-----------------+------------------+------------------+------------------+------------------+------------------+------------------+
|   Water|430.45535714285717|          72.0625| 74.15178571428571| 72.94642857142857|           74.8125| 70.51785714285714| 65.96428571428571| 2.857142857142857|
|  Poison|399.14285714285717|            67.25| 74.67857142857143| 68.82142857142857| 60.42857142857143| 64.39285714285714| 63.57142857142857|2.5357142857142856|
|   Steel| 487.7037037037037|65.22222222222223| 92.70370370370371|126.37037037037037| 67.51851851851852| 80.62962962962963| 55.25925925925926|3.8518518518518516|
|    Rock|            453.75

In [10]:
# 按照某一个字段分组 并统计各组各字段的最大值
df.groupby('Type 1').max().show()

+--------+----------+-------+-----------+------------+-----------+-----------+----------+---------------+
|  Type 1|max(Total)|max(HP)|max(Attack)|max(Defense)|max(Sp Atk)|max(Sp Def)|max(Speed)|max(Generation)|
+--------+----------+-------+-----------+------------+-----------+-----------+----------+---------------+
|   Water|       770|    170|        155|         180|        180|        160|       122|              6|
|  Poison|       535|    105|        106|         120|        100|        123|       130|              6|
|   Steel|       700|    100|        150|         230|        150|        150|       110|              6|
|    Rock|       700|    123|        165|         200|        160|        150|       150|              6|
|     Ice|       580|    110|        130|         184|        130|        200|       110|              6|
|   Ghost|       680|    150|        165|         145|        170|        135|       130|              6|
|   Fairy|       680|    126|        131|     

In [13]:
# 按照某一个字段分组 返回指定字段的最大值
df.groupby('Type 1').max("HP").show()

+--------+-------+
|  Type 1|max(HP)|
+--------+-------+
|   Water|    170|
|  Poison|    105|
|   Steel|    100|
|    Rock|    123|
|     Ice|    110|
|   Ghost|    150|
|   Fairy|    126|
| Psychic|    190|
|  Dragon|    125|
|  Flying|     85|
|     Bug|     86|
|Electric|     90|
|    Fire|    115|
|  Ground|    115|
|    Dark|    126|
|Fighting|    144|
|   Grass|    123|
|  Normal|    255|
+--------+-------+



In [11]:
# 按照某一个字段分组 并统计各组各字段的最小值
df.groupby('Type 1').min().show()

+--------+----------+-------+-----------+------------+-----------+-----------+----------+---------------+
|  Type 1|min(Total)|min(HP)|min(Attack)|min(Defense)|min(Sp Atk)|min(Sp Def)|min(Speed)|min(Generation)|
+--------+----------+-------+-----------+------------+-----------+-----------+----------+---------------+
|   Water|       200|     20|         10|          20|         10|         20|        15|              1|
|  Poison|       245|     35|         43|          35|         30|         40|        25|              1|
|   Steel|       300|     40|         24|          50|         24|         37|        23|              2|
|    Rock|       280|     30|         40|          40|         10|         25|        10|              1|
|     Ice|       250|     36|         30|          15|         30|         30|        25|              1|
|   Ghost|       275|     20|         30|          30|         30|         33|        20|              1|
|   Fairy|       218|     35|         20|     

In [12]:
# 按照某一个字段分组 并统计各组各字段的总和
df.groupby('Type 1').sum().show()

+--------+----------+-------+-----------+------------+-----------+-----------+----------+---------------+
|  Type 1|sum(Total)|sum(HP)|sum(Attack)|sum(Defense)|sum(Sp Atk)|sum(Sp Def)|sum(Speed)|sum(Generation)|
+--------+----------+-------+-----------+------------+-----------+-----------+----------+---------------+
|   Water|     48211|   8071|       8305|        8170|       8379|       7898|      7388|            320|
|  Poison|     11176|   1883|       2091|        1927|       1692|       1803|      1780|             71|
|   Steel|     13168|   1761|       2503|        3412|       1823|       2177|      1492|            104|
|    Rock|     19965|   2876|       4086|        4435|       2787|       3321|      2460|            152|
|     Ice|     10403|   1728|       1746|        1714|       1861|       1831|      1523|             85|
|   Ghost|     14066|   2062|       2361|        2598|       2539|       2447|      2059|            134|
|   Fairy|      7024|   1260|       1046|     

##### 步骤3：学习agg分组聚合的使用

使用 agg() 函数，可以一次计算多个聚合。即可以对多列使用不同的集合函数进行聚合



In [31]:
from pyspark.sql.functions import sum,avg,max,min,mean,count
df.groupby('Type 1','Type 2').agg(count('HP').alias('总数'),
                        max('HP').alias('最大HP值'),
                        min('Attack').alias('最小攻击力')).show()

+--------+-------+----+--------+----------+
|  Type 1| Type 2|总数|最大HP值|最小攻击力|
+--------+-------+----+--------+----------+
|Fighting|Psychic|   3|      60|        40|
|Fighting|  Steel|   2|      70|       110|
|  Flying| Dragon|   2|      85|        30|
|   Grass|Psychic|   2|      95|        40|
|   Water|   null|  59|     170|        10|
|     Bug|  Steel|   7|      75|        69|
|   Ghost| Flying|   2|     150|        50|
|  Poison|   Dark|   3|     103|        63|
|     Bug|   Fire|   2|      85|        60|
|   Steel|   Rock|   3|      70|        70|
|   Water|  Ghost|   2|     100|        40|
|   Steel|  Ghost|   4|      60|        50|
|   Water|    Ice|   3|     130|        70|
|  Poison|   null|  15|     105|        43|
|   Steel|   null|   5|      80|        55|
|    Rock|  Steel|   3|      60|        42|
|    Rock|Psychic|   2|      70|        55|
|Electric|  Steel|   3|      70|        35|
|   Steel| Dragon|   1|     100|       120|
|    Dark|    Ice|   2|      70|        95

在 PySpark DataFrame 上，可以使用 where() 或 filter() 函数来过滤聚合数据的行

In [39]:
from pyspark.sql.functions import sum,avg,max,min,mean,count,col
df.groupby('Type 1','Type 2').agg(count('HP').alias('总数'),
                        max('HP').alias('最大HP值'),
                        min('Attack').alias('最小攻击力')) \
                        .where(col('最小攻击力')>=40).show()

+--------+-------+----+--------+----------+
|  Type 1| Type 2|总数|最大HP值|最小攻击力|
+--------+-------+----+--------+----------+
|Fighting|Psychic|   3|      60|        40|
|Fighting|  Steel|   2|      70|       110|
|   Grass|Psychic|   2|      95|        40|
|     Bug|  Steel|   7|      75|        69|
|   Ghost| Flying|   2|     150|        50|
|  Poison|   Dark|   3|     103|        63|
|     Bug|   Fire|   2|      85|        60|
|   Steel|   Rock|   3|      70|        70|
|   Water|  Ghost|   2|     100|        40|
|   Steel|  Ghost|   4|      60|        50|
|   Water|    Ice|   3|     130|        70|
|  Poison|   null|  15|     105|        43|
|   Steel|   null|   5|      80|        55|
|    Rock|  Steel|   3|      60|        42|
|    Rock|Psychic|   2|      70|        55|
|   Steel| Dragon|   1|     100|       120|
|    Dark|    Ice|   2|      70|        95|
|     Bug| Ground|   2|      60|        45|
|   Water| Poison|   3|      80|        40|
|    Rock|   null|   9|      97|        45

##### 步骤4：学习transform的使用

返回一个新的 DataFrame。主要用于调用自定义的函数去处理DataFrame。

In [44]:
df.show()

+--------------------+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|                Name|Type 1|Type 2|Total| HP|Attack|Defense|Sp Atk|Sp Def|Speed|Generation|Legendary|
+--------------------+------+------+-----+---+------+-------+------+------+-----+----------+---------+
|           Bulbasaur| Grass|Poison|  318| 45|    49|     49|    65|    65|   45|         1|    false|
|             Ivysaur| Grass|Poison|  405| 60|    62|     63|    80|    80|   60|         1|    false|
|            Venusaur| Grass|Poison|  525| 80|    82|     83|   100|   100|   80|         1|    false|
|VenusaurMega Venu...| Grass|Poison|  625| 80|   100|    123|   122|   120|   80|         1|    false|
|          Charmander|  Fire|  null|  309| 39|    52|     43|    60|    50|   65|         1|    false|
|          Charmeleon|  Fire|  null|  405| 58|    64|     58|    80|    65|   80|         1|    false|
|           Charizard|  Fire|Flying|  534| 78|    84|     78|   109|    8

In [50]:
# def cast_all_to_float(input_df):
#     return input_df.select([(col(col_name) + 10) for col_name in input_df.columns])
def sort_columns_asc(input_df):
    return input_df.select(*sorted(input_df.columns))
df.transform(sort_columns_asc).show()



+------+-------+----------+---+---------+--------------------+------+------+-----+-----+------+------+
|Attack|Defense|Generation| HP|Legendary|                Name|Sp Atk|Sp Def|Speed|Total|Type 1|Type 2|
+------+-------+----------+---+---------+--------------------+------+------+-----+-----+------+------+
|    49|     49|         1| 45|    false|           Bulbasaur|    65|    65|   45|  318| Grass|Poison|
|    62|     63|         1| 60|    false|             Ivysaur|    80|    80|   60|  405| Grass|Poison|
|    82|     83|         1| 80|    false|            Venusaur|   100|   100|   80|  525| Grass|Poison|
|   100|    123|         1| 80|    false|VenusaurMega Venu...|   122|   120|   80|  625| Grass|Poison|
|    52|     43|         1| 39|    false|          Charmander|    60|    50|   65|  309|  Fire|  null|
|    64|     58|         1| 58|    false|          Charmeleon|    80|    65|   80|  405|  Fire|  null|
|    84|     78|         1| 78|    false|           Charizard|   109|    