In [76]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as f
import pandas as pd

In [77]:
spark = SparkSession.builder.getOrCreate()

In [111]:
data = pd.DataFrame({'name' : ['John', 'Mike', 'Lisa', 'Paul', 'Serena'], 'age' : [18, 39, 24, 67, 45],
                    'income' : [100, 300, 1000, 530, 4300]})

In [112]:
df = spark.createDataFrame(data)

In [113]:
df.show()

+------+---+------+
|  name|age|income|
+------+---+------+
|  John| 18|   100|
|  Mike| 39|   300|
|  Lisa| 24|  1000|
|  Paul| 67|   530|
|Serena| 45|  4300|
+------+---+------+



#### dtypes로 각 column별 데이터 타입 확인

In [114]:
df.dtypes

[('name', 'string'), ('age', 'bigint'), ('income', 'bigint')]

#### printSchema로  dtypes와 비슷하긴 하지만 Tree 형태로 column별 데이터 타입 반환

In [115]:
df.printSchema()

root
 |-- name: string (nullable = true)
 |-- age: long (nullable = true)
 |-- income: long (nullable = true)



#### replace는 대체 할 값, 대체 값, subset 형태로 가능하다.
- 단, 동일한 데이터 타입간의 변환만 가능하다.

In [116]:
df.replace(67, 60, 'age').show()

+------+---+------+
|  name|age|income|
+------+---+------+
|  John| 18|   100|
|  Mike| 39|   300|
|  Lisa| 24|  1000|
|  Paul| 60|   530|
|Serena| 45|  4300|
+------+---+------+



#### summary는 describe와 기능이 유사하다.

In [117]:
df.summary().show()

+-------+------+------------------+------------------+
|summary|  name|               age|            income|
+-------+------+------------------+------------------+
|  count|     5|                 5|                 5|
|   mean|  null|              38.6|            1246.0|
| stddev|  null|19.269146322554096|1739.8505682960247|
|    min|  John|                18|               100|
|    25%|  null|                24|               300|
|    50%|  null|                39|               530|
|    75%|  null|                45|              1000|
|    max|Serena|                67|              4300|
+-------+------+------------------+------------------+



#### between은 True or False로 값을 반환한다.

In [118]:
df.withColumn('High', df.income.between(1000,4500)).show()

+------+---+------+-----+
|  name|age|income| High|
+------+---+------+-----+
|  John| 18|   100|false|
|  Mike| 39|   300|false|
|  Lisa| 24|  1000| true|
|  Paul| 67|   530|false|
|Serena| 45|  4300| true|
+------+---+------+-----+



#### contains는 특정 값을 포함하는지에 대한 여부를 반환한다.

In [119]:
df.name.contains('e')

Column<'contains(name, e)'>

column형태로 반환되면 filter문과 함께 쓰면 된다.

In [124]:
df.filter(df.name.contains('e')).show()

+------+---+------+
|  name|age|income|
+------+---+------+
|  Mike| 39|   300|
|Serena| 45|  4300|
+------+---+------+



In [126]:
df.filter(df.income.between(0,1000)).show()

+----+---+------+
|name|age|income|
+----+---+------+
|John| 18|   100|
|Mike| 39|   300|
|Lisa| 24|  1000|
|Paul| 67|   530|
+----+---+------+



#### when은 조건절, 만족할 때 값으로 지정하여 사용한다.

In [130]:
df.select(f.when(df.age.between(20, 29), 1).otherwise(0)).show()

+---------------------------------------------------------+
|CASE WHEN ((age >= 20) AND (age <= 29)) THEN 1 ELSE 0 END|
+---------------------------------------------------------+
|                                                        0|
|                                                        0|
|                                                        1|
|                                                        0|
|                                                        0|
+---------------------------------------------------------+



In [131]:
df.filter(df.age.between(20, 29)).show()

+----+---+------+
|name|age|income|
+----+---+------+
|Lisa| 24|  1000|
+----+---+------+

