### Colab 이용해서 Pyspark를 사용하려면 아래 코드를 실행시켜야 한다.

In [None]:
def get_setting() :
    !apt-get install openjdk-8-jdk-headless
    !wget -q https://mirror.navercorp.com/apache/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
    !tar -xvf spark-3.1.2-bin-hadoop3.2.tgz
    !pip install findspark
    import os
    os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
    os.environ["SPARK_HOME"] = "/content/spark-3.1.2-bin-hadoop3.2"
    import findspark
    findspark.init()

In [None]:
get_setting()

Spark는 Session을 만든 뒤 해당 session 안에서 코드를 돌릴 수 있다.

In [None]:
import pyspark

spark = pyspark.sql.SparkSession.builder.appName("test").master("local[*]").getOrCreate()

In [None]:
from pyspark.sql import SparkSession
import pandas as pd

In [None]:
sp = SparkSession.builder.getOrCreate()

In [None]:
sp

#### Pandas 데이터 프레임을 spark 형태로 바꾸는 법

In [None]:
data = pd.DataFrame({"PLAYER" : ["MESSI", "RONALDO", "NEYNMAR", "DE BRYUNE"],
                     "NATION" : ["ARG", "POR", "BRA", "BEL"]})

In [None]:
data

Unnamed: 0,PLAYER,NATION
0,MESSI,ARG
1,RONALDO,POR
2,NEYNMAR,BRA
3,DE BRYUNE,BEL


#### pandas 형태로 만들어진 데이터를 spark의 createDataFrame 메서드를 이용해 변환한다.

In [None]:
spark_df = sp.createDataFrame(data)

In [None]:
spark_df.show()

+---------+------+
|   PLAYER|NATION|
+---------+------+
|    MESSI|   ARG|
|  RONALDO|   POR|
|  NEYNMAR|   BRA|
|DE BRYUNE|   BEL|
+---------+------+



만들어진 데이터에 대해 show 메서드를 사용해야 데이터를 확인할 수 있다.

In [None]:
spark_df.show(3)

+-------+------+
| PLAYER|NATION|
+-------+------+
|  MESSI|   ARG|
|RONALDO|   POR|
|NEYNMAR|   BRA|
+-------+------+
only showing top 3 rows



show 메서드 안에 숫자를 입력하는 것은 row 수를 의미한다.

In [None]:
spark_df.printSchema()

root
 |-- PLAYER: string (nullable = true)
 |-- NATION: string (nullable = true)



데이터의 스키마는 printSchema로 확인할 수 있다.

In [None]:
from pyspark.sql import Row

개별 row를 생성하여 데이터에 추가하는 방법도 있다.

In [None]:
sp = SparkSession.builder.getOrCreate()

In [None]:
use_Row = sp.createDataFrame([
                                 Row(NAME = 'MESSI', NATION = 'ARG', NUM = 10),
                                 Row(NAME = 'RONALDO', NATION = 'POR', NUM = 7),
                                 Row(NAME = 'NEYMAR', NATION = 'BRA', NUM = 10),
                                 Row(NAME = 'DE BRUYNE', NATION = 'BEL', NUM = 17)])

In [None]:
use_Row.show()

+---------+------+---+
|     NAME|NATION|NUM|
+---------+------+---+
|    MESSI|   ARG| 10|
|  RONALDO|   POR|  7|
|   NEYMAR|   BRA| 10|
|DE BRUYNE|   BEL| 17|
+---------+------+---+



pandas -> spark로 변환하는 것 외에 spark -> pandas로 변환하는 방법도 있다.

toPandas()를 사용하면 spark 데이터를 pandas 데이터 형태로 바꿀 수 있다.

In [None]:
sp_to_pd = use_Row.toPandas()

In [None]:
sp_to_pd

Unnamed: 0,NAME,NATION,NUM
0,MESSI,ARG,10
1,RONALDO,POR,7
2,NEYMAR,BRA,10
3,DE BRUYNE,BEL,17
