#### Dataframes no PySpark podem ser criados principalmente de duas maneiras:
* De um conjunto de dados distribuído resiliente (RDD) existente, que é uma estrutura de dados fundamental no Spark
* De fontes de arquivos externas, como CSV, TXT, JSON

#### Create PySpark DataFrame from an existing RDD
- Criar um RDD usando método *pirallelize()*
- Converter em um DataFrame usando método *.createDatFrame()* do SparkSession.

In [1]:
# Importing the Libraries
from pyspark import SparkContext
from pyspark.sql import SparkSession

_.getOrCreate() cria e instancia um SparkContext ou SparkSession, e ou, pega uma existente criada anteriormente se houver._

In [2]:
# Create SparkContext
sc = SparkContext.getOrCreate()

22/03/01 14:50:28 WARN Utils: Your hostname, pop-os resolves to a loopback address: 127.0.1.1; using 192.168.1.108 instead (on interface eno1)
22/03/01 14:50:28 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/03/01 14:50:29 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
22/03/01 14:50:29 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


In [3]:
# Create SparkSession
spark = SparkSession.builder.appName('PySpark DataFrame From RDD').getOrCreate()

#### Creating a Resilient Data Structure (RDD)
- Cria um RDD a aprtir de uma tupla de notas
- *.parallelize()* pega a tupla com as notas dos alunos

In [5]:
# Create RDD
rdd = sc.parallelize([('C',85,76,87,91), ('B',85,76,87,91), ("A", 85,78,96,92), ("A", 92,76,89,96)], 4)

In [8]:
# Checking the RDD data type
print(type(rdd))

<class 'pyspark.rdd.RDD'>


#### Convertendo o RDD em PySpark DataFrame
- .createDataFrame() do SparkSession recebe dados como um RDD, uma lista Python ou um DataFrame Pandas.
- usamos RDD como dados
- Criamos uma lista de sub strings, que serão passadas para o atributo schema do método .createDataFrame() 

In [7]:
sub = ['Division','English','Mathematics','Physics','Chemistry']
marks_df = spark.createDataFrame(rdd, schema=sub)

                                                                                

In [None]:
# Checking The dataType of PySpark DataFrame
print(type(marks_df))

In [11]:
# check the schema of our file
marks_df.printSchema()

root
 |-- Division: string (nullable = true)
 |-- English: long (nullable = true)
 |-- Mathematics: long (nullable = true)
 |-- Physics: long (nullable = true)
 |-- Chemistry: long (nullable = true)



In [12]:
# view file contents
marks_df.show()

+--------+-------+-----------+-------+---------+
|Division|English|Mathematics|Physics|Chemistry|
+--------+-------+-----------+-------+---------+
|       C|     85|         76|     87|       91|
|       B|     85|         76|     87|       91|
|       A|     85|         78|     96|       92|
|       A|     92|         76|     89|       96|
+--------+-------+-----------+-------+---------+

