In [3]:
#Cria sessão Spark
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
import pyspark.sql.functions as F
import pandas

In [4]:
#Instância Spark
spark = SparkSession.builder.appName('Curso Pyspark') \
         .config('spark.sql.repl.eagerEval.enabled', True) \
         .getOrCreate()      

In [5]:
# dicionário
dados = [
    {'nome': 'Daiton', 'idade':27},
    {'nome': 'Jefferson', 'idade':41},
    {'nome': 'Livia', 'idade':15},
]


In [6]:
df = spark.createDataFrame(dados)
df

idade,nome
27,Daiton
41,Jefferson
15,Livia


In [7]:
df.printSchema()

root
 |-- idade: long (nullable = true)
 |-- nome: string (nullable = true)



In [9]:
# Tupla
dados2 = [
    ('Daiton', 27),
    ('Jefferson', 41),
    ('Livia', 15)
]


In [10]:
dados2

[('Daiton', 27), ('Jefferson', 41), ('Livia', 15)]

In [11]:
spark.createDataFrame(dados2, ['nome', 'idade'])

nome,idade
Daiton,27
Jefferson,41
Livia,15


In [12]:
# Schema com o tipo de dado

import pyspark.sql.types as T

In [13]:
schema = T.StructType([
    T.StructField('nome', T.StringType(), True),
    T.StructField('idade', T.IntegerType(), True)
])

In [14]:
schema


StructType([StructField('nome', StringType(), True), StructField('idade', IntegerType(), True)])

In [15]:
df1 = spark.createDataFrame(dados2, schema)
df1

nome,idade
Daiton,27
Jefferson,41
Livia,15


In [16]:
df1.printSchema()

root
 |-- nome: string (nullable = true)
 |-- idade: integer (nullable = true)



In [17]:
# Usando a estrutura Row
from pyspark.sql import Row

In [18]:
rdd = [
    Row('Daiton', 27),
    Row('Jefferson', 41),
    Row('Livia', 15)
]

In [19]:
rdd

[<Row('Daiton', 27)>, <Row('Jefferson', 41)>, <Row('Livia', 15)>]

In [20]:
spark.createDataFrame(rdd, "_1 : string,_2 : int").dtypes

[('_1', 'string'), ('_2', 'int')]

In [21]:
spark.createDataFrame(dados, "nome : string, idade : int")

nome,idade
Daiton,27
Jefferson,41
Livia,15
