In [24]:
# Importando as bibliotecas utilizadas
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
import pyspark.sql.types as T
from pyspark.sql import Row

In [3]:
# Criando a sessão, nomeando e configurando para mostrar tabela do tipo pandas 
spark = (
    SparkSession.builder
    .appName('PySpark - Criando um Dataframe')
    .config('spark.sql.repl.eagerEval.enabled', True)
    .getOrCreate()
)

In [9]:
# Criando uma lista de dicionários {coluna: valor}
dicionarios = [
    {'nome': 'joao', 'idade': 23},
    {'nome': 'pedro', 'idade': 29},
    {'nome': 'paulo', 'idade': 35}
]
dicionario

[{'nome': 'joao', 'idade': 23},
 {'nome': 'pedro', 'idade': 29},
 {'nome': 'paulo', 'idade': 35}]

In [10]:
# Transformando os dicionários em um dataframe spark 
df = spark.createDataFrame(dicionarios)
df

idade,nome
23,joao
29,pedro
35,paulo


In [12]:
# Criando uma lista de tuplas (coluna, valor)
tuplas = [
    ('joao', 23),
    ('pedro', 29),
    ('paulo', 35)
]

In [14]:
# Transformando as tuplas em um dataframe spark 
df = spark.createDataFrame(tuplas, ['nome', 'idade'])
df

nome,idade
joao,23
pedro,29
paulo,35


In [19]:
# Definindo o Schema do tipo de dado (usando pyspark.sql.types) 
schema = T.StructType([
    T.StructField('nome', T.StringType(), True), # coluna nome do tipo string que permite valores nulos 
    T.StructField('idade', T.IntegerType(), True)
])

In [23]:
# Criando o dataframe spark a partir do schema 
df = spark.createDataFrame(tuplas, schema) # com 'dicionarios' também funciona
df

nome,idade
joao,23
pedro,29
paulo,35


In [26]:
# Crian uma estrutura Row
row = [
    Row('joao', 23),
    Row('pedro', 29),
    Row('paulo', 35)
]
row

[<Row('joao', 23)>, <Row('pedro', 29)>, <Row('paulo', 35)>]

In [29]:
## Criando o dataframe spark a partir da estrutura row (ANTIGO)
df = spark.createDataFrame(row, 'nome: string, idade: int')
df

nome,idade
joao,23
pedro,29
paulo,35
