In [2]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [3]:
spark = (
    SparkSession.builder
    .appName("Curso de PySpark")
    .config("spark.sql.repl.eagerEval.enabled", True)
    .getOrCreate()
)

In [4]:
spark

In [5]:
path = "C:/Users/marlos.barros/Cursos/pyspark_na_pratica/DATASETS/LOGINS.parquet"

In [12]:
df = spark.read.format("parquet").load(path)

In [None]:
df

### Criar DataFrame a partir de uma lista de dicionários

In [14]:
dados = [
    {"nome": "Igor", "idade": 31},
    {"nome": "Kassia", "idade": 31},
    {"nome": "Gustavo", "idade": 10}
]

In [15]:
dados

[{'nome': 'Igor', 'idade': 31},
 {'nome': 'Kassia', 'idade': 31},
 {'nome': 'Gustavo', 'idade': 10}]

- **Função: Cria um DataFrame do Spark a partir de uma lista de dicionários. Cada dicionário representa uma linha, e as chaves se tornam os nomes das colunas do DataFrame.** ####

In [None]:
spark.createDataFrame(dados)

### Criar DataFrame a partir de uma lista de tuplas e definir nomes das colunas

In [17]:
dados_2 = [
    ("Igor", 31),
    ("Kassia", 31),
    ("Gustavo", 10)
]

In [103]:
dados_2

[('Igor', 31), ('Kassia', 31), ('Gustavo', 10)]

- **Função: Cria um DataFrame do Spark a partir de uma lista de tuplas, onde cada tupla representa uma linha. Os nomes das colunas são definidos explicitamente como "nome" e "idade".**

In [None]:
spark.createDataFrame(dados_2, ["nome", "idade"])

### Criar DataFrame com esquema personalizado

In [105]:
import pyspark.sql.types as T

In [106]:
schema = T.StructType([
    T.StructField("nome", T.StringType(), True),
    T.StructField("idade", T.StringType(), True)
])

In [107]:
schema

StructType([StructField('nome', StringType(), True), StructField('idade', StringType(), True)])

- **Função: Cria um DataFrame a partir de uma lista de tuplas e define um esquema personalizado. No esquema, nome e idade são definidos como campos do tipo StringType, e o terceiro parâmetro True indica que os valores podem ser nulos.**

In [None]:
spark.createDataFrame(dados_2, schema)

### Criar DataFrame a partir de uma lista de objetos Row

In [111]:
from pyspark.sql import Row

In [112]:
rdd = [
    Row("Igor", 31),
    Row("Kassia", 31)
]

In [113]:
rdd

[<Row('Igor', 31)>, <Row('Kassia', 31)>]

- **Função: Cria um DataFrame usando uma lista de objetos Row do PySpark. Aqui, os valores são atribuídos aos campos "_1" e "_2", com seus respectivos tipos string e int.**

In [None]:
spark.createDataFrame(rdd, "_1: string, _2: int")