# Trabalhando com `show()`, `printSchema()`, `describe()`, `select()`

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DoubleType

# Definir o schema do DataFrame
schema = StructType([
    StructField("cliente_id", IntegerType(), True),
    StructField("idade", IntegerType(), True),
    StructField("renda_mensal", DoubleType(), True),
    StructField("flag_garantia", IntegerType(), True),  # 1 = com garantia, 0 = sem garantia
    StructField("inadimplente", IntegerType(), True)    # 1 = sim, 0 = não
])

# Criar dados simulados
dados = [
    (1, 35, 3500.0, 1, 0),
    (2, 42, 1200.0, 0, 1),
    (3, 29, 5400.0, 1, 0),
    (4, 51, 1800.0, 0, 1),
    (5, 23, 2300.0, 1, 0),
]

# Criar o DataFrame
df = spark.createDataFrame(dados, schema=schema)

In [0]:
df.show(n = 3)


### `.show()` vs `.limit()`
| Aspecto     | `df.show(n)`                   | `df.limit(n)`                       |
| ----------- | ------------------------------ | ----------------------------------- |
| Tipo        | Ação (executa plano)           | Transformação (lazy)                |
| Retorno     | `None` (exibe no console)      | Novo `DataFrame` com até `n` linhas |
| Composição  | Não composável                 | Composável (encadeável)             |
| Uso típico  | Inspeção rápida no terminal    | Subamostragem para manipulação      |


In [0]:
# imprime o esquema do DataFrame, ou seja, os nomes das colunas, tipos de dados e se permitem nulos.
df.printSchema()

In [0]:
display(df.describe())

In [0]:
display(df.select("cliente_id", "idade"))