# Schemas

Quando você está lendo uma pasta contendo arquivos texto, em especial json o spark tem que fazer um esforço significativo para abrir uma amostra (ou todos) dos arquivos e identificar o esquema, ou seja, o "layout"  do arquivo.
Se você ter arquivos seguindo um padrão, dependendo do volume você vai acelerar **e muito** a abertura dos arquivos se especificar o schema.

In [None]:
# Schemas

# Sample function defining a schema
def build_schema():
    """Build and return a schema to use for the sample data."""
    schema = StructType(
        [
            StructField("name", StringType(), True),
            StructField("num_pets", IntegerType(), True),
            StructField("paid_in_full", BooleanType(), True),
            StructField("preferences", MapType(StringType(), StringType(), True), True),
            StructField("registered_on", DateType(), True),
            StructField("visits", ArrayType(TimestampType(), True), True),
        ]
    )
    return schema


# Create a DataFrame from the RDD, specifying a schema.
print("RDD: Schema programmatically specified.")
dataDF = spark.createDataFrame(dataRDD, schema=build_schema())
dataDF.printSchema()

# Create a DataFrame from a JSON source, specifying a schema.
print("JSON: Schema programmatically specified.")
dataDF = spark.read.json("data.json", schema=build_schema())
dataDF.printSchema()



# Outra forma de definir schemas

Testar melhor essa forma com batch

```python

schema_tags = """
tag string,
time string,
value string,
Year string,
Month string,
Date date
"""

dfStream = spark.readStream.format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .option('sep', ',') \
  .schema(schema_tags) \
  .load(INPUT_PATH)

```


## samplingRatio

Na pior das hipoteses use samplingRatio para diminuir o volume de dados na aferição do schema.

```python
# Create a DataFrame from a JSON source, inferring the schema from all rows.
print("JSON: Schema inferred from all rows.")
dataDF = spark.read.option("samplingRatio", 1.0).json("data.json")
dataDF.printSchema()
```

## Como obter a estrutura de um dataset

No exemplo abaixo obtemos um conteúdo JSON da estrutura

```python
# obtendo a estrutura de um dataset como json
import json
json_struct = json.dumps(df1.schema.jsonValue(), indent = 2)
print(json_struct)
```