In [1]:
# Importando bibliotecas
from pyspark.sql import SparkSession
import os

# Inicializando sessão
spark = (SparkSession
    .builder
    .appName("art04-dataframes")
    .getOrCreate())

# Criando um DataFrame básico
df_range = spark.range(1000).toDF("numero")
df_range.show(5)

+------+
|numero|
+------+
|     0|
|     1|
|     2|
|     3|
|     4|
+------+
only showing top 5 rows



In [2]:
# Visualizando tipo primitivo do objeto
type(df_range)

pyspark.sql.dataframe.DataFrame

In [3]:
# Verificando quantidade de partições do DataFrame
num_partitions = df_range.rdd.getNumPartitions()
print(f'O DataFrame criado possui {num_partitions} partições')

O DataFrame criado possui 4 partições


In [4]:
# Verificando schema do DataFrame
df_range.printSchema()

root
 |-- numero: long (nullable = false)



In [5]:
# Importando bibliotecas
from pyspark.sql import SparkSession
import os

# Inicializando sessão
spark = (SparkSession
    .builder
    .appName("art04-dataframes")
    .getOrCreate())

# Definindo variáveis de leitura de dados
parent_dir = ''.join(os.path.pardir + "/") * 3
file_path = 'data/flights-data/summary-data/csv/2015-summary.csv'
data_path = os.path.join(parent_dir, file_path)

In [6]:
# Realizando a leitura de arquivo csv
df_csv = (spark.read.format("csv")
          .option("inferSchema", "true")
          .option("header", "true")
          .load(data_path))

In [7]:
# Visualizando algumas linhas do DataFrame
df_csv.show(10)

+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|    United States|            Romania|   15|
|    United States|            Croatia|    1|
|    United States|            Ireland|  344|
|            Egypt|      United States|   15|
|    United States|              India|   62|
|    United States|          Singapore|    1|
|    United States|            Grenada|   62|
|       Costa Rica|      United States|  588|
|          Senegal|      United States|   40|
|          Moldova|      United States|    1|
+-----------------+-------------------+-----+
only showing top 10 rows



In [8]:
# Visualizando schema dos dados
df_csv.printSchema()

root
 |-- DEST_COUNTRY_NAME: string (nullable = true)
 |-- ORIGIN_COUNTRY_NAME: string (nullable = true)
 |-- count: integer (nullable = true)



In [9]:
# Importando tipos primitivos a serem utilizados
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# Definindo schema
flights_schema = StructType([
    StructField("pais_destino", StringType(), nullable=True),
    StructField("pais_origem", StringType(), nullable=True),
    StructField("count", IntegerType(), nullable=False,
        metadata={"desc": "quantidade de viagens feitas da origem para o destino"})
])

# Lendo dados com schema definido
df_csv_schema = (spark.read.format("csv")
    .schema(flights_schema)
    .option("header", "true")
    .load(data_path))

# Visualizando schema e conteúdo
print(df_csv_schema.printSchema())
df_csv_schema.show(10)

root
 |-- pais_destino: string (nullable = true)
 |-- pais_origem: string (nullable = true)
 |-- count: integer (nullable = true)

None
+-------------+-------------+-----+
| pais_destino|  pais_origem|count|
+-------------+-------------+-----+
|United States|      Romania|   15|
|United States|      Croatia|    1|
|United States|      Ireland|  344|
|        Egypt|United States|   15|
|United States|        India|   62|
|United States|    Singapore|    1|
|United States|      Grenada|   62|
|   Costa Rica|United States|  588|
|      Senegal|United States|   40|
|      Moldova|United States|    1|
+-------------+-------------+-----+
only showing top 10 rows



In [10]:
type(flights_schema)

pyspark.sql.types.StructType