In [2]:
# Carregando libs e iniciando Session
from pyspark.sql import SparkSession, functions as func
from pyspark.sql.types import *
from pyspark.sql.functions import *

spark = SparkSession.builder.master("local[1]").appName("Testing").getOrCreate()

In [4]:
# Importando dados com definicao de schema
schema = " Id INT, nome STRING, status STRING, cidade STRING, vendas INT, data STRING"
vend = spark.read.csv('arquivos/despachantes.csv', header=False,schema=schema)
vend.show()

+---+-------------------+------+-------------+------+----------+
| Id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [10]:
# Salvando dados formato parquet
vend.write.format('parquet').save('arquivos_criados/vendedoresparquet')

In [11]:
# Salvando dados formato csv
vend.write.format('csv').save('arquivos_criados/vendedorescsv')

In [12]:
# Salvando dados formato json
vend.write.format('json').save('arquivos_criados/vendedoresjson')

In [14]:
# Salvando dados formato orc
vend.write.format('orc').save('arquivos_criados/vendedoresorc')

In [16]:
# Importando dados de parquet
par = spark.read.format('parquet').load('arquivos_criados/vendedoresparquet/part-00000-0f48e5c5-1ce0-4e20-afdb-29b28cab3642-c000.snappy.parquet')
par.show()

+---+-------------------+------+-------------+------+----------+
| Id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [25]:
# Conferindo Schema
par.schema

StructType([StructField('Id', IntegerType(), True), StructField('nome', StringType(), True), StructField('status', StringType(), True), StructField('cidade', StringType(), True), StructField('vendas', IntegerType(), True), StructField('data', StringType(), True)])

In [18]:
# Importando dados de json
js = spark.read.format('json').load('arquivos_criados/vendedoresjson/part-00000-5193e7d5-babe-488e-81f0-6283975bee4d-c000.json')
js.show()

+---+-------------+----------+-------------------+------+------+
| Id|       cidade|      data|               nome|status|vendas|
+---+-------------+----------+-------------------+------+------+
|  1|  Santa Maria|2020-08-11|   Carminda Pestana| Ativo|    23|
|  2|Novo Hamburgo|2020-03-05|    Deolinda Vilela| Ativo|    34|
|  3| Porto Alegre|2020-02-05|   Emídio Dornelles| Ativo|    34|
|  4| Porto Alegre|2020-02-05|Felisbela Dornelles| Ativo|    36|
|  5| Porto Alegre|2020-02-05|     Graça Ornellas| Ativo|    12|
|  6| Porto Alegre|2019-01-05|   Matilde Rebouças| Ativo|    22|
|  7|  Santa Maria|2019-10-05|    Noêmia   Orriça| Ativo|    45|
|  8| Porto Alegre|2020-03-05|      Roque Vásquez| Ativo|    65|
|  9| Porto Alegre|2018-05-05|      Uriel Queiroz| Ativo|    54|
| 10| Porto Alegre|2020-09-05|   Viviana Sequeira| Ativo|     0|
+---+-------------+----------+-------------------+------+------+



In [28]:
# Conferindo Schema
js.schema

StructType([StructField('Id', LongType(), True), StructField('cidade', StringType(), True), StructField('data', StringType(), True), StructField('nome', StringType(), True), StructField('status', StringType(), True), StructField('vendas', LongType(), True)])

In [19]:
# Importando dados de orc
orc = spark.read.format('orc').load('arquivos_criados/vendedoresorc/part-00000-e098fb27-2214-40a6-a719-7d8039b6b814-c000.snappy.orc')
orc.show()

+---+-------------------+------+-------------+------+----------+
| Id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [26]:
# Conferindo Schema
orc.schema

StructType([StructField('Id', IntegerType(), True), StructField('nome', StringType(), True), StructField('status', StringType(), True), StructField('cidade', StringType(), True), StructField('vendas', IntegerType(), True), StructField('data', StringType(), True)])

In [21]:
# Importando dados de csv
cs = spark.read.format('csv').load('arquivos_criados/vendedorescsv/part-00000-22e30545-24b9-45c1-8200-9d4bea1ea46a-c000.csv')
cs.show()

+---+-------------------+-----+-------------+---+----------+
|_c0|                _c1|  _c2|          _c3|_c4|       _c5|
+---+-------------------+-----+-------------+---+----------+
|  1|   Carminda Pestana|Ativo|  Santa Maria| 23|2020-08-11|
|  2|    Deolinda Vilela|Ativo|Novo Hamburgo| 34|2020-03-05|
|  3|   Emídio Dornelles|Ativo| Porto Alegre| 34|2020-02-05|
|  4|Felisbela Dornelles|Ativo| Porto Alegre| 36|2020-02-05|
|  5|     Graça Ornellas|Ativo| Porto Alegre| 12|2020-02-05|
|  6|   Matilde Rebouças|Ativo| Porto Alegre| 22|2019-01-05|
|  7|    Noêmia   Orriça|Ativo|  Santa Maria| 45|2019-10-05|
|  8|      Roque Vásquez|Ativo| Porto Alegre| 65|2020-03-05|
|  9|      Uriel Queiroz|Ativo| Porto Alegre| 54|2018-05-05|
| 10|   Viviana Sequeira|Ativo| Porto Alegre|  0|2020-09-05|
+---+-------------------+-----+-------------+---+----------+



In [27]:
# Conferindo Schema
cs.schema

StructType([StructField('_c0', StringType(), True), StructField('_c1', StringType(), True), StructField('_c2', StringType(), True), StructField('_c3', StringType(), True), StructField('_c4', StringType(), True), StructField('_c5', StringType(), True)])

In [None]:
# A importacao trouxe tudo como Str

In [29]:
# Importando novamente o csv com o schema definido
schema = " Id INT, nome STRING, status STRING, cidade STRING, vendas INT, data STRING"
cs = spark.read.format('csv').load('arquivos_criados/vendedorescsv/part-00000-22e30545-24b9-45c1-8200-9d4bea1ea46a-c000.csv', schema=schema)
cs.show()


+---+-------------------+------+-------------+------+----------+
| Id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [30]:
# Conferindo Schema
cs.schema

StructType([StructField('Id', IntegerType(), True), StructField('nome', StringType(), True), StructField('status', StringType(), True), StructField('cidade', StringType(), True), StructField('vendas', IntegerType(), True), StructField('data', StringType(), True)])