Seção Pyspark: Tratamento de dados e Big Data

Módulo: Definição e Coleta de Dados

Aula 6: Leitura e Escrita de Dados

In [1]:
!pip install pyspark



In [3]:
import pyspark
from pyspark.sql import SparkSession

In [4]:
spark = SparkSession.builder.getOrCreate()

In [5]:
df = spark.read.option('header', 'true').option('inferSchema', 'true').csv('clientes_tratados.csv')

In [6]:
df.show()

+-----+----------+-------------------+--------+------------------+-------------+------------+------------+----------------+
|idade|      data|             estado| salario|    nivel_educacao|numero_filhos|estado_civil|area_atuacao|anos_experiencia|
+-----+----------+-------------------+--------+------------------+-------------+------------+------------+----------------+
|   56|1968-01-19|               Pará|13550.54|      Ensino Médio|            0|      Casado|  Tecnologia|              17|
|   49|1975-01-31|Rio Grande do Norte| 3124.72|      Ensino Médio|            3|      Casado|   Indústria|               3|
|   54|1969-08-26|       Minas Gerais|  7534.6|      Ensino Médio|            0|      Casado|  Tecnologia|              18|
|   61|1963-03-19|              Amapá| 4067.73|Ensino Fundamental|            1|    Solteiro|    Comércio|              16|
|   30|1993-12-09|            Alagoas| 6809.94|      Ensino Médio|            1|      Casado|  Tecnologia|               9|
|   54|1

In [None]:
df.write.csv('output/clientes_csv')

In [7]:
df.write.mode('overwrite').option('header', 'true').csv('output/clientes_csv')

In [8]:
df = spark.read.option('header', 'true').option('inferSchema', 'true').csv('output/clientes_csv')
df.show()

+-----+----------+-------------------+--------+------------------+-------------+------------+------------+----------------+
|idade|      data|             estado| salario|    nivel_educacao|numero_filhos|estado_civil|area_atuacao|anos_experiencia|
+-----+----------+-------------------+--------+------------------+-------------+------------+------------+----------------+
|   56|1968-01-19|               Pará|13550.54|      Ensino Médio|            0|      Casado|  Tecnologia|              17|
|   49|1975-01-31|Rio Grande do Norte| 3124.72|      Ensino Médio|            3|      Casado|   Indústria|               3|
|   54|1969-08-26|       Minas Gerais|  7534.6|      Ensino Médio|            0|      Casado|  Tecnologia|              18|
|   61|1963-03-19|              Amapá| 4067.73|Ensino Fundamental|            1|    Solteiro|    Comércio|              16|
|   30|1993-12-09|            Alagoas| 6809.94|      Ensino Médio|            1|      Casado|  Tecnologia|               9|
|   54|1

In [10]:
df.write.option('header', 'true').json('output/clientes_json')

In [11]:
df = spark.read.option('header', 'true').option('inferSchema', 'true').json('output/clientes_json')
df.show()

+----------------+------------+----------+-------------------+------------+-----+------------------+-------------+--------+
|anos_experiencia|area_atuacao|      data|             estado|estado_civil|idade|    nivel_educacao|numero_filhos| salario|
+----------------+------------+----------+-------------------+------------+-----+------------------+-------------+--------+
|              17|  Tecnologia|1968-01-19|               Pará|      Casado|   56|      Ensino Médio|            0|13550.54|
|               3|   Indústria|1975-01-31|Rio Grande do Norte|      Casado|   49|      Ensino Médio|            3| 3124.72|
|              18|  Tecnologia|1969-08-26|       Minas Gerais|      Casado|   54|      Ensino Médio|            0|  7534.6|
|              16|    Comércio|1963-03-19|              Amapá|    Solteiro|   61|Ensino Fundamental|            1| 4067.73|
|               9|  Tecnologia|1993-12-09|            Alagoas|      Casado|   30|      Ensino Médio|            1| 6809.94|
|       

In [12]:
df.write.option('header', 'true').parquet('output/clientes_parquet')

In [13]:
df = spark.read.option('header', 'true').option('inferSchema', 'true').parquet('output/clientes_parquet')
df.show()

+----------------+------------+----------+-------------------+------------+-----+------------------+-------------+--------+
|anos_experiencia|area_atuacao|      data|             estado|estado_civil|idade|    nivel_educacao|numero_filhos| salario|
+----------------+------------+----------+-------------------+------------+-----+------------------+-------------+--------+
|              17|  Tecnologia|1968-01-19|               Pará|      Casado|   56|      Ensino Médio|            0|13550.54|
|               3|   Indústria|1975-01-31|Rio Grande do Norte|      Casado|   49|      Ensino Médio|            3| 3124.72|
|              18|  Tecnologia|1969-08-26|       Minas Gerais|      Casado|   54|      Ensino Médio|            0|  7534.6|
|              16|    Comércio|1963-03-19|              Amapá|    Solteiro|   61|Ensino Fundamental|            1| 4067.73|
|               9|  Tecnologia|1993-12-09|            Alagoas|      Casado|   30|      Ensino Médio|            1| 6809.94|
|       

In [14]:
df.write.option('header', 'true').saveAsTable('cliente')

In [15]:
df.createOrReplaceTempView('temp_cliente')

In [16]:
spark.catalog.listDatabases()

[Database(name='default', catalog='spark_catalog', description='default database', locationUri='file:/content/spark-warehouse')]

In [17]:
spark.catalog.setCurrentDatabase('default')

In [18]:
spark.catalog.listTables()

[Table(name='cliente', catalog='spark_catalog', namespace=['default'], description=None, tableType='MANAGED', isTemporary=False),
 Table(name='temp_cliente', catalog=None, namespace=[], description=None, tableType='TEMPORARY', isTemporary=True)]

In [19]:
tab_df = spark.sql('select * from temp_cliente')
tab_df.show()

+----------------+------------+----------+-------------------+------------+-----+------------------+-------------+--------+
|anos_experiencia|area_atuacao|      data|             estado|estado_civil|idade|    nivel_educacao|numero_filhos| salario|
+----------------+------------+----------+-------------------+------------+-----+------------------+-------------+--------+
|              17|  Tecnologia|1968-01-19|               Pará|      Casado|   56|      Ensino Médio|            0|13550.54|
|               3|   Indústria|1975-01-31|Rio Grande do Norte|      Casado|   49|      Ensino Médio|            3| 3124.72|
|              18|  Tecnologia|1969-08-26|       Minas Gerais|      Casado|   54|      Ensino Médio|            0|  7534.6|
|              16|    Comércio|1963-03-19|              Amapá|    Solteiro|   61|Ensino Fundamental|            1| 4067.73|
|               9|  Tecnologia|1993-12-09|            Alagoas|      Casado|   30|      Ensino Médio|            1| 6809.94|
|       

In [20]:
spark.stop()