Configuração e Leitura de Dados

In [1]:
!pip install pyspark #Instala o PySpark no ambiente Colab.



In [2]:
import pyspark #Importa a biblioteca PySpark.
from pyspark.sql import SparkSession #Importa a classe SparkSession, o ponto de entrada principal para interagir com o Spark usando DataFrames.

In [3]:
spark = SparkSession.builder.getOrCreate() #Cria ou obtém uma instância do SparkSession, inicializando o ambiente Spark.

In [5]:
df = spark.read.option('header', 'true').option('inferSchema', 'true').csv('dados_clinica_ficticios.csv') #Lê o arquivo CSV de entrada, usando a primeira linha como cabeçalho (header='true') e inferindo os tipos de dados (inferSchema='true')
                                                                                                           #O resultado é armazenado no DataFrame df.

In [6]:
df.show() #Exibe o conteúdo do DataFrame recém-criado em um formato de tabela no console

+---------------+-----------------+----------------+-------------------+-------------------+--------------+-----------+-------------+--------------+------------+--------------------+-------------+------------+---------+--------------+-----+---------+
|Cod_Atendimento|         Paciente|Data_Atendimento|   Hora_Atendimento|          Data_Hora|      Convenio|Atendimento|Especialidade|        Origem|Profissional|       Procedimentos|Reagendamento|Teleconsulta|TCM_Plano|   TCM_Unidade|Idade|     Sexo|
+---------------+-----------------+----------------+-------------------+-------------------+--------------+-----------+-------------+--------------+------------+--------------------+-------------+------------+---------+--------------+-----+---------+
|        ATD1000|  Fernanda Santos|      2024-08-31|2025-11-17 15:45:00|2024-08-31 15:45:00|    SulAmérica|   Consulta| Dermatologia|Encaminhamento|   Dra. Lima|              Raio-X|          Sim|         Sim|  Plano B| Unidade Norte|   89|Masculi

Escrita de Dados em Diferentes Formatos

In [7]:
df.write.csv('output/dados_clinica_csv') #Salva o conteúdo do DataFrame no diretório output/dados_clinica_csv no formato CSV.

In [8]:
df.write.mode('overwrite').option('header','true').csv('output/dados_clinica_csv') #Salva no formato CSV, usando o modo overwrite (sobrescreve o diretório se ele existir) e inclui os nomes das colunas como cabeçalho (header='true') no arquivo de saída.

In [9]:
df = spark.read.option('header','true').option('inferSchema','true').csv('output/dados_clinica_csv') #Lê os dados de volta do diretório que acabei de salvar.
df.show() #Exibe os dados recém-lidos.

+---------------+-----------------+----------------+-------------------+-------------------+--------------+-----------+-------------+--------------+------------+--------------------+-------------+------------+---------+--------------+-----+---------+
|Cod_Atendimento|         Paciente|Data_Atendimento|   Hora_Atendimento|          Data_Hora|      Convenio|Atendimento|Especialidade|        Origem|Profissional|       Procedimentos|Reagendamento|Teleconsulta|TCM_Plano|   TCM_Unidade|Idade|     Sexo|
+---------------+-----------------+----------------+-------------------+-------------------+--------------+-----------+-------------+--------------+------------+--------------------+-------------+------------+---------+--------------+-----+---------+
|        ATD1000|  Fernanda Santos|      2024-08-31|2025-11-17 15:45:00|2024-08-31 15:45:00|    SulAmérica|   Consulta| Dermatologia|Encaminhamento|   Dra. Lima|              Raio-X|          Sim|         Sim|  Plano B| Unidade Norte|   89|Masculi

In [10]:
df.write.option('header','true').json('output/dados_clinica_json') #Salva o DataFrame no diretório output/dados_clinica_json no formato JSON (linhas).

In [11]:
df = spark.read.option('header','true').json('output/dados_clinica_json') #Lê os dados de volta do formato JSON.
df.show() #Exibe os dados lidos do JSON

+-----------+---------------+--------------+----------------+--------------------+-------------+--------------------+-----+--------------+-----------------+--------------------+------------+-------------+---------+---------+--------------+------------+
|Atendimento|Cod_Atendimento|      Convenio|Data_Atendimento|           Data_Hora|Especialidade|    Hora_Atendimento|Idade|        Origem|         Paciente|       Procedimentos|Profissional|Reagendamento|     Sexo|TCM_Plano|   TCM_Unidade|Teleconsulta|
+-----------+---------------+--------------+----------------+--------------------+-------------+--------------------+-----+--------------+-----------------+--------------------+------------+-------------+---------+---------+--------------+------------+
|   Consulta|        ATD1000|    SulAmérica|      2024-08-31|2024-08-31T15:45:...| Dermatologia|2025-11-17T15:45:...|   89|Encaminhamento|  Fernanda Santos|              Raio-X|   Dra. Lima|          Sim|Masculino|  Plano B| Unidade Norte|  

In [12]:
df.write.option('header','true').save('output/dados_clinica_parquet') #Salva o DataFrame no diretório output/dados_clinica_parquet no formato Parquet.

In [13]:
df = spark.read.option('header','true').parquet('output/dados_clinica_parquet') #Lê os dados de volta do formato Parquet.
df.show() #Exibe os dados lidos do Parquet.

+-----------+---------------+--------------+----------------+--------------------+-------------+--------------------+-----+--------------+-----------------+--------------------+------------+-------------+---------+---------+--------------+------------+
|Atendimento|Cod_Atendimento|      Convenio|Data_Atendimento|           Data_Hora|Especialidade|    Hora_Atendimento|Idade|        Origem|         Paciente|       Procedimentos|Profissional|Reagendamento|     Sexo|TCM_Plano|   TCM_Unidade|Teleconsulta|
+-----------+---------------+--------------+----------------+--------------------+-------------+--------------------+-----+--------------+-----------------+--------------------+------------+-------------+---------+---------+--------------+------------+
|   Consulta|        ATD1000|    SulAmérica|      2024-08-31|2024-08-31T15:45:...| Dermatologia|2025-11-17T15:45:...|   89|Encaminhamento|  Fernanda Santos|              Raio-X|   Dra. Lima|          Sim|Masculino|  Plano B| Unidade Norte|  

SQL, Tabelas e Views

In [14]:
df.write.option('header','true').saveAsTable('dados_clinica') #: Salva o DataFrame no formato Parquet e, crucialmente, registra-o como uma Tabela no catálogo interno do Spark (metadados)

In [15]:
df.createOrReplaceTempView('temp_dados_clinica') #Registra o DataFrame como uma View SQL temporária

In [16]:
spark.catalog.listDatabases() #Lista todos os bancos de dados disponíveis no catálogo do Spark (geralmente apenas o default)

[Database(name='default', catalog='spark_catalog', description='default database', locationUri='file:/content/spark-warehouse')]

In [17]:
spark.catalog.setCurrentDatabase('default') #Garante que estamos operando dentro do banco de dados default

In [18]:
spark.catalog.listTables() #Lista todas as tabelas e views registradas no banco de dados atual

[Table(name='dados_clinica', catalog='spark_catalog', namespace=['default'], description=None, tableType='MANAGED', isTemporary=False),
 Table(name='temp_dados_clinica', catalog=None, namespace=[], description=None, tableType='TEMPORARY', isTemporary=True)]

In [19]:
tab_df = spark.sql('select * from temp_dados_clinica') #Usa o método spark.sql para executar uma consulta SQL padrão
tab_df.show() #Exibe o resultado da consulta SQL.

+-----------+---------------+--------------+----------------+--------------------+-------------+--------------------+-----+--------------+-----------------+--------------------+------------+-------------+---------+---------+--------------+------------+
|Atendimento|Cod_Atendimento|      Convenio|Data_Atendimento|           Data_Hora|Especialidade|    Hora_Atendimento|Idade|        Origem|         Paciente|       Procedimentos|Profissional|Reagendamento|     Sexo|TCM_Plano|   TCM_Unidade|Teleconsulta|
+-----------+---------------+--------------+----------------+--------------------+-------------+--------------------+-----+--------------+-----------------+--------------------+------------+-------------+---------+---------+--------------+------------+
|   Consulta|        ATD1000|    SulAmérica|      2024-08-31|2024-08-31T15:45:...| Dermatologia|2025-11-17T15:45:...|   89|Encaminhamento|  Fernanda Santos|              Raio-X|   Dra. Lima|          Sim|Masculino|  Plano B| Unidade Norte|  

In [21]:
spark.stop() #Encerra o SparkSession e libera os recursos alocados