# INSTALAÇÃO DAS BIBLIOTECAS

In [None]:
%pip install pyspark



# IMPORTAÇÃO DAS BIBLIOTECAS

In [None]:
from pyspark.sql import SparkSession

# CRIAÇÃO DA APLICAÇÃO SPARK

In [None]:
spark = SparkSession.builder.getOrCreate()

# VARIÁVEIS DE APOIO

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
arquivo = '/content/drive/My Drive/ARQ/DADOS_ESTUDANTES.json'

options = {
    "encoding": "Latin1",
    "multiline": "true"
}

# LEITURA DO ARQUIVO JSON USANDO SPARK

In [None]:
df = spark.read.options(**options).json(arquivo)

# EXIBINDO UMA AMOSTRA DOS DADOS

In [None]:
df.show()

+--------+--------------------+----------------+--------------------+--------------------+----------+---------------+------------------+----------------------+---------+--------------+
|Bolsista|               Curso|Data de Ingresso|               Email|           EndereÃ§o|MatrÃ­cula|MÃ©dia de Notas|              Nome|PrevisÃ£o de Formatura|     Sexo|      Telefone|
+--------+--------------------+----------------+--------------------+--------------------+----------+---------------+------------------+----------------------+---------+--------------+
|     Sim|        EstatÃ­stica|      27/03/2020|kevin.freitas@fac...|Vila de da Concei...|      4779|          62.63|     Kevin Freitas|            27/03/2023|Masculino|(450) 815-8031|
|     Sim|      Jogos Digitais|      13/09/2018|rafaela.das.neves...|  Parque Correia, 64|      4716|          92.35| Rafaela das Neves|            13/09/2021| Feminino|(580) 593-6152|
|    NÃ£o|     AdministraÃ§Ã£o|      02/04/2022|milena.pereira@fa...|    Ch

# EXIBINDO OS METADADOS (SCHEMA) DO ARQUIVO

In [None]:
df.printSchema()

root
 |-- Bolsista: string (nullable = true)
 |-- Curso: string (nullable = true)
 |-- Data de Ingresso: string (nullable = true)
 |-- Email: string (nullable = true)
 |-- EndereÃ§o: string (nullable = true)
 |-- MatrÃ­cula: long (nullable = true)
 |-- MÃ©dia de Notas: double (nullable = true)
 |-- Nome: string (nullable = true)
 |-- PrevisÃ£o de Formatura: string (nullable = true)
 |-- Sexo: string (nullable = true)
 |-- Telefone: string (nullable = true)



# AJUSTAR O SCHEMA DOS DADOS, SE NECESSÁRIO

In [None]:
from pyspark.sql.functions import to_date
from pyspark.sql.types import StringType

df = df.withColumnRenamed('EndereÃ§o', 'Endereço') \
       .withColumnRenamed('MÃ©dia de Notas', 'Média de Notas') \
       .withColumnRenamed('PrevisÃ£o de Formatura', 'Previsão de Formatura') \
       .withColumnRenamed('MatrÃ­cula', 'Matrícula')

df = df.withColumn('Data de Ingresso', to_date(df['Data de Ingresso'], 'yyyy-MM-dd'))
df = df.withColumn('Previsão de Formatura', to_date(df['Previsão de Formatura'], 'yyyy-MM-dd'))


df = df.withColumn('Bolsista', df['Bolsista'].cast(StringType())) \
       .withColumn('Sexo', df['Sexo'].cast(StringType()))

df.printSchema()

root
 |-- Bolsista: string (nullable = true)
 |-- Curso: string (nullable = true)
 |-- Data de Ingresso: date (nullable = true)
 |-- Email: string (nullable = true)
 |-- Endereço: string (nullable = true)
 |-- Matrícula: long (nullable = true)
 |-- Média de Notas: double (nullable = true)
 |-- Nome: string (nullable = true)
 |-- Previsão de Formatura: date (nullable = true)
 |-- Sexo: string (nullable = true)
 |-- Telefone: string (nullable = true)

