# Notebook 1: Load_and_Save_Raw_Indication

## Objetivo
Carregar os dados de todos os 5 trimestres de `Indication` e salvar em formato Parquet.

## Passos

1. **Carregar dados de todos os trimestres**
    - Vamos carregar os dados de `Indication` para os trimestres 2022Q4, 2023Q1, 2023Q2, 2023Q3 e 2023Q4.
    
2. **Criar DataFrames**
    - Cada trimestre será carregado em um DataFrame separado.
    
3. **Concatenar DataFrames**
    - Todos os DataFrames serão concatenados em um único DataFrame.
    
4. **Salvar em formato Parquet**
    - O DataFrame concatenado será salvo em formato Parquet para uso eficiente em análises futuras.


In [0]:
trimestres = ['2022Q4', '2023q1', '2023q2', '2023Q3', '2023Q4']
df_indication = []

In [0]:
# Carregar e concatenar dados de todos os trimestres
for trimestre in trimestres:
    ano = trimestre[:4]
    quarter = trimestre[-1].upper()  # Garantir que o quarter esteja em maiúsculas
    trimestre_normalizado = trimestre[:-1] + quarter  # Normalizar o trimestre para que o quarter esteja em maiúsculas
    path = f'/FileStore/faers-downloaded/faers_ascii_{trimestre_normalizado}/ASCII/INDI{ano[-2:]}Q{quarter}.txt'
    try:
        df = spark.read.csv(path, sep='$', header=True, inferSchema=True)
        df_indication.append(df)
        print(f"Arquivo carregado com sucesso: {path}")
    except Exception as e:
        print(f"Erro ao carregar {path}: {str(e)}")

Arquivo carregado com sucesso: /FileStore/faers-downloaded/faers_ascii_2022Q4/ASCII/INDI22Q4.txt
Arquivo carregado com sucesso: /FileStore/faers-downloaded/faers_ascii_2023q1/ASCII/INDI23Q1.txt
Arquivo carregado com sucesso: /FileStore/faers-downloaded/faers_ascii_2023q2/ASCII/INDI23Q2.txt
Arquivo carregado com sucesso: /FileStore/faers-downloaded/faers_ascii_2023Q3/ASCII/INDI23Q3.txt
Arquivo carregado com sucesso: /FileStore/faers-downloaded/faers_ascii_2023Q4/ASCII/INDI23Q4.txt


In [0]:
# Concatenar todos os DataFrames
if df_indication:
    df_indication_all = df_indication[0]
    for df in df_indication[1:]:
        df_indication_all = df_indication_all.union(df)


In [0]:
# Definir o caminho completo incluindo o nome do arquivo Parquet
output_path = 'dbfs:/FileStore/FAERS-grupo-4/indication_raw'


In [0]:
# Função para gravar o DataFrame transformado em Parquet
def salvar_parquet(df, path):
    df.write.mode("overwrite").parquet(path)
    print(f"Dados salvos em Parquet no caminho: {path}")


In [0]:
# Conclusão
print("Dados de todos os quarters carregados e salvos em formato Parquet.")

Dados de todos os quarters carregados e salvos em formato Parquet.


In [0]:
from pyspark.sql import SparkSession
from pyspark.sql import DataFrame

In [0]:
# Verificar se df_indication_all é um DataFrame antes de salvar
if isinstance(df_indication_all, DataFrame):
    salvar_parquet(df_indication_all, output_path)
else:
    print("Erro: df_indication_all não é um DataFrame")

Dados salvos em Parquet no caminho: dbfs:/FileStore/FAERS-grupo-4/indication_raw
