In [1]:
from pyspark import SparkConf
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when, lit, to_date, to_timestamp, hour, floor, datediff, current_date, min, lower, trim, count, udf, date_format
from pyspark.sql.types import StringType, DateType, TimestampType, IntegerType
import subprocess
import sys

# Função para instalar pacotes
def install_package(package_with_version):
    try:
        subprocess.check_call([sys.executable, "-m", "pip", "install", package_with_version])
        print(f"'{package_with_version}' instalado com sucesso.")
    except Exception as e:
        print(f"Erro ao instalar '{package_with_version}': {e}")
        sys.exit(1)


# Instalar as bibliotecas necessárias com versões compatíveis com Python 3.7
# 'Literal' foi introduzido no Python 3.8. Versões mais recentes de gspread/google-auth-oauthlib
# podem depender dele. Estamos fixando versões mais antigas.
install_package("pandas")
install_package("gspread==3.6.0") # Versão compatível com Python 3.7
install_package("google-auth-oauthlib==0.4.6") # Versão compatível com Python 3.7
install_package("boto3")
# --- Fim da seção de instalação de bibliotecas ---

# --- Importação de bibliotecas ---
import os
import pandas as pd
import gspread
from google.oauth2.service_account import Credentials
import boto3
import datetime # Importado para verificar o tipo datetime.date
        

# Configurações do Spark
conf = SparkConf()
conf.set('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.3.4,com.amazonaws:aws-java-sdk-bundle:1.11.901')
conf.set('spark.hadoop.fs.s3a.aws.credentials.provider', 'com.amazonaws.auth.InstanceProfileCredentialsProvider')

# Criar sessão Spark
spark = SparkSession.builder.config(conf=conf).getOrCreate()

# Lista de arquivos CSV a serem lidos
csv_files = [
    'dados_2025_06_09.csv',
    'dados_2025_06_10.csv',
    'dados_2025_06_11.csv',
    'dados_2025_06_12.csv',
    'dados_2025_06_13.csv'
]

# Prefixo do caminho S3
s3_prefix = 's3a://bucket-raw-upa-connect-mateus/'

# Criar a lista completa de caminhos S3
s3_paths = [s3_prefix + file for file in csv_files]

# Ler os CSVs necessários a partir da lista de caminhos
TabelaCompleta = spark.read.option('delimiter', ',') \
                             .option('header', 'true') \
                             .option('nullValue', 'null') \
                             .csv(s3_paths) # Agora lê múltiplos arquivos

paciente_df = spark.read.option('delimiter', ',') \
                             .option('header', 'true') \
                             .csv('s3a://bucket-trusted-upa-connect-mateus/paciente.csv')

# --- NOVO: Ler upa.csv ---
upa_df = spark.read.option('delimiter', ',') \
                         .option('header', 'true') \
                         .csv('s3a://bucket-trusted-upa-connect-mateus/upa.csv')

print("--- DataFrames Iniciais ---")
print("Schema de TabelaCompleta:")
TabelaCompleta.printSchema()
print("Amostra de TabelaCompleta:")
TabelaCompleta.show(5, truncate=False)

print("\nSchema de paciente_df:")
paciente_df.printSchema()
print("Amostra de paciente_df:")
paciente_df.show(5, truncate=False)

# --- NOVO: Exibir informações de upa_df ---
print("\nSchema de upa_df:")
upa_df.printSchema()
print("Amostra de upa_df:")
upa_df.show(5, truncate=False)


### **Processamento para o Sensor 5 (Biometria)**

print("\n--- Processamento para o Sensor 5 (Biometria) ---")

# 1. Filtrar pelo sensor 5 e remover valores nulos em 'valor'
df_biometria = TabelaCompleta.filter(col("fk_sensor") == 5) \
                             .filter(col('valor').isNotNull())

print("\nDataFrame df_biometria após filtro e remoção de nulos:")
df_biometria.show(5, truncate=False)

# 2. Converter 'valor' para StringType (biometria), 'fk_upa' para IntegerType e 'data_hora' para Timestamp
# Normalizar a coluna 'valor' (biometria) para join
df_biometria = df_biometria.withColumn('valor', lower(trim(col('valor'))).cast(StringType())) \
                            .withColumn('fk_upa', col('fk_upa').cast(IntegerType())) \
                            .withColumn('data_hora', to_timestamp(col('data_hora'))) # Converter para Timestamp

print("\nDataFrame df_biometria após cast e normalização de 'valor':")
df_biometria.show(5, truncate=False)
df_biometria.printSchema()


# --- REMOVIDA A ETAPA DE AGRUPAMENTO QUE PEGAVA A PRIMEIRA OCORRÊNCIA DO DIA ---
# O df_biometria agora contém todas as biometrias, incluindo repetições no mesmo dia.
# Vamos renomear data_hora para algo mais descritivo para o output final,
# mas ela ainda representa o timestamp exato de cada evento.
df_biometria_processado = df_biometria.withColumnRenamed('data_hora', 'data_hora_biometria')
df_biometria_processado = df_biometria_processado.withColumn('data_biometria', to_date(col('data_hora_biometria')))


print("\nDataFrame df_biometria_processado (pronto para join, sem agrupamento por dia):")
df_biometria_processado.show(5, truncate=False)
df_biometria_processado.printSchema()


# 3. Juntar com paciente_df
# Normalizar a coluna 'biometria' em paciente_df para join
paciente_df_normalized = paciente_df.withColumn('biometria_join', lower(trim(col('biometria'))).cast(StringType()))

# Adicionado para visualizar a biometria normalizada no paciente_df_normalized
print("\nDataFrame paciente_df_normalized com 'biometria_join' (após normalização):")
paciente_df_normalized.select('biometria', 'biometria_join', 'nome', 'data_nascimento').show(10, truncate=False)


# O join será feito com df_biometria_processado (que contém todas as biometrias)
df_biometria_final = df_biometria_processado.join(
    paciente_df_normalized.select('biometria_join', 'data_nascimento', 'nome', 'cpf'), # Selecionar 'nome'
    df_biometria_processado.valor == paciente_df_normalized.biometria_join,
    "left_outer" # Usar left_outer para manter todas as biometrias, mesmo que não encontre paciente
).withColumnRenamed("nome", "nome_paciente") \
 .withColumnRenamed("cpf", "cpf_paciente") \
 .drop("biometria_join") # A coluna biometria_join não é mais necessária após o join

print("\nDataFrame df_biometria_final após o JOIN com paciente_df (antes de calcular idade e juntar com UPA):")
df_biometria_final.show(10, truncate=False) # Mostrar mais linhas para ver os nulos
df_biometria_final.printSchema()

# Verificar contagem de nulos após o join
print("\nContagem de nulos em colunas chave após o JOIN:")
df_biometria_final.select(
    count(when(col("nome_paciente").isNull(), 1)).alias("nulos_nome_paciente"),
    count(when(col("data_nascimento").isNull(), 1)).alias("nulos_data_nascimento"),
    count(when(col("cpf_paciente").isNull(), 1)).alias("nulos_cpf_paciente")
).show()

# --- Juntar com upa_df para pegar o nome da UPA ---
# Assegurar que 'id_upa' em upa_df é IntegerType para o join
upa_df_processed = upa_df.withColumnRenamed("id_upa", "fk_upa_upa") \
                             .withColumn("fk_upa_upa", col("fk_upa_upa").cast(IntegerType()))

df_biometria_final = df_biometria_final.join(
    upa_df_processed.select(col('fk_upa_upa'), col('nome').alias('nome_upa')), # Selecionar apenas 'nome' e renomear
    df_biometria_final.fk_upa == upa_df_processed.fk_upa_upa,
    "left_outer" # Usar left_outer para manter todas as biometrias, mesmo que não encontre a UPA
).drop("fk_upa_upa") # Remover a coluna fk_upa_upa após o join para evitar ambiguidade


print("\nDataFrame df_biometria_final após o JOIN com upa_df:")
df_biometria_final.show(10, truncate=False)
df_biometria_final.printSchema()


# 4. Calcular Idade e Faixa Etária
# Assegurar que 'data_nascimento' é tipo Data.
# Tentaremos múltiplos formatos de data. Se nenhum funcionar, resultará em NULL.
df_biometria_final = df_biometria_final.withColumn(
    "data_nascimento_dt",
    when(to_date(col("data_nascimento"), "yyyy-MM-dd").isNotNull(), to_date(col("data_nascimento"), "yyyy-MM-dd"))
    .when(to_date(col("data_nascimento"), "dd/MM/yyyy").isNotNull(), to_date(col("data_nascimento"), "dd/MM/yyyy"))
    .when(to_date(col("data_nascimento"), "MM/dd/yyyy").isNotNull(), to_date(col("data_nascimento"), "MM/dd/yyyy"))
    .otherwise(lit(None).cast(DateType())) # Caso nenhum formato corresponda
)
df_biometria_final = df_biometria_final.withColumn(
    "IdadeCorrigida", floor(datediff(current_date(), col("data_nascimento_dt")) / 365.25)
)
# Renomear IdadeCorrigida para idade_paciente
df_biometria_final = df_biometria_final.withColumnRenamed("IdadeCorrigida", "idade_paciente")


df_biometria_final = df_biometria_final.withColumn("Faixa_Etaria",
    when((col("idade_paciente") >= 0) & (col("idade_paciente") <= 12), "0–12") # Usar idade_paciente
    .when((col("idade_paciente") >= 13) & (col("idade_paciente") <= 17), "13–17") # Usar idade_paciente
    .when((col("idade_paciente") >= 18) & (col("idade_paciente") <= 39), "18–39") # Usar idade_paciente
    .when((col("idade_paciente") >= 40) & (col("idade_paciente") <= 59), "40–59") # Usar idade_paciente
    .otherwise("60+"))

# 5. Criar Faixa de Horários (AGORA USA data_hora_biometria direto)
df_biometria_final = df_biometria_final.withColumn("Hora", hour(col("data_hora_biometria")))
df_biometria_final = df_biometria_final.withColumn("Faixa_Hora",
    when((col("Hora") >= 0) & (col("Hora") < 6), "0h-6h")
    .when((col("Hora") >= 6) & (col("Hora") < 9), "6h-9h")
    .when((col("Hora") >= 9) & (col("Hora") < 12), "9h-12h")
    .when((col("Hora") >= 12) & (col("Hora") < 15), "12h-15h")
    .when((col("Hora") >= 15) & (col("Hora") < 18), "15h-18h")
    .when((col("Hora") >= 18) & (col("Hora") < 21), "18h-21h")
    .otherwise("21h-24h"))

# 6. Selecionar e ordenar as colunas finais
colunas_biometria_ordenadas = [
    'valor',
    'nome_paciente',
    'idade_paciente', # RENOMEADA
    'Faixa_Etaria',
    'data_biometria', # RENOMEADA para indicar a data do registro, sem o horário
    date_format(col('data_hora_biometria'), 'HH:mm:ss').alias('hora_biometria'), # Apenas a hora, minuto e segundo do registro original
    'Faixa_Hora',
    'fk_upa',
    'nome_upa' # NOVO: Nome da UPA
]

df_biometria_final = df_biometria_final.select(colunas_biometria_ordenadas)

print("\n--- DataFrame Final de Biometria (TODAS AS OCORRÊNCIAS) ---")
df_biometria_final.show(120, truncate=False)

# Salvar o DataFrame de biometria em CSV no S3
output_path_biometria = 's3a://bucket-trusted-upa-connect-mateus/biometria_paciente_todas_ocorrencias.csv' # Alterado nome para diferenciar
print(f"\nSalvando DataFrame de biometria para: {output_path_biometria}")
df_biometria_final.coalesce(1) \
                     .write \
                     .option('header', 'true') \
                     .mode('overwrite') \
                     .csv(output_path_biometria)
print("DataFrame de biometria salvo com sucesso no S3.")

### **Enviar DataFrame para Google Sheets**

# === CONFIGURAÇÕES PARA O GOOGLE SHEETS ===
GOOGLE_SHEET_ID = '1i6BfuZXPOcTp6BFAiVkpktOBym0HtakZacUKfDzu1zI' # Use o ID da sua planilha
S3_BUCKET_CREDENTIALS = 'bucket-trusted-upa-connect-mateus'
S3_KEY_CREDENTIALS = 'credenciais.json'
LOCAL_CREDENTIALS_PATH = '/tmp/credenciais.json'

# === AUTENTICAÇÃO GOOGLE ===
print(f"\nBaixando credenciais do S3: s3://{S3_BUCKET_CREDENTIALS}/{S3_KEY_CREDENTIALS} para {LOCAL_CREDENTIALS_PATH}...")
s3 = boto3.client('s3')
try:
    s3.download_file(S3_BUCKET_CREDENTIALS, S3_KEY_CREDENTIALS, LOCAL_CREDENTIALS_PATH)
    print("Credenciais baixadas com sucesso.")
except Exception as e:
    print(f"Erro ao baixar credenciais do S3: {e}")
    sys.exit(1)

scopes = ["https://www.googleapis.com/auth/spreadsheets", "https://www.googleapis.com/auth/drive"]
credenciais = Credentials.from_service_account_file(LOCAL_CREDENTIALS_PATH, scopes=scopes)
cliente = gspread.authorize(credenciais)
planilha = cliente.open_by_key(GOOGLE_SHEET_ID)

# === ENVIA O DATAFRAME DE BIOMETRIA PARA A NOVA ABA "BiometriaPacienteTodas" ===
NOME_ABA_BIOMETRIA_PACIENTE = "BiometriaPaciente" # Alterado nome da aba para diferenciar
print(f"\nEnviando DataFrame de biometria para a aba '{NOME_ABA_BIOMETRIA_PACIENTE}'...")

# Converter Spark DataFrame df_biometria_final para Pandas DataFrame
try:
    df_biometria_pandas = df_biometria_final.toPandas()
    print("DataFrame Spark de biometria convertido para Pandas com sucesso.")
except Exception as e:
    print(f"Erro ao converter Spark DataFrame de biometria para Pandas: {e}")
    sys.exit(1)

# Ajustar tipagem das colunas para o Google Sheets
# Coluna 'data_biometria': assegurar que é string DD/MM/YYYY
if 'data_biometria' in df_biometria_pandas.columns:
    # Verifica se a coluna ainda é do tipo datetime.date (ou similar) e a formata.
    # Caso contrário, se já for string, assume que está ok e apenas preenche nulos.
    if pd.api.types.is_object_dtype(df_biometria_pandas['data_biometria']):
        df_biometria_pandas['data_biometria'] = df_biometria_pandas['data_biometria'].apply(
            lambda x: x.strftime('%d/%m/%Y') if isinstance(x, (datetime.date, datetime.datetime)) else x
        )
    df_biometria_pandas['data_biometria'] = df_biometria_pandas['data_biometria'].fillna('')


# Coluna 'hora_biometria': (já vem como string 'HH:mm:ss' do Spark)
if 'hora_biometria' in df_biometria_pandas.columns:
    df_biometria_pandas['hora_biometria'] = df_biometria_pandas['hora_biometria'].fillna('')

# Coluna 'data_nascimento' não está mais no df_biometria_final, então a lógica para ela foi removida.
# A coluna 'IdadeCorrigida' foi renomeada para 'idade_paciente' e já é numérica, não necessita de tratamento especial aqui.

dados_biometria = [df_biometria_pandas.columns.tolist()] + df_biometria_pandas.values.tolist()

try:
    aba_biometria = planilha.worksheet(NOME_ABA_BIOMETRIA_PACIENTE)
    aba_biometria.clear()
    print(f"Aba '{NOME_ABA_BIOMETRIA_PACIENTE}' encontrada e limpa.")
except gspread.exceptions.WorksheetNotFound:
    aba_biometria = planilha.add_worksheet(title=NOME_ABA_BIOMETRIA_PACIENTE, rows=str(len(dados_biometria) + 100), cols=str(len(df_biometria_pandas.columns) + 10))
    print(f"Aba '{NOME_ABA_BIOMETRIA_PACIENTE}' criada.")

try:
    aba_biometria.update(dados_biometria)
    print(f"Dados do DataFrame de biometria enviados com sucesso para a aba '{NOME_ABA_BIOMETRIA_PACIENTE}'.")
except Exception as e:
    print(f"Erro ao atualizar a aba do Google Sheets com dados de biometria: {e}")

# Opcional: Remover o arquivo de credenciais temporário
if os.path.exists(LOCAL_CREDENTIALS_PATH):
    os.remove(LOCAL_CREDENTIALS_PATH)
    print(f"Arquivo de credenciais temporário '{LOCAL_CREDENTIALS_PATH}' removido.")

# Parar a sessão Spark
spark.stop()
print("\nSessão Spark parada.")





'pandas' instalado com sucesso.




'gspread==3.6.0' instalado com sucesso.




'google-auth-oauthlib==0.4.6' instalado com sucesso.




'boto3' instalado com sucesso.
:: loading settings :: url = jar:file:/usr/local/lib/python3.7/site-packages/pyspark/jars/ivy-2.5.1.jar!/org/apache/ivy/core/settings/ivysettings.xml


Ivy Default Cache set to: /root/.ivy2/cache
The jars for the packages stored in: /root/.ivy2/jars
org.apache.hadoop#hadoop-aws added as a dependency
com.amazonaws#aws-java-sdk-bundle added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-c5a549b4-62bd-42f5-b80b-18473a453724;1.0
	confs: [default]
	found org.apache.hadoop#hadoop-aws;3.3.4 in central
	found com.amazonaws#aws-java-sdk-bundle;1.12.262 in central
	found org.wildfly.openssl#wildfly-openssl;1.0.7.Final in central
:: resolution report :: resolve 465ms :: artifacts dl 21ms
	:: modules in use:
	com.amazonaws#aws-java-sdk-bundle;1.12.262 from central in [default]
	org.apache.hadoop#hadoop-aws;3.3.4 from central in [default]
	org.wildfly.openssl#wildfly-openssl;1.0.7.Final from central in [default]
	:: evicted modules:
	com.amazonaws#aws-java-sdk-bundle;1.11.901 by [com.amazonaws#aws-java-sdk-bundle;1.12.262] in [default]
	---------------------------------------------------------------------
	|     

--- DataFrames Iniciais ---
Schema de TabelaCompleta:
root
 |-- data_hora: string (nullable = true)
 |-- valor: string (nullable = true)
 |-- fk_sensor: string (nullable = true)
 |-- fk_unid_medida: string (nullable = true)
 |-- fk_paciente: string (nullable = true)
 |-- fk_upa: string (nullable = true)

Amostra de TabelaCompleta:
+-------------------+-----+---------+--------------+-----------+------+
|data_hora          |valor|fk_sensor|fk_unid_medida|fk_paciente|fk_upa|
+-------------------+-----+---------+--------------+-----------+------+
|2025-06-11T00:05:00|208  |1        |null          |null       |1     |
|2025-06-11T00:10:00|30   |1        |null          |null       |1     |
|2025-06-11T00:15:00|160  |1        |null          |null       |1     |
|2025-06-11T00:20:00|10   |1        |null          |null       |1     |
|2025-06-11T00:25:00|11   |1        |null          |null       |1     |
+-------------------+-----+---------+--------------+-----------+------+
only showing top 5 

                                                                                

+-------------------+--------+---------+--------------+-----------+------+
|data_hora          |valor   |fk_sensor|fk_unid_medida|fk_paciente|fk_upa|
+-------------------+--------+---------+--------------+-----------+------+
|2025-06-11T00:00:00|15GZF91H|5        |null          |17         |1     |
|2025-06-11T00:05:00|29N7ZAXH|5        |null          |35         |1     |
|2025-06-11T00:10:00|6RQ3GBP9|5        |null          |133        |1     |
|2025-06-11T00:15:00|5KH76BIY|5        |null          |106        |1     |
|2025-06-11T00:20:00|507ZY3M4|5        |null          |91         |1     |
+-------------------+--------+---------+--------------+-----------+------+
only showing top 5 rows


DataFrame df_biometria após cast e normalização de 'valor':


                                                                                

+-------------------+--------+---------+--------------+-----------+------+
|data_hora          |valor   |fk_sensor|fk_unid_medida|fk_paciente|fk_upa|
+-------------------+--------+---------+--------------+-----------+------+
|2025-06-11 00:00:00|15gzf91h|5        |null          |17         |1     |
|2025-06-11 00:05:00|29n7zaxh|5        |null          |35         |1     |
|2025-06-11 00:10:00|6rq3gbp9|5        |null          |133        |1     |
|2025-06-11 00:15:00|5kh76biy|5        |null          |106        |1     |
|2025-06-11 00:20:00|507zy3m4|5        |null          |91         |1     |
+-------------------+--------+---------+--------------+-----------+------+
only showing top 5 rows

root
 |-- data_hora: timestamp (nullable = true)
 |-- valor: string (nullable = true)
 |-- fk_sensor: string (nullable = true)
 |-- fk_unid_medida: string (nullable = true)
 |-- fk_paciente: string (nullable = true)
 |-- fk_upa: integer (nullable = true)


DataFrame df_biometria_processado (pronto p

                                                                                

+-------------------+---------------------+------------------+
|nulos_nome_paciente|nulos_data_nascimento|nulos_cpf_paciente|
+-------------------+---------------------+------------------+
|                  0|                    0|                 0|
+-------------------+---------------------+------------------+


DataFrame df_biometria_final após o JOIN com upa_df:
+-------------------+--------+---------+--------------+-----------+------+--------------+---------------+---------------+------------+---------------+
|data_hora_biometria|valor   |fk_sensor|fk_unid_medida|fk_paciente|fk_upa|data_biometria|data_nascimento|nome_paciente  |cpf_paciente|nome_upa       |
+-------------------+--------+---------+--------------+-----------+------+--------------+---------------+---------------+------------+---------------+
|2025-06-11 00:00:00|15gzf91h|5        |null          |17         |1     |2025-06-11    |1958-04-14     |Dalva Lucca    |90123456789 |UPA 21 DE JUNHO|
|2025-06-11 00:05:00|29n7z

25/06/18 03:09:15 WARN AbstractS3ACommitterFactory: Using standard FileOutputCommitter to commit work. This is slow and potentially unsafe.
25/06/18 03:09:16 WARN AbstractS3ACommitterFactory: Using standard FileOutputCommitter to commit work. This is slow and potentially unsafe.
                                                                                

DataFrame de biometria salvo com sucesso no S3.

Baixando credenciais do S3: s3://bucket-trusted-upa-connect-mateus/credenciais.json para /tmp/credenciais.json...




Credenciais baixadas com sucesso.

Enviando DataFrame de biometria para a aba 'BiometriaPaciente'...


                                                                                

DataFrame Spark de biometria convertido para Pandas com sucesso.
Aba 'BiometriaPaciente' encontrada e limpa.
Dados do DataFrame de biometria enviados com sucesso para a aba 'BiometriaPaciente'.
Arquivo de credenciais temporário '/tmp/credenciais.json' removido.

Sessão Spark parada.
