## Bibliotecas necessárias

In [1]:
import os

# Verificar se o diretório existe
print("Diretório existe?", os.path.exists("/dados_gtfs"))

# Listar arquivos no diretório (se existir)
if os.path.exists("/dados_gtfs"):
    print("Arquivos:", os.listdir("/dados_gtfs"))
else:
    print("Diretório não existe!")

# Verificar diretório atual
print("Diretório atual:", os.getcwd())

Diretório existe? True
Arquivos: ['agency.txt', 'calendar.txt', 'fare_attributes.txt', 'fare_rules.txt', 'frequencies.txt', 'routes.txt', 'shapes.txt', 'stops.txt', 'stop_times.txt', 'trips.txt']
Diretório atual: /home/user


In [1]:
import requests
import json
import pyspark
from delta import *

## Configurações spark

In [3]:
builder = (
    pyspark.sql.SparkSession.builder
    .appName("delta")
    .master("spark://spark-master:7077")
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
    .config("spark.hadoop.fs.defaultFS", "file:///")  # Define local como padrão
    .config("spark.hadoop.fs.s3a.access.key", "datalake")
    .config("spark.hadoop.fs.s3a.secret.key", "datalake")
    .config("spark.hadoop.fs.s3a.endpoint", "http://minio:9000")
    .config("spark.hadoop.fs.s3a.path.style.access", "true")
    .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
)
spark = configure_spark_with_delta_pip(builder).enableHiveSupport().getOrCreate()

# Agora pode usar sem prefixo para local
df = spark.read.csv("/dados_gtfs/stops.txt", header=True)



## leitura de dados gtfs

In [4]:
df = (
    spark.read
    .csv("file:///dados_gtfs/stops.txt", header=True)
)

In [28]:
df_routes = (
    spark.read
    .csv("file:///dados_gtfs/routes.txt", header=True)
)
df_routes.show()

+--------+---------+----------------+--------------------+----------+-----------+----------------+
|route_id|agency_id|route_short_name|     route_long_name|route_type|route_color|route_text_color|
+--------+---------+----------------+--------------------+----------+-----------+----------------+
| 1012-10|        1|         1012-10|Term. Jd. Britani...|         3|     509E2F|          FFFFFF|
| 1012-21|        1|         1012-21|Term. Jd. Britâni...|         3|     509E2F|          FFFFFF|
| 1014-10|        1|         1014-10|Cptm Perus - Morr...|         3|     509E2F|          FFFFFF|
| 1015-10|        1|         1015-10|Term. Jd. Britâni...|         3|     509E2F|          FFFFFF|
| 1016-10|        1|         1016-10|Cem. Do Horto - S...|         3|     002F6C|          FFFFFF|
| 1017-10|        1|         1017-10|Perus - Conexão V...|         3|     509E2F|          FFFFFF|
| 1018-10|        1|         1018-10|Vl. Rosa - Metrô ...|         3|     002F6C|          FFFFFF|
| 1019-10|

## Lista de todas as paradas únicas

In [5]:
lista = (
    df
    .select('stop_id')
    .distinct()
    .rdd
    .flatMap(lambda x: x)
    .collect()
)


AnalysisException: Column 'route_id' does not exist. Did you mean one of the following? [stop_id, stop_desc, stop_lat, stop_lon, stop_name];
'Project ['route_id]
+- Relation [stop_id#44,stop_name#45,stop_desc#46,stop_lat#47,stop_lon#48] csv


In [29]:
lista_linhas = (
    df_routes
    .select('route_id')
    .distinct()
    .rdd
    .flatMap(lambda x: x)
    .collect()
)


In [24]:
len(lista)

22073

In [23]:
len(lista_linhas)

1345

## Autenticação API

In [10]:
BASE_URL = "http://api.olhovivo.sptrans.com.br/v2.1"
def autenticar():
    auth_url = f"{BASE_URL}/Login/Autenticar"
    params = {"token": "9dac5122b12c0e6aacfc7b6922dead75ce7368011c53b6ee9ea9011f5cc5ac24"}
    session = requests.Session()
    resp = session.post(auth_url, params=params)
    if resp.status_code == 200 and resp.text.lower() == "true":
        return session
    return False


In [2]:
import json

def previsao_por_parada(codigo_linha, sessao, url:str):
    if url == 'previsao':
        url =  f'{BASE_URL}//Previsao/Linha?codigoLinha={codigo_linha}'
    elif url == 'linha':    
        url = f"{BASE_URL}//Linha/Buscar?termosBusca={codigo_linha}"
    elif url == 'posicao':
        url = f'{BASE_URL}/Posicao'
    response = sessao.get(url)

    # sessão expirada → reautentica e tenta de novo
    if response.status_code == 401:
        ok = autenticar()
        if not ok:
            Exception(f"Falha ao reautenticar na API SPTrans {Exception}")

        response = sessao.get(url, params=params)

    response.raise_for_status()
    return response.json()


In [6]:
pip install boto3

Collecting boto3
  Downloading boto3-1.42.24-py3-none-any.whl (140 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m140.6/140.6 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting botocore<1.43.0,>=1.42.24
  Downloading botocore-1.42.24-py3-none-any.whl (14.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m14.6/14.6 MB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting s3transfer<0.17.0,>=0.16.0
  Downloading s3transfer-0.16.0-py3-none-any.whl (86 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m86.8/86.8 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0mta [36m0:00:01[0m
[?25hCollecting jmespath<2.0.0,>=0.7.1
  Downloading jmespath-1.0.1-py3-none-any.whl (20 kB)
Installing collected packages: jmespath, botocore, s3transfer, boto3
Successfully installed boto3-1.42.24 botocore-1.42.24 jmespath-1.0.1 s3transfer-0.16.0
Note: you may need to restart the kernel to use updated pack

In [8]:
import boto3
import json
from datetime import datetime

def upload_json_partitioned(dados, bucket_name, path,  name_doc):
    # 1. Configuração do cliente
    s3 = boto3.client(
        's3',
        endpoint_url='http://minio:9000',
        aws_access_key_id='projetofinal',
        aws_secret_access_key='projetofinal',
        region_name='us-east-1'
    )

    # 2. Gerar variáveis de data para a partição
    now = datetime.now()
    ano = now.strftime('%Y')
    mes = now.strftime('%m')
    dia = now.strftime('%d')
    timestamp = now.strftime('%H%M%S')

    # 3. Montar a KEY (Caminho + Nome do Arquivo)
    # A estrutura de pastas é definida pelas barras '/'
    key = f"{path}/ano={ano}/mes={mes}/dia={dia}/{name_doc}_{timestamp}.json"

    # 4. Converter dados para JSON
    body = json.dumps(dados, ensure_ascii=False, indent=4)

    # 5. Upload
    s3.put_object(
        Bucket=bucket_name,
        Key=key,
        Body=body,
        ContentType='application/json'
    )
    
    print(f"Objeto salvo em: {bucket_name}/{key}")

# Uso:
# upload_json_partitioned(meus_dados, 'raw', 'position')

In [None]:
import json
import time
sessao = autenticar()        
while True:
    lista_posicoes_veiculo = []
    
    previsao = previsao_por_parada(None, sessao, 'posicao')
    upload_json_partitioned(previsao, 'raw', 'posicao_veiculo','veiculo')
    print(f"linha executada com sucesso !")
    time.sleep(2)


Objeto salvo em: raw/posicao_veiculo/ano=2026/mes=01/dia=08/veiculo_013141.json
linha executada com sucesso !
Objeto salvo em: raw/posicao_veiculo/ano=2026/mes=01/dia=08/veiculo_013144.json
linha executada com sucesso !
Objeto salvo em: raw/posicao_veiculo/ano=2026/mes=01/dia=08/veiculo_013146.json
linha executada com sucesso !
Objeto salvo em: raw/posicao_veiculo/ano=2026/mes=01/dia=08/veiculo_013149.json
linha executada com sucesso !
Objeto salvo em: raw/posicao_veiculo/ano=2026/mes=01/dia=08/veiculo_013151.json
linha executada com sucesso !
Objeto salvo em: raw/posicao_veiculo/ano=2026/mes=01/dia=08/veiculo_013153.json
linha executada com sucesso !
Objeto salvo em: raw/posicao_veiculo/ano=2026/mes=01/dia=08/veiculo_013156.json
linha executada com sucesso !
Objeto salvo em: raw/posicao_veiculo/ano=2026/mes=01/dia=08/veiculo_013159.json
linha executada com sucesso !
Objeto salvo em: raw/posicao_veiculo/ano=2026/mes=01/dia=08/veiculo_013201.json
linha executada com sucesso !
Objeto sal

In [None]:

while True:
    lista_posicoes_veiculo = []
    previsao = previsao_por_parada(None, sessao, 'posicao')
    previsao_json = json.dumps(previsao)
    print("arquivo exportado com sucesso !")
    time.sleep(2)

    

In [183]:
df_veiculos = pd.DataFrame(lista_posicoes_veiculo[0]['l'])
for index, row in df_veiculos.iterrows():
    row['vs']

Unnamed: 0,c,cl,sl,lt0,lt1,qv,vs
0,737A-10,34498,2,TERM. STO. AMARO,TERM. JD. ÂNGELA,14,"[{'p': 73841, 'a': True, 'ta': '2026-01-08T00:..."
1,4115-10,33090,2,PÇA. DA REPÚBLICA,SHOP. PLAZA SUL,2,"[{'p': 52008, 'a': True, 'ta': '2026-01-08T00:..."
2,2678-10,383,1,TERM. PQ. D. PEDRO II,OLIVEIRINHA,5,"[{'p': 32524, 'a': True, 'ta': '2026-01-08T00:..."
3,7545-10,33272,2,PÇA. RAMOS DE AZEVEDO,JD. JOÃO XXIII,9,"[{'p': 81405, 'a': True, 'ta': '2026-01-08T00:..."
4,574R-10,34391,2,METRÔ BELÉM,TERM. SAPOPEMBA,4,"[{'p': 56515, 'a': True, 'ta': '2026-01-08T00:..."
...,...,...,...,...,...,...,...
1976,7012-10,2043,1,TERM. GUARAPIRANGA,PQ. DO LAGO,1,"[{'p': 78902, 'a': True, 'ta': '2026-01-08T00:..."
1977,6826-10,16,1,TERM. CAPELINHA,JD. D. JOSÉ,1,"[{'p': 72488, 'a': True, 'ta': '2026-01-08T00:..."
1978,8062-10,33188,2,LAPA,PQ. SÃO DOMINGOS,1,"[{'p': 10425, 'a': True, 'ta': '2026-01-08T00:..."
1979,1738-10,672,1,METRÔ SANTANA,VL. CONSTANÇA,1,"[{'p': 26073, 'a': True, 'ta': '2026-01-08T00:..."


In [191]:
pd.DataFrame(pd.DataFrame(lista_posicoes_veiculo[0]['l'])['vs'][0])

Unnamed: 0,p,a,ta,py,px,sv,is
0,73841,True,2026-01-08T00:30:28Z,-23.690655,-46.774252,,
1,73842,True,2026-01-08T00:30:45Z,-23.690655,-46.774252,,
2,73004,True,2026-01-08T00:30:47Z,-23.690655,-46.774252,,
3,73859,True,2026-01-08T00:30:51Z,-23.666026,-46.715771,,
4,73833,True,2026-01-08T00:30:53Z,-23.690655,-46.774252,,
5,73884,True,2026-01-08T00:30:51Z,-23.654075,-46.711811,,
6,73910,True,2026-01-08T00:30:22Z,-23.690355,-46.7744,,
7,73983,True,2026-01-08T00:30:30Z,-23.690655,-46.774252,,
8,73810,True,2026-01-08T00:30:38Z,-23.690655,-46.774252,,
9,73807,True,2026-01-08T00:30:49Z,-23.690655,-46.774252,,


In [17]:
len(lista)

22073

In [None]:
import time
from tqdm import tqdm

# Wrap any iterable with tqdm() to add a progress bar
for i in tqdm(range(100), desc="Processing"):

In [108]:
sessao = autenticar()  # autentica antes de começar
print("Autenticação realizada com sucesso !")

lista_respostas = []
id_linhas = []
previsoes = []
for i, parada in zip(range(len(lista_linhas)), lista_linhas):
    previsao = previsao_por_parada(parada, sessao, 'linha')
    lista_respostas.append(previsao)
    id_linhas.append(lista_respostas[i][0]['cl'])
    linha_atual = lista_respostas[i][0]['cl']
    previsao = previsao_por_parada(linha_atual,sessao,'previsao')
    previsoes.append(previsao)
    
    print(f"previsao para parada de id {parada} executada com sucesso !") 



Autenticação realizada com sucesso !
previsao para parada de id 476G-41 executada com sucesso !
previsao para parada de id 6913-21 executada com sucesso !
previsao para parada de id 695Y-42 executada com sucesso !
previsao para parada de id 9701-10 executada com sucesso !
previsao para parada de id N538-11 executada com sucesso !
previsao para parada de id 233C-10 executada com sucesso !
previsao para parada de id 5129-41 executada com sucesso !
previsao para parada de id 5652-22 executada com sucesso !
previsao para parada de id 7049-10 executada com sucesso !
previsao para parada de id 8194-10 executada com sucesso !
previsao para parada de id 9051-10 executada com sucesso !
previsao para parada de id N602-11 executada com sucesso !
previsao para parada de id 2019-10 executada com sucesso !
previsao para parada de id 3001-10 executada com sucesso !
previsao para parada de id 3032-10 executada com sucesso !
previsao para parada de id 6012-10 executada com sucesso !
previsao para parad

In [144]:
df_linhas = pd.read_parquet(r'tabela_linhas.parquet')
df_linhas

Unnamed: 0,id_linha
0,1112
1,1549
2,2632
3,569
4,2390
...,...
1340,159
1341,2550
1342,66
1343,801


In [146]:
sessao = autenticar()  # autentica antes de começar
print("Autenticação realizada com sucesso !")

previsoes = []
for index, row in df_linhas.iterrows():
    previsao = previsao_por_parada(row['id_linha'],sessao,'previsao')
    previsoes.append(previsao)
    
    print(f"previsao para parada de id {parada} executada com sucesso !") 



Autenticação realizada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parada de id N234-11 executada com sucesso !
previsao para parad

In [169]:
pd.DataFrame(previsoes[2]['ps'])

Unnamed: 0,cp,np,py,px,vs
0,560009166,ALFREDO REIMBERG B/C,-23.790935,-46.726858,"[{'p': '61796', 't': '21:27', 'a': True, 'ta':..."
1,560009201,AMARO ALVES DO ROSARIO B/C,-23.814648,-46.735225,"[{'p': '61796', 't': '21:14', 'a': True, 'ta':..."
2,560009175,ANA CAROLINA B/C,-23.803805,-46.73479,"[{'p': '61796', 't': '21:19', 'a': True, 'ta':..."
3,560009171,BALTAZARINI B/C,-23.798989,-46.731158,"[{'p': '61796', 't': '21:22', 'a': True, 'ta':..."
4,560009162,ELEVATÓRIA SABESP B/C,-23.78024,-46.724711,"[{'p': '61574', 't': '21:14', 'a': True, 'ta':..."
5,560009173,ESTRADA DO PAIOL B/C,-23.80117,-46.733875,"[{'p': '61796', 't': '21:20', 'a': True, 'ta':..."
6,560009170,ESTRADA DO PINHAL B/C,-23.793253,-46.729063,"[{'p': '61796', 't': '21:25', 'a': True, 'ta':..."
7,5614545,EUZÉBIO COGHI B/C,-23.826443,-46.732218,[]
8,560009192,JOSÉ LA TORRE B/C,-23.806909,-46.736403,"[{'p': '61796', 't': '21:18', 'a': True, 'ta':..."
9,560009159,JOSÉ NICOLAU DE LIMA B/C,-23.777013,-46.722914,"[{'p': '61574', 't': '21:16', 'a': True, 'ta':..."


In [143]:
import pandas as pd
pd.DataFrame([str(i) for i in id_linhas],columns=['id_linha']).to_parquet(r'tabela_linhas.parquet')

In [135]:
pd.DataFrame(previsoes[1]['ps'])

Unnamed: 0,cp,np,py,px,vs
0,230009867,BARRAL B/C,-23.739261,-46.70143,[]
1,230009868,BELMIRA MARIN B/C,-23.73454,-46.698876,[]
2,230009858,CRISTIAN ANDERSEN B/C,-23.757982,-46.7147,[]
3,230009962,DOMENICO LAURO C/B,-23.717209,-46.704407,[]
4,230009860,DOS MENDES B/C,-23.750864,-46.710384,[]
5,530015348,EUCALIPTOS B/C,-23.604788,-46.675035,[]
6,230009864,HILÁRIO B/C,-23.744767,-46.707007,[]
7,230009844,HILÁRIO C/B,-23.744971,-46.70707,[]
8,810009943,JOÃO DE BARROS B/C,-23.676013,-46.712366,[]
9,810009951,LEONARDO DE FASSIO B/C,-23.693558,-46.714792,[]


In [76]:
lista_repostas[0]

NameError: name 'lista_repostas' is not defined

In [80]:
import pandas as pd
import json

lista_respostas[0][0]

2632