# TCC - Mineração de Processos no Transporte Público de Curitiba

## Etapa 1: Aquisição e Estruturação de Dados da API URBS

O primeiro passo fundamental deste projeto é a coleta de dados brutos do sistema de transporte. Com base na documentação oficial fornecida, vamos interagir com o web service da URBS para obter a posição dos veículos.

- **Conexão com a API:** Utilizamos a biblioteca `requests` para fazer uma chamada ao endpoint `getVeiculos.php`.
- **Carregamento e Estruturação:** A resposta JSON da API é carregada em um DataFrame do pandas. Uma transposição (`.T`) é aplicada imediatamente para garantir que os veículos sejam as linhas e os atributos (`COD`, `LAT`, etc.) sejam as colunas, que é o formato padrão para análise.

#### Importação das bibliotecas

In [1]:
import requests
import pandas as pd

#### Configurações da Requisição

In [2]:
base_url = "https://transporteservico.urbs.curitiba.pr.gov.br/"
endpoint = "getVeiculos.php"
api_code = "65d35"
full_url = f"{base_url}{endpoint}"
params = {'c': api_code}

print(f"Acessando a API em: {full_url}")

Acessando a API em: https://transporteservico.urbs.curitiba.pr.gov.br/getVeiculos.php


In [3]:
try:
    # Realiza a requisição GET
    response = requests.get(full_url, params=params, timeout=30)
    response.raise_for_status()   
    data = response.json()
    print("Conexão e recebimento de dados bem-sucedidos!")
    
    # Carrega os dados e imediatamente transpõe (.T) o DataFrame para corrigir a estrutura
    df_raw = pd.DataFrame(data).T
    
    print("\n--- Estrutura do DataFrame corrigida ---")
    print(f"Formato (linhas, colunas): {df_raw.shape}")
    print(df_raw.head())

except requests.exceptions.RequestException as e:
    print(f"ERRO de Conexão: {e}")
    df_raw = None
except Exception as e:
    print(f"ERRO ao processar os dados: {e}")
    df_raw = None

Conexão e recebimento de dados bem-sucedidos!

--- Estrutura do DataFrame corrigida ---
Formato (linhas, colunas): (1480, 12)
         COD REFRESH         LAT         LON CODIGOLINHA ADAPT TIPO_VEIC  \
JI009  JI009   18:36  -25.483545  -49.347473         826     1         1   
JI004  JI004   18:35  -25.500918  -49.341475         826     1         1   
HI035  HI035   18:35  -25.441651  -49.346693         826     1         1   
HE715  HE715   18:33  -25.433978  -49.269291         550     0         5   
GE726  GE726   18:36  -25.463278  -49.256283         550     0         5   

      TABELA    SITUACAO        SITUACAO2   SENT TCOUNT  
JI009      2  NO HORÁRIO  REALIZANDO ROTA  VOLTA      1  
JI004      4  NO HORÁRIO  REALIZANDO ROTA  VOLTA      1  
HI035      1   ADIANTADO  REALIZANDO ROTA    IDA      1  
HE715      3  NO HORÁRIO  REALIZANDO ROTA    IDA      1  
GE726      2  NO HORÁRIO  REALIZANDO ROTA  VOLTA      1  


## Etapa 2: Preparação e Limpeza dos Dados

Com o DataFrame `df_raw` corretamente estruturado, esta etapa foca em prepará-lo para a análise.

- **Renomeação de Colunas:** Alteramos os nomes originais da API para um padrão mais claro e consistente (ex: `COD` para `vehicle_id`).
- **Criação do Timestamp:** Criamos uma coluna `timestamp` completa, combinando a data atual com o horário da API, e a convertemos para o formato `datetime` do pandas.

In [4]:
# Este código assume que a célula da Etapa 1 foi executada e a variável 'df_raw' existe.

if 'df_raw' in locals() and df_raw is not None:
    # 1. Renomeando as colunas
    column_mapping = {
        'COD': 'vehicle_id',
        'REFRESH': 'refresh_time',
        'LAT': 'latitude',
        'LON': 'longitude',
        'CODIGOLINHA': 'line_id',
        'ADAPT': 'adapted_vehicle',
        'TIPO_VEIC': 'vehicle_type',
        'TABELA': 'schedule_table',
        'SITUACAO': 'situation',
        'SITUACAO2': 'situation_2',
        'SENT': 'direction',
        'TCOUNT': 't_count'
    }
    df_cleaned = df_raw.rename(columns=column_mapping)
    print("--- Colunas após renomear ---")
    print(df_cleaned.columns.tolist())
    print("\n")

    # 2. Criando a coluna de Timestamp
    today_date_str = str(pd.to_datetime('today').date())
    df_cleaned['timestamp'] = pd.to_datetime(today_date_str + ' ' + df_cleaned['refresh_time'], 
                                             format='%Y-%m-%d %H:%M')

    print("--- Verificação dos tipos de dados (note a coluna 'timestamp') ---")
    df_cleaned.info()
    print("\n")
    
    print("--- Visualização do DataFrame limpo e pronto ---")
    print(df_cleaned.head())
else:
    print("ERRO: A variável 'df_raw' não foi encontrada. Execute a célula da Etapa 1 primeiro.")

--- Colunas após renomear ---
['vehicle_id', 'refresh_time', 'latitude', 'longitude', 'line_id', 'adapted_vehicle', 'vehicle_type', 'schedule_table', 'situation', 'situation_2', 'direction', 't_count']


--- Verificação dos tipos de dados (note a coluna 'timestamp') ---
<class 'pandas.core.frame.DataFrame'>
Index: 1480 entries, JI009 to JI854
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   vehicle_id       1480 non-null   object        
 1   refresh_time     1480 non-null   object        
 2   latitude         1480 non-null   object        
 3   longitude        1480 non-null   object        
 4   line_id          1480 non-null   object        
 5   adapted_vehicle  1480 non-null   object        
 6   vehicle_type     1480 non-null   object        
 7   schedule_table   1480 non-null   object        
 8   situation        1480 non-null   object        
 9   situation_2      1480 non-null   o

#### Visualização do DataFrame Transposto, Renomeado e com timestamp

In [6]:
df_cleaned

Unnamed: 0,vehicle_id,refresh_time,latitude,longitude,line_id,adapted_vehicle,vehicle_type,schedule_table,situation,situation_2,direction,t_count,timestamp
JI009,JI009,18:36,-25.483545,-49.347473,826,1,1,2,NO HORÁRIO,REALIZANDO ROTA,VOLTA,1,2025-10-11 18:36:00
JI004,JI004,18:35,-25.500918,-49.341475,826,1,1,4,NO HORÁRIO,REALIZANDO ROTA,VOLTA,1,2025-10-11 18:35:00
HI035,HI035,18:35,-25.441651,-49.346693,826,1,1,1,ADIANTADO,REALIZANDO ROTA,IDA,1,2025-10-11 18:35:00
HE715,HE715,18:33,-25.433978,-49.269291,550,0,5,3,NO HORÁRIO,REALIZANDO ROTA,IDA,1,2025-10-11 18:33:00
GE726,GE726,18:36,-25.463278,-49.256283,550,0,5,2,NO HORÁRIO,REALIZANDO ROTA,VOLTA,1,2025-10-11 18:36:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
PI005,PI005,18:36,-25.452615,-49.198531,323,1,1,1,NO HORÁRIO,REALIZANDO ROTA,CIRCULAR,1,2025-10-11 18:36:00
ML314,ML314,18:35,-25.432666,-49.298305,X46,0,3,1,ATRASADO,FORA DA ROTA,IDA,1,2025-10-11 18:35:00
HI036,HI036,18:33,-25.51277,-49.294366,655,1,1,1,NO HORÁRIO,REALIZANDO ROTA,VOLTA,1,2025-10-11 18:33:00
MN605,MN605,18:34,-25.40462,-49.351616,948,1,7,1,NO HORÁRIO,REALIZANDO ROTA,IDA,1,2025-10-11 18:34:00


## Etapa 3: Definição e Criação do Case ID

O *Case ID* é o identificador que agrupa todos os eventos pertencentes a uma única instância do processo.  Em nosso contexto, o processo é a viagem de um ônibus. Portanto, cada viagem distinta precisa de um identificador único.

Para garantir essa unicidade, vamos criar o *Case ID* concatenando três colunas:
1.  `line_id`: O código da linha do ônibus.
2.  `vehicle_id`: O identificador único do veículo.
3.  `date`: A data em que a viagem ocorreu.

Primeiro, extrairemos a data da nossa coluna `timestamp`. Em seguida, combinaremos essas três informações em uma nova coluna chamada `case_id`. Este será o pilar para agrupar e reconstruir as jornadas individuais nas etapas seguintes.

In [7]:
# Este código assume que a célula da Etapa 2 foi executada e o DataFrame 'df_cleaned' existe.

if 'df_cleaned' in locals() and df_cleaned is not None:
    # 1. Extrair a data da coluna 'timestamp' e criar uma nova coluna 'date'
    # .dt é o acessor para propriedades de datetime em uma Series do pandas
    df_cleaned['date'] = df_cleaned['timestamp'].dt.date
    
    print("--- Coluna 'date' criada ---")
    print(df_cleaned[['timestamp', 'date']].head())
    print("\n")

    # 2. Criar a coluna 'case_id' concatenando as informações
    # Convertemos todas as colunas para string antes de concatenar para evitar erros
    df_cleaned['case_id'] = (df_cleaned['line_id'].astype(str) + '-' +
                             df_cleaned['vehicle_id'].astype(str) + '-' +
                             df_cleaned['date'].astype(str))

    print("--- Coluna 'case_id' criada com sucesso ---")
    
    # Reorganizando as colunas para melhor visualização (opcional, mas recomendado)
    # Colocando os identificadores mais importantes no início.
    cols_to_move = ['case_id', 'vehicle_id', 'line_id', 'timestamp']
    df_final_structure = df_cleaned[cols_to_move + [col for col in df_cleaned.columns if col not in cols_to_move]]

    print("\n--- Visualização do DataFrame com o Case ID ---")
    print(df_final_structure.head())

else:
    print("ERRO: O DataFrame 'df_cleaned' não foi encontrado. Execute as etapas anteriores primeiro.")

--- Coluna 'date' criada ---
                timestamp        date
JI009 2025-10-11 18:36:00  2025-10-11
JI004 2025-10-11 18:35:00  2025-10-11
HI035 2025-10-11 18:35:00  2025-10-11
HE715 2025-10-11 18:33:00  2025-10-11
GE726 2025-10-11 18:36:00  2025-10-11


--- Coluna 'case_id' criada com sucesso ---

--- Visualização do DataFrame com o Case ID ---
                    case_id vehicle_id line_id           timestamp  \
JI009  826-JI009-2025-10-11      JI009     826 2025-10-11 18:36:00   
JI004  826-JI004-2025-10-11      JI004     826 2025-10-11 18:35:00   
HI035  826-HI035-2025-10-11      HI035     826 2025-10-11 18:35:00   
HE715  550-HE715-2025-10-11      HE715     550 2025-10-11 18:33:00   
GE726  550-GE726-2025-10-11      GE726     550 2025-10-11 18:36:00   

      refresh_time    latitude   longitude adapted_vehicle vehicle_type  \
JI009        18:36  -25.483545  -49.347473               1            1   
JI004        18:35  -25.500918  -49.341475               1            1   
HI

#### Visualização do DataFrame com case id

In [8]:
df_final_structure

Unnamed: 0,case_id,vehicle_id,line_id,timestamp,refresh_time,latitude,longitude,adapted_vehicle,vehicle_type,schedule_table,situation,situation_2,direction,t_count,date
JI009,826-JI009-2025-10-11,JI009,826,2025-10-11 18:36:00,18:36,-25.483545,-49.347473,1,1,2,NO HORÁRIO,REALIZANDO ROTA,VOLTA,1,2025-10-11
JI004,826-JI004-2025-10-11,JI004,826,2025-10-11 18:35:00,18:35,-25.500918,-49.341475,1,1,4,NO HORÁRIO,REALIZANDO ROTA,VOLTA,1,2025-10-11
HI035,826-HI035-2025-10-11,HI035,826,2025-10-11 18:35:00,18:35,-25.441651,-49.346693,1,1,1,ADIANTADO,REALIZANDO ROTA,IDA,1,2025-10-11
HE715,550-HE715-2025-10-11,HE715,550,2025-10-11 18:33:00,18:33,-25.433978,-49.269291,0,5,3,NO HORÁRIO,REALIZANDO ROTA,IDA,1,2025-10-11
GE726,550-GE726-2025-10-11,GE726,550,2025-10-11 18:36:00,18:36,-25.463278,-49.256283,0,5,2,NO HORÁRIO,REALIZANDO ROTA,VOLTA,1,2025-10-11
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
PI005,323-PI005-2025-10-11,PI005,323,2025-10-11 18:36:00,18:36,-25.452615,-49.198531,1,1,1,NO HORÁRIO,REALIZANDO ROTA,CIRCULAR,1,2025-10-11
ML314,X46-ML314-2025-10-11,ML314,X46,2025-10-11 18:35:00,18:35,-25.432666,-49.298305,0,3,1,ATRASADO,FORA DA ROTA,IDA,1,2025-10-11
HI036,655-HI036-2025-10-11,HI036,655,2025-10-11 18:33:00,18:33,-25.51277,-49.294366,1,1,1,NO HORÁRIO,REALIZANDO ROTA,VOLTA,1,2025-10-11
MN605,948-MN605-2025-10-11,MN605,948,2025-10-11 18:34:00,18:34,-25.40462,-49.351616,1,7,1,NO HORÁRIO,REALIZANDO ROTA,IDA,1,2025-10-11


## Etapa 4: Aquisição dos Dados de Pontos de Ônibus (Geofences)

Para identificar as atividades de "chegada" e "partida", precisamos primeiro de um mapa de onde essas atividades podem ocorrer. [cite_start]No nosso caso, esses locais são os pontos de ônibus.  Utilizaremos a API da URBS para obter os dados geográficos de todos os pontos de parada.

O processo será feito em duas etapas:
1.  **Obter a Lista de Todas as Linhas:** Primeiro, faremos uma requisição ao endpoint `getLinhas.php` para buscar um catálogo de todas as linhas de ônibus disponíveis.
2.  **Iterar e Coletar Pontos por Linha:** Em seguida, vamos percorrer a lista de linhas e, para cada uma, fazer uma nova requisição ao endpoint `getPontosLinha.php`. Este endpoint nos retornará as coordenadas (latitude e longitude), nome e outras informações de cada ponto de parada daquela linha.

Ao final, todos os dados dos pontos de todas as linhas serão consolidados em um único DataFrame, que chamaremos de `stops_df`. Este DataFrame será a nossa referência geoespacial para a próxima etapa de junção de dados.

#### Importação da biblioteca

In [9]:
import time

#### Obtendo lista de todas as linhas

In [10]:
endpoint_linhas = "getLinhas.php"
url_linhas = f"{base_url}{endpoint_linhas}"
params = {'c': api_code}

print(f"Buscando a lista de todas as linhas em: {url_linhas}")

Buscando a lista de todas as linhas em: https://transporteservico.urbs.curitiba.pr.gov.br/getLinhas.php


In [None]:
try:
    response_linhas = requests.get(url_linhas, params=params, timeout=30)
    response_linhas.raise_for_status()
    linhas_data = response_linhas.json()
    df_linhas = pd.DataFrame(linhas_data)
    print(f"Sucesso! {len(df_linhas)} linhas encontradas.")

except requests.exceptions.RequestException as e:
    print(f"ERRO ao buscar a lista de linhas: {e}")
    df_linhas = None


#### Buscando os pontos para cada linha

In [11]:
if df_linhas is not None:
    endpoint_pontos = "getPontosLinha.php"
    url_pontos_base = f"{base_url}{endpoint_pontos}"
    
    # Lista para armazenar os DataFrames de pontos de cada linha
    lista_de_pontos = []
    
    print("\nIniciando a coleta dos pontos de parada para cada linha...")
    
    # Itera sobre cada linha no DataFrame de linhas
    for index, linha in df_linhas.iterrows():
        cod_linha = linha['COD']
        nome_linha = linha['NOME']
        
        # Parâmetros específicos para a busca de pontos
        params_pontos = {
            'c': api_code,
            'linha': cod_linha
        }
        
        try:
            response_pontos = requests.get(url_pontos_base, params=params_pontos, timeout=30)
            response_pontos.raise_for_status()
            pontos_data = response_pontos.json()
            
            if pontos_data:
                df_pontos_linha = pd.DataFrame(pontos_data)
                # Adiciona uma coluna com o código da linha para referência futura
                df_pontos_linha['line_id'] = cod_linha
                lista_de_pontos.append(df_pontos_linha)
                print(f"  - {len(df_pontos_linha)} pontos encontrados para a linha {cod_linha} ({nome_linha})")
            else:
                print(f"  - ATENÇÃO: Nenhum ponto retornado para a linha {cod_linha} ({nome_linha})")

            # Pausa para evitar sobrecarregar a API (boa prática)
            time.sleep(0.1) # Pausa de 100 milissegundos

        except requests.exceptions.RequestException as e:
            print(f"  - ERRO ao buscar pontos para a linha {cod_linha}: {e}")
        except requests.exceptions.JSONDecodeError:
            print(f"  - ERRO de JSON na resposta para a linha {cod_linha}. A linha pode não ter pontos cadastrados.")

    # Concatena todos os DataFrames da lista em um único DataFrame
    if lista_de_pontos:
        stops_df = pd.concat(lista_de_pontos, ignore_index=True)
        
        # Renomeando colunas para padronização
        stops_df = stops_df.rename(columns={'NUM': 'stop_id', 'NOME': 'stop_name', 'LAT': 'latitude', 'LON': 'longitude'})
        
        print("\n--- Coleta de pontos de ônibus finalizada! ---")
        print(f"Total de pontos de parada coletados: {len(stops_df)}")
        print("Amostra do DataFrame de pontos de ônibus ('stops_df'):")
        print(stops_df.head())
    else:
        print("\nNenhum dado de ponto de ônibus foi coletado.")
else:
    print("\nNão foi possível continuar, pois a lista de linhas não foi carregada.")

Sucesso! 302 linhas encontradas.

Iniciando a coleta dos pontos de parada para cada linha...
  - 61 pontos encontrados para a linha 464 (A. MUNHOZ / JD. BOTÂNICO)
  - 45 pontos encontrados para a linha 226 (ABAETÉ)
  - 80 pontos encontrados para a linha 182 (ABRANCHES)
  - 27 pontos encontrados para a linha 332 (ACRÓPOLE)
  - 24 pontos encontrados para a linha 334 (AGRÍCOLA)
  - 44 pontos encontrados para a linha 863 (ÁGUA VERDE)
  - 66 pontos encontrados para a linha 265 (AHÚ / LOS ANGELES)
  - 32 pontos encontrados para a linha 560 (ALFERES POLI)
  - 36 pontos encontrados para a linha 232 (ALIANÇA)
  - 67 pontos encontrados para a linha 629 (ALTO BOQUEIRÃO)
  - 58 pontos encontrados para a linha 373 (ALTO TARUMÃ)
  - 81 pontos encontrados para a linha 245 (ANITA GARIBALDI)
  - 22 pontos encontrados para a linha 311 (ARAGUAIA)
  - 29 pontos encontrados para a linha 350 (ATUBA / PINHEIRINHO)
  - 20 pontos encontrados para a linha 238 (ATUBA/STA.CANDIDA)
  - 47 pontos encontrados para a

## Etapa 5: Análise Geoespacial - Convertendo Dados em GeoDataFrames e Realizando a Junção

Esta é uma etapa crucial para transformar os dados brutos de GPS em eventos significativos. Aqui, vamos converter nossos dois DataFrames (`df_final_structure` com os dados de GPS e `stops_df` com os pontos de parada) em GeoDataFrames, o formato especializado para análise espacial em Python.

O processo consiste em três partes:

1.  **Preparação dos Dados:** Garantir que as colunas de coordenadas em ambos os DataFrames sejam do tipo numérico correto (float) para evitar erros na conversão.
2.  **Criação dos GeoDataFrames:** Usaremos a função `geopandas.points_from_xy()` para criar uma coluna especial de "geometria" em cada DataFrame, transformando os pares de latitude e longitude em objetos de ponto. É fundamental definir um Sistema de Coordenadas de Referência (CRS) comum para ambos, garantindo que as medições de distância sejam precisas. Utilizaremos o `EPSG:4326` (WGS 84), que é o padrão global para dados de GPS.
3.  **Junção Espacial (`sjoin_nearest`):** Com os dados no formato geoespacial, aplicaremos a função `sjoin_nearest`. Esta poderosa função irá analisar cada ponto de GPS e encontrar o ponto de ônibus mais próximo a ele, retornando um novo DataFrame que combina as informações de ambos. Adicionaremos também uma coluna que calcula a distância exata em metros entre cada registro de GPS e o ponto de ônibus mais próximo.

### Importação das bibliotecas

In [17]:
# Instalação necessária: pip install geopandas shapely
import geopandas as gpd
print(gpd.__version__)
from shapely.geometry import Point

1.1.1


#### Preparação e limpeza dos dados

In [13]:
# Garantir que as colunas de coordenadas são do tipo float
df_final_structure['latitude'] = pd.to_numeric(df_final_structure['latitude'], errors='coerce')
df_final_structure['longitude'] = pd.to_numeric(df_final_structure['longitude'], errors='coerce')
stops_df['latitude'] = pd.to_numeric(stops_df['latitude'], errors='coerce')
stops_df['longitude'] = pd.to_numeric(stops_df['longitude'], errors='coerce')

# Remover quaisquer linhas onde a conversão falhou (resultando em NaT/NaN)
df_final_structure.dropna(subset=['latitude', 'longitude'], inplace=True)
stops_df.dropna(subset=['latitude', 'longitude'], inplace=True)

print("Conversão de coordenadas para tipo numérico concluída.")

Conversão de coordenadas para tipo numérico concluída.


#### Criação dos GeoDataFrames

In [14]:
# Criando GeoDataFrame para os registros de GPS
gps_gdf = gpd.GeoDataFrame(
    df_final_structure, 
    geometry=gpd.points_from_xy(df_final_structure['longitude'], df_final_structure['latitude']),
    crs="EPSG:4326"  # WGS 84 - Padrão para dados de GPS
)

# Criando GeoDataFrame para os pontos de ônibus
stops_gdf = gpd.GeoDataFrame(
    stops_df, 
    geometry=gpd.points_from_xy(stops_df['longitude'], stops_df['latitude']),
    crs="EPSG:4326"
)

print("GeoDataFrames criados com sucesso.")
print(f"Registros de GPS: {len(gps_gdf)}")
print(f"Pontos de Ônibus: {len(stops_gdf)}")

GeoDataFrames criados com sucesso.
Registros de GPS: 1480
Pontos de Ônibus: 0


#### Junção espacial

In [18]:
# Unindo cada ponto de GPS ao ponto de ônibus mais próximo
# Atenção: Esta operação pode consumir bastante memória e tempo dependendo do volume de dados.
print("\nIniciando a junção espacial ('sjoin_nearest')... Isso pode levar um momento.")

# max_distance não está disponível em todas as versões de geopandas, então vamos calcular a distância depois.
# A junção é feita apenas para linhas de ônibus correspondentes para otimizar o processo.
merged_gdf = gpd.sjoin_nearest(
    gps_gdf, 
    stops_gdf.add_prefix('stop_'), # Adiciona prefixo para evitar nomes de colunas duplicados
    how="left",
    lsuffix='gps',
    rsuffix='stop',
    on='line_id' # Otimização: só busca pontos da mesma linha
)

print("Junção espacial concluída.")


Iniciando a junção espacial ('sjoin_nearest')... Isso pode levar um momento.


TypeError: sjoin_nearest() got an unexpected keyword argument 'on'

#### Calulos da distância

In [None]:
# O CRS EPSG:4326 usa graus. Para calcular distância em metros, precisamos de um CRS projetado.
# Vamos usar um CRS adequado para a região de Curitiba (SIRGAS 2000 / UTM zone 22S -> EPSG:31982)
# Criamos cópias temporárias dos GeoDataFrames com o CRS projetado
gps_proj = gps_gdf.to_crs("EPSG:31982")
stops_proj = stops_gdf.to_crs("EPSG:31982")

# Reexecutamos a junção no sistema projetado para obter o índice do ponto mais próximo
# Apenas para obter os índices correspondentes para calcular a distância
temp_join = gpd.sjoin_nearest(
    gps_proj,
    stops_proj,
    how="left",
    on='line_id'
)

# Agora calculamos a distância para cada par correspondente
merged_gdf['distance_meters'] = gps_proj.geometry.distance(
    stops_proj.loc[temp_join['index_right']].geometry
).values

print("Cálculo de distância em metros concluído.")

#### Exibindo resultado final

In [None]:
print("\n--- Amostra do GeoDataFrame após a junção e cálculo de distância ---")
print(merged_gdf[['case_id', 'timestamp', 'stop_stop_id', 'stop_stop_name', 'distance_meters']].head())