# Análise exploratória e testes amostral - linha 663

**TODO:**
- (1) Tabela pré-reprocessamento
- (2) Gráficos da análise exploratória
- (3) Tabela pós-reprocessamento

Preparar o ambiente:

In [39]:
#!pip install matplotlib
import basedosdados as bd
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from datetime import timedelta, datetime

pd.set_option('display.max_rows', 25)

# Paths
import os
import sys
from pathlib import Path 

current_path = Path().resolve().parent

paths = dict()
paths["raw"] = current_path / 'data' / 'raw'
paths["treated"] = current_path / 'data' / 'treated'
paths["output"] = current_path / 'data' / 'output'
paths["figures"] = current_path / 'data' / 'figures'
paths["scripts"] = current_path / 'scripts'


for path in paths.values():
    if not os.path.exists(path):
        os.makedirs(path)      

if paths["scripts"] not in sys.path:
    sys.path.append(str(paths["scripts"]))
 
from graphs import *
from categorize_trips import *

# Seta o projeto a ser cobrado
bd.config.billing_project_id = "rj-smtr-dev"

# Seta as configurações a serem usadas
bd.config.project_config_path = "C:/Users/igorl/.basedosdados/"
# bd.config.project_config_path = "D:\\basedosdados\\dev"


# (1) Tabela pré-reprocessamento

- Tabela de viagens identificadas da amostra: `output/analise_amostra_pre_solucao.csv`

> data	servico	sentido	id_veiculo	datetime_partida_amostra	datetime_chegada_amostra	datetime_partida_apuracao	datetime_chegada_apuracao	status

In [40]:
servico = "663"

#### 1 - Importar e tratar os dados da amostra

In [41]:
amostra = pd.read_excel('../data/raw/Relatorio de Viagens das linhas 605_LECD50. 663 e 844.xlsx')
amostra_663 =  amostra[amostra['Linha'] == 663]

# padronizar as colunas da amostra 
amostra_663 = amostra_663.rename(
    columns={"Data": "data",
             "Hora_Inicio": "hora_inicio",
             "Linha": "servico",
             "Veiculo": "id_veiculo",
             "Hora_Fim": "hora_fim",
             "Sentido": "sentido"
             }
    )

# setar tipos de dados e criar colunas com o datetime
amostra_663['data'] = amostra_663['data'].astype(str)
amostra_663['hora_inicio'] = amostra_663['hora_inicio'].astype(str)
amostra_663['datetime_partida'] = pd.to_datetime(amostra_663['data'] + ' ' + amostra_663['hora_inicio'])
amostra_663['hora_fim'] = amostra_663['hora_fim'].astype(str)
amostra_663['datetime_chegada'] = pd.to_datetime(amostra_663['data'] + ' ' + amostra_663['hora_fim'])

amostra_663

Unnamed: 0,data,servico,id_veiculo,hora_inicio,hora_fim,sentido,datetime_partida,datetime_chegada
0,2022-09-14,663,B28514,05:48:00,06:43:00,I,2022-09-14 05:48:00,2022-09-14 06:43:00
1,2022-09-14,663,B28514,06:46:00,07:35:00,V,2022-09-14 06:46:00,2022-09-14 07:35:00
2,2022-09-14,663,B28631,06:16:00,07:13:00,I,2022-09-14 06:16:00,2022-09-14 07:13:00
3,2022-09-14,663,B28605,07:33:00,08:22:00,V,2022-09-14 07:33:00,2022-09-14 08:22:00
4,2022-09-22,663,B28514,05:46:00,06:35:00,I,2022-09-22 05:46:00,2022-09-22 06:35:00
5,2022-09-22,663,B28514,06:55:00,07:58:00,V,2022-09-22 06:55:00,2022-09-22 07:58:00
6,2022-09-22,663,B28631,06:14:00,07:04:00,I,2022-09-22 06:14:00,2022-09-22 07:04:00
7,2022-09-22,663,B28631,07:07:00,08:03:00,V,2022-09-22 07:07:00,2022-09-22 08:03:00
8,2022-09-27,663,B28514,05:50:00,06:46:00,I,2022-09-27 05:50:00,2022-09-27 06:46:00
9,2022-09-27,663,B28514,06:51:00,07:39:00,V,2022-09-27 06:51:00,2022-09-27 07:39:00


#### 2 - Remover viagens sobrepostas da amostra

Esta etapa classifica como "Viagem inválida - sobreposição de viagem" aquelas viagens em que um mesmo `id_veiculo` realiza múltiplas viagens em um mesmo intervalo de tempo (`datetime_partida` e `datetime_chegada`).

No caso de duas ou mais viagens sobrepostas, apenas uma será classificada nas demais etapas de classificação do notebook.

In [42]:
amostra_663 = remove_overlapping_trips(amostra_663)
amostra_663_trat = amostra_663
amostra_663

Unnamed: 0,data,servico,id_veiculo,hora_inicio,hora_fim,sentido,datetime_partida,datetime_chegada,status
0,2022-09-14,663,B28514,05:48:00,06:43:00,I,2022-09-14 05:48:00,2022-09-14 06:43:00,
1,2022-09-14,663,B28514,06:46:00,07:35:00,V,2022-09-14 06:46:00,2022-09-14 07:35:00,
2,2022-09-14,663,B28631,06:16:00,07:13:00,I,2022-09-14 06:16:00,2022-09-14 07:13:00,
3,2022-09-14,663,B28605,07:33:00,08:22:00,V,2022-09-14 07:33:00,2022-09-14 08:22:00,
4,2022-09-22,663,B28514,05:46:00,06:35:00,I,2022-09-22 05:46:00,2022-09-22 06:35:00,
5,2022-09-22,663,B28514,06:55:00,07:58:00,V,2022-09-22 06:55:00,2022-09-22 07:58:00,
6,2022-09-22,663,B28631,06:14:00,07:04:00,I,2022-09-22 06:14:00,2022-09-22 07:04:00,
7,2022-09-22,663,B28631,07:07:00,08:03:00,V,2022-09-22 07:07:00,2022-09-22 08:03:00,
8,2022-09-27,663,B28514,05:50:00,06:46:00,I,2022-09-27 05:50:00,2022-09-27 06:46:00,
9,2022-09-27,663,B28514,06:51:00,07:39:00,V,2022-09-27 06:51:00,2022-09-27 07:39:00,


### 3 Comparar dados da amostra com os dados das viagens completas

#### 3.1 Consultar se as viagens da amostra foram feitas pelos veículos indicados na amostra

In [43]:
# separar as datas da amostra para fazer a query
datas = amostra_663['data'].unique()

q = f"""
       SELECT
         id_veiculo, servico_informado, sentido, datetime_partida, datetime_chegada
       FROM
         `rj-smtr.projeto_subsidio_sppo.viagem_completa`
       WHERE
         data IN {tuple(datas)}
         AND servico_informado = '{servico}'
       """
       
viagem_completa_663 = bd.read_sql(q, from_file=True)
viagem_completa_663.info() 
viagem_completa_663      

Downloading: 100%|██████████| 15/15 [00:00<00:00, 38.27rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   id_veiculo         15 non-null     object        
 1   servico_informado  15 non-null     object        
 2   sentido            15 non-null     object        
 3   datetime_partida   15 non-null     datetime64[ns]
 4   datetime_chegada   15 non-null     datetime64[ns]
dtypes: datetime64[ns](2), object(3)
memory usage: 728.0+ bytes





Unnamed: 0,id_veiculo,servico_informado,sentido,datetime_partida,datetime_chegada
0,B28567,663,V,2023-07-13 07:36:03,2023-07-13 08:20:03
1,B28570,663,V,2023-07-13 07:06:19,2023-07-13 07:59:49
2,B28567,663,I,2023-07-13 06:23:03,2023-07-13 07:23:33
3,B28570,663,I,2023-07-13 05:58:19,2023-07-13 06:51:49
4,B28514,663,C,2022-09-14 05:49:03,2022-09-14 07:32:33
5,B28567,663,V,2023-07-18 07:24:07,2023-07-18 08:16:37
6,B28570,663,V,2023-07-18 07:04:13,2023-07-18 07:51:13
7,B28567,663,I,2023-07-18 06:23:07,2023-07-18 07:13:07
8,B28570,663,I,2023-07-18 05:56:43,2023-07-18 06:48:13
9,B28514,663,C,2022-09-27 05:51:39,2022-09-27 07:37:09


In [44]:
datas

array(['2022-09-14', '2022-09-22', '2022-09-27', '2023-07-05',
       '2023-07-13', '2023-07-18'], dtype=object)

Esta etapa cruza dados da amostra com as viagens completas para o serviço 663 de acordo com os seguintes critérios:

- o datetime_partida da viagem que consta na tabela de viagens completas deve estar dentro 
do intervalo de mais ou menos 10 minutos do datetime_partida que consta no amostra.

In [45]:
amostra_663 = check_complete_trips(amostra_663, viagem_completa_663, 10)
amostra_663

Não existem casos duplicados no cruzamento de dados.


Unnamed: 0,data,servico,id_veiculo_amostra,hora_inicio,hora_fim,sentido_amostra,datetime_partida_amostra,datetime_chegada_amostra,status,servico_informado,id_veiculo_apurada,sentido_apurada,datetime_partida_apurada,datetime_chegada_apurada
0,2022-09-14,663,B28514,05:48:00,06:43:00,I,2022-09-14 05:48:00,2022-09-14 06:43:00,O veículo existe e operou na linha indicada pe...,663.0,B28514,C,2022-09-14 05:49:03,2022-09-14 07:32:33
1,2022-09-27,663,B28514,05:50:00,06:46:00,I,2022-09-27 05:50:00,2022-09-27 06:46:00,O veículo existe e operou na linha indicada pe...,663.0,B28514,C,2022-09-27 05:51:39,2022-09-27 07:37:09
2,2022-09-27,663,B28600,06:14:00,07:07:00,I,2022-09-27 06:14:00,2022-09-27 07:07:00,O veículo existe e operou na linha indicada pe...,663.0,B28600,C,2022-09-27 06:15:13,2022-09-27 07:56:13
3,2023-07-05,663,B28570,05:56:00,06:57:00,I,2023-07-05 05:56:00,2023-07-05 06:57:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,I,2023-07-05 05:57:54,2023-07-05 06:51:54
4,2023-07-05,663,B28570,07:03:00,07:57:00,V,2023-07-05 07:03:00,2023-07-05 07:57:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,V,2023-07-05 07:05:24,2023-07-05 07:54:24
5,2023-07-13,663,B28570,05:57:00,06:52:00,I,2023-07-13 05:57:00,2023-07-13 06:52:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,I,2023-07-13 05:58:19,2023-07-13 06:51:49
6,2023-07-13,663,B28570,07:04:00,07:59:00,V,2023-07-13 07:04:00,2023-07-13 07:59:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,V,2023-07-13 07:06:19,2023-07-13 07:59:49
7,2023-07-18,663,B28570,05:55:00,06:49:00,I,2023-07-18 05:55:00,2023-07-18 06:49:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,I,2023-07-18 05:56:43,2023-07-18 06:48:13
8,2023-07-18,663,B28570,07:02:00,07:54:00,V,2023-07-18 07:02:00,2023-07-18 07:54:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,V,2023-07-18 07:04:13,2023-07-18 07:51:13
9,2023-07-05,663,B28567,06:20:00,07:18:00,I,2023-07-05 06:20:00,2023-07-05 07:18:00,O veículo existe e operou na linha indicada pe...,663.0,B28567,I,2023-07-05 06:22:02,2023-07-05 07:17:32


Em 13 das 22 viagens válidas da amostra que foram identificadas, o veículo que realizou a viagem é o mesmo veículo que consta no amostra. 

#### 3.2 Consultar se as viagens da amostra foram feitas por veículos diferentes daqueles indicados na amostra

As viagens não identificadas anteriormente na amostra foram comparadas com as viagens dos veículos indicados na amostra, considerando um intervalo de + - 10 minutos do `datetime_partida`.

In [46]:
amostra_663_sem_status = amostra_663[amostra_663['status'].isna()]
amostra_663_sem_status

Unnamed: 0,data,servico,id_veiculo_amostra,hora_inicio,hora_fim,sentido_amostra,datetime_partida_amostra,datetime_chegada_amostra,status,servico_informado,id_veiculo_apurada,sentido_apurada,datetime_partida_apurada,datetime_chegada_apurada
15,2022-09-14,663,B28514,06:46:00,07:35:00,V,2022-09-14 06:46:00,2022-09-14 07:35:00,,,,,NaT,NaT
16,2022-09-14,663,B28631,06:16:00,07:13:00,I,2022-09-14 06:16:00,2022-09-14 07:13:00,,,,,NaT,NaT
17,2022-09-14,663,B28605,07:33:00,08:22:00,V,2022-09-14 07:33:00,2022-09-14 08:22:00,,,,,NaT,NaT
18,2022-09-22,663,B28514,05:46:00,06:35:00,I,2022-09-22 05:46:00,2022-09-22 06:35:00,,,,,NaT,NaT
19,2022-09-22,663,B28514,06:55:00,07:58:00,V,2022-09-22 06:55:00,2022-09-22 07:58:00,,,,,NaT,NaT
20,2022-09-22,663,B28631,06:14:00,07:04:00,I,2022-09-22 06:14:00,2022-09-22 07:04:00,,,,,NaT,NaT
21,2022-09-22,663,B28631,07:07:00,08:03:00,V,2022-09-22 07:07:00,2022-09-22 08:03:00,,,,,NaT,NaT
22,2022-09-27,663,B28514,06:51:00,07:39:00,V,2022-09-27 06:51:00,2022-09-27 07:39:00,,,,,NaT,NaT
23,2022-09-27,663,B28600,07:10:00,07:57:00,V,2022-09-27 07:10:00,2022-09-27 07:57:00,,,,,NaT,NaT


In [47]:
id_veiculo = amostra_663_sem_status['id_veiculo_amostra'].unique()
datas = amostra_663_sem_status['data'].unique()

q = f"""
       SELECT
         data, id_veiculo, servico_informado, sentido, datetime_partida, datetime_chegada
       FROM
         `rj-smtr.projeto_subsidio_sppo.viagem_completa`
       WHERE
         data IN {tuple(datas)} AND
         id_veiculo IN {tuple(id_veiculo)}
       """
       
viagem_completa_veiculo = bd.read_sql(q, from_file=True)
viagem_completa_veiculo.info()  

Downloading: 100%|██████████| 136/136 [00:00<00:00, 350.52rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 136 entries, 0 to 135
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   data               136 non-null    dbdate        
 1   id_veiculo         136 non-null    object        
 2   servico_informado  136 non-null    object        
 3   sentido            136 non-null    object        
 4   datetime_partida   136 non-null    datetime64[ns]
 5   datetime_chegada   136 non-null    datetime64[ns]
dtypes: datetime64[ns](2), dbdate(1), object(3)
memory usage: 6.5+ KB





Nos dias mencionados na amostra, os veículos também operaram nestes serviços:

In [48]:
viagem_completa_veiculo['servico_informado'].unique()

array(['616', '663', '696'], dtype=object)

In [49]:
amostra_663_sem_status

Unnamed: 0,data,servico,id_veiculo_amostra,hora_inicio,hora_fim,sentido_amostra,datetime_partida_amostra,datetime_chegada_amostra,status,servico_informado,id_veiculo_apurada,sentido_apurada,datetime_partida_apurada,datetime_chegada_apurada
15,2022-09-14,663,B28514,06:46:00,07:35:00,V,2022-09-14 06:46:00,2022-09-14 07:35:00,,,,,NaT,NaT
16,2022-09-14,663,B28631,06:16:00,07:13:00,I,2022-09-14 06:16:00,2022-09-14 07:13:00,,,,,NaT,NaT
17,2022-09-14,663,B28605,07:33:00,08:22:00,V,2022-09-14 07:33:00,2022-09-14 08:22:00,,,,,NaT,NaT
18,2022-09-22,663,B28514,05:46:00,06:35:00,I,2022-09-22 05:46:00,2022-09-22 06:35:00,,,,,NaT,NaT
19,2022-09-22,663,B28514,06:55:00,07:58:00,V,2022-09-22 06:55:00,2022-09-22 07:58:00,,,,,NaT,NaT
20,2022-09-22,663,B28631,06:14:00,07:04:00,I,2022-09-22 06:14:00,2022-09-22 07:04:00,,,,,NaT,NaT
21,2022-09-22,663,B28631,07:07:00,08:03:00,V,2022-09-22 07:07:00,2022-09-22 08:03:00,,,,,NaT,NaT
22,2022-09-27,663,B28514,06:51:00,07:39:00,V,2022-09-27 06:51:00,2022-09-27 07:39:00,,,,,NaT,NaT
23,2022-09-27,663,B28600,07:10:00,07:57:00,V,2022-09-27 07:10:00,2022-09-27 07:57:00,,,,,NaT,NaT


Verificar se os veículos fizeram viagens em outros serviços dentro do intervalo de 10 minutos:

In [58]:
amostra_663_sem_status['servico'] = amostra_663_sem_status['servico'].astype(str)
viagem_completa_veiculo['viagem_completa_veiculo'] = viagem_completa_veiculo['servico_informado'].astype(str)

# 1. Adicionar uma chave temporária
amostra_663_sem_status['tmp_key'] = amostra_663_sem_status['servico']
viagem_completa_veiculo['tmp_key'] = viagem_completa_veiculo['servico_informado']

# 2. Fazendo o merge usando a chave temporária
tabela_comparativa = pd.merge(amostra_663_sem_status, viagem_completa_veiculo, 
                               on='tmp_key')


# # # 3. Filtrar os resultados com base no critério do intervalo de tempo
condition = (tabela_comparativa['datetime_partida_apurada'] >= (tabela_comparativa['datetime_partida_amostra'] - pd.Timedelta(minutes=10))) & \
             (tabela_comparativa['datetime_partida_apurada'] <= (tabela_comparativa['datetime_partida_amostra'] + pd.Timedelta(minutes=10)))

tabela_comparativa = tabela_comparativa[condition]

# # # Removendo a chave temporária e outras colunas desnecessárias
tabela_comparativa.drop(columns=['tmp_key'], inplace=True)

tabela_comparativa

Unnamed: 0,data_x,servico,id_veiculo_amostra,hora_inicio,hora_fim,sentido_amostra,datetime_partida_amostra,datetime_chegada_amostra,status,servico_informado_x,...,sentido_apurada,datetime_partida_apurada,datetime_chegada_apurada,data_y,id_veiculo,servico_informado_y,sentido,datetime_partida,datetime_chegada,viagem_completa_veiculo


Os veículos das viagens não encontradas não fizeram viagens em outros serviços nos horários indicados pela amostra.

#### 3.3 Verificar dados de GPS

In [59]:
data_n_encontradas = amostra_663_sem_status['data'].unique()
data_n_encontradas

array(['2022-09-14', '2022-09-22', '2022-09-27'], dtype=object)

In [60]:
ids_n_encontrados = amostra_663_sem_status['id_veiculo_amostra'].unique()
ids_n_encontrados

array(['B28514', 'B28631', 'B28605', 'B28600'], dtype=object)

In [53]:
# Cuidado ao executar esta query. Verificar o número de dias acima.
q = f"""
  SELECT
  id_veiculo,
  servico_informado as servico,
  timestamp_gps
FROM
    `rj-smtr.projeto_subsidio_sppo.registros_status_viagem`
WHERE
  DATA IN {tuple(data_n_encontradas)}
  AND id_veiculo IN {tuple(ids_n_encontrados)}
"""  

gps_registros_status_viagem = bd.read_sql(q, from_file=True)
gps_registros_status_viagem.info() 

Downloading: 100%|██████████| 14961/14961 [00:01<00:00, 14358.01rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14961 entries, 0 to 14960
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   id_veiculo     14961 non-null  object        
 1   servico        14961 non-null  object        
 2   timestamp_gps  14961 non-null  datetime64[ns]
dtypes: datetime64[ns](1), object(2)
memory usage: 350.8+ KB





##### 3.3.1 Tabela `gps_sppo`

Verificar se existem dados de gps em `gps_sppo` nos casos em que o GPS não foi encontrado na tabela `registros_status_viagem`.

In [61]:
data_n_encontradas_gps = amostra_663_sem_status['data'].unique()
ids_n_encontrados_gps = amostra_663_sem_status['id_veiculo_amostra'].unique()

q = f"""
  SELECT
  id_veiculo,
  servico,
  timestamp_gps,
  ST_GEOGPOINT(longitude, latitude) as posicao_veiculo_geo
FROM
  `rj-smtr.br_rj_riodejaneiro_veiculos.gps_sppo`
WHERE
  DATA IN {tuple(data_n_encontradas_gps)}
  AND id_veiculo IN {tuple(ids_n_encontrados_gps)}
"""
          
dados_gps = bd.read_sql(q, from_file=True)
dados_gps.info()

Downloading: 100%|██████████| 23641/23641 [00:02<00:00, 11161.94rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23641 entries, 0 to 23640
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id_veiculo           23641 non-null  object        
 1   servico              23641 non-null  object        
 2   timestamp_gps        23641 non-null  datetime64[ns]
 3   posicao_veiculo_geo  23641 non-null  object        
dtypes: datetime64[ns](1), object(3)
memory usage: 738.9+ KB





In [62]:
def set_status(row, df_check):
    # Filter the df_final_check by vehicle ID and time range
    filtered_df = df_check[
        (df_check['id_veiculo'] == row['id_veiculo_amostra']) & 
        (df_check['timestamp_gps'] >= row['datetime_partida_amostra']) & 
        (df_check['timestamp_gps'] <= row['datetime_chegada_amostra'])
    ]
    
    # If there are rows in the filtered dataframe, check the condition
    if not filtered_df.empty:
        if (filtered_df.iloc[0]['servico'] == row['servico']) and (pd.isna(row['status'])):
            return "Encontrado sinal de GPS para o veículo no mesmo horário e serviço"
    return row['status']

amostra_663_sem_status['status'] = amostra_663_sem_status.apply(lambda row: set_status(row, dados_gps), axis=1)

amostra_663_sem_status

Unnamed: 0,data,servico,id_veiculo_amostra,hora_inicio,hora_fim,sentido_amostra,datetime_partida_amostra,datetime_chegada_amostra,status,servico_informado,id_veiculo_apurada,sentido_apurada,datetime_partida_apurada,datetime_chegada_apurada,tmp_key
15,2022-09-14,663,B28514,06:46:00,07:35:00,V,2022-09-14 06:46:00,2022-09-14 07:35:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
16,2022-09-14,663,B28631,06:16:00,07:13:00,I,2022-09-14 06:16:00,2022-09-14 07:13:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
17,2022-09-14,663,B28605,07:33:00,08:22:00,V,2022-09-14 07:33:00,2022-09-14 08:22:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
18,2022-09-22,663,B28514,05:46:00,06:35:00,I,2022-09-22 05:46:00,2022-09-22 06:35:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
19,2022-09-22,663,B28514,06:55:00,07:58:00,V,2022-09-22 06:55:00,2022-09-22 07:58:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
20,2022-09-22,663,B28631,06:14:00,07:04:00,I,2022-09-22 06:14:00,2022-09-22 07:04:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
21,2022-09-22,663,B28631,07:07:00,08:03:00,V,2022-09-22 07:07:00,2022-09-22 08:03:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
22,2022-09-27,663,B28514,06:51:00,07:39:00,V,2022-09-27 06:51:00,2022-09-27 07:39:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
23,2022-09-27,663,B28600,07:10:00,07:57:00,V,2022-09-27 07:10:00,2022-09-27 07:57:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663


In [63]:
# juntar todas as 24 linhas e classificar abaixo:
df_final = amostra_663.dropna(subset=['status'])
df_final = pd.concat([df_final, amostra_663_sem_status], ignore_index=True)
df_final = df_final.drop(columns=['tmp_key'])

Para os nove casos não encontrados, foram encontrados sinais de GPS na tabela `gps_sppo`. Após a verificação caso a caso da comparação dos sinais em relação ao shape das viagens (disponível no diretório: `data/figures/mapa_viagens`), concluiu-se que:
- 3 viagens não apresentaram sinais de GPS dentro do raio de 500m de um dos pontos (inicial ou final).
- 2 viagens tiveram dados válidos de GPS na tabela `registros_status_viagem` e que não apareceram na tabela `viagem_conformidade`.
- 4 viagens tiveram dados válidos de GPS na tabela `gps_sppo` e que não apareceram na tabela `registros_status_viagem`.

In [108]:
# Classificar estas viagens

# Atualizando status baseado em id_veiculo e datetime_partida
df_final.loc[(df_final['id_veiculo_amostra'] == 'B28514') & (df_final['datetime_partida_amostra'] == "2022-09-22 05:46:00"), 'status'] = 'Viagem inválida - sem sinal inicial/final dentro do raio de 500m'
df_final.loc[(df_final['id_veiculo_amostra'] == 'B28631') & (df_final['datetime_partida_amostra'] == "2022-09-22 06:14:00"), 'status'] = 'Viagem inválida - sem sinal inicial/final dentro do raio de 500m'
df_final.loc[(df_final['id_veiculo_amostra'] == 'B28600') & (df_final['datetime_partida_amostra'] == "2022-09-27 07:10:00"), 'status'] = 'Viagem inválida - sem sinal inicial/final dentro do raio de 500m'
df_final.loc[(df_final['id_veiculo_amostra'] == 'B28514') & (df_final['datetime_partida_amostra'] == "2022-09-14 06:46:00"), 'status'] = 'Tem GPS válido encontrado na tabela status, mas não na tabela de conformidade'
df_final.loc[(df_final['id_veiculo_amostra'] == 'B28514') & (df_final['datetime_partida_amostra'] == "2022-09-27 06:51:00"), 'status'] = 'Tem GPS válido encontrado na tabela status, mas não na tabela de conformidade'
df_final.loc[(df_final['id_veiculo_amostra'] == 'B28631') & (df_final['datetime_partida_amostra'] == "2022-09-14 06:16:00"), 'status'] = 'Tem GPS válido na tabela gps_sppo, mas não na tabela registros_status_viagem'
df_final.loc[(df_final['id_veiculo_amostra'] == 'B28605') & (df_final['datetime_partida_amostra'] == "2022-09-14 07:33:00"), 'status'] = 'Tem GPS válido na tabela gps_sppo, mas não na tabela registros_status_viagem'
df_final.loc[(df_final['id_veiculo_amostra'] == 'B28514') & (df_final['datetime_partida_amostra'] == "2022-09-22 06:55:00"), 'status'] = 'Tem GPS válido na tabela gps_sppo, mas não na tabela registros_status_viagem'
df_final.loc[(df_final['id_veiculo_amostra'] == 'B28631') & (df_final['datetime_partida_amostra'] == "2022-09-22 07:07:00"), 'status'] = 'Tem GPS válido na tabela gps_sppo, mas não na tabela registros_status_viagem'



In [109]:
df_final

Unnamed: 0,data,servico,id_veiculo_amostra,hora_inicio,hora_fim,sentido_amostra,datetime_partida_amostra,datetime_chegada_amostra,status,servico_informado,id_veiculo_apurada,sentido_apurada,datetime_partida_apurada,datetime_chegada_apurada
0,2022-09-14,663,B28514,05:48:00,06:43:00,I,2022-09-14 05:48:00,2022-09-14 06:43:00,O veículo existe e operou na linha indicada pe...,663.0,B28514,C,2022-09-14 05:49:03,2022-09-14 07:32:33
1,2022-09-27,663,B28514,05:50:00,06:46:00,I,2022-09-27 05:50:00,2022-09-27 06:46:00,O veículo existe e operou na linha indicada pe...,663.0,B28514,C,2022-09-27 05:51:39,2022-09-27 07:37:09
2,2022-09-27,663,B28600,06:14:00,07:07:00,I,2022-09-27 06:14:00,2022-09-27 07:07:00,O veículo existe e operou na linha indicada pe...,663.0,B28600,C,2022-09-27 06:15:13,2022-09-27 07:56:13
3,2023-07-05,663,B28570,05:56:00,06:57:00,I,2023-07-05 05:56:00,2023-07-05 06:57:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,I,2023-07-05 05:57:54,2023-07-05 06:51:54
4,2023-07-05,663,B28570,07:03:00,07:57:00,V,2023-07-05 07:03:00,2023-07-05 07:57:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,V,2023-07-05 07:05:24,2023-07-05 07:54:24
5,2023-07-13,663,B28570,05:57:00,06:52:00,I,2023-07-13 05:57:00,2023-07-13 06:52:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,I,2023-07-13 05:58:19,2023-07-13 06:51:49
6,2023-07-13,663,B28570,07:04:00,07:59:00,V,2023-07-13 07:04:00,2023-07-13 07:59:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,V,2023-07-13 07:06:19,2023-07-13 07:59:49
7,2023-07-18,663,B28570,05:55:00,06:49:00,I,2023-07-18 05:55:00,2023-07-18 06:49:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,I,2023-07-18 05:56:43,2023-07-18 06:48:13
8,2023-07-18,663,B28570,07:02:00,07:54:00,V,2023-07-18 07:02:00,2023-07-18 07:54:00,O veículo existe e operou na linha indicada pe...,663.0,B28570,V,2023-07-18 07:04:13,2023-07-18 07:51:13
9,2023-07-05,663,B28567,06:20:00,07:18:00,I,2023-07-05 06:20:00,2023-07-05 07:18:00,O veículo existe e operou na linha indicada pe...,663.0,B28567,I,2023-07-05 06:22:02,2023-07-05 07:17:32


In [110]:
# exportar em csv
df_final.to_excel('./../data/output/analise_amostra_pre_solucao.xlsx', index=False)

In [71]:
# classificar aquelas viagens circulares

def set_status_circular(row, df_check):

    filtered_df = df_check[
    (df_check['id_veiculo'] == row['id_veiculo_amostra']) & 
    (df_check['datetime_partida'] >= (row['datetime_partida_amostra'] - pd.Timedelta(minutes=10))) & 
    (df_check['datetime_partida'] <= (row['datetime_partida_amostra'] + pd.Timedelta(minutes=10)))
]
    
    if not filtered_df.empty:
        if (filtered_df.iloc[0]['servico'] == row['servico']) and row['status'] == 'Encontrado sinal de GPS para o veículo no mesmo horário e serviço':
            return "Viagem circular"
    return row['status']

amostra_663_sem_status['status'] = amostra_663_sem_status.apply(lambda row: set_status_circular(row, viagem_completa_663), axis=1)
amostra_663_sem_status

Unnamed: 0,data,servico,id_veiculo_amostra,hora_inicio,hora_fim,sentido_amostra,datetime_partida_amostra,datetime_chegada_amostra,status,servico_informado,id_veiculo_apurada,sentido_apurada,datetime_partida_apurada,datetime_chegada_apurada,tmp_key
15,2022-09-14,663,B28514,06:46:00,07:35:00,V,2022-09-14 06:46:00,2022-09-14 07:35:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
16,2022-09-14,663,B28631,06:16:00,07:13:00,I,2022-09-14 06:16:00,2022-09-14 07:13:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
17,2022-09-14,663,B28605,07:33:00,08:22:00,V,2022-09-14 07:33:00,2022-09-14 08:22:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
18,2022-09-22,663,B28514,05:46:00,06:35:00,I,2022-09-22 05:46:00,2022-09-22 06:35:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
19,2022-09-22,663,B28514,06:55:00,07:58:00,V,2022-09-22 06:55:00,2022-09-22 07:58:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
20,2022-09-22,663,B28631,06:14:00,07:04:00,I,2022-09-22 06:14:00,2022-09-22 07:04:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
21,2022-09-22,663,B28631,07:07:00,08:03:00,V,2022-09-22 07:07:00,2022-09-22 08:03:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
22,2022-09-27,663,B28514,06:51:00,07:39:00,V,2022-09-27 06:51:00,2022-09-27 07:39:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663
23,2022-09-27,663,B28600,07:10:00,07:57:00,V,2022-09-27 07:10:00,2022-09-27 07:57:00,Encontrado sinal de GPS para o veículo no mesm...,,,,NaT,NaT,663


# Exemplos (mapas)

Viagem identificada


Veículo: B28514
partida: 2022-09-27 05:51:39	
chegada: 2022-09-27 07:37:09	

amostra: 05:50:00	06:46:00	I	2022-09-27 05:50:00

In [101]:
q = f"""
SELECT
  shape_id,
  shape,
  start_pt,
  end_pt
FROM
  `rj-smtr.projeto_subsidio_sppo.viagem_planejada`
WHERE
  DATA = "2022-09-27"
  AND servico = '663'
"""
      
shape_identificado = bd.read_sql(q, from_file=True)
shape_identificado.info() 

Downloading: 100%|██████████| 2/2 [00:00<00:00,  5.29rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   shape_id  2 non-null      object
 1   shape     2 non-null      object
 2   start_pt  2 non-null      object
 3   end_pt    2 non-null      object
dtypes: object(4)
memory usage: 192.0+ bytes





In [104]:
q = f"""
SELECT
  id_veiculo,
  servico_informado as servico,
  timestamp_gps,
  posicao_veiculo_geo,
  status_viagem
FROM
  `rj-smtr.projeto_subsidio_sppo.registros_status_viagem`
WHERE
  DATA = "2022-09-27"
  AND servico_informado = '663'
  AND timestamp_gps BETWEEN "2022-09-27T07:10:00"
  AND "2022-09-27T07:54:00"
  AND id_veiculo = "B28600"
"""

       
gps_identificado = bd.read_sql(q, from_file=True)
gps_identificado.info() 

Downloading: 100%|██████████| 72/72 [00:00<00:00, 233.77rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72 entries, 0 to 71
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id_veiculo           72 non-null     object        
 1   servico              72 non-null     object        
 2   timestamp_gps        72 non-null     datetime64[ns]
 3   posicao_veiculo_geo  72 non-null     object        
 4   status_viagem        72 non-null     object        
dtypes: datetime64[ns](1), object(4)
memory usage: 2.9+ KB





In [99]:
q = f"""
  SELECT
  id_veiculo,
  servico,
  timestamp_gps,
  ST_GEOGPOINT(longitude, latitude) as posicao_veiculo_geo
FROM
  `rj-smtr.br_rj_riodejaneiro_veiculos.gps_sppo`
WHERE
  DATA = "2022-09-22"
  AND servico = '663'
  AND timestamp_gps BETWEEN "2022-09-22T07:07:00"
  AND "2022-09-22T08:03:00"
  AND id_veiculo = "B28631"
"""
          
gps_identificado = bd.read_sql(q, from_file=True)
gps_identificado.info()

Downloading: 100%|██████████| 112/112 [00:00<00:00, 313.73rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112 entries, 0 to 111
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id_veiculo           112 non-null    object        
 1   servico              112 non-null    object        
 2   timestamp_gps        112 non-null    datetime64[ns]
 3   posicao_veiculo_geo  112 non-null    object        
dtypes: datetime64[ns](1), object(3)
memory usage: 3.6+ KB





In [105]:
map = create_trip_map(gps_identificado, shape_identificado)
map.save('./../data/figures/mapa.html')
map

# continuar daqui! Exportar uma a uma e checar o mapa se passa no ponto inicial ou não
# manter a parte do reprocesamento abaixoe explicar que não resolveu!! não apagar!!

Viagem não identificada

B28514	14-09-2022 entre 06:51:00 e 07:39:00


In [35]:
q = f"""
SELECT
  shape_id,
  shape,
  start_pt,
  end_pt
FROM
  `rj-smtr.projeto_subsidio_sppo.viagem_planejada`
WHERE
  DATA = "2022-09-27"
  AND servico = '663'
"""
       
shape_n_identificado = bd.read_sql(q, from_file=True)
shape_n_identificado.info() 

Downloading: 100%|██████████| 2/2 [00:00<00:00,  4.87rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   shape_id  2 non-null      object
 1   shape     2 non-null      object
 2   start_pt  2 non-null      object
 3   end_pt    2 non-null      object
dtypes: object(4)
memory usage: 192.0+ bytes





In [36]:
q = f"""
SELECT
  id_veiculo,
  servico_informado as servico,
  timestamp_gps,
  posicao_veiculo_geo,
  status_viagem
FROM
  `rj-smtr.projeto_subsidio_sppo.registros_status_viagem`
WHERE
  DATA = "2022-09-27"
  AND servico_informado = '663'
  AND timestamp_gps BETWEEN "2022-09-27T06:51:00"
  AND "2022-09-27T07:39:00"
  AND id_veiculo = "B28514"
"""
       
gps_n_identificado = bd.read_sql(q, from_file=True)
gps_n_identificado.info() 

Downloading: 100%|██████████| 92/92 [00:00<00:00, 267.44rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92 entries, 0 to 91
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id_veiculo           92 non-null     object        
 1   servico              92 non-null     object        
 2   timestamp_gps        92 non-null     datetime64[ns]
 3   posicao_veiculo_geo  92 non-null     object        
 4   status_viagem        92 non-null     object        
dtypes: datetime64[ns](1), object(4)
memory usage: 3.7+ KB





In [37]:
create_trip_map(gps_n_identificado, shape_n_identificado)

Checar dados de GPS das viagens

In [3]:
q = f"""
SELECT
  shape_id,
  shape,
  start_pt,
  end_pt
FROM
  `rj-smtr.projeto_subsidio_sppo.viagem_planejada`
WHERE
  DATA = "2022-09-22"
  AND servico = '663'
"""
       
shape_check = bd.read_sql(q, from_file=True)
shape_check.info() 
shape_check.to_csv('./../scripts/data_graph_test/shape_check.csv', index=False)

Downloading: 100%|██████████| 2/2 [00:00<00:00,  5.25rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   shape_id  2 non-null      object
 1   shape     2 non-null      object
 2   start_pt  2 non-null      object
 3   end_pt    2 non-null      object
dtypes: object(4)
memory usage: 192.0+ bytes





In [9]:
q = f"""
SELECT
  id_veiculo,
  servico_informado as servico,
  timestamp_gps,
  posicao_veiculo_geo,
  status_viagem
FROM
  `rj-smtr.projeto_subsidio_sppo.registros_status_viagem`
WHERE
  DATA = "2022-09-22"
  AND servico_informado = '663'
  AND timestamp_gps BETWEEN "2022-09-22T06:14:00"
  AND "2022-09-22T07:04:00"
  AND id_veiculo = "B28631"
"""
       
gps_n_identificado = bd.read_sql(q, from_file=True)
gps_n_identificado.info() 

Downloading: 0rows [00:00, ?rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 0 entries
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id_veiculo           0 non-null      object        
 1   servico              0 non-null      object        
 2   timestamp_gps        0 non-null      datetime64[ns]
 3   posicao_veiculo_geo  0 non-null      object        
 4   status_viagem        0 non-null      object        
dtypes: datetime64[ns](1), object(4)
memory usage: 124.0+ bytes





In [4]:
q = f"""
  SELECT
  id_veiculo,
  servico,
  timestamp_gps,
  ST_GEOGPOINT(longitude, latitude) as posicao_veiculo_geo
FROM
  `rj-smtr.br_rj_riodejaneiro_veiculos.gps_sppo`
WHERE
  DATA = '2022-09-22'
  AND id_veiculo = 'B28514'
  AND timestamp_gps between '2022-09-22T05:46:00' and '2022-09-22T06:35:00'
"""
          
dados_gps = bd.read_sql(q, from_file=True)
dados_gps.info()
dados_gps.to_csv('./../scripts/data_graph_test/gps_check.csv', index=False)

Downloading: 100%|██████████| 98/98 [00:00<00:00, 274.51rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 98 entries, 0 to 97
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id_veiculo           98 non-null     object        
 1   servico              98 non-null     object        
 2   timestamp_gps        98 non-null     datetime64[ns]
 3   posicao_veiculo_geo  98 non-null     object        
dtypes: datetime64[ns](1), object(3)
memory usage: 3.2+ KB





In [11]:
dados_gps.to_csv(paths["scripts"] / 'data_graph_test' / 'dados_gps.csv', index=False)

In [None]:
# sinal de GPS encontrado na tabela registros_status_viagem (circulares)

# B28514	06:46:00	07:35:00	V	2022-09-14 06:46:00	2022-09-14 07:35:00 
# # B28514	06:51:00	07:39:00	V	2022-09-27 06:51:00	2022-09-27 07:39:00 
# B28600	07:10:00	07:57:00	V	2022-09-27 07:10:00	2022-09-27 07:57:00 


# sinal de GPS Não encontrado na tabela registros_status_viagem
# B28631	06:16:00	07:13:00	I	2022-09-14 06:16:00	2022-09-14 07:13:00
# B28605	07:33:00	08:22:00	V	2022-09-14 07:33:00	2022-09-14 08:22:00
# B28514	05:46:00	06:35:00	I	2022-09-22 05:46:00	2022-09-22 06:35:00
# B28514	06:55:00	07:58:00	V	2022-09-22 06:55:00	2022-09-22 07:58:00
# B28631	06:14:00	07:04:00	I	2022-09-22 06:14:00	2022-09-22 07:04:00
# B28631	07:07:00	08:03:00	V	2022-09-22 07:07:00	2022-09-22 08:03:00


In [None]:
# Exportar a tabela
tabela_status.to_excel("../data/output/analise_amostra_pre_solucao.xlsx", index=False)

## (2) Gráficos da análise exploratória / análise histórica da linha

- Gráfico POD até a data mais recente (quando fazemos a avaliação): `analise_pod_historico.png`

In [21]:
# POD pré-reprocessamento
q = f"""
SELECT
  data, viagens, perc_km_planejada
FROM
  `rj-smtr.dashboard_subsidio_sppo.sumario_servico_dia_historico`
WHERE
  servico = '663'
  AND DATA BETWEEN '2022-06-01' AND '2023-09-14'
"""
pod_pre_reprocessamento = bd.read_sql(q, from_file=True)

Downloading: 100%|██████████| 385/385 [00:00<00:00, 1049.23rows/s]


In [22]:
# Assegurando que a coluna 'data' seja do tipo datetime
pod_pre_reprocessamento = pod_pre_reprocessamento.sort_values('data')
pod_pre_reprocessamento['data'] = pd.to_datetime(pod_pre_reprocessamento['data'])
# Criando a nova coluna 'mes_ano'
pod_pre_reprocessamento['mes_ano'] = pod_pre_reprocessamento['data'].dt.to_period('M')
pod_pre_reprocessamento['mes_ano'] = pod_pre_reprocessamento['mes_ano'].astype(str)
pod_pre_reprocessamento

# Calculando a mediana, Q1 e Q3 para pod_pre_reprocessamento
median_pre = pod_pre_reprocessamento.groupby('mes_ano')['perc_km_planejada'].median()
q1_pre = pod_pre_reprocessamento.groupby('mes_ano')['perc_km_planejada'].quantile(0.25)
q3_pre = pod_pre_reprocessamento.groupby('mes_ano')['perc_km_planejada'].quantile(0.75)

In [23]:
# Criar o gráfico de linha
fig = go.Figure()

# Adicionando área sombreada para pod_pre_reprocessamento
fig.add_trace(go.Scatter(x=median_pre.index, y=q1_pre.values, 
                         line=dict(width=0), fill=None, mode='lines', name='Q1 Pre'))
fig.add_trace(go.Scatter(x=median_pre.index, y=q3_pre.values, 
                         fill='tonexty', fillcolor='rgba(30,144,255,0.3)', mode='lines', name='Q3 Pre', 
                         line=dict(width=0))) 

# Adicionando a linha da mediana para pod_pre_reprocessamento
fig.add_trace(go.Scatter(x=median_pre.index, y=median_pre.values,
                    mode='lines+markers',
                    name='Mediana Antes do Reprocessamento',
                    marker=dict(color='dodgerblue'),
                    opacity=0.75))

# Configurar layout e outros parâmetros do gráfico
fig.update_layout(
    title=dict(text="Percentual de Operação Diária (POD) por mês - Serviço: 663", font=dict(color='black')),
    showlegend=False,
    yaxis_range=[0, 150],
    yaxis_ticksuffix="%",
    width=800,
    height=600,
    plot_bgcolor='white',
    xaxis=dict(showgrid=False, zeroline=False),
    yaxis=dict(showgrid=False, zeroline=False),
    # Adicionando anotações para o subtítulo com cores específicas
    annotations=[
        dict(
            x=-0.065,
            y=1.10,
            xref='paper',
            yref='paper',
            xanchor='left',
            text='Mediana, 1º e 3º quartis mensais do POD',
            showarrow=False,
            font=dict(color='black', size=14)  # Aplicando a cor do título
        )
    ]
)

# Adicionar linha horizontal para indicar o mínimo de 80%
fig.add_hline(y=80, annotation_text="min = 80%")

fig.show()

# (3) Análise das viagens da amostra x apuradas (pós-solução)

- Tabela de viagens identificadas da amostra: `output/analise_amostra_pos_solucao.csv`

- Os dados reprocessados para o ano de 2022 estão disponíveis no dataset: `rj-smtr-dev.SMTR202212006620_reprocessamento`


> data	servico	sentido	id_veiculo	datetime_partida_amostra	datetime_chegada_amostra	datetime_partida_apuracao_solucao	datetime_chegada_apuracao_solucao	status

In [24]:
q = f"""
SELECT 
  * 
FROM 
  `rj-smtr-dev.SMTR202212006620_reprocessamento.viagem_completa` 
"""
       
viagem_completa_reprocessada = bd.read_sql(q, from_file=True)
viagem_completa_reprocessada.info() 

Downloading: 100%|██████████| 156/156 [00:00<00:00, 388.06rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 156 entries, 0 to 155
Data columns (total 29 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   consorcio                    156 non-null    object        
 1   data                         156 non-null    dbdate        
 2   tipo_dia                     156 non-null    object        
 3   id_empresa                   156 non-null    object        
 4   id_veiculo                   156 non-null    object        
 5   id_viagem                    156 non-null    object        
 6   servico_informado            156 non-null    object        
 7   servico_realizado            156 non-null    object        
 8   vista                        156 non-null    object        
 9   trip_id                      156 non-null    object        
 10  shape_id                     156 non-null    object        
 11  sentido                      156 non-null    




In [25]:
amostra_663_reprocess = check_complete_trips(amostra_663_trat, viagem_completa_reprocessada, 10)
amostra_663_reprocess

Não existem casos duplicados no cruzamento de dados.


Unnamed: 0,data,servico,id_veiculo_amostra,hora_inicio,hora_fim,sentido_amostra,datetime_partida_amostra,datetime_chegada_amostra,status,servico_informado,id_veiculo_apurada,sentido_apurada,datetime_partida_apurada,datetime_chegada_apurada
0,2022-09-14,663,B28514,05:48:00,06:43:00,I,2022-09-14 05:48:00,2022-09-14 06:43:00,O veículo existe e operou na linha indicada pe...,663.0,B28514,C,2022-09-14 05:49:03,2022-09-14 07:32:33
1,2022-09-27,663,B28514,05:50:00,06:46:00,I,2022-09-27 05:50:00,2022-09-27 06:46:00,O veículo existe e operou na linha indicada pe...,663.0,B28514,C,2022-09-27 05:51:39,2022-09-27 07:37:09
2,2022-09-27,663,B28600,06:14:00,07:07:00,I,2022-09-27 06:14:00,2022-09-27 07:07:00,O veículo existe e operou na linha indicada pe...,663.0,B28600,C,2022-09-27 06:15:13,2022-09-27 07:56:13
3,2023-07-05,663,B28567,06:20:00,07:18:00,V,2023-07-05 06:20:00,2023-07-05 07:18:00,Viagem inválida - sobreposição de viagem,,,,NaT,NaT
4,2023-07-13,663,B28567,06:21:00,07:26:00,V,2023-07-13 06:21:00,2023-07-13 07:26:00,Viagem inválida - sobreposição de viagem,,,,NaT,NaT
5,2022-09-14,663,B28514,06:46:00,07:35:00,V,2022-09-14 06:46:00,2022-09-14 07:35:00,,,,,NaT,NaT
6,2022-09-14,663,B28631,06:16:00,07:13:00,I,2022-09-14 06:16:00,2022-09-14 07:13:00,,,,,NaT,NaT
7,2022-09-14,663,B28605,07:33:00,08:22:00,V,2022-09-14 07:33:00,2022-09-14 08:22:00,,,,,NaT,NaT
8,2022-09-22,663,B28514,05:46:00,06:35:00,I,2022-09-22 05:46:00,2022-09-22 06:35:00,,,,,NaT,NaT
9,2022-09-22,663,B28514,06:55:00,07:58:00,V,2022-09-22 06:55:00,2022-09-22 07:58:00,,,,,NaT,NaT


In [26]:
data_n_encontradas_gps = amostra_663_reprocess['data'].unique()
ids_n_encontrados_gps = amostra_663_reprocess['id_veiculo_amostra'].unique()

q = f"""
  SELECT
  id_veiculo,
  servico_informado as servico,
  timestamp_gps
FROM
    `rj-smtr-dev.SMTR202212006620_reprocessamento.registros_status_viagem`
WHERE
  DATA IN {tuple(data_n_encontradas)}
  AND id_veiculo IN {tuple(ids_n_encontrados)}
"""  

gps_reprocessado = bd.read_sql(q, from_file=True)
gps_reprocessado.info() 

Downloading: 100%|██████████| 583/583 [00:00<00:00, 1637.65rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 583 entries, 0 to 582
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   id_veiculo     583 non-null    object        
 1   servico        583 non-null    object        
 2   timestamp_gps  583 non-null    datetime64[ns]
dtypes: datetime64[ns](1), object(2)
memory usage: 13.8+ KB





In [27]:
gps_reprocessado['id_veiculo'] = gps_reprocessado['id_veiculo'].astype(str)
gps_reprocessado['timestamp_gps'] = pd.to_datetime(gps_reprocessado['timestamp_gps'])
gps_reprocessado

Unnamed: 0,id_veiculo,servico,timestamp_gps
0,B28514,663,2022-09-27 07:17:09
1,B28514,663,2022-09-27 06:45:39
2,B28514,663,2022-09-27 07:27:39
3,B28514,663,2022-09-27 07:05:39
4,B28514,663,2022-09-27 06:46:39
...,...,...,...
578,B28514,663,2022-09-14 06:38:03
579,B28514,663,2022-09-14 07:16:03
580,B28514,663,2022-09-14 06:37:33
581,B28514,663,2022-09-14 06:48:03


In [28]:
filtered_amostra = amostra_663_reprocess[amostra_663_reprocess['status'].isna()]

filtered_amostra['id_veiculo_amostra'] = filtered_amostra['id_veiculo_amostra'].astype(str)
filtered_amostra['datetime_partida_amostra'] = pd.to_datetime(filtered_amostra['datetime_partida_amostra'])
filtered_amostra['datetime_chegada_amostra'] = pd.to_datetime(filtered_amostra['datetime_chegada_amostra'])
filtered_amostra

Unnamed: 0,data,servico,id_veiculo_amostra,hora_inicio,hora_fim,sentido_amostra,datetime_partida_amostra,datetime_chegada_amostra,status,servico_informado,id_veiculo_apurada,sentido_apurada,datetime_partida_apurada,datetime_chegada_apurada
5,2022-09-14,663,B28514,06:46:00,07:35:00,V,2022-09-14 06:46:00,2022-09-14 07:35:00,,,,,NaT,NaT
6,2022-09-14,663,B28631,06:16:00,07:13:00,I,2022-09-14 06:16:00,2022-09-14 07:13:00,,,,,NaT,NaT
7,2022-09-14,663,B28605,07:33:00,08:22:00,V,2022-09-14 07:33:00,2022-09-14 08:22:00,,,,,NaT,NaT
8,2022-09-22,663,B28514,05:46:00,06:35:00,I,2022-09-22 05:46:00,2022-09-22 06:35:00,,,,,NaT,NaT
9,2022-09-22,663,B28514,06:55:00,07:58:00,V,2022-09-22 06:55:00,2022-09-22 07:58:00,,,,,NaT,NaT
10,2022-09-22,663,B28631,06:14:00,07:04:00,I,2022-09-22 06:14:00,2022-09-22 07:04:00,,,,,NaT,NaT
11,2022-09-22,663,B28631,07:07:00,08:03:00,V,2022-09-22 07:07:00,2022-09-22 08:03:00,,,,,NaT,NaT
12,2022-09-27,663,B28514,06:51:00,07:39:00,V,2022-09-27 06:51:00,2022-09-27 07:39:00,,,,,NaT,NaT
13,2022-09-27,663,B28600,07:10:00,07:57:00,V,2022-09-27 07:10:00,2022-09-27 07:57:00,,,,,NaT,NaT
14,2023-07-05,663,B28570,05:56:00,06:57:00,I,2023-07-05 05:56:00,2023-07-05 06:57:00,,,,,NaT,NaT


In [29]:
filtered_gps = gps_reprocessado[
    (gps_reprocessado['id_veiculo'] == "B28514") & 
    (gps_reprocessado['timestamp_gps'] >= "2022-09-22T05:46:00") & 
    (gps_reprocessado['timestamp_gps'] <= "2022-09-22T06:35:00")
]

filtered_gps

Unnamed: 0,id_veiculo,servico,timestamp_gps


In [30]:
def set_status(row, df_check):
    # Filtra o dataframe de checagem pelo id_veiculo e intervalo de tempo
    filtered_df = df_check[
        (df_check['id_veiculo'] == row['id_veiculo_amostra']) & 
        (df_check['timestamp_gps'] >= row['datetime_partida_amostra']) & 
        (df_check['timestamp_gps'] <= row['datetime_chegada_amostra'])
    ]

    # Se o dataframe filtrado não tiver registros, retorna a mensagem correspondente
    if filtered_df.empty:
        return "Sem sinal de GPS em registros_status_viagem"

    # Se tiver e o serviço for o mesmo, retorna a mensagem correspondente
    elif filtered_df.iloc[0]['servico'] == row['servico']:
        return "Sinal de GPS encontrado em registros_status_viagem para o mesmo serviço"

    # Se o serviço for diferente, retorna a mensagem informando o número do serviço
    else:
        return f"Sinal de GPS encontrado para veículo em outro serviço: ({filtered_df.iloc[0]['servico']})"


filtered_amostra['status'] = filtered_amostra.apply(lambda row: set_status(row, gps_reprocessado), axis=1)
filtered_amostra

Unnamed: 0,data,servico,id_veiculo_amostra,hora_inicio,hora_fim,sentido_amostra,datetime_partida_amostra,datetime_chegada_amostra,status,servico_informado,id_veiculo_apurada,sentido_apurada,datetime_partida_apurada,datetime_chegada_apurada
5,2022-09-14,663,B28514,06:46:00,07:35:00,V,2022-09-14 06:46:00,2022-09-14 07:35:00,Sinal de GPS encontrado em registros_status_vi...,,,,NaT,NaT
6,2022-09-14,663,B28631,06:16:00,07:13:00,I,2022-09-14 06:16:00,2022-09-14 07:13:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
7,2022-09-14,663,B28605,07:33:00,08:22:00,V,2022-09-14 07:33:00,2022-09-14 08:22:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
8,2022-09-22,663,B28514,05:46:00,06:35:00,I,2022-09-22 05:46:00,2022-09-22 06:35:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
9,2022-09-22,663,B28514,06:55:00,07:58:00,V,2022-09-22 06:55:00,2022-09-22 07:58:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
10,2022-09-22,663,B28631,06:14:00,07:04:00,I,2022-09-22 06:14:00,2022-09-22 07:04:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
11,2022-09-22,663,B28631,07:07:00,08:03:00,V,2022-09-22 07:07:00,2022-09-22 08:03:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
12,2022-09-27,663,B28514,06:51:00,07:39:00,V,2022-09-27 06:51:00,2022-09-27 07:39:00,Sinal de GPS encontrado em registros_status_vi...,,,,NaT,NaT
13,2022-09-27,663,B28600,07:10:00,07:57:00,V,2022-09-27 07:10:00,2022-09-27 07:57:00,Sinal de GPS encontrado em registros_status_vi...,,,,NaT,NaT
14,2023-07-05,663,B28570,05:56:00,06:57:00,I,2023-07-05 05:56:00,2023-07-05 06:57:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT


In [31]:
def set_status(row, df_check):
    # Filtra o dataframe de checagem pelo id_veiculo e intervalo de tempo
    
    
    df_check['id_veiculo'] = df_check['id_veiculo'].astype(str)
    df_check['timestamp_gps'] = pd.to_datetime(df_check['timestamp_gps'])
    
    
    filtered_df = df_check[
        (df_check['id_veiculo'] == row['id_veiculo_amostra']) & 
        (df_check['timestamp_gps'] >= row['datetime_partida_amostra']) & 
        (df_check['timestamp_gps'] <= row['datetime_chegada_amostra'])
    ]

    # Se o dataframe filtrado não tiver registros, retorna a mensagem correspondente
    if filtered_df.empty:
        return "Sem sinal de GPS em registros_status_viagem"

    # Se tiver e o serviço for o mesmo, retorna a mensagem correspondente
    elif filtered_df.iloc[0]['servico'] == row['servico']:
        return "Sinal de GPS encontrado em registros_status_viagem para o mesmo serviço"

    # Se o serviço for diferente, retorna a mensagem informando o número do serviço
    else:
        return f"Sinal de GPS encontrado para veículo em outro serviço: ({filtered_df.iloc[0]['servico']})"

# Aplica a função ao dataframe
filtered_amostra['status'] = filtered_amostra.apply(lambda row: set_status(row, gps_reprocessado), axis=1)

filtered_amostra

Unnamed: 0,data,servico,id_veiculo_amostra,hora_inicio,hora_fim,sentido_amostra,datetime_partida_amostra,datetime_chegada_amostra,status,servico_informado,id_veiculo_apurada,sentido_apurada,datetime_partida_apurada,datetime_chegada_apurada
5,2022-09-14,663,B28514,06:46:00,07:35:00,V,2022-09-14 06:46:00,2022-09-14 07:35:00,Sinal de GPS encontrado em registros_status_vi...,,,,NaT,NaT
6,2022-09-14,663,B28631,06:16:00,07:13:00,I,2022-09-14 06:16:00,2022-09-14 07:13:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
7,2022-09-14,663,B28605,07:33:00,08:22:00,V,2022-09-14 07:33:00,2022-09-14 08:22:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
8,2022-09-22,663,B28514,05:46:00,06:35:00,I,2022-09-22 05:46:00,2022-09-22 06:35:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
9,2022-09-22,663,B28514,06:55:00,07:58:00,V,2022-09-22 06:55:00,2022-09-22 07:58:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
10,2022-09-22,663,B28631,06:14:00,07:04:00,I,2022-09-22 06:14:00,2022-09-22 07:04:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
11,2022-09-22,663,B28631,07:07:00,08:03:00,V,2022-09-22 07:07:00,2022-09-22 08:03:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT
12,2022-09-27,663,B28514,06:51:00,07:39:00,V,2022-09-27 06:51:00,2022-09-27 07:39:00,Sinal de GPS encontrado em registros_status_vi...,,,,NaT,NaT
13,2022-09-27,663,B28600,07:10:00,07:57:00,V,2022-09-27 07:10:00,2022-09-27 07:57:00,Sinal de GPS encontrado em registros_status_vi...,,,,NaT,NaT
14,2023-07-05,663,B28570,05:56:00,06:57:00,I,2023-07-05 05:56:00,2023-07-05 06:57:00,Sem sinal de GPS em registros_status_viagem,,,,NaT,NaT


### Exemplos (mapa)

- Mapa de 1 viagem identificada (que não foi iedntificada antes da
  solução): `analise_mapa_viagem_identificada_pos_solucao.html`
- Mapa de viagens não identificadas (se necessário i.e. teve sinal de
  GPS na linha no período, mas não teve a viagem): `analise_mapa_viagem_nao_identificada_pos_solucao_[descricao].html`

In [70]:
q = f"""
  SELECT
  id_veiculo,
  servico,
  timestamp_gps,
  ST_GEOGPOINT(longitude, latitude) as posicao_veiculo_geo
FROM
  `rj-smtr.br_rj_riodejaneiro_veiculos.gps_sppo`
WHERE
  DATA = '2022-09-22'
  AND id_veiculo = 'B28631'
  AND timestamp_gps between '2022-09-22T06:14:00' and '2022-09-22T08:05:00'
"""
          
dados_gps = bd.read_sql(q, from_file=True)
dados_gps.info()    

Downloading: 100%|██████████| 222/222 [00:00<00:00, 634.28rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 222 entries, 0 to 221
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id_veiculo           222 non-null    object        
 1   servico              222 non-null    object        
 2   timestamp_gps        222 non-null    datetime64[ns]
 3   posicao_veiculo_geo  222 non-null    object        
dtypes: datetime64[ns](1), object(3)
memory usage: 7.1+ KB





In [73]:
q = f"""
SELECT
  shape_id,
  shape,
  start_pt,
  end_pt
FROM
  `rj-smtr.projeto_subsidio_sppo.viagem_planejada`
WHERE
  DATA = "2023-01-05"
  AND servico = '663'
"""
       
shape_identificado = bd.read_sql(q, from_file=True)
shape_identificado.info() 

Downloading: 100%|██████████| 2/2 [00:00<00:00,  5.24rows/s]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   shape_id  2 non-null      object
 1   shape     2 non-null      object
 2   start_pt  2 non-null      object
 3   end_pt    2 non-null      object
dtypes: object(4)
memory usage: 192.0+ bytes





In [71]:
create_trip_map(dados_gps, shape_identificado)

In [74]:
create_trip_map(dados_gps, shape_identificado)

Fazer mapa histórico com o reprocessamento e comparar o POD