# Algoritmo - Localização Bilhetagem (terminais e outros)
### _Autor: Antônio Claudio Dutra Batista_
### _Orientador: Francisco Moraes de Oliveria Neto_
### _Metodologia: Mesclagem por informações coincidentes e critério de tempo (validadação e programação)_

# 1.0  Leitura das Bases

## 1.1 leitura da base - Bilhetagem (Tratamento Inicial)

In [None]:
import pandas as pd

# Lista para armazenar os dataframes
grupos_dias = []

# Loop para ler os arquivos CSV e concatená-los 
for i in range(1, 31):  # Início, fim (não inclusivo)
    try:
        # Lendo do arquivo CSV
        df = pd.read_csv(f'2018-11-{str(i).zfill(2)}.csv',usecols=['id', 'linha', 'nome_linha', 'prefixo_carro',
                            'nome_cartao', 'sentido_viagem', 'dia', 'momento'], sep=',')
                
        # Armazenando o dataframe na lista
        grupos_dias.append(df)
    except FileNotFoundError:
        print(f"Arquivo para o dia {i} não encontrado. Pulando...")

In [None]:
# Concatenando os grupos de 10 dias
mes_tudo = pd.concat(grupos_dias)

In [None]:
mes_tudo

In [None]:
# Caso necessite exportar arquivo da bilhetagem completa
# mes_tudo.to_csv("mes_tudo")

In [1]:
''' FORMATAÇÃO INICIAL '''

' FORMATAÇÃO INICIAL '

In [None]:
# Momentos em ordem do df mes_c_R!
# mes_tudo.sort_values('momento', inplace = True) # Mostrando DF em ORDEM!

In [None]:
# Juntando colunas de interesse (dia, momento) em uma só:
mes_tudo["momento"] = mes_tudo['dia'].astype(str) + ' ' + mes_tudo['momento'].astype(str)

In [None]:
mes_tudo.drop(columns='dia', inplace= True)

In [None]:
# Transformando coluna momento para formato data
mes_tudo["momento"] = pd.to_datetime(mes_tudo['momento'])

### 1.1.1 Inspeção inicial

In [None]:
# Informações da base
mes_tudo.info()

In [None]:
# Dados nulos 
# mes_tudo.isnull().sum()

In [None]:
# Verificando linhas utilizadas 
nomes_linhas = mes_tudo['nome_linha']
nomes_linhas.unique()

In [None]:
# Visualisando dados de identifcação dos veciulos nulos
veiclulos_nao_identificados = mes_tudo[mes_tudo['prefixo_carro'].isnull()]
df_nao_identificados =  veiclulos_nao_identificados['nome_linha'].value_counts()

In [None]:
df_nao_identificados

In [2]:
''' Ou seja, duas linhas tiveram dados nulos de identificação dos veiculos'''

' Ou seja, duas linhas tiveram dados nulos de identificação dos veiculos'

In [None]:
# Visualisando dados de identifcação dos nomes das linhas nulos
nome_linha_nao_identificados = mes_tudo[mes_tudo['nome_linha'].isnull()]

In [None]:
nome_linha_nao_identificados

In [3]:
''' Obs: Nomes da linhas nulos não é um problema, pois se tem o id de identificação delas na coluna linha! '''

' Obs: Nomes da linhas nulos não é um problema, pois se tem o id de identificação delas na coluna linha! '

## 1.3 leitura da base dicionário e identificação de validações em terminais

### 1.3.1 leitura e tratamento da base dicionário

In [None]:
# df', abaixo:
d1 = pd.read_csv('veiculos2018.csv', sep= ';')

In [None]:
# Mostrando Df
display(d1)

In [None]:
# Verificando tipo de dados
d1.info()

In [None]:
d1[d1.id_veiculo==2537]

In [None]:
d1[d1.id_veiculo==2019.0]

In [None]:
# Verificando se existe esse veiculo na bilhetagem
mes_tudo[mes_tudo.prefixo_carro==30030]

In [None]:
# Renomear colunas
d1.columns=['id_veiculo', 'cod_veiculo']

In [None]:
# Removendo identificação de veiculos com caracteres da coluna de cod_veiculo
d01_ = d1[pd.to_numeric(d1['cod_veiculo'], errors='coerce').notnull()]

In [None]:
d01_

In [None]:
# visualizando DUPLICADOS 
d01_[d01_['cod_veiculo'].duplicated(keep=False)]

In [None]:
d01_.drop_duplicates(subset=['cod_veiculo'], inplace=True)

In [None]:
d01_['cod_veiculo'] = d01_['cod_veiculo'].astype('int32')
d01_['id_veiculo'] = d01_['id_veiculo'].astype('int32')

In [None]:
d01_

In [None]:
# Deixando dados do dicionario que possuem dados associados no GPS!
d01 = d01_[d01_['cod_veiculo'].isin(mes_tudo['prefixo_carro'])]

In [None]:
# d01.reset_index(inplace=True)
# d01.drop(columns='index', inplace=True)

In [None]:
d01

### 1.3.2 Identificação de validações em terminais

In [None]:
# Verificando dados que estão na bilhetagem (prefixo_carro), mas não estão no dicionário e consequentemente não estão no GPS
dados_apenas_em_mes_ = mes_tudo[~mes_tudo['prefixo_carro'].isin(d01['cod_veiculo'])]

In [None]:
dados_apenas_em_mes_

In [None]:
dados_apenas_em_mes_.isnull().sum()

In [None]:
# Preenchendo os valores NaN na coluna 'nome_linha' com uma string vazia
dados_apenas_em_mes_['nome_linha'] = dados_apenas_em_mes_['nome_linha'].fillna('')

In [4]:
''' OU SEJA, ESSES DADOS NÃO POSSUEM ASSOCIAÇÃO PELO GPS!'''

' OU SEJA, ESSES DADOS NÃO POSSUEM ASSOCIAÇÃO PELO GPS!'

In [None]:
# Verificando dados que estão na bilhetagem (prefixo_carro), mas não estão no dicionário e consequentemente não estão no GPS
df_terminais_filtro_01 = dados_apenas_em_mes_[dados_apenas_em_mes_['nome_linha'].str.contains('TERMINAL')]

#  Por inspeção foi identificado outra nomelcatura para o terminal (ANT.BEZERRA)
df_terminais_filtro_02  = dados_apenas_em_mes_[dados_apenas_em_mes_['nome_linha'].str.contains('TERM.ANT.BEZERRA')]

In [None]:
# Verificando quantidade de validações em terminais filtro_01
df_terminais_filtro_01['nome_linha'].value_counts()

In [None]:
# Verificando quantidade de validações em terminais filtro_02
df_terminais_filtro_02['nome_linha'].value_counts()

In [None]:
# JUNTANDO DADOS DE TERMINAIS EM UMA UNICA BASE 
df_terminais = pd.concat([df_terminais_filtro_01,df_terminais_filtro_02])

In [None]:
del df_terminais_filtro_01
del df_terminais_filtro_02

In [None]:
df_terminais.reset_index(inplace=True)
df_terminais.drop(columns='index', inplace=True)

In [None]:
# Base com TERMINAIS
df_terminais

In [None]:
df_terminais['nome_linha'].unique()

In [5]:
''' É possivel verificar que o terminal siqueira tinha dados nulos, mas ele é filtrado e fica na varaivel df_terminais, logo a localização dele sera incluso ja nessa varivel! '''

' É possivel verificar que o terminal siqueira tinha dados nulos, mas ele é filtrado e fica na varaivel df_terminais, logo a localização dele sera incluso ja nessa varivel! '

In [6]:
''' Sendo assim é possivel verificar as validações por meio do mesmo id_veiculo e usando o criteiro de tempo, ja os dados dos terminais será usado o metodo de localização desses dados na variavel df_terminais! '''

' Sendo assim é possivel verificar as validações por meio do mesmo id_veiculo e usando o criteiro de tempo, ja os dados dos terminais será usado o metodo de localização desses dados na variavel df_terminais! '

In [7]:
''' PARA PARADAS EM BRT´S NÃO SE TEM O NOME DAS ESTACOES AO LONGO DAS LINHAS!'''

' PARA PARADAS EM BRT´S NÃO SE TEM O NOME DAS ESTACOES AO LONGO DAS LINHAS!'

# 2.0 Junção da bilhetagem com o dicionário
''' Será adicionado o id_veiculo do dicionario, somente para se ter uma noção qual a identificação do veiculo '''

In [None]:
# Garantindo uso de validações que possuem relação no GPS
mes_gps = mes_tudo[~mes_tudo['prefixo_carro'].isin(dados_apenas_em_mes_['prefixo_carro'])]

In [None]:
# Acrescentando dicionário
mes_d1 = mes_gps.merge(d01, left_on= 'prefixo_carro', right_on='cod_veiculo')

In [None]:
# mes_d1.isnull().sum()

In [None]:
# Base da Bilhetagem adicionado o dicionario
mes_d1

In [None]:
mes_d1.info()

In [None]:
# Criando df somente colunas necessátrias para a integração no tópico 03!
mes_geo = mes_d1.sort_values('momento')

In [None]:
del mes_d1

In [None]:
# Reiniciando a contagem dos index
mes_geo.reset_index(inplace=True)

In [None]:
# REMOVENDO COLUNA DESNECESSÁRIA!
mes_georr = mes_geo.drop(['index', 'cod_veiculo'], axis=1)

In [None]:
mes_georr['id_veiculo'] = mes_georr['id_veiculo'].astype('int32')

In [None]:
mes_georr.info()

In [None]:
del mes_geo

# 3.0 Integração da coordenada aproxima na bilhetagem

## 3.1 Coordenada aproximada dos terminais na bilhetagem

### 3.1.1 Importando dados no formato GTFS

In [None]:
# Reatribuindo variavel com dados de validações em terminais
df_terminais_validacoes = df_terminais

In [None]:
del df_terminais

In [None]:
df_terminais_validacoes.reset_index(inplace=True)

In [None]:
df_terminais_validacoes.drop(['index'], inplace=True, axis=1)

In [None]:
# BASE COM VALIDAÇÕES FEITAS NOS TERMINAIS 
df_terminais_validacoes

In [None]:
df_terminais_validacoes['nome_linha'].unique()

In [None]:
# Importando base com locais previstos de parada
stops_paradas = pd.read_csv('stops.txt', sep= ',')

In [None]:
# Removendo colunas desnecessárias do df com paradas 
stops_paradas.drop(columns= ['stop_code', 'stop_desc', 'zone_id', 'stop_url', 'location_type', 'parent_station', 'stop_timezone', 'wheelchair_boarding'], inplace=True)

In [None]:
stops_paradas

In [8]:
''' POR INSPEÇÃO FOI VERIFICADO QUE A LOCALIZAÇÃO PARA VALIDAÇÃO EM TERMINAIS SÃO NOMEADOS COMO PREÇAS_Nomedoterminal'''

' POR INSPEÇÃO FOI VERIFICADO QUE A LOCALIZAÇÃO PARA VALIDAÇÃO EM TERMINAIS SÃO NOMEADOS COMO PREÇAS_Nomedoterminal'

In [None]:
# FILTRANDO LOCAIS DAS PRAÇAS NOS TERMINAIS QUE POSSUEM A LOCCALIZAÇÃO
terminais_geometry_ = stops_paradas[stops_paradas['stop_name'].str.contains('TERM')]

In [None]:
# Reiniciando a contagem do indice 
terminais_geometry_.reset_index(inplace=True)

In [None]:
terminais_geometry = terminais_geometry_.drop_duplicates(subset=['stop_name'])

In [None]:
# Dropando coluna desnecessaria
terminais_geometry.drop(columns=['stop_id'], inplace=True)
terminais_geometry.drop(2, inplace= True)

In [None]:
terminais_geometry.rename(columns={'stop_lat': 'latitude', 'stop_lon': 'longitude'}, inplace=True)

In [None]:
# Adequando nomes dos terminais para mesclagem
nome_procurado_1 = 'PRAÇA TERMINAL PARANGABA, SN' 
nome_procurado_2 = 'PRAÇA TERMINAL PAPICU, SN' 
nome_procurado_3 = 'PRAÇA TERMINAL MESSEJANA, SN' 
nome_procurado_4 = 'PRAÇA TERMINAL SIQUEIRA, SN' 
nome_procurado_5 = 'PRAÇA TERMINAL CONJUNTO CEARÁ, SN' 
nome_procurado_6 = 'PRAÇA TERMINAL LAGOA, SN' 
nome_procurado_7 = 'PRAÇA TERMINAL ANTONIO BEZERRA, SN'

# Localizando a linha com base no nome e, em seguida, atualizando os valores desejados
terminais_geometry.loc[terminais_geometry['stop_name'] == nome_procurado_1, 'stop_name'] = 'TERMINAL PARANGABA' 
terminais_geometry.loc[terminais_geometry['stop_name'] == nome_procurado_2, 'stop_name'] = 'TERMINAL PAPICU' 
terminais_geometry.loc[terminais_geometry['stop_name'] == nome_procurado_3, 'stop_name'] = 'TERMINAL MESSEJANA' 
terminais_geometry.loc[terminais_geometry['stop_name'] == nome_procurado_4, 'stop_name'] = 'TERMINAL SIQUEIRA'  
terminais_geometry.loc[terminais_geometry['stop_name'] == nome_procurado_5, 'stop_name'] = 'TERMINAL CEARA'  
terminais_geometry.loc[terminais_geometry['stop_name'] == nome_procurado_6, 'stop_name'] = 'TERMINAL LAGOA' 
terminais_geometry.loc[terminais_geometry['stop_name'] == nome_procurado_7, 'stop_name'] = 'TERM.ANT.BEZERRA' 

In [None]:
terminais_geometry.drop(columns=['index'], inplace=True)

In [None]:
# BASE COM LOCALIZAÇÃO DOS TERMINAIS 
terminais_geometry

### 3.1.2 Adicioando localização nas validações dos terminais 
''' Com a localização dos terminais ja determindas, é possivel adiconar essa informações nas validações da bilhetagem nesses locais '''

In [None]:
# MESCLANDO PELO NOME DA LINHA DA BILHETEGEM E O NOME DA PARADA CORRESPONDENTE AS SUAS RESPECTIVAS LINHAS 
mes_terminais_geometry = df_terminais_validacoes.merge(terminais_geometry, left_on= 'nome_linha', right_on='stop_name')

In [None]:
# Reiniciando a contagem do indice e dropando index
mes_terminais_geometry.reset_index(inplace=True)
mes_terminais_geometry.drop(columns=['index', 'stop_name'], inplace=True)

In [None]:
# CRIANDO COLUNA ID_LINHA E COD_VEICULO PARA COLOCAR DADOS DE VALIDAÇÕES LOCALIZADOS EM UMA UNICA BASE!
mes_terminais_geometry['id_veiculo'] = 'validacao_terminal'
mes_terminais_geometry['cod_veiculo'] = 'validacao_terminal'

In [None]:
# Reordenando colunas 
dados_terminais_geo = mes_terminais_geometry[['id', 'linha', 'nome_linha', 'prefixo_carro', 'nome_cartao', 'momento', 'id_veiculo', 'cod_veiculo', 'latitude', 'longitude']]

In [None]:
del mes_terminais_geometry

In [None]:
# Base com dados da bilhetagem localizada em terminais
dados_terminais_geo

## 3.2 Coordenada das demais (algumas de BRT´s e outras validações na bilhetagem)
''' O pressuposto inicial é que as validações que não possuem um id de identifcação dos veiculos correspondentes no GPS (pelo dicionario) são aquelas que os usuarios validaram no terminais, algumas podem ser de estações de BRT e de casos em que simplismente para os USUARIOS EM QUE A IDENTIFCAÇÃO DO VEICULOS NÃO POSSUI UM CORRESPONDENTE NO GPS, DEVIDO A FALTA DE UMA ASSOCIAÇÃO NO DICIONARIO, como ja foi abordado a localização das validações em terminais, basta realizar uma abordagem com as demais! ''' 

In [None]:
''' Será mantida a logica mas os dados da bilhetagem que não são de terminiais serão associados com o local mais proximo da programação '''

### 3.2.1 Identificando outras validações (possivel estação BRT´s e nos demais casos)
''' Identifcação das validações em possiveis estaçoes de BRT e nos demais casos que não possuiam um veiculo correspondente no GPS'''

### 3.2.1.2 Identificando validações não associadas e não terminiais 
''' Identificando os dados que não possuem associação com dicionario e não são em terminiais! '''

In [None]:
# Reatribuindo variavel com dados que estão na bilhetagem, mas não estão no dicionário e consequentemente não estão no GPS
dados_apenas_em_mes = dados_apenas_em_mes_

In [None]:
del dados_apenas_em_mes_

In [10]:
''' Foi utilizado a base "mes" pois ela tinha a coluna como numerica para comparação '''

' Foi utilizado a base "mes" pois ela tinha a coluna como numerica para comparação '

In [None]:
# Base com dados de validaçoes em terminais e em BRT
dados_apenas_em_mes

In [None]:
# Dropando dados de terminais pois eles ja foram filtrados em uma base propria (OBS: O NOME SERÁ DADOS_BRT, MAS NÃO NECESSPARIAMENTE SÃO TODOS DE BRT´S!), MA
dados_brt_e_outros_ = dados_apenas_em_mes[~dados_apenas_em_mes['nome_linha'].str.contains('TERMINAL', case=False)]
dados_brt_e_outros = dados_brt_e_outros_[~dados_brt_e_outros_['nome_linha'].str.contains('TERM.ANT', case=False)]

In [None]:
dados_brt_e_outros.reset_index(inplace=True)
dados_brt_e_outros.drop(columns=['index'], inplace=True)

In [None]:
dados_brt_e_outros['id_veiculo'] = "sem_associacao"

In [None]:
# BASE COM DADOS DE VALIDAÇÕES SOMENTE PRESENTES NA BILHETAGEM E FORA DOS TERMINAIS (veiculos sem identifcação no dicionario)
dados_brt_e_outros

In [None]:
# Dados das linhas existentes 
dados_brt_e_outros['linha'].unique()

In [9]:
'''OU SEJA, EXISTEM VALIDAÇÕES DE DIVERSAS LINHAS QUE NÃO TEM UM VEICULO CORRESPONDENTE NO GPS E NÃO SÃO VALIDAÇÕES EM TERMINAIS'''

'OU SEJA, EXISTEM VALIDAÇÕES DE DIVERSAS LINHAS QUE NÃO TEM UM VEICULO CORRESPONDENTE NO GPS E NÃO SÃO VALIDAÇÕES EM TERMINAIS'

### 3.2.2 Mesclando dados não associados e demais
''' O objetivo da associação ocom dicionario era somente separar os dados que não possuem associação, identifica-los e encontrar as validações em terminiis  '''

In [None]:
dados_concatenados = pd.concat([mes_georr, dados_brt_e_outros])

In [None]:
dados_concatenados

In [None]:
dados_concatenados.isnull().sum()

### 3.2.3 Associação com o horario programado para localizar as validações em BRT´s e as demais
''' Dados de GTFS, possuem dados de localização das paradas e da viagens programdas, assim é possivem associar para uma mesma linha, e pelo horario mais proximo da validação com o programado de passagem para identificação do possivel local de validação '''

In [None]:
# Printando novamente dados com locias das paradas
stops_paradas

In [None]:
# Importando base com horarios previstos de parada  
stop_times = pd.read_csv('stop_times.txt', sep= ',')

# Importando dados com viagens programadas de cada linha 
trips = pd.read_csv('trips.txt', sep=",")

In [None]:
# Removendo colunas desnecessárias do df com paradas 
stop_times.drop(columns= ['stop_headsign', 'pickup_type', 'drop_off_type', 'shape_dist_traveled'], inplace=True)

In [None]:
stop_times

In [None]:
# Acrescetando dados das paradas pela mesmo stop_id no df de tempos previstos de passagem
merge_pardas_time = pd.merge(stop_times, stops_paradas, left_on='stop_id', right_on='stop_id')

In [None]:
merge_pardas_time

In [None]:
# Removendo informações desnecessárias do df de dados das viagens
trips_tratado = trips.drop(columns=['service_id', 'trip_headsign', 'trip_short_name', 'direction_id', 'block_id', 'wheelchair_accessible'])

In [None]:
trips_tratado

In [None]:
# MESCLANDO BASE COM INFORMAÇÕES DAS PARADAS E TEMPOS DE PASSAGENS COM OS DADSO DAS VIAGENS PROGRAMADAS E AS RESPECTIVAS LINHAS
merge_pardas_time_trips = pd.merge(merge_pardas_time, trips_tratado, left_on='trip_id', right_on='trip_id')

In [None]:
merge_pardas_time_trips

In [11]:
''' Por inspeção vimos que possuem horarios de chegada superiores a 24 hs, segue na variavel horario_test'''

' Por inspeção vimos que possuem horarios de chegada superiores a 24 hs, segue na variavel horario_test'

In [None]:
# Verificando dados de tempo maiores que 24 (inspessão)
horario_test = merge_pardas_time_trips[merge_pardas_time_trips.arrival_time>='24:00:00' ]

In [None]:
horario_test

In [None]:
''' Esses dados são referentes as horarios de 24=00 hs e 25=01hs, foi adotado a substituição de 24 por 00 e 25 por 01 '''

In [None]:
# transformanmdo dados de horas para string
merge_pardas_time_trips['arrival_time'] = merge_pardas_time_trips['arrival_time'].astype(str)

In [None]:
# Função para substituição
def substituir_hora_24(hora):
    return hora.replace("24", "00")
def substituir_hora_25(hora):
    return hora.replace("25", "01")

In [None]:
# Aplicando função para 24
merge_pardas_time_trips['arrival_time'] = merge_pardas_time_trips['arrival_time'].apply(substituir_hora_24)

# Aplicando função para 25
merge_pardas_time_trips['arrival_time'] = merge_pardas_time_trips['arrival_time'].apply(substituir_hora_25)

In [None]:
# Transformando coluna de chegada programada do veiculo em tipo data
merge_pardas_time_trips['momento_chegada'] = pd.to_datetime(merge_pardas_time_trips['arrival_time'], format='%H:%M:%S')

In [12]:
''' 1900-01-01 é uma data generica! '''

' 1900-01-01 é uma data generica! '

In [None]:
# Criando coluna de linha (coluna route_id tem essas informações das linhas!)
merge_pardas_time_trips['linha'] = merge_pardas_time_trips['route_id'].astype('int32')

In [None]:
# Removedno colunas desnecessarias
merge_pardas_time_trips.drop(columns=['trip_id', 'arrival_time', 'departure_time', 'stop_id', 'stop_sequence', 'route_id', 'shape_id'], inplace=True)

In [None]:
# Base com linhas e os tempos programados de passagem
merge_pardas_time_trips

In [None]:
merge_pardas_time_trips.isnull().sum()

In [13]:
''' ou seja, existem momentos nulos programados, iremos dropar esses valores!'''

' ou seja, existem momentos nulos programados, iremos dropar esses valores!'

In [None]:
merge_pardas_time_trips.dropna(subset=['momento_chegada'], inplace=True)

In [None]:
# colocando df em ordem pelo momento programado de chegada
merge_pardas_time_trips.sort_values('momento_chegada', inplace=True)

In [14]:
''' COM BASE CONTENDO HORARIO PROGRAMADO DE CHEGADA PARA CADA LINHA, É POSSIVEL ASSOCIAR O HORARIO PROGRAMADA MAIS PROXIMO DO HORARIO DE VALIDAÇÃO '''

' COM BASE CONTENDO HORARIO PROGRAMADO DE CHEGADA PARA CADA LINHA, É POSSIVEL ASSOCIAR O HORARIO PROGRAMADA MAIS PROXIMO DO HORARIO DE VALIDAÇÃO '

In [None]:
# Base dos dados de brt e demais validação sem um veiculo identificado no GPS
dados_concatenados

In [None]:
# Criando coluna com dados de horario, minuto e segundos de validação 
dados_concatenados['momento_validacao_curto'] = dados_concatenados['momento'].dt.strftime('%H:%M:%S')

In [None]:
# Transformando coluna de hoario de validação em tipo data
dados_concatenados['momento_validacao_curto'] = pd.to_datetime(dados_concatenados['momento_validacao_curto'], format='%H:%M:%S')

In [None]:
dados_concatenados # NOVAMENTE 1900-01-01 é uma data generica!

In [None]:
dados_concatenados.info()

In [None]:
dados_concatenados['linha'] = dados_concatenados['linha'].astype('int32')

In [None]:
# colocando df em ordem pelo momento de validação 
dados_concatenados.sort_values('momento_validacao_curto', inplace=True)

In [None]:
dados_concatenados.isnull().sum()

In [None]:
# REALIZANDO OPERAÇÃO DE MESCLAGEM PARA LOCALIZAR PELO TEMPO MAIS PROXIMO DE PASSAGEM COM O DE VALIDAÇÃO 
dados_brt_geo_e_outros_ = pd.merge_asof(dados_concatenados, merge_pardas_time_trips, left_on='momento_validacao_curto', right_on='momento_chegada', by='linha', direction ='nearest')

In [None]:
# Dropando colunas denecessárias
dados_brt_geo_e_outros_.drop(columns=['momento_validacao_curto', 'momento_chegada'], inplace=True)

In [None]:
# Criando colun id_veiculo e cod_veiculo para mesclagem das bases
# dados_brt_geo_e_outros_['id_veiculo'] = 'validacao_brt_outros'
# dados_brt_geo_e_outros_['cod_veiculo'] = 'validacao_brt_outros'

In [None]:
dados_brt_geo_e_outros_.rename(columns={'stop_lat': 'latitude', 'stop_lon': 'longitude'}, inplace=True)

In [None]:
# Reordenando colunas 
# dados_brt_geo_e_outros = dados_brt_geo_e_outros_[['id', 'linha', 'nome_linha', 'prefixo_carro', 'nome_cartao', 'sentido_viagem','momento', 'id_veiculo', 'cod_veiculo', 'latitude', 'longitude']]

In [None]:
# del dados_brt_geo_e_outros_ 

In [None]:
# BASE LOCALIZADA COM VALIDAÇÕES EM ESTAÇÕES DE BRT E EM CASOS QUE NÃO SE TEM UM VEICULO CORRESPONDENTE NO GPS
dados_brt_geo_e_outros_

In [None]:
dados_brt_geo_e_outros_['linha'].unique()

In [None]:
dados_brt_geo_e_outros_.info()

### 3.2.3.1 Inspeção localização linhas especificas

In [None]:
linha_geo_horario = dados_brt_geo_e_outros_[(dados_brt_geo_e_outros_.momento>'2018-11-01 06:00:00') &
                        (dados_brt_geo_e_outros_.momento<='2018-11-01 07:00:00')]
''' FILTRANDO HORARIO DE INTERESSE! '''

In [None]:
linha_geo_horario

In [None]:
linha_geo = linha_geo_horario[linha_geo_horario.linha==75]

In [None]:
linha_geo

In [None]:
linha_geo['prefixo_carro'].unique()

In [None]:
linha_geo['prefixo_carro'].value_counts()

In [None]:
lat_2 = linha_geo['latitude'].mean()
lon_2 = linha_geo['longitude'].mean()

# Criando um mapa centrado em FORTALEZA
import folium
from folium.plugins import MarkerCluster

mapa = folium.Map(location=[lat_2, lon_2], zoom_start=5)

# Adicionando marcadores circulares ao mapa
marker_cluster = MarkerCluster().add_to(mapa)

def popup_content(id_veiculo, id_veiculo_clicado):
    cor_popup = 'blue' if id_veiculo != id_veiculo_clicado else 'red'
    return f'<div style="color: {cor_popup};">{id_veiculo}</div>'

for index, row in linha_geo.iterrows():
    folium.CircleMarker(location=[row['latitude'], row['longitude']],
                        radius=10,
                        color='black',
                        fill=True,
                        fill_color='red',
                        fill_opacity=0.6,
                        popup=folium.Popup(popup_content(row['prefixo_carro'], ''), max_width=300)).add_to(marker_cluster)

mapa

In [17]:
# mapa.save('validacoes_linha_75_6-7hs_dia_01_11_2018_geo_gtfs.html')

## 3.3 JUNÇÃO DAS VALIDAÇÕES LOCALIZADAS EM UMA UNICA BASE
''' COM DADOS DE VALIDAÇÕES LOCALIZADOS EM TERMINAIS, EM LINHAS DE BRT´s E EM VALIDAÇÕES EM LINHAS DE ONIBUS CONVENCIONAIS É POSSIVEL JUNTAR ESSAS EM UMA UNICA BASE''' 

In [None]:
# Concatenando base em um unico df
bilhetagem_localizada = pd.concat([dados_terminais_geo, dados_brt_geo_e_outros_])

In [None]:
# Base localizada
bilhetagem_localizada

In [None]:
import sys
sys.exit()

###### _INTERROPENDO EXECUÇÃO DO SCRIPT!_ 

In [16]:
''' AUTOMATIZANDO EXPORTAÇÃO!'''

' AUTOMATIZANDO EXPORTAÇÃO!'

In [None]:
# Defindo ano e mes

ano = 2018

mes = 11

In [None]:
filtro_mes = (bilhetagem_localizada['momento'].dt.year==ano) &  (bilhetagem_localizada['momento'].dt.month==mes)

dados_mes = bilhetagem_localizada.loc[filtro_mes]

In [None]:
for dia in range(1, 31):

    filtro_dia = dados_mes['momento'].dt.day==dia

    dados_dia = dados_mes.loc[filtro_dia]

    

    # Verificando se ha dadps ára exportar

    if not dados_dia.empty:

        nome_arquivo =  f"{ano}-{mes:02d}-{dia:02d}_geo"

        # Exportando

        dados_dia.to_csv(nome_arquivo, index=False)

In [None]:
import sys
sys.exit()

## 3.4 Filtrando veiculos em trecho com estações de BRT

### 3.4.1. Veiculos sem associação do GPS  e que passa na estação
''' Dados de validações fora dos terminais e que não possuem uma assoicação no GPS '''

In [None]:
# Na base dos veiculos em fora de terminais e que não possuem um veciulo associado no GPS 
validacoes_base_dados_brt_geo = dados_brt_geo_e_outros[(dados_brt_geo_e_outros.latitude>=-3.736011)
    & (dados_brt_geo_e_outros.longitude>=-38.566622) & (dados_brt_geo_e_outros.longitude<=-38.545669) 
                                & (dados_brt_geo_e_outros.latitude<=-3.731734)]

In [None]:
validacoes_base_dados_brt_geo

In [None]:
validacoes_base_dados_brt_geo['nome_linha'].unique() # Nenhuma linha com nome estação!

In [None]:
validacoes_base_dados_brt_geo['linha'].unique() 

In [None]:
# Filtrando linhas especifica
linha_especifica_2 = validacoes_base_dados_brt_geo[validacoes_base_dados_brt_geo.linha== 71]

In [None]:
linha_especifica_2

In [None]:
linha_especifica_2['prefixo_carro'] = linha_especifica_2['prefixo_carro'].astype('int64')

In [None]:
# Veiculos da linha
VEICULOS_GTFS = linha_especifica_2['prefixo_carro'].unique()

In [None]:
VEICULOS_GTFS

### _Pegando o mesmo veiculo (aletorio do mapa com associação com o gps)_

In [None]:
aleatorio_2 = linha_especifica_2['prefixo_carro'].sample(n=1)

In [None]:
aleatorio_2

In [None]:
# Definido validações de veiculo especifico 
val_veiculo_2 = linha_especifica_2[linha_especifica_2['prefixo_carro'].isin(aleatorio_2)]

In [None]:
val_veiculo_2

In [None]:
''' OU SEJA, DADA UMA MESMA LINHA, UM VEICULO POSSUE REGISTROS NO GPS E QUE POSSIBILITA A LOCALIZAÇÃO, MAS EXISTE OUTROS VEICULOS SEM ASSOCIAÇÃO QUE SOMENTE É POSSIVEL LOCALIZAR VIA GTFS! '''

In [None]:
# Filtrado momento especifico 
val_veiculo_dia_2 = val_veiculo_2[(val_veiculo_2.momento>='2018-09-06 05:08:16') & (val_veiculo_2.momento<='2018-09-06 05:20:36')
                                 & (val_veiculo_2.sentido_viagem<='Ida')]

In [None]:
val_veiculo_dia_2

In [None]:
lat_2 = val_veiculo_dia_2['latitude'].mean()
lon_2 = val_veiculo_dia_2['longitude'].mean()

In [None]:
# Criando um mapa centrado em FORTALEZA
import folium
from folium.plugins import MarkerCluster

mapa = folium.Map(location=[lat_2, lon_2], zoom_start=5)

# Adicionando marcadores circulares ao mapa
marker_cluster = MarkerCluster().add_to(mapa)

def popup_content(id_veiculo, id_veiculo_clicado):
    cor_popup = 'blue' if id_veiculo != id_veiculo_clicado else 'red'
    return f'<div style="color: {cor_popup};">{id_veiculo}</div>'

for index, row in val_veiculo_dia_2.iterrows():
    folium.CircleMarker(location=[row['latitude'], row['longitude']],
                        radius=10,
                        color='black',
                        fill=True,
                        fill_color='red',
                        fill_opacity=0.6,
                        popup=folium.Popup(popup_content(row['id_veiculo'], ''), max_width=300)).add_to(marker_cluster)

In [None]:
mapa

In [None]:
''' OU SEJA, NESSE TRECHO EXISTEM 10 ESTAÇÕES DE BRT E NASA DUAS BASES SOMENTE TEM UMA NA PRIMERIA QUE TEM NOME ESTAÇÃO! E NA BASE QUE NÃO POSSUEM VEICULOS ASSOCIADOS, FORAM DE VALIDAÇÕES EM SOMENTE ALGUAMS LINHAS, E AS DEMAIS VALIDAÇÕES NOS CASOS QUE POSSUEM UM VEICULO CORRESPONDENTE NO GPS, EXISTEM TAMBEM LINHAS QUE PASSAM NESSAS ESTAÇÕES E ELAS POSSUEM NOMES PROPRIOS E NÃO O NOME DA ESTAÇÃO!'''

# 4.0 Plotagem da bilhetagem georreferenciada

In [None]:
# INSTALANDO A BIBLIOTECA GEOPANDAS COM CONDA
# !conda install geopandas -y

# instalando com pip
!pip install-q geopandas

In [None]:
# mostrar a versão da biblioteca 
# !pip list geopandas

In [None]:
# instalando a biblioteca matplotlib com conda
# !conda install matplotlib -y

# instalando com pip
!pip install -q matplotlib

In [None]:
# mostrar a versão da biblioteca 
# !pip list matplotlib

In [None]:
# importando as bibliotecas
import geopandas as gpd
import matplotlib.pyplot as plt

## 4.2 Leitura de dados espaciais 

In [None]:
# Ler os dados com geopandas
ceara_muni = gpd.read_file('CE_Municipios_2022.shp')

### 4.2.1 Visualização dos dados 

In [None]:
# Visualização
# ceara_muni.plot(figsize=(16,14), facecolor='white', edgecolor='black') 
#plt.show()

### 4.2.2 Filtro somente da capital 

In [None]:
# Salvando somente a capital 'Fortaleza'
fortal = ceara_muni[ceara_muni.NM_MUN=='Fortaleza']
fortal_p = fortal.iloc[0].geometry

In [None]:
# Mostrar capital 
fortal_p

In [None]:
# Salvar o geodataframe com formato geojson
filename =  'fortal.json'
fortal.to_file(filename, driver='GeoJSON')

In [None]:
fortall = gpd.read_file(filename, driver='GeoJSON')

In [None]:
fortall

### 4.2.3 Modelo de dados espaciais e criação de coluna geometrica 

In [None]:
# Instalando biblioteca shapely com pip
!pip install -q shapely
# Mostrar versão da biblioteca 
# !pip list shapely

In [None]:
# importando os objetos geométricos da biblioteca shapely
from shapely.geometry import Point, LineString, Polygon

In [None]:
# Criando coluna geometerica no df (mes_d1_GPS)
# mes_d1_GPS['geometry'] = None 
# for index, row in mes_d1_GPS.iterrows():
    #mes_d1_GPS.loc[index, 'geometry'] = Point(row.latitude, row.longitude)

In [None]:
# mes_d1_GPS

In [None]:
# Criando coluna geometerica no df (mes_d1_GPS)
# mes_d1_GPS['geometry'] = mes_d1_GPS.apply(lambda x: Point((float(x.longitude), float(x.latitude))), axis=1)

In [None]:
# tipos de dados 
# type(mes_d1_GPS)

In [None]:
# Criando um GeoDataFrame 
# mes_d1_GPS_geodat_ = gpd.GeoDataFrame(mes_d1_GPS, geometry='geometry')

In [None]:
# mostar dados
# mes_d1_GPS_geodat_= mes_d1_GPS

In [None]:
# Salvar o geodataframe com formato geojson
# filename2 =  'mes_d1_GPS_geodat_.json'
# mes_d1_GPS_geodat_.to_file(filename2, driver='GeoJSON')

In [None]:
# mes_d1_GPS_geodat = gpd.read_file(filename2, driver='GeoJSON')

In [None]:
# plotando dados (visualização)
# mes_d1_GPS_geodat.plot(figsize=(8,8), facecolor='white', edgecolor='black')

In [None]:
# type(mes_d1_GPS_geodat)

### 4.2.4 Operação de interseção entre geometrias 

In [None]:
# Mostrar os dados simultaneamente
# fig, ax = plt.subplots(figsize=(15,15))

# mes_d1_GPS_geodat.plot(ax=ax)
# fortall.plot(ax=ax, facecolor='None', edgecolor='black')

In [None]:
# VERIFICAMOS QUE EXISTEM DADOS GEORREFERENCIADOS FORA DA MALHA DA CIDADE, PODENDO SER NA SUA MAIORIA REGISTRO DOS VEICULOS
# QUANDO SE DESLOCARAM PARA OUTRAS ZONAS, OU ATÉ MESMO ERROS DO APARELHO DE GPS, COMO MOSTRA NA FIGURA ACIMA UM REGISTRO 
# PRATICAMENTE NO MAR.

In [None]:
# Realizar operação de interseção entre geometrias
# mes_geo_fortal = mes_d1_GPS_geodat[mes_d1_GPS_geodat.intersects(fortal_p)]

In [None]:
# mes_geo_fortal.info()

In [None]:
# NOTAMOS QUE DOS 891038 DADOS DE VALIDAÇÕES APENAS 825386 foram localizadas dentro da malha da cidade, seguimos com estas!

In [None]:
# Mostrar os dados simultaneamente após interseção
# fig, ax = plt.subplots(figsize=(10,10))

# mes_geo_fortal.plot(ax=ax)
# fortall.plot(ax=ax, facecolor='None', edgecolor='black')

In [None]:
# Salvando os dados georreferenciados em fortaleza 
# filename3 = 'mes_geo_fortal.json'

# mes_geo_fortal.to_file(filename3, driver='GeoJSON')

### 4.2.5 Mostrando dados no mapa de agrupamento (clusters)

In [None]:
# Instalando biblioteca folium com pip!
!pip install -q folium

In [None]:
# importando biblioteca folium e pluging
import folium 
from folium.plugins import FastMarkerCluster

In [None]:
# Criar mapa de agrupamentos (clusters)
# media_long = mes_geo_fortal['longitude'].mean()
# media_lat = mes_geo_fortal['latitude'].mean()

# mapa = folium.Map(location=[media_lat, media_long])

In [None]:
# Transformando dados em uma feat geojson
# mc = FastMarkerCluster(mes_geo_fortal[['latitude', 'longitude']])

In [None]:
# Poligonal da cidade no mapa
limites = folium.features.GeoJson(fortall, style_function=lambda feature:{'color': 'black', 'weight': 2, 'fillOpacity':0.0})

In [None]:
# Adicionando dados no mapa
# mapa.add_child(mc)
# mapa.add_child(limites)       

In [None]:
# Salvar o nosso mapa em um arquivo html
# mapa.save('validações_georreferenciadas.html')

### 4.2.6 Mostrando dados no mapa de calor (Heatmap)

In [None]:
# Importando a plugin HeatMap
from folium.plugins import HeatMap

In [None]:
# Criando mapa II

# mapa_2 = folium.Map(location=[media_lat, media_long]) 

# Criando heat_map
# heat_map = HeatMap(mes_geo_fortal[['latitude', 'longitude']])     

In [None]:
# Adicionando no map
# mapa_2.add_child(heat_map)
# mapa_2.add_child(limites)

In [None]:
# Salvar o nosso mapa em um arquivo html
# mapa_2.save('validações_georreferenciadas_Heatmap_calor.html')

# ------------------------------------------------------------------------