# Algoritmo - Validação da localização da Bilhetagem
### _Autor: Antônio Claudio Dutra Batista_
### _Orientador: Francisco Moraes de Oliveria Neto_
### _Metodologia: Validação da mesclagem por informações coincidentes e critério de tempo_
''' Validação da localização da Bilhetagem feita pela mesclagem no metododo em questão - Somente localização dos veiculos fora de terminais e possiveis Brt´s! '''

# 1.0  Leitura das Bases

## 1.1 leitura da base - Bilhetagem (Tratamento Inicial)

In [None]:
# Arquivos são do mês de novembro de 2018.
import pandas as pd

# Definindo tipos de variáveis com tamanhos menores
tipos_specification = {'id': 'int32', 'linha': 'int32'}

# Lista para armazenar os dataframes de cada grupo de 10 dias
grupos_dias = []

# Loop para ler os arquivos CSV e concatená-los em grupos de 10 dias
for i in range(1, 31, 10):  # Início, fim (não inclusivo), passo
    dias = [pd.read_csv(f'2018-11-{str(j).zfill(2)}.csv', usecols=['id', 'linha', 'nome_linha', 'prefixo_carro', 'nome_cartao', 'sentido_viagem', 'dia', 'momento'], dtype=tipos_specification, sep=',') for j in range(i, i + 10)]
    grupo = pd.concat(dias)
    grupos_dias.append(grupo)

In [None]:
# Concatenando os grupos de 10 dias
mes_tudo = pd.concat(grupos_dias)

In [None]:
# BUSCAR DADOS NULOS
mes_tudo.info()

In [None]:
# Momentos em ordem do df mes_c_R!
mes_tudo.sort_values('momento', inplace = True) # Mostrando DF em ORDEM!

In [None]:
# Memoria liberou 0.2 gb
mes_tudo.info()

In [None]:
# Dados nulos 
mes_tudo.isnull().sum()

In [None]:
# Visualisando dados de identifcação dos veciulos nulos
veiclulos_nao_identificados = mes_tudo[mes_tudo['prefixo_carro'].isnull()]
df_nao_identificados =  pd.DataFrame(veiclulos_nao_identificados['nome_linha'].unique())

In [None]:
# Df com nome das linhas que apresentaram identifcação dos veiculso nulos 
df_nao_identificados

In [None]:
# Verificando linhas utilizadas 
nomes_linhas = mes_tudo['nome_linha']
nomes_linhas.unique()

In [None]:
# Filtrando linhas em terminais
mes_tudo[mes_tudo.nome_linha=='TERMINAL PARANGABA']

In [1]:
''' Ou seja, existem validações em terminais que possuem uma associação numerica de identificação dos veiculos, porem esses dados não tem veciulos correspondente no GPS e não serão localizados! '''

' Ou seja, existem validações em terminais que possuem uma associação numerica de identificação dos veiculos, porem esses dados não tem veciulos correspondente no GPS e não serão localizados! '

In [None]:
# Juntando colunas de interesse (dia, momento) em uma só:
mes_tudo["momento_bilhetagem"] = mes_tudo['dia'].astype(str) + ' ' + mes_tudo['momento'].astype(str)

In [None]:
# REMOVENDO COLUNAS DESNECESSÁRIAS!
mes1 = mes_tudo.drop(['dia'], axis=1)

In [None]:
# Excluindo explicitamente variavel com bilhetagem desnecessária
# del mes_tudo

In [None]:
mes1.info()

In [None]:
mes1["momento_bilhetagem"] = pd.to_datetime(mes1["momento_bilhetagem"])

In [None]:
# Removendo dados nulos na coluna prefixo_carro
mes_ = mes1.dropna(subset = ['prefixo_carro'])

In [None]:
mes_.info()

In [None]:
# Excluindo explicitamente variavel com bilhetagem desnecessária
del mes1

In [None]:
# Funçao para verificar se tem caracters
def caracter(col):
    return any(char.isalpha() for char in str(col))

In [None]:
# Verificando dados com caracters
prefixo_caracter = pd.DataFrame(mes_['prefixo_carro'])
prefixo_resultado = prefixo_caracter.applymap(caracter) 

In [None]:
dados_com_caraceters = prefixo_resultado[prefixo_resultado.prefixo_carro ==True]

In [None]:
dados_com_caraceters.sum()

In [None]:
# Removendo identificação de veiculos com caracteris da coluna de prefixo_carro
mes = mes_[pd.to_numeric(mes_['prefixo_carro'], errors='coerce').notnull()]

In [None]:
# Trasnformando coluna de prefixo carro em inteiro
mes['prefixo_carro'] = mes['prefixo_carro'].astype('int32')

In [None]:
mes.info()

In [None]:
# Última ver}são do df MES
mes

## 1.2 leitura da base - Dicionário

In [None]:
# df', abaixo:
import pandas as pd 
d1 = pd.read_csv('veiculos2018.csv', sep= ';')

In [None]:
# Mostrando Df
display(d1)

In [None]:
d1.info()

In [None]:
d1[d1.cod_veiculo==35631.0]

In [None]:
# transformando coluna para tipo string
d1['cod_veiculo'] = d1['cod_veiculo'].astype(str)

In [None]:
# Removendo casracters não numericos da calouna
d1['cod_veiculo']= d1['cod_veiculo'].replace({'\D': ''}, regex=True)

In [None]:
# Convertendo dados para valores numericos
d1['cod_veiculo'] = pd.to_numeric(d1['cod_veiculo'], errors='coerce')

In [None]:
d1

In [None]:
# Removenfdo identificação de veiculos com caracteres da coluna de cod_veiculo
# d01 = d1[pd.to_numeric(d1['cod_veiculo'], errors='coerce').notnull()]

In [None]:
d1.info()

In [2]:
''' Como algumas informações da coluna cod_veiculo possuiam caracteres em todas a celula, esses valores foram removidos por interio, então as linhas dessas colunas ficaram com dados nulos! '''

' Como algumas informações da coluna cod_veiculo possuiam caracteres em todas a celula, esses valores foram removidos por interio, então as linhas dessas colunas ficaram com dados nulos! '

In [None]:
# Verificando dados nulos 
nulos_cod = d1[d1['cod_veiculo'].isnull()]
len(nulos_cod)

In [None]:
# Removendo dados nulos do dicionario
d01 = d1.dropna()

In [None]:
# Trasnformando coluna de prefixo carro em inteiro
d01['cod_veiculo'] = d01['cod_veiculo'].astype('int32')
d01['id_veiculo'] = d01['id_veiculo'].astype('int32')

In [None]:
d01[d01.cod_veiculo ==36981]

In [None]:
d01['cod_veiculo'].sort_index()

In [None]:
d01.isnull().sum()

## 1.3 leitura do base - GPS (Tratamento INICIAL)

In [None]:
import pandas as pd

# Definindo o número de linhas que você deseja ler
numero_de_linhas_para_ler = 45000000  # Substitua pelo número desejado
dtype_specification = {'longitude': 'float32', 'latitude': 'float32', 'vehicle_vehicleid': 'int32'}

# Usando o pandas para ler o CSV, limitando o número de linhas com a opção nrows
mes_ate_45_milhoes = pd.read_csv('Paint112018.csv',usecols=['latitude', 'longitude', 'metrictimestamp', 'vehicle_vehicleid'], dtype=dtype_specification, nrows=numero_de_linhas_para_ler)

In [None]:
# Lendo restante do arquivo
mes_resto = pd.read_csv('Paint112018.csv', usecols=['latitude', 'longitude','metrictimestamp', 'vehicle_vehicleid'],dtype=dtype_specification, skiprows=range(1, numero_de_linhas_para_ler + 1))

In [None]:
# Juntando em um mesmo df
GPS_I_H =  pd.concat([mes_ate_45_milhoes, mes_resto]) 

In [None]:
# Excluindo explicitamente variavel com dados do GPS separados
del mes_ate_45_milhoes
del mes_resto

In [None]:
display(GPS_I_H.iloc[275])

In [None]:
GPS_I_H.info()

In [None]:
# FORMATANDO metrictimestamp do (GPS)
GPS_I_H['momento'] = pd.to_datetime(GPS_I_H['metrictimestamp'],format= '%Y%m%d%H%M%S')

In [None]:
GPS_I_H.drop("metrictimestamp", axis= 1, inplace= True)

In [None]:
# Renomear coluna de momento de vehicle_vehicleid para id_veiculo:
GPS_I_H.columns=['latitude', 'longitude','id_veiculo', 'momento']

In [None]:
# Colocando valores em ordem
GPS_I_H.sort_values('momento', inplace= True)

In [None]:
GPS_I_H.info()

In [None]:
GPS_I_H.reset_index(inplace=True)

In [None]:
GPS_I_H.drop(columns='index', inplace=True)

In [None]:
GPS_I_H

# 2.0 Junção da bilhetagem com o dicionário 

In [None]:
# Acrescentando dicionário
mes_d1_T = mes.merge(d01, left_on= 'prefixo_carro', right_on='cod_veiculo')

In [None]:
mes_d1 = mes_d1_T

In [None]:
del mes_d1_T

In [None]:
# Base da Bilhetagem adicionado o dicionario
mes_d1

In [None]:
mes_d1.info()

In [None]:
# Criando df somente colunas necessátrias para a integração no tópico 03!
mes_geo = mes_d1.sort_values('momento_bilhetagem')

In [None]:
del mes_d1

In [None]:
# Reiniciando a contagem dos index
mes_geo.reset_index(inplace=True)

In [None]:
# REMOVENDO COLUNA DESNECESSÁRIA!
mes_georr = mes_geo.drop(['index', "prefixo_carro"], axis=1)

In [None]:
mes_georr.info()

In [None]:
mes_georr

In [None]:
del mes_geo

In [None]:
# Verificando dados nulos 
mes_georr.isnull().sum()

# 3.0 Integração da coordenada aproximada do ônibus na bilhetagem

In [None]:
# Coordenada mais proxima do ônibus é extraída da base de GPS e integrada na base da bilhetagem (SOMENTE COLUMAS MOMENTO E ID)
mes_d1_GPS = pd.merge_asof(mes_georr, GPS_I_H, left_on='momento_bilhetagem', right_on='momento', by='id_veiculo', direction ='nearest')

In [None]:
mes_d1_GPS.isnull().sum()

In [None]:
# Base da bilhetagem localizada 
mes_d1_GPS

# 4.0 Plotagem da bilhetagem georreferenciada


## 4.1 Intalação das bibliotecas e importação
''' OBS: Os codigos abaixo serão deixados no arquivo, contudo o objetivo do procedimento não é visualização dos dados de bilhetagem localizados mas serão deixados em caso que se deseja utilizar essas bibliotecas para esse fim! '''

In [None]:
# INSTALANDO A BIBLIOTECA GEOPANDAS COM CONDA
# !conda install geopandas -y

# instalando com pip
!pip install-q geopandas

In [None]:
# mostrar a versão da biblioteca 
# !pip list geopandas

In [None]:
# instalando a biblioteca matplotlib com conda
# !conda install matplotlib -y

# instalando com pip
!pip install -q matplotlib

In [None]:
# mostrar a versão da biblioteca 
# !pip list matplotlib

In [None]:
# importando as bibliotecas
import geopandas as gpd
import matplotlib.pyplot as plt

## 4.2 Leitura de dados espaciais 

In [None]:
# Ler os dados com geopandas
ceara_muni = gpd.read_file('CE_Municipios_2022.shp')

### 4.2.1 Visualização dos dados 

In [None]:
# Visualização
# ceara_muni.plot(figsize=(16,14), facecolor='white', edgecolor='black') 
#plt.show()

### 4.2.2 Filtro somente da capital 

In [None]:
# Salvando somente a capital 'Fortaleza'
fortal = ceara_muni[ceara_muni.NM_MUN=='Fortaleza']
fortal_p = fortal.iloc[0].geometry

In [None]:
# Mostrar capital 
fortal_p

In [None]:
# Salvar o geodataframe com formato geojson
filename =  'fortal.json'
fortal.to_file(filename, driver='GeoJSON')

In [None]:
fortall = gpd.read_file(filename, driver='GeoJSON')

In [None]:
fortall

### 4.2.3 Modelo de dados espaciais e criação de coluna geometrica 

In [None]:
# Instalando biblioteca shapely com pip
!pip install -q shapely
# Mostrar versão da biblioteca 
# !pip list shapely

In [None]:
# importando os objetos geométricos da biblioteca shapely
from shapely.geometry import Point, LineString, Polygon

In [None]:
# Criando coluna geometerica no df (mes_d1_GPS)
# mes_d1_GPS['geometry'] = None 
# for index, row in mes_d1_GPS.iterrows():
    #mes_d1_GPS.loc[index, 'geometry'] = Point(row.latitude, row.longitude)

In [None]:
# mes_d1_GPS

In [None]:
# Criando coluna geometerica no df (mes_d1_GPS)
# mes_d1_GPS['geometry'] = mes_d1_GPS.apply(lambda x: Point((float(x.longitude), float(x.latitude))), axis=1)

In [None]:
# tipos de dados 
# type(mes_d1_GPS)

In [None]:
# Criando um GeoDataFrame 
# mes_d1_GPS_geodat_ = gpd.GeoDataFrame(mes_d1_GPS, geometry='geometry')

In [None]:
# mostar dados
# mes_d1_GPS_geodat_= mes_d1_GPS

In [None]:
# Salvar o geodataframe com formato geojson
# filename2 =  'mes_d1_GPS_geodat_.json'
# mes_d1_GPS_geodat_.to_file(filename2, driver='GeoJSON')

In [None]:
# mes_d1_GPS_geodat = gpd.read_file(filename2, driver='GeoJSON')

In [None]:
# plotando dados (visualização)
# mes_d1_GPS_geodat.plot(figsize=(8,8), facecolor='white', edgecolor='black')

In [None]:
# type(mes_d1_GPS_geodat)

### 4.2.4 Operação de interseção entre geometrias 

In [None]:
# Mostrar os dados simultaneamente
# fig, ax = plt.subplots(figsize=(15,15))

# mes_d1_GPS_geodat.plot(ax=ax)
# fortall.plot(ax=ax, facecolor='None', edgecolor='black')

In [None]:
# VERIFICAMOS QUE EXISTEM DADOS GEORREFERENCIADOS FORA DA MALHA DA CIDADE, PODENDO SER NA SUA MAIORIA REGISTRO DOS VEICULOS
# QUANDO SE DESLOCARAM PARA OUTRAS ZONAS, OU ATÉ MESMO ERROS DO APARELHO DE GPS, COMO MOSTRA NA FIGURA ACIMA UM REGISTRO 
# PRATICAMENTE NO MAR.

In [None]:
# Realizar operação de interseção entre geometrias
# mes_geo_fortal = mes_d1_GPS_geodat[mes_d1_GPS_geodat.intersects(fortal_p)]

In [None]:
# mes_geo_fortal.info()

In [None]:
# NOTAMOS QUE DOS 891038 DADOS DE VALIDAÇÕES APENAS 825386 foram localizadas dentro da malha da cidade, seguimos com estas!

In [None]:
# Mostrar os dados simultaneamente após interseção
# fig, ax = plt.subplots(figsize=(10,10))

# mes_geo_fortal.plot(ax=ax)
# fortall.plot(ax=ax, facecolor='None', edgecolor='black')

In [None]:
# Salvando os dados georreferenciados em fortaleza 
# filename3 = 'mes_geo_fortal.json'

# mes_geo_fortal.to_file(filename3, driver='GeoJSON')

### 4.2.5 Mostrando dados no mapa de agrupamento (clusters)

In [None]:
# Instalando biblioteca folium com pip!
!pip install -q folium

In [None]:
# importando biblioteca folium e pluging
import folium 
from folium.plugins import FastMarkerCluster

In [None]:
# Criar mapa de agrupamentos (clusters)
# media_long = mes_geo_fortal['longitude'].mean()
# media_lat = mes_geo_fortal['latitude'].mean()

# mapa = folium.Map(location=[media_lat, media_long])

In [None]:
# Transformando dados em uma feat geojson
# mc = FastMarkerCluster(mes_geo_fortal[['latitude', 'longitude']])

In [None]:
# Poligonal da cidade no mapa
limites = folium.features.GeoJson(fortall, style_function=lambda feature:{'color': 'black', 'weight': 2, 'fillOpacity':0.0})

In [None]:
# Adicionando dados no mapa
# mapa.add_child(mc)
# mapa.add_child(limites)       

In [None]:
# Salvar o nosso mapa em um arquivo html
# mapa.save('validações_georreferenciadas.html')

### 4.2.6 Mostrando dados no mapa de calor (Heatmap)

In [None]:
# Importando a plugin HeatMap
from folium.plugins import HeatMap

In [None]:
# Criando mapa II

# mapa_2 = folium.Map(location=[media_lat, media_long]) 

# Criando heat_map
# heat_map = HeatMap(mes_geo_fortal[['latitude', 'longitude']])     

In [None]:
# Adicionando no map
# mapa_2.add_child(heat_map)
# mapa_2.add_child(limites)

In [None]:
# Salvar o nosso mapa em um arquivo html
# mapa_2.save('validações_georreferenciadas_Heatmap_calor.html')

### 4.2.7 Mostrando dados em terminal especifico localizados 

In [None]:
# Filtrando linhas em terminais
filtro_terminal_especifico = mes_d1_GPS[mes_d1_GPS.nome_linha=='TERM.ANT.BEZERRA']

# 5.0 Testes

# 5.1.0 Motivo do não georreferenciamento da base completa da bilhetagem

In [None]:
# Inspeção na base da bilhetagem e do dicionario para um veiculo especifico
veiculo_12994 = mes[mes.prefixo_carro==12994]

In [None]:
# NOTAMOS QUE ESSE VEICULO ESPECIFICO POSSUI REGISTROS NA BILHETAGEM

In [None]:
### Verificando dados que estão presentes na base da bilhetagem e não na base do dicionario
lista = d01.cod_veiculo.unique()
mes.isin({'prefixo_carro':lista}).prefixo_carro.value_counts(1)

In [None]:
# OU SEJA, DOS 100% DE DADOS NA BILHETAGEM APENAS 86,78% POSSUI UM CODIGO CORRESPONDENTE NA BASE DO DICIONARIO!

In [None]:
# VERIFICAÇÃO DO VEICULO 12994 NA BASE DO DICIONARIO 
d01[d01.cod_veiculo == 12993]

In [3]:
''' CONCLUSÃO, APÓS INSPEÇÃO NOTAMOS QUE NÃO FOI POSSIVEL GEORREFERENCIAR A BASE DA BILHETAGEM COMPLETA POIS PARA ALGUNS VEICULOS NÃO TEM UM CODIGO DE VEICULO CORRESPONDENTE NA BASE DO DICIONARIO E CONSEQUENTIMENTE NÃO VAI SER LOCALIZADO NA BASE DO GPS, ASSIM UMA PERCENTAGEM DOS DADOS DA BILHETAGEM NÃO TIVERAM COORDENADA APROXIMADA DE VALIDAÇÃO GEORREFERENCIADA e o metodo aplicado considerou a remoção de dados com caracters do dicionario deixanod apenas dados numericos! '''

' CONCLUSÃO, APÓS INSPEÇÃO NOTAMOS QUE NÃO FOI POSSIVEL GEORREFERENCIAR A BASE DA BILHETAGEM COMPLETA POIS PARA ALGUNS VEICULOS NÃO TEM UM CODIGO DE VEICULO CORRESPONDENTE NA BASE DO DICIONARIO E CONSEQUENTIMENTE NÃO VAI SER LOCALIZADO NA BASE DO GPS, ASSIM UMA PERCENTAGEM DOS DADOS DA BILHETAGEM NÃO TIVERAM COORDENADA APROXIMADA DE VALIDAÇÃO GEORREFERENCIADA e o metodo aplicado considerou a remoção de dados com caracters do dicionario deixanod apenas dados numericos! '

# ------------------------------------------------------------------------

# 6.0 Validação do georreferenciamento da base completa da bilhetagem

## 6.1.0 Integração base com dados do GTFS
''' Na base do GTFS tem dados relacionados ao trajeto que os veiculos devem fazer as suas correpondentes linhas em operação, e dados relacionados ao horario previsto de passagem dos vieculos em cada parada, assim, busca-se intergrar essas informações em uma unica tabela tambem com informações de identicação das linhas'''

### 6.1.1 Mesclagem de dados de localização das paradas e horarios previstos de passagem

In [None]:
# Importando base com locais previstos de parada
import pandas as pd   
stops_paradas = pd.read_csv('stops.txt', sep= ',')

# Importando base com tempos previstos de parada
stop_times = pd.read_csv('stop_times.txt', sep= ',') 

In [None]:
# Removendo colunas desnecessárias do df com paradas 
stops_paradas.drop(columns= ['stop_code', 'stop_desc', 'zone_id', 'stop_url', 'location_type', 'parent_station', 'stop_timezone', 'wheelchair_boarding'], inplace=True)

In [None]:
stops_paradas

In [None]:
# infromações de cada coluna 
stops_paradas.info()

In [None]:
stop_times

In [None]:
# Removendo colunas desnecessárias do df com paradas 
stop_times.drop(columns= ['stop_headsign', 'pickup_type', 'drop_off_type', 'shape_dist_traveled'], inplace=True)

In [None]:
stop_times

In [None]:
# Filtrando id de stop para verificação 
stop_times[stop_times.stop_id==1013]

In [None]:
# Filtrando id de stop para verificação no df de stop_paradas 
stops_paradas[stops_paradas.stop_id==1013]

In [4]:
''' Foram filtrados outros id e verificado que o df de stop_paradas possuem um unicio id de stop (identifcação da parada), assim o processo de mesclagem deve ser feito acrescetando essas informações no df de tempo programado '''

' Foram filtrados outros id e verificado que o df de stop_paradas possuem um unicio id de stop (identifcação da parada), assim o processo de mesclagem deve ser feito acrescetando essas informações no df de tempo programado '

In [None]:
# Acrescetando dados das paradas pela mesmo stop_id no df de tempos previstos
merge_pardas_time = pd.merge(stop_times, stops_paradas, left_on='stop_id', right_on='stop_id')

In [None]:
# Comprovando que meslcagem feita corretamente 
merge_pardas_time[merge_pardas_time.stop_id==1013]

In [None]:
# Base com tempos e localização de paradas mesclados
merge_pardas_time

In [None]:
merge_pardas_time.info()

In [None]:
# Verificando dados de tempo maiores que 24 (inspessão)
horario_test = merge_pardas_time[merge_pardas_time.arrival_time>='24:00:00' ]

### 6.1.2 Mesclagem de dados com informações de cada linhas e das viagens programadas 

In [None]:
# Importando dados com informações de cada linha 
routes = pd.read_csv('routes.txt', sep=",")

# Importando dados com viagens programadas de cada linha 
trips = pd.read_csv('trips.txt', sep=",")

In [None]:
trips

In [None]:
# Informaçõs da base 
trips.info()

In [None]:
# Removendo informações desnecessárias
trips_tratado = trips.drop(columns=['service_id', 'trip_headsign', 'trip_short_name', 'direction_id', 'block_id', 'wheelchair_accessible'])

In [None]:
trips_tratado

In [None]:
# Removendo informações desnecessárias
routes_tratado = routes.drop(columns=['route_desc', 'route_type', 'route_url', 'route_color', 'route_text_color'])

In [None]:
# Informaçõs da base 
routes_tratado.info()

In [None]:
routes_tratado

In [None]:
# REALIZANDO OPERAÇÃO DE MESCLAGEM DE BASE COM INFORMAÇÕES DE LINHAS E AS SUAS RESPECTIVAS VIAGENS PROGRAMADAS
merge_trips_routes = pd.merge(trips_tratado, routes_tratado, left_on='route_id', right_on='route_id')

In [None]:
# BASE MESCLADA
merge_trips_routes

### 6.1.3 Mesclagem de dados de localização das paradas e horarios com informações das linhas  com viagens
''' Com a base contendo  localização das paradas e horario previsto de passagem  e outra base com infromações de cada linhas e das viagens previstas, é possivel integrar essas informações em uma unica base para aplicação do prcedimento proposto '''

In [None]:
# Releitura da base com stops e times 
merge_pardas_time

In [None]:
# Releitura da base com routes e trips 
merge_trips_routes

In [None]:
# REALIZANDO OPERAÇÃO DE MESCLAGEM DAS BASES
merge_all = pd.merge(merge_pardas_time, merge_trips_routes, left_on='trip_id', right_on='trip_id')

In [None]:
# BASES INTEGRADAS
merge_all

In [None]:
# Renomeando coluna route_id para linha 
merge_all.rename(columns={'route_id': 'linha'}, inplace=True)

In [5]:
''' Por inspeção vimos que possuem horarios de chegada superiores a 24 hs, segue na variavel horario_test'''

' Por inspeção vimos que possuem horarios de chegada superiores a 24 hs, segue na variavel horario_test'

In [None]:
horario_test

In [6]:
''' Foi adotado a substituição de 24 por 00 e 25 01!'''

' Foi adotado a substituição de 24 por 00 e 25 01!'

In [None]:
# transformanmdo dados de horas para string
merge_all['arrival_time'] = merge_all['arrival_time'].astype(str)

In [None]:
# Função para substituição
def substituir_hora_24(hora):
    return hora.replace("24", "00")
def substituir_hora_25(hora):
    return hora.replace("25", "01")

In [None]:
# Aplicand0 função para 24
merge_all['arrival_time'] = merge_all['arrival_time'].apply(substituir_hora_24)

# Aplicand0 função para 25
merge_all['arrival_time'] = merge_all['arrival_time'].apply(substituir_hora_25)

In [None]:
# Transformando coluna de chegada programada do veiculo em tipo data
merge_all['momento'] = pd.to_datetime(merge_all['arrival_time'], format='%H:%M:%S')

In [None]:
# Transformando tamanho da coluna dee linha
merge_all['linha'] = merge_all['linha'].astype('int32')

In [None]:
# Informações 
merge_all.info()

In [None]:
# Verificando dados nulos 
merge_all.isnull().sum()

In [None]:
# Remvendo valores de time nulos par aplciação da função
merge_all.dropna(inplace=True)

In [None]:
# Colocando base em ordem pela hora, minuto e segundo de validação
merge_all.sort_values('arrival_time', inplace=True)

In [None]:
#Versão tratada com 1900-01-01 Sendo um valor de ano mes e dia generico!
merge_all

## 6.2 Associando tempo georreferenciado de validação com tempo programado do GTFS
''' Com dados de localização e horario de passagem dos veiculos programdados ja adicionados em um unico dataframe, pela mesclagem de dados da bilhetagem georregerenciada e esses dados da programação, em uma mesma linha usando o criterio de pegar o tempo mais proximo é possivel verificar se o georeferenciamento por meio do GPS coincide com a mesma região do local de passagem da programação  '''

In [None]:
# Reatribuido bilhetagem georreferenciada pelo GPS em outra variavel 
mes_validação = mes_d1_GPS 

In [None]:
# Deletando exlicitamente base com informações da bilhetagem anterior
del mes_d1_GPS

In [None]:
# Verificando base novamente 
mes_validação

In [7]:
''' A base do mes da bilhetagem possue coluna linha coincidente com a coluna rout_id da base integrada do GTFS'''

' A base do mes da bilhetagem possue coluna linha coincidente com a coluna rout_id da base integrada do GTFS'

In [None]:
# Info da base
mes_validação.info()

In [None]:
# Transformando coluna de momento de hora, minuto e segundo de validação em tipo data
mes_validação['momento_x'] = pd.to_datetime(mes_validação['momento_x'], format='%H:%M:%S')

In [None]:
# Colocando base em ordem pela hora, minuto e segundo de validação
mes_validação.sort_values('momento_x', inplace=True)

In [None]:
# Versão tambem com 1900-01-01 generico FEITO PARA APLICAÇÃO DA FUNÇÃO merge_asof()
mes_validação

In [None]:
# REALIZANDO OPERAÇÃO DE MESCLAGEM PARA VERIFICAÇÃO PELO CRITERIO DE TEMPO 
mes_geo_validação = pd.merge_asof(mes_validação, merge_all, left_on='momento_x', right_on='arrival_time', by='linha', direction ='nearest')

In [None]:
mes_geo_validação

## 6.3 Visualização da bilhetagem localizada e da região de passagem programada

In [None]:
# Criando coluna do tipo point do local estimado de validação
mes_geo_validação['geometry_validação'] = mes_geo_validação.apply(lambda x: Point((float(x.longitude), float(x.latitude))), axis=1)

In [None]:
# Criando geometria do local programado de passsagem 
mes_geo_validação['geometry_parada'] =  mes_geo_validação.apply(lambda x: Point((float(x.stop_lon), float(x.stop_lat))), axis=1)

In [None]:
# Criando um GeoDataFrame 
mes_geometry = gpd.GeoDataFrame(mes_geo_validação, geometry='geometry_validação')

In [None]:
# Criando um GeoDataFrame com versão final 
mes_geometry_validação = gpd.GeoDataFrame(mes_geometry, geometry='geometry_parada')

In [None]:
# Deletando explicitamente a variavel com dadosde bilhetagem não necessários
del mes_geo_validação
del mes_geometry

In [None]:
mes_geometry_validação.info()

In [None]:
# removendo colunas desnecessárias
mes_geometry_validação.drop(columns=['momento_x', 'route_long_name', 'agency_id', 'shape_id', 'stop_sequence'], inplace=True)

In [None]:
# Ultima versão do df 
mes_geometry_validação

In [None]:
# Filtrando usuarios de uma linha especifica 
usuarios = mes_geometry_validação[mes_geometry_validação.linha==75]

### _Pegando usuario aleatorio da linha em questão_ 


In [None]:
# Usuario aleatorio 
usuario_aleatorio = usuarios['id'].sample().iloc[0]

validações_usuario_aleatorio =  mes_geometry_validação[mes_geometry_validação['id'] == usuario_aleatorio]

In [None]:
validações_usuario_aleatorio

In [None]:
# Criando média das coordenadas 
lonGIT = validações_usuario_aleatorio['longitude'].mean()
latITUD = validações_usuario_aleatorio['latitude'].mean()

In [None]:
# Criando mapa 
mapa = folium.Map(location=[latITUD , lonGIT], zoom_start=10)

In [None]:
# Adicionando marcadores circulares ao mapa
marker_cluster = MarkerCluster().add_to(mapa)

def popup_content(id_veiculo, id_veiculo_clicado):
    cor_popup = 'blue' if id_veiculo != id_veiculo_clicado else 'red'
    return f'<div style="color: {cor_popup};">{id_veiculo}</div>'

for index, row in validações_usuario_aleatorio.iterrows():
    folium.CircleMarker(location=[row['latitude'], row['longitude']],
                        radius=10,
                        color='blue',
                        fill=True,
                        fill_color='blue',
                        fill_opacity=0.6,
                        popup=folium.Popup(popup_content(row['id_veiculo'], ''), max_width=300)).add_to(marker_cluster)

In [None]:
# Adicionando marcadores circulares ao mapa
marker_cluster = MarkerCluster().add_to(mapa)

def popup_content2(id_veiculo, id_veiculo_clicado):
    cor_popup = 'blue' if id_veiculo != id_veiculo_clicado else 'red'
    return f'<div style="color: {cor_popup};">{id_veiculo}</div>'

for index, row in validações_usuario_aleatorio.iterrows():
    folium.CircleMarker(location=[row['lat'], row['lon']],
                        radius=10,
                        color='red',
                        fill=True,
                        fill_color='red',
                        fill_opacity=0.6,
                        popup=folium.Popup(popup_content2(row['id_veiculo'], ''), max_width=300)).add_to(marker_cluster)

In [None]:
mapa

# ------------------------------------------------------------------------