In [2]:
import pandas as pd
import geopandas as gpd
from sqlalchemy import create_engine
import json
from datetime import datetime, timedelta
import folium
from shapely.geometry import Point, LineString, Polygon
from functools import partial
import pyproj
from shapely.ops import transform
import numpy as np
from shapely.ops import nearest_points
from pyproj import Geod
import warnings
import traceback
warnings.filterwarnings("ignore", message="invalid value encountered in line_locate_point")
geod = Geod(ellps="WGS84")

In [3]:
def load_df(path):
    with open(path, 'r') as file:
        data = json.load(file)

    df = pd.DataFrame(data)
    if 'datahora' in df.columns:
        df['datahora'] = pd.to_datetime(df['datahora'].astype(float), unit='ms')
    return df

In [4]:
def load_gdf_test(path):
    with open(path, 'r') as file:
        data = json.load(file)

    df = pd.DataFrame(data)
    df['latitude'] = df['latitude'].str.replace(',', '.').astype(float)
    df['longitude'] = df['longitude'].str.replace(',', '.').astype(float)
    geometry_points = [Point(xy) for xy in zip(df['longitude'], df['latitude'])]
    gdf_test = gpd.GeoDataFrame(df, crs='EPSG:4326', geometry=geometry_points)
    gdf_test = gdf_test.drop(['latitude', 'longitude'], axis=1)
    gdf_test = gdf_test.rename(columns={'geometry':'current_position'})

    return gdf_test

In [5]:
def load_gdf_train(paths: tuple):
    gdf_train1 = load_df(paths[0])
    gdf_train2 = load_df(paths[1])

    gdf_train = pd.concat([gdf_train1, gdf_train2])
    gdf_train['latitude'] = gdf_train['latitude'].str.replace(',', '.').astype(float)
    gdf_train['longitude'] = gdf_train['longitude'].str.replace(',', '.').astype(float)
    geometry_points = [Point(xy) for xy in zip(gdf_train['longitude'], gdf_train['latitude'])]
    gdf_train = gpd.GeoDataFrame(gdf_train, crs='EPSG:4326', geometry=geometry_points)
    gdf_train = gdf_train.drop(['latitude', 'longitude', 'datahoraenvio', 'datahoraservidor'], axis=1)


    return gdf_train

In [6]:
database_uri = 'postgresql://postgres:admin@localhost:5432/gps_onibus_rj'
db_engine_alchemy = create_engine(database_uri)

In [7]:
def load_trajects_from_db(engine) -> gpd.GeoDataFrame:
    sql = """
    SELECT linha, conjunto_dia, 
        ST_AsText(ponto_inicial) as ponto_inicial_wkt, 
        ST_AsText(ponto_final) as ponto_final_wkt, 
        ST_AsText(trajeto) as trajeto_ida_wkt,
        ST_AsText(trajeto_volta) as trajeto_volta_wkt 
    FROM rotas 
    """
    df = pd.read_sql(sql, engine)

    df['ponto_inicial'] = gpd.GeoSeries.from_wkt(df['ponto_inicial_wkt'])
    df['ponto_final'] = gpd.GeoSeries.from_wkt(df['ponto_final_wkt'])
    df['trajeto_ida'] = gpd.GeoSeries.from_wkt(df['trajeto_ida_wkt'])
    df['trajeto_volta'] = gpd.GeoSeries.from_wkt(df['trajeto_volta_wkt'])

    df.drop(columns=['ponto_inicial_wkt', 'ponto_final_wkt', 'trajeto_ida_wkt', 'trajeto_volta_wkt'], inplace=True)

    gdf = gpd.GeoDataFrame(df, geometry='trajeto_ida', crs="EPSG:4326")

    gdf.set_geometry('ponto_inicial', inplace=True, crs="EPSG:4326")
    gdf.set_geometry('ponto_final', inplace=True, crs="EPSG:4326")
    gdf.set_geometry('trajeto_volta', inplace=True, crs="EPSG:4326")
    return gdf


In [8]:
def calculate_point_buffer(point:Point, radius_in_meters:int = 100):
    gdf = gpd.GeoDataFrame(geometry=[point], crs="EPSG:3857")
    point_buffer = gdf.geometry.buffer(radius_in_meters)
    return point_buffer[0]

In [9]:
# Function to project a point onto a LineString
def calculate_projection(row, trajectory_ida: LineString, trajectory_volta: LineString, inicio: Polygon, fim: Polygon):
    point: Point = row['current_position']
    # Use project method from Shapely to find projection
    if point.within(inicio):
        return Point(trajectory_ida.coords[0])
    if point.within(fim):
        return Point(trajectory_volta.coords[0])
    if row['direcao'] == 'ida':
        projection = trajectory_ida.interpolate(trajectory_ida.project(point))
    else:
        projection = trajectory_volta.interpolate(trajectory_volta.project(point))
    return projection

In [10]:
def filter_points_out_of_traject(gdf: gpd.GeoDataFrame, trajectory_ida:LineString, trajectory_volta:LineString) -> gpd.GeoDataFrame:
    gdf['buffer'] = gdf['current_position'].buffer(60)
    gdf_ida_meters = gpd.GeoDataFrame( geometry=[trajectory_ida], crs='EPSG:3857')
    gdf_volta_meters = gpd.GeoDataFrame( geometry=[trajectory_volta], crs='EPSG:3857')
    # Check if each buffer intersects with either trajectory_ida or trajectory_volta
    gdf['in_trajectory'] = gdf['buffer'].apply(lambda x: x.intersects(gdf_ida_meters.union_all()) or x.intersects(gdf_volta_meters.union_all()))
    gdf = gdf[gdf['in_trajectory'] == True]
    return gdf.drop(columns=['in_trajectory', 'buffer'])
    

In [11]:
def calculate_trajectory_direction_v2(row, trajectory_ida:LineString, trajectory_volta:LineString, inicio: Polygon, fim: Polygon):
    if pd.isnull(row['last_position']):
        return 'indefinido'
    
    p: Point = row['last_position']
    q: Point = row['current_position']
    if q.within(inicio):
        return 'ponto_inicial'
    if q.within(fim):
        return 'ponto_final'
    distance_in_meters = p.distance(q)
    if distance_in_meters < 10:
        return 'parado'
    
    project_p_in_ida = trajectory_ida.interpolate(trajectory_ida.project(p))
    project_q_in_ida = trajectory_ida.interpolate(trajectory_ida.project(q))
    distance_p_in_ida = trajectory_ida.project(project_p_in_ida)
    distance_q_in_ida = trajectory_ida.project(project_q_in_ida)

    project_p_in_volta = trajectory_volta.interpolate(trajectory_volta.project(p))
    project_q_in_volta = trajectory_volta.interpolate(trajectory_volta.project(q))
    distance_p_in_volta = trajectory_volta.project(project_p_in_volta)
    distance_q_in_volta = trajectory_volta.project(project_q_in_volta)

    distance_to_ida = p.distance(trajectory_ida) + q.distance(trajectory_ida)
    distance_to_volta = p.distance(trajectory_volta) + q.distance(trajectory_volta)
    
    if distance_q_in_ida > distance_p_in_ida and distance_to_ida < distance_to_volta:
        return 'ida'
    if distance_q_in_volta > distance_p_in_volta and distance_to_volta < distance_to_ida:
        return 'volta'

    return 'indefinido'

In [12]:
def change_dataframe_crs(gdf: gpd.GeoDataFrame, columns: list, crs):
    gdf_converted:gpd.GeoDataFrame = gdf.copy()
    for geom in columns:
        gdf_converted.set_geometry(geom, inplace=True)
        gdf_converted[geom] = gdf_converted.to_crs(epsg=crs)[geom]
    return gdf_converted

In [13]:
def calculate_average_speed(gdf: gpd.GeoDataFrame):
    filtered_gdf = gdf[gdf['velocidade'] <= 30]
    
    ida_speeds = filtered_gdf[filtered_gdf['direcao'] == 'ida']['velocidade']
    avg_ida = ida_speeds.mean() if not ida_speeds.empty else 10
    
    volta_speeds = filtered_gdf[filtered_gdf['direcao'] == 'volta']['velocidade']
    avg_volta = volta_speeds.mean() if not volta_speeds.empty else 10
    
    return {'ida': avg_ida, 'volta': avg_volta}

In [14]:
def calculate_average_time_on_stop(gdf: gpd.GeoDataFrame):

    time_spent_ponto_final = []
    time_spent_ponto_inicial = []
    for ordem in gdf['ordem'].unique():
        rows_ordem = gdf[gdf['ordem'] == ordem]
        rows_ordem = rows_ordem.sort_values(by=['datahora'])

        
        last_time = rows_ordem.iloc[0]['datahora']
        last_direction = None
        time_spent = 0

        # Iterate through rows
        for index, row in rows_ordem.iterrows():
            current_direction = row['direcao']
            if current_direction in ['ida', 'volta']:
                # Check if we have a previous "ponto_final" or "ponto_inicial"
                if last_direction == 'ponto_final':
                    time_spent_ponto_final.append(time_spent)
                elif last_direction == 'ponto_inicial':
                    time_spent_ponto_inicial.append(time_spent)
                time_spent = 0
            if current_direction in ['ponto_inicial', 'ponto_final']:
                time_spent += (row['datahora'] - last_time).total_seconds()
            last_time = row['datahora']
            last_direction = row['direcao']
            
    # Calculate average time difference for "ponto_final" and "ponto_inicial"
    average_time_ponto_final = sum(time_spent_ponto_final) / len(time_spent_ponto_final) if time_spent_ponto_final else 0
    average_time_ponto_inicial = sum(time_spent_ponto_inicial) / len(time_spent_ponto_inicial) if time_spent_ponto_inicial else 0
    return {'ponto_final': average_time_ponto_final, 'ponto_inicial': average_time_ponto_inicial}

In [15]:
def process_current_train_data(gdf_train: gpd.GeoDataFrame, df_trajectory: gpd.GeoDataFrame):
    # df_trajectory_3857 = change_dataframe_crs(df_trajectory, ['ponto_inicial', 'ponto_final', 'trajeto_ida', 'trajeto_volta'], 3857)
    df_trajectory_3857 = df_trajectory.copy()

    # gdf_train_3857 = change_dataframe_crs(gdf_train, ['geometry'], 3857)
    gdf_train_3857 = gdf_train.copy()
    
    trajectory_ida = df_trajectory_3857['trajeto_ida'].values[0]
    trajectory_volta = df_trajectory_3857['trajeto_volta'].values[0]
    ponto_inicial = df_trajectory_3857['ponto_inicial'].values[0]
    ponto_final = df_trajectory_3857['ponto_final'].values[0]
    inicio_buffer = calculate_point_buffer(ponto_inicial, 100)
    fim_buffer = calculate_point_buffer(ponto_final, 100)
    
    gdf_train_3857.rename(columns={'geometry':'current_position'}, inplace=True)
    gdf_train_3857 = filter_points_out_of_traject(gdf_train_3857, trajectory_ida, trajectory_volta)
    gdf_train_3857.sort_values(by=['ordem', 'datahora'], inplace=True)
    gdf_train_3857.reset_index()
    gdf_train_3857['last_position'] = gdf_train_3857['current_position'].shift(1)
    gdf_train_3857.loc[gdf_train_3857['ordem'] != gdf_train_3857['ordem'].shift(1), 'last_position'] = pd.NA # Se mudar de ordem, nao usar last_position
    gdf_train_3857.dropna(inplace=True, subset=['last_position'])

    gdf_train_3857['direcao'] = gdf_train_3857.apply(lambda x: calculate_trajectory_direction_v2(x, trajectory_ida, trajectory_volta, inicio_buffer, fim_buffer), axis=1)
    gdf_train_3857['direcao'] = gdf_train_3857['direcao'].replace({'parado': pd.NA, 'indefinido': pd.NA})
    gdf_train_3857['direcao'] = gdf_train_3857['direcao'].ffill()
    gdf_train_3857['direcao'] = gdf_train_3857['direcao'].bfill()
    
    # Create a new column for the projections
    gdf_train_3857['projected_point'] = gdf_train_3857.apply(lambda x: calculate_projection(x, trajectory_ida, trajectory_volta, inicio_buffer, fim_buffer), axis=1)
    gdf_train_3857.set_geometry('projected_point', inplace=True)
    gdf_train_3857.set_crs(epsg=3857, inplace=True)
    gdf_train_3857['last_projected_point'] = gdf_train_3857['projected_point'].shift(1)
    gdf_train_3857['distance_from_previous'] = gdf_train_3857.apply(lambda x: x['projected_point'].distance(x['last_projected_point']), axis=1)
    gdf_train_3857['last_datahora'] = gdf_train_3857['datahora'].shift(1)
    gdf_train_3857['time_from_previous'] = (gdf_train_3857['datahora'] - gdf_train_3857['last_datahora']).dt.total_seconds()
    
    
    # gdf_train_4326 = change_dataframe_crs(gdf_train_3857, ['current_position', 'last_position', 'projected_point'], 4326)
    # df_trajectory_4326 = change_dataframe_crs(df_trajectory_3857, ['ponto_inicial', 'ponto_final', 'trajeto_ida', 'trajeto_volta'], 4326)
    # trajectory_ida = df_trajectory_4326['trajeto_ida'].values[0]
    # trajectory_volta = df_trajectory_4326['trajeto_volta'].values[0]
    # ponto_inicial = df_trajectory_4326['ponto_inicial'].values[0]
    # ponto_final = df_trajectory_4326['ponto_final'].values[0]
    # gdf_train_4326['velocidade'] = gdf_train_4326['distance_from_previous'] / gdf_train_4326['time_from_previous']
    # gdf_train_4326['velocidade'] = pd.to_numeric(gdf_train_4326['velocidade'], errors='coerce')
    # gdf_train_4326.dropna(inplace=True, subset=['velocidade'])
    gdf_train_3857['velocidade'] = gdf_train_3857['distance_from_previous'] / gdf_train_3857['time_from_previous']
    gdf_train_3857['velocidade'] = pd.to_numeric(gdf_train_3857['velocidade'], errors='coerce')
    gdf_train_3857.dropna(inplace=True, subset=['velocidade'])
    
    return gdf_train_3857

In [16]:
def calculate_time_passed(last_position: Point, current_position: Point, average_speed: float, trajectory: LineString, trajectory_end_buffer) -> (int, bool):
    """
    Calculate the next timestamp based on the last position, average speed, 
    trajectory (LineString), and current_position.
    """
    distance_already_traveled = trajectory.project(last_position)
    distance_traveled_current_position = trajectory.project(current_position)
    distance_traveled_last_moment = distance_traveled_current_position - distance_already_traveled
    time_spent = distance_traveled_last_moment/average_speed
    
    if current_position.within(trajectory_end_buffer):
        reached_end_of_route = True
    else:
        reached_end_of_route = False

    return (time_spent, reached_end_of_route)

In [17]:
def predict_timestamp(gdf_train: gpd.GeoDataFrame, df_test: pd.DataFrame, tracjetories_df: gpd.GeoDataFrame):
    
    gdf_train_3857 = gdf_train.copy()

    df_trajectory_3857 = tracjetories_df.copy()
    
    df_test = df_test.sort_values(by=['ordem', 'id'])
    
    trajectory_ida = df_trajectory_3857['trajeto_ida'].values[0]
    trajectory_volta = df_trajectory_3857['trajeto_volta'].values[0]
    route_end_ida_buffer = calculate_point_buffer(Point(trajectory_ida.coords[-1]), 50)
    route_end_volta_buffer = calculate_point_buffer(Point(trajectory_volta.coords[-1]), 50)

    def get_last_known_positions(gdf):
        last_positions = {}
        grouped = gdf.groupby('ordem')
        for name, group in grouped:
            last_position = group.iloc[-1]['current_position']
            last_positions[name] = last_position
        return last_positions

    last_known_positions = get_last_known_positions(gdf_train_3857)
    df_test['timestamp_predicted'] = None
    average_speed = calculate_average_speed(gdf_train_3857)
    average_time_on_stop_in_seconds = calculate_average_time_on_stop(gdf_train_3857)
    
    
    for ordem in df_test['ordem'].unique():
        ordem_rows = df_test[df_test['ordem'] == ordem]
        if ordem not in last_known_positions.keys():
            continue
        last_position = last_known_positions[ordem]
        last_time = gdf_train_3857[gdf_train_3857['ordem'] == ordem].iloc[-1]['datahora']
        last_direcao = gdf_train_3857[gdf_train_3857['ordem'] == ordem].iloc[-1]['direcao']
        
        time_spent_on_end = 0
        
        for idx, row in ordem_rows.iterrows():
            current_position = row['current_position']
            
            if last_direcao == 'ida':
                time_passed, reached_final = calculate_time_passed(last_position, current_position, average_speed['ida'], trajectory_ida, route_end_ida_buffer)
                current_time = last_time + timedelta(seconds=time_passed) 
                if reached_final:
                    last_direcao = 'ponto_final'

            elif last_direcao == 'volta':
                time_passed, reached_final = calculate_time_passed(last_position, current_position, average_speed['volta'], trajectory_volta, route_end_volta_buffer)
                current_time = last_time + timedelta(seconds=time_passed) 
                if reached_final:
                    last_direcao = 'ponto_final'

            elif last_direcao == 'ponto_inicial':
                time_spent_on_end += 30
                current_time = last_time + timedelta(seconds=30)
                if time_spent_on_end > average_time_on_stop_in_seconds['ponto_inicial']:
                    last_direcao = 'ida'
                    time_spent_on_end = 0

            elif last_direcao == 'ponto_final':
                time_spent_on_end += 30
                current_time = last_time + timedelta(seconds=30)
                if time_spent_on_end > average_time_on_stop_in_seconds['ponto_final']:
                    last_direcao = 'volta'
                    time_spent_on_end = 0
                

            
            df_test.at[idx, 'timestamp_predicted'] = current_time
            
            # Update the last position and last time for the next iteration
            last_position = current_position
            last_time = current_time
    
    df_test = df_test.dropna(subset=['timestamp_predicted'])
    df_test['timestamp_predicted'] = pd.to_datetime(df_test['timestamp_predicted'])
    df_test['datahora_predicted'] = (df_test['timestamp_predicted'].astype('int64') / 10**6).astype('int64')
    
    return df_test

In [18]:
def execute_all_predictions(predictions_to_do: list):
    all_predictions = []
    trajectories_gdf = load_trajects_from_db(db_engine_alchemy)
    trajectories_gdf = change_dataframe_crs(trajectories_gdf, ['ponto_inicial', 'ponto_final', 'trajeto_ida', 'trajeto_volta'], 3857)
    
    for datahora, conjunto_dia in predictions_to_do:
        try:
            print(f"[{datetime.now().strftime('%H:%M:%S')}]Começando predição para {datahora}")
            predictions_for_this_datahora = []
            datahora_datetime = datetime.strptime(datahora, '%Y-%m-%d_%H')
            path_folder = f'data/predict/{datahora_datetime.strftime("%Y-%m-%d")}'

            print(f"\t[{datetime.now().strftime('%H:%M:%S')}]Lendo arquivo de teste...")
            path_arquivo_teste = f'{path_folder}/teste-{datahora}.json'
            df_teste = load_gdf_test(path_arquivo_teste)

            print(f"\t[{datetime.now().strftime('%H:%M:%S')}]Lendo arquivos de treino...")
            path_arquivo_treino_1 = f'{path_folder}/{(datahora_datetime - timedelta(hours=2)).strftime("%Y-%m-%d_%H")}.json'
            path_arquivo_treino_2 = f'{path_folder}/{(datahora_datetime - timedelta(hours=1)).strftime("%Y-%m-%d_%H")}.json'
            gdf_treino = load_gdf_train((path_arquivo_treino_1, path_arquivo_treino_2))
            gdf_treino = change_dataframe_crs(gdf_treino, ['geometry'], 3857)

            for linha in df_teste['linha'].unique():
            # for linha in ['355']:
                print(f"\t\t[{datetime.now().strftime('%H:%M:%S')}]Calculando predições para linha {linha}...")
                df_test_slice = df_teste[df_teste['linha'] == linha]
                trajectory_df_slice =  trajectories_gdf[(trajectories_gdf['linha'] == linha) & (trajectories_gdf['conjunto_dia'] == conjunto_dia)]
                gdf_treino_slice = gdf_treino[gdf_treino['ordem'].isin(df_test_slice['ordem'].unique())]

                gdf_treino_processed = process_current_train_data(gdf_treino_slice, trajectory_df_slice)
                predictions = predict_timestamp(gdf_treino_processed, df_test_slice, trajectory_df_slice)
                predictions_for_this_datahora.append(predictions)
            
            print(f"[{datetime.now().strftime('%H:%M:%S')}]Predição para {datahora} finalizada.")

            all_predictions_this_data_hora = pd.concat(predictions_for_this_datahora)
            all_predictions_this_data_hora['datahora_group'] = datahora
            all_predictions.append(all_predictions_this_data_hora)

            predictions_to_insert = all_predictions_this_data_hora.drop(columns=['timestamp_predicted', 'current_position'])
            predictions_to_insert.to_sql('predictions_made', con=db_engine_alchemy, if_exists='append', index=False)
        except Exception as e:
            traceback.print_exc()
            print(f"Erro ao fazer predições para {datahora}: {str(e)}")


    return pd.concat(all_predictions)

In [19]:
# predictions_to_do = [('2024-05-16_12', 'WEEKDAY')]
predictions_to_do = [('2024-05-16_20', 'WEEKDAY'),
                     ('2024-05-17_11', 'WEEKDAY'),
                     ('2024-05-17_19', 'WEEKDAY'),
                     ('2024-05-18_08', 'SABADO'),
                     ('2024-05-18_16', 'SABADO'),
                     ('2024-05-19_07', 'DOMINGO'),
                     ('2024-05-19_15', 'DOMINGO'),
                     ('2024-05-20_13', 'WEEKDAY'),
                     ('2024-05-20_21', 'WEEKDAY')]

predictions = execute_all_predictions(predictions_to_do)

[08:02:26]Começando predição para 2024-05-16_20
	[08:02:26]Lendo arquivo de teste...
	[08:02:28]Lendo arquivos de treino...
		[08:02:53]Calculando predições para linha 457...
		[08:03:03]Calculando predições para linha 918...
		[08:03:10]Calculando predições para linha 550...
		[08:03:24]Calculando predições para linha 422...
		[08:03:42]Calculando predições para linha 108...
		[08:03:46]Calculando predições para linha 905...
		[08:03:51]Calculando predições para linha 554...
		[08:04:02]Calculando predições para linha 2336...
		[08:04:08]Calculando predições para linha 371...
		[08:04:20]Calculando predições para linha 565...
		[08:04:31]Calculando predições para linha 415...
		[08:04:42]Calculando predições para linha 638...
		[08:04:49]Calculando predições para linha 629...
		[08:04:58]Calculando predições para linha 639...
		[08:05:08]Calculando predições para linha 553...
		[08:05:17]Calculando predições para linha 100...
		[08:05:28]Calculando predições para linha 838...
		[08:05