In [4]:
import psycopg2
from config import load_config
import pandas as pd
import folium
import os
from sklearn.cluster import DBSCAN
from geopy.distance import geodesic, distance
import numpy as np
import json
from sqlalchemy import create_engine
import geopandas as gpd
from shapely.geometry import Polygon, Point
from shapely import wkb
import numpy as np
import shapely
from itertools import combinations

In [5]:
def capturar_data_mapa(conn, table_name, linha):
    cur = conn.cursor()
    all_data = [] 
    try:
        fetch_query = f'''
        SELECT latitude::double precision, longitude::double precision
        FROM {table_name}
        WHERE linha='{linha}'
        '''
        cur.execute(fetch_query)
        rows = cur.fetchall()
        all_data.extend(rows)
    except Exception as e:
            print(f"Erro ao executar a query na tabela {table_name}: {e}")
            conn.rollback()
    else:
         conn.commit()
    cur.close()
    return all_data

In [6]:
def limpar_dados_tabela(table_name, conn):
    cur = conn.cursor()
    try:
        # Adicionar a coluna hour, se não existir
        cur.execute(f"ALTER TABLE {table_name} ADD COLUMN IF NOT EXISTS hour INTEGER;")
        
        # Atualizar a coluna hour com base no datahora
        cur.execute(f"UPDATE {table_name} SET hour = EXTRACT(HOUR FROM TO_TIMESTAMP(datahora / 1000));")
        
        # Criar uma nova tabela filtrada
        cur.execute(f"""
            CREATE TABLE {table_name}_filter AS
            SELECT *
            FROM {table_name}
            WHERE hour BETWEEN 8 AND 22;
        """)
        
        # Remover a coluna hour das tabelas
        cur.execute(f"ALTER TABLE {table_name} DROP COLUMN hour;")
        cur.execute(f"ALTER TABLE {table_name}_filter DROP COLUMN hour;")
        
        # Commit das alterações
        conn.commit()
        print(f"Alterações na tabela {table_name} foram comitadas com sucesso.")
    except Exception as e:
        conn.rollback()
        print(f"Erro ao limpar dados da tabela {table_name}: {e}")
    finally:
        cur.close()
        print(f"Cursor fechado para a tabela {table_name}.")

In [7]:
def adicionar_geom(table_name, conn):
    cur = conn.cursor()
    try:
        # Adicionar a coluna geom se não existir
        cur.execute(f"""
            ALTER TABLE {table_name} ADD COLUMN IF NOT EXISTS geom geography(Point, 4326);
        """)
        
        # Atualizar a coluna geom com os valores de longitude e latitude
        cur.execute(f"""
            UPDATE {table_name}
            SET geom = ST_SetSRID(ST_MakePoint(longitude::double precision, latitude::double precision), 4326);
        """)
        
        # Commit das alterações
        conn.commit()
        print(f"Coluna geom criada e preenchida na tabela {table_name}com sucesso.")
    except Exception as e:
        # Rollback em caso de erro
        conn.rollback()
        print(f"Erro ao atualizar a tabela {table_name}_filter: {e}")
    finally:
        # Fechar o cursor
        cur.close()
        print(f"Cursor fechado para a tabela {table_name}_filter.")

In [8]:
def filtra_linhas(table_name, linhas_de_interesse, conn):
    cur = conn.cursor()
    temp_table_name = table_name + '_intermediate'
    linhas_str = ', '.join([f"'{linha}'" for linha in linhas_de_interesse])
    try:
        # Criar tabela intermediária filtrada
        cur.execute(f"""
            CREATE TABLE {temp_table_name} AS
            SELECT *
            FROM {table_name}_filter
            WHERE linha IN ({linhas_str});
        """)
        print(f"Tabela intermediária {temp_table_name} criada com sucesso.")
        conn.commit()
        print(f"Alterações na tabela {temp_table_name} foram comitadas com sucesso.")
    except Exception as e:
        print(f"Erro ao criar a tabela intermediária {temp_table_name}: {e}")
        conn.rollback()
    finally:
        cur.close()
        print(f"Cursor fechado para a tabela {temp_table_name}.")

In [9]:
def sobrescreve_tabelas(table_name, conn):
    cur = conn.cursor()
    temp_table_name = table_name + '_intermediate'
    try:
        # Verificar se a tabela temporária existe
        cur.execute(f"""
            SELECT EXISTS (
                SELECT FROM pg_tables
                WHERE schemaname = 'public' AND tablename = '{temp_table_name}'
            );
        """)
        exists = cur.fetchone()[0]

        if exists:
            # Excluir a tabela original
            cur.execute(f"DROP TABLE IF EXISTS {table_name}_filter;")
            # Renomear a tabela temporária para o nome original
            cur.execute(f"ALTER TABLE {temp_table_name} RENAME TO {table_name}_filter;")
            print(f"Tabela {table_name}_filter sobrescrita com sucesso.")
            conn.commit()
            print(f"Tabela {table_name}_filter comitada com sucesso.")
        else:
            print(f"Tabela temporária {temp_table_name} não encontrada.")
            conn.rollback()
    except Exception as e:
        print(f"Erro ao sobrescrever a tabela {table_name}_filter: {e}")
        conn.rollback()
    finally:
        cur.close()
        print(f"Cursor fechado para a tabela {table_name}_filter.")


In [10]:
def margem_erro(coord1, coord2, radius=100):
    return geodesic(coord1, coord2).meters <= radius

In [11]:
def criar_tabela_destino(conn):
    cur = conn.cursor()
    try:
        cur.execute("""
            CREATE TABLE IF NOT EXISTS combined_table_all AS
            SELECT * FROM dia_0105 WHERE 1=0;
        """)
        conn.commit()
        print("Tabela de destino 'combined_table_all' criada com sucesso.")
    except Exception as e:
        conn.rollback()
        print(f"Erro ao criar a tabela de destino: {e}")
    finally:
        cur.close()

In [12]:
def inserir_dados(table_name, conn):
    cur = conn.cursor()
    try:
        cur.execute(f"INSERT INTO combined_table_all SELECT * FROM {table_name};")
        conn.commit()
        print(f"Dados inseridos na tabela 'combined_table' a partir de '{table_name}' com sucesso.")
    except Exception as e:
        conn.rollback()
        print(f"Erro ao inserir dados da tabela {table_name}: {e}")
    finally:
        cur.close()

In [13]:
def connect(config):
    """ Connect to the PostgreSQL database server """
    try:
        # connecting to the PostgreSQL server
        with psycopg2.connect(**config) as conn:
            print('Connected to the PostgreSQL server.')
            return conn
    except (psycopg2.DatabaseError, Exception) as error:
        print(error)


In [14]:
config = load_config()
conn = connect(config)

Connected to the PostgreSQL server.


In [129]:
linhas_de_interesse = ['483', '864', '639', '3', '309', '774', '629', '371', '397', '100', '838', '315', '624', '388', '918', '665', '328', '497', '878', '355', '606', '457', '550', '803', '917', '638', '2336', '399', '298', '867', '553', '565', '422', '756', '292', '554', '634', '232', '415', '2803', '324', '852', '557', '759', '343', '779', '905', '108']

In [2]:
table_names = ['dia_0105', 'dia_0205', 'dia_0305', 'dia_0405', 'dia_0505', 'dia_0605', 'dia_0705', 'dia_0805', 'dia_0905', 'dia_1005', 'dia_2504', 'dia_2604', 'dia_2704', 'dia_2804', 'dia_2904', 'dia_3004']

In [157]:
"""for table in table_names:
    limpar_dados_tabela(table, conn)"""

'for table in table_names:\n    limpar_dados_tabela(table, conn)'

In [None]:
"""for table in table_names:
    adicionar_geom(table, conn)"""

In [None]:
"""for table in table_names:
    filtra_linhas(table, linhas_de_interesse, conn)
    sobrescreve_tabelas(table, conn)"""

In [136]:
"""for linha in linhas_de_interesse:
    data = capturar_data_mapa(conn, 'dia_2704_filter', linha)
    if data:
        avg_latitude = sum([d[0] for d in data]) / len(data)
        avg_longitude = sum([d[1] for d in data]) / len(data)
        m = folium.Map(location=[avg_latitude, avg_longitude], zoom_start=12)
        # Adicione os pontos ao mapa
        for lat, lon in data:
            folium.CircleMarker(location=[lat, lon], radius=1, color='blue').add_to(m)
        output_path = os.path.join(f'trajetos/output_map_{linha}.html')
        m.save(output_path)
        print(f"Mapa salvo em {output_path}")"""

'for linha in linhas_de_interesse:\n    data = capturar_data_mapa(conn, \'dia_2704_filter\', linha)\n    if data:\n        avg_latitude = sum([d[0] for d in data]) / len(data)\n        avg_longitude = sum([d[1] for d in data]) / len(data)\n        m = folium.Map(location=[avg_latitude, avg_longitude], zoom_start=12)\n        # Adicione os pontos ao mapa\n        for lat, lon in data:\n            folium.CircleMarker(location=[lat, lon], radius=1, color=\'blue\').add_to(m)\n        output_path = os.path.join(f\'trajetos/output_map_{linha}.html\')\n        m.save(output_path)\n        print(f"Mapa salvo em {output_path}")'

In [None]:
"""criar_tabela_destino(conn)
for table in table_names:
    inserir_dados(table, conn)"""

In [30]:
query = """
WITH ordered_points AS (
    SELECT
        ordem,
        linha,
        geom,
        TO_TIMESTAMP(datahora / 1000) AS datahora_ts,
        LAG(TO_TIMESTAMP(datahora / 1000)) OVER (PARTITION BY ordem ORDER BY TO_TIMESTAMP(datahora / 1000)) AS prev_datahora_ts,
        LAG(geom) OVER (PARTITION BY ordem ORDER BY TO_TIMESTAMP(datahora / 1000)) AS prev_geom,
        ROW_NUMBER() OVER (PARTITION BY ordem ORDER BY TO_TIMESTAMP(datahora / 1000)) AS rn
    FROM combined_table
),
same_position_periods AS (
    SELECT
        ordem,
        linha,
        geom,
        datahora_ts,
        prev_datahora_ts,
        EXTRACT(EPOCH FROM (datahora_ts - prev_datahora_ts)) AS duration,
        CASE 
            WHEN ST_DWithin(geom, prev_geom, 15) THEN 1
            ELSE 0
        END AS is_stationary,
        ROW_NUMBER() OVER (PARTITION BY ordem ORDER BY datahora_ts) - 
        ROW_NUMBER() OVER (PARTITION BY ordem, CASE WHEN ST_DWithin(geom, prev_geom, 15) THEN 1 ELSE 0 END ORDER BY datahora_ts) AS grp
    FROM ordered_points
),
stationary_groups AS (
    SELECT
        ordem,
        linha,
        geom,
        datahora_ts,
        prev_datahora_ts,
        duration,
        is_stationary,
        grp
    FROM same_position_periods
    WHERE is_stationary = 1
)
SELECT
    ordem,
    linha,
    MIN(prev_datahora_ts) AS start_time,
    MAX(datahora_ts) AS end_time,
    SUM(duration) AS total_duration,
    ST_X(geom::geometry) AS longitude,
    ST_Y(geom::geometry) AS latitude,
    grp
FROM stationary_groups
GROUP BY ordem, linha, grp, geom
HAVING SUM(duration) >= 600; -- 10 minutes in seconds
"""

In [31]:
df = pd.read_sql(query, conn)

  df = pd.read_sql(query, conn)


In [32]:
df_unique = df.drop_duplicates(subset=['grp'])

In [35]:
for linha in linhas_de_interesse:
    pontos_de_parada[linha]=[]
    for _, row in df_unique.loc[df_unique['linha'] == linha].iterrows():
        lat, lon = row['latitude'], row['longitude']
        ponto = (lat, lon)
        if margem_erro(ponto, pontos_garagem[linha]):
             continue
        encontrado = False
        if row['total_duration'] > 2400:
            continue
        for pontos in pontos_de_parada[linha]:
            if margem_erro(pontos[0], ponto):
                encontrado = True
                pontos[1] += 1
                break
        if not encontrado:
            pontos_de_parada[linha].append([ponto, 1])
for linha in pontos_de_parada.keys():
        pontos_de_parada[linha] = sorted(pontos_de_parada[linha], key=lambda x: x[1], reverse=True)

397
388
759
138 
tiveram resultados inconclusivos, adicionarei manualmente os pontos finais.

In [38]:
for linha in linhas_de_interesse:
    pontos_de_parada_linha = pontos_de_parada[linha]
    if len(pontos_de_parada[linha]) > 0:
        if (pontos_de_parada_linha[1][1] - pontos_de_parada_linha[2][1]) < 0.2*pontos_de_parada_linha[2][1]:
            d2 = geodesic(pontos_de_parada_linha[0][0], pontos_de_parada_linha[1][0]).meters
            d3 = geodesic(pontos_de_parada_linha[0][0], pontos_de_parada_linha[2][0]).meters
            if d2 > d3:
                pontos_finais[linha] = [pontos_de_parada_linha[0][0], pontos_de_parada_linha[1][0]]
            else:
                pontos_finais[linha] = [pontos_de_parada_linha[0][0], pontos_de_parada_linha[2][0]]
        else:
            pontos_finais[linha] = [pontos_de_parada_linha[0][0], pontos_de_parada_linha[1][0]]

In [40]:
pontos_finais['397'] = [(-22.90202, -43.55532), (-22.90121, -43.17778)]
pontos_finais['388'] = [(-22.93554, -43.65626), (-22.90121, -43.17778)]
pontos_finais['759'] = [(-22.93554, -43.65626), (-22.83152, -43.34393)]

In [None]:
criar_tabela_destino(conn)
for table in table_names:
    inserir_dados(table, conn)

In [140]:
query_garagem = """
WITH ordered_points AS (
    SELECT
        ordem,
        linha,
        geom,
        TO_TIMESTAMP(datahora / 1000) AS datahora_ts,
        LAG(TO_TIMESTAMP(datahora / 1000)) OVER (PARTITION BY ordem ORDER BY TO_TIMESTAMP(datahora / 1000)) AS prev_datahora_ts,
        LAG(geom) OVER (PARTITION BY ordem ORDER BY TO_TIMESTAMP(datahora / 1000)) AS prev_geom,
        ROW_NUMBER() OVER (PARTITION BY ordem ORDER BY TO_TIMESTAMP(datahora / 1000)) AS rn
    FROM combined_table_all
),
same_position_periods AS (
    SELECT
        ordem,
        linha,
        geom,
        datahora_ts,
        prev_datahora_ts,
        EXTRACT(EPOCH FROM (datahora_ts - prev_datahora_ts)) AS duration,
        CASE 
            WHEN ST_DWithin(geom, prev_geom, 15) THEN 1
            ELSE 0
        END AS is_stationary,
        ROW_NUMBER() OVER (PARTITION BY ordem ORDER BY datahora_ts) - 
        ROW_NUMBER() OVER (PARTITION BY ordem, CASE WHEN ST_DWithin(geom, prev_geom, 15) THEN 1 ELSE 0 END ORDER BY datahora_ts) AS grp
    FROM ordered_points
),
stationary_groups AS (
    SELECT
        ordem,
        linha,
        geom,
        datahora_ts,
        prev_datahora_ts,
        duration,
        is_stationary,
        grp
    FROM same_position_periods
    WHERE is_stationary = 1
)
SELECT
    ordem,
    linha,
    MIN(prev_datahora_ts) AS start_time,
    MAX(datahora_ts) AS end_time,
    SUM(duration) AS total_duration,
    ST_X(geom::geometry) AS longitude,
    ST_Y(geom::geometry) AS latitude,
    grp
FROM stationary_groups
WHERE EXTRACT(HOUR FROM datahora_ts) >= 22 OR EXTRACT(HOUR FROM datahora_ts) < 5
GROUP BY ordem, linha, grp, geom
HAVING SUM(duration) >= 10800; -- 10 minutes in seconds
"""

In [141]:
df_garagem = pd.read_sql(query_garagem, conn)

  df_garagem = pd.read_sql(query_garagem, conn)


In [142]:
df_garagem = df_garagem.drop_duplicates(subset=['grp'])

In [12]:
pontos_de_parada = {}

In [144]:
for linha in linhas_de_interesse:
    pontos_de_parada[linha]=[]
    for _, row in df_garagem.loc[df_garagem['linha'] == linha].iterrows():
        lat, lon = row['latitude'], row['longitude']
        ponto = (lat, lon)
        encontrado = False
        for pontos in pontos_de_parada[linha]:
            if margem_erro(pontos[0], ponto, radius=300):
                encontrado = True
                pontos[1] += 1
                break
        if not encontrado:
            pontos_de_parada[linha].append([ponto, 1])
for linha in pontos_de_parada.keys():
        pontos_de_parada[linha] = sorted(pontos_de_parada[linha], key=lambda x: x[1], reverse=True)

In [None]:
for linha in pontos_de_parada.keys():
    print(f"{linha} {pontos_de_parada[linha]}")

759, 388 não apresentaram resultados conclusivos

In [146]:
pontos_garagem = {}

In [147]:
for linha in linhas_de_interesse:
    pontos_de_garagem_linha = pontos_de_parada[linha]
    if len(pontos_de_parada[linha]) > 0:
        pontos_garagem[linha] = pontos_de_garagem_linha[0][0]

In [None]:
for linha in pontos_garagem.keys():
    print(f"{linha} {pontos_garagem[linha]}")

In [None]:
df_garagem = pd.read_sql(query_garagem, conn)
df_garagem = df_garagem.drop_duplicates(subset=['grp'])

In [28]:
pontos_de_parada = {}

In [154]:
for linha in linhas_de_interesse:
    pontos_de_parada[linha]=[]
    for _, row in df_garagem.loc[df_garagem['linha'] == linha].iterrows():
        lat, lon = row['latitude'], row['longitude']
        ponto = (lat, lon)
        encontrado = False
        for pontos in pontos_de_parada[linha]:
            if margem_erro(pontos[0], ponto, radius=300):
                encontrado = True
                pontos[1] += 1
                break
        if not encontrado:
            pontos_de_parada[linha].append([ponto, 1])
for linha in pontos_de_parada.keys():
        pontos_de_parada[linha] = sorted(pontos_de_parada[linha], key=lambda x: x[1], reverse=True)

In [None]:
for linha in pontos_de_parada.keys():
    print(f"{linha} {pontos_de_parada[linha]}")

In [157]:
pontos_garagem['759'] = (-22.93569, -43.65591)
pontos_garagem['388'] = (-22.93543, -43.65633)

In [41]:
arquivo = 'dicionarios.txt'

In [42]:
with open(arquivo, 'w') as f:
    json.dump({'dicionario1': pontos_finais, 'dicionario2': pontos_garagem}, f, indent=4)

In [4]:
with open(arquivo, 'r') as f:
    dados = json.load(f)

NameError: name 'arquivo' is not defined

In [34]:
pontos_finais = dados['dicionario1']
pontos_garagem = dados['dicionario2']

## Criando tabelas para os dias de semana e fins de semana

In [58]:
dias_da_semana = ['dia_2504', 'dia_2604', 'dia_2904', 'dia_3004', 'dia_0105', 'dia_0205', 'dia_0305', 'dia_0605', 'dia_0705', 'dia_0805', 'dia_0905', 'dia_1005']

In [59]:
fins_de_semana = ['dia_2704', 'dia_2804', 'dia_0405', 'dia_0505']

In [None]:
def obter_dia_da_semana(nome_tabela):
    data_str = nome_tabela.split('_')[1]
    data = pd.to_datetime(f"2024-{data_str[2:]}-{data_str[:2]}")
    return data.day_name()
engine = create_engine('postgresql+psycopg2://savio:190876@localhost:5432/t3')
for tabela in dias_da_semana:
    print(tabela)
    df = pd.read_sql(f"SELECT * FROM {tabela}", conn)
    df = df[df['linha'].isin(linhas_de_interesse)]
    df['dia_da_semana'] = obter_dia_da_semana(tabela)
    df.to_sql('dias_uteis', engine, if_exists='append', index=False)

In [None]:
for tabela in fins_de_semana:
    df = pd.read_sql(f"SELECT * FROM {tabela}", conn)
    df = df[df['linha'].isin(linhas_de_interesse)]
    df['dia_da_semana'] = obter_dia_da_semana(tabela)
    df.to_sql('fds', engine, if_exists='append', index=False)

Adicionando uma tabela composta apenas pela madrugada dos fins de semana, onde a chance dos ônibus estarem na garagem é altíssima 

In [65]:
adicionar_geom('fds', conn)

Coluna geom criada e preenchida na tabela fdscom sucesso.
Cursor fechado para a tabela fds_filter.


## Garagens e pontos finais

In [13]:
criar_tabela_destino(conn)

Tabela de destino 'combined_table_all' criada com sucesso.


In [14]:
engine = create_engine('postgresql+psycopg2://savio:190876@localhost:5432/t3')
for tabela in table_names:
    df = pd.read_sql(f"SELECT * FROM {tabela}", conn)
    df.to_sql('combined_table_all', engine, if_exists='append', index=False)

  df = pd.read_sql(f"SELECT * FROM {tabela}", conn)


In [65]:
query_garagem_madrugada = """
WITH ordered_points AS (
    SELECT
        ordem,
        linha,
        geom,
        TO_TIMESTAMP(datahora / 1000) AS datahora_ts,
        LAG(TO_TIMESTAMP(datahora / 1000)) OVER (PARTITION BY ordem ORDER BY TO_TIMESTAMP(datahora / 1000)) AS prev_datahora_ts,
        LAG(geom) OVER (PARTITION BY ordem ORDER BY TO_TIMESTAMP(datahora / 1000)) AS prev_geom,
        ROW_NUMBER() OVER (PARTITION BY ordem ORDER BY TO_TIMESTAMP(datahora / 1000)) AS rn
    FROM combined_table_all
),
same_position_periods AS (
    SELECT
        ordem,
        linha,
        geom,
        datahora_ts,
        prev_datahora_ts,
        EXTRACT(EPOCH FROM (datahora_ts - prev_datahora_ts)) AS duration,
        CASE 
            WHEN ST_DWithin(geom, prev_geom, 15) THEN 1
            ELSE 0
        END AS is_stationary,
        ROW_NUMBER() OVER (PARTITION BY ordem ORDER BY datahora_ts) - 
        ROW_NUMBER() OVER (PARTITION BY ordem, CASE WHEN ST_DWithin(geom, prev_geom, 15) THEN 1 ELSE 0 END ORDER BY datahora_ts) AS grp
    FROM ordered_points
),
stationary_groups AS (
    SELECT
        ordem,
        linha,
        geom,
        datahora_ts,
        prev_datahora_ts,
        duration,
        is_stationary,
        grp
    FROM same_position_periods
    WHERE is_stationary = 1
)
SELECT
    ordem,
    linha,
    MIN(prev_datahora_ts) AS start_time,
    MAX(datahora_ts) AS end_time,
    SUM(duration) AS total_duration,
    ST_X(geom::geometry) AS longitude,
    ST_Y(geom::geometry) AS latitude,
    grp
FROM stationary_groups
WHERE EXTRACT(HOUR FROM datahora_ts) >= 22 OR EXTRACT(HOUR FROM datahora_ts) < 5
GROUP BY ordem, linha, grp, geom
HAVING SUM(duration) >= 10800; -- 3 horas
"""

In [66]:
df_garagem = pd.read_sql(query_garagem_madrugada, conn)

  df_garagem = pd.read_sql(query_garagem_madrugada, conn)


In [67]:
df_garagem = df_garagem.drop_duplicates(subset=['grp'])

In [130]:
pontos_de_parada = {}

In [131]:
for linha in linhas_de_interesse:
    pontos_de_parada[linha]=[]
    for _, row in df_garagem.loc[df_garagem['linha'] == linha].iterrows():
        lat, lon = row['latitude'], row['longitude']
        ponto = (lat, lon)
        encontrado = False
        for pontos in pontos_de_parada[linha]:
            if margem_erro(pontos[0], ponto, radius=300):
                encontrado = True
                pontos[1] += 1
                break
        if not encontrado:
            pontos_de_parada[linha].append([ponto, 1])
for linha in pontos_de_parada.keys():
        pontos_de_parada[linha] = sorted(pontos_de_parada[linha], key=lambda x: x[1], reverse=True)

In [132]:
for linha in pontos_de_parada.keys():
    print(f"{linha} {pontos_de_parada[linha]}")

483 [[(-22.80418, -43.31023), 104]]
864 [[(-22.89368, -43.53259), 110], [(-22.84149, -43.25392), 2]]
639 [[(-22.81763, -43.30176), 257]]
3 [[(-22.88342, -43.49536), 230], [(-22.93548, -43.6565), 1]]
309 [[(-22.87509, -43.24074), 334]]
774 [[(-22.81756, -43.3016), 103], [(-22.84353, -43.24857), 1]]
629 [[(-22.81775, -43.30167), 211], [(-22.75517, -43.2938), 1]]
371 [[(-22.87744, -43.36824), 24]]
397 []
100 [[(-22.88907, -43.29319), 231], [(-22.8745, -43.24212), 68], [(-22.84134, -43.25389), 4]]
838 [[(-22.89399, -43.5327), 46]]
315 [[(-22.87549, -43.24131), 111], [(-22.95217, -43.34944), 23], [(-22.81696, -43.30177), 8], [(-22.86062, -43.35616), 2]]
624 [[(-22.87622, -43.36805), 21]]
388 [[(-22.90154, -43.18066), 1], [(-22.93159, -43.6558), 1]]
918 [[(-22.89523, -43.53366), 52], [(-22.84269, -43.25409), 1]]
665 [[(-22.85928, -43.37079), 74], [(-22.8164, -43.39433), 46], [(-22.79242, -43.29449), 41], [(-22.81425, -43.38256), 8], [(-22.80611, -43.3633), 1], [(-22.84344, -43.24859), 1]]
32

Como veremos a frente, uma única garagem às vezes não é suficiente. Verifiquei manualmente onde são esses pontos e percebi onde eles coincidem com os pontos finais.

In [133]:
pontos_de_parada['3'].pop()
pontos_de_parada['665'].pop(4)
pontos_de_parada['803'].pop()
pontos_de_parada['2336'].pop()
pontos_de_parada['2336'].pop()

[(-22.90241, -43.56149), 1]

In [134]:
for linha in pontos_de_parada.keys():
    print(f"{linha} {pontos_de_parada[linha]}")

483 [[(-22.80418, -43.31023), 104]]
864 [[(-22.89368, -43.53259), 110], [(-22.84149, -43.25392), 2]]
639 [[(-22.81763, -43.30176), 257]]
3 [[(-22.88342, -43.49536), 230]]
309 [[(-22.87509, -43.24074), 334]]
774 [[(-22.81756, -43.3016), 103], [(-22.84353, -43.24857), 1]]
629 [[(-22.81775, -43.30167), 211], [(-22.75517, -43.2938), 1]]
371 [[(-22.87744, -43.36824), 24]]
397 []
100 [[(-22.88907, -43.29319), 231], [(-22.8745, -43.24212), 68], [(-22.84134, -43.25389), 4]]
838 [[(-22.89399, -43.5327), 46]]
315 [[(-22.87549, -43.24131), 111], [(-22.95217, -43.34944), 23], [(-22.81696, -43.30177), 8], [(-22.86062, -43.35616), 2]]
624 [[(-22.87622, -43.36805), 21]]
388 [[(-22.90154, -43.18066), 1], [(-22.93159, -43.6558), 1]]
918 [[(-22.89523, -43.53366), 52], [(-22.84269, -43.25409), 1]]
665 [[(-22.85928, -43.37079), 74], [(-22.8164, -43.39433), 46], [(-22.79242, -43.29449), 41], [(-22.81425, -43.38256), 8], [(-22.84344, -43.24859), 1]]
328 [[(-22.81515, -43.18753), 112]]
497 [[(-22.80449, -43.

186012003 e 138 não existem // 
759, 232, 606, 388, 397 não obtiveram resultados satisfatórios

In [135]:
pontos_garagem = {}

In [136]:
for linha in linhas_de_interesse:
    pontos_de_garagem_linha = pontos_de_parada[linha]
    if len(pontos_de_parada[linha]) > 0:
        pontos_garagem[linha] = []
        for k in range(len(pontos_de_parada[linha])):
            pontos_garagem[linha].append(pontos_de_garagem_linha[k][0])

In [137]:
pontos_garagem['759'] = [(-22.93569, -43.65591)]
pontos_garagem['388'] = [(-22.93543, -43.65633)]
pontos_garagem['397'] = [(-22.88320, -43.49516)]
pontos_garagem['606'] = [(-22.90222, -43.29847)]

In [138]:
for key in pontos_garagem.keys():
    print(f'{key} {pontos_garagem[key]}')

483 [(-22.80418, -43.31023)]
864 [(-22.89368, -43.53259), (-22.84149, -43.25392)]
639 [(-22.81763, -43.30176)]
3 [(-22.88342, -43.49536)]
309 [(-22.87509, -43.24074)]
774 [(-22.81756, -43.3016), (-22.84353, -43.24857)]
629 [(-22.81775, -43.30167), (-22.75517, -43.2938)]
371 [(-22.87744, -43.36824)]
100 [(-22.88907, -43.29319), (-22.8745, -43.24212), (-22.84134, -43.25389)]
838 [(-22.89399, -43.5327)]
315 [(-22.87549, -43.24131), (-22.95217, -43.34944), (-22.81696, -43.30177), (-22.86062, -43.35616)]
624 [(-22.87622, -43.36805)]
388 [(-22.93543, -43.65633)]
918 [(-22.89523, -43.53366), (-22.84269, -43.25409)]
665 [(-22.85928, -43.37079), (-22.8164, -43.39433), (-22.79242, -43.29449), (-22.81425, -43.38256), (-22.84344, -43.24859)]
328 [(-22.81515, -43.18753)]
497 [(-22.80449, -43.30967)]
878 [(-22.88064, -43.35695), (-22.87594, -43.41995)]
355 [(-22.81683, -43.3015), (-22.86056, -43.35523), (-22.84366, -43.24862)]
606 [(-22.90222, -43.29847)]
457 [(-22.88888, -43.29289), (-22.86871, -43

In [139]:
arquivo_garagens = 'pontos_garagem.txt'

In [140]:
with open(arquivo_garagens, 'w') as f:
    json.dump({'dicionario1': pontos_garagem}, f, indent=4)

In [90]:
with open(arquivo_garagens, 'r') as f:
    dados_garagem = json.load(f)

In [91]:
pontos_garagem = dados_garagem['dicionario1']

## Criando Grids

In [98]:
teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '315'", conn)

  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '315'", conn)


In [99]:
teste.columns

Index(['id', 'ordem', 'latitude', 'longitude', 'datahora', 'velocidade',
       'linha', 'datahoraenvio', 'datahoraservidor', 'geom', 'dia_da_semana'],
      dtype='object')

In [100]:
teste = teste[teste['dia_da_semana'] == 'Wednesday']

In [101]:
teste['geometry'] = teste['geom'].apply(wkb.loads)

In [102]:
gdf = gpd.GeoDataFrame(teste, geometry='geometry')

In [103]:
gdf.set_crs(epsg=4326, inplace=True)

Unnamed: 0,id,ordem,latitude,longitude,datahora,velocidade,linha,datahoraenvio,datahoraservidor,geom,dia_da_semana,geometry
264027,5035909,C41022,-22.90484,-43.19288,1714561375000,0,315,1714561388000,1714561403000,0101000020E6100000B806B64AB09845C0D61C2098A3E7...,Wednesday,POINT (-43.19288 -22.90484)
264028,5035915,C41350,-22.88524,-43.22878,1714561380000,1,315,1714561388000,1714561403000,0101000020E61000004CFDBCA9489D45C06D1CB1169FE2...,Wednesday,POINT (-43.22878 -22.88524)
264029,5035926,C41325,-23.02192,-43.48252,1714561382000,0,315,1714561388000,1714561403000,0101000020E61000003DD52137C3BD45C0DA20938C9C05...,Wednesday,POINT (-43.48252 -23.02192)
264030,5035927,C41388,-23.02156,-43.48264,1714561383000,0,315,1714561388000,1714561403000,0101000020E6100000E8DEC325C7BD45C0DAE6C6F48405...,Wednesday,POINT (-43.48264 -23.02156)
264031,5036721,A41322,-23.03103,-43.47211,1714561389000,0,315,1714561398000,1714561403000,0101000020E6100000AA0EB9196EBC45C0E4310395F107...,Wednesday,POINT (-43.47211 -23.03103)
...,...,...,...,...,...,...,...,...,...,...,...,...
636952,10010814,C41236,-22.87132,-43.26268,1715175706000,51,315,1715175712000,1715175719000,0101000020E61000001AA88C7F9FA145C0C959D8D30EDF...,Wednesday,POINT (-43.26268 -22.87132)
636953,10010857,C41348,-23.02199,-43.48251,1715175712000,0,315,1715175713000,1715175749000,0101000020E610000019FF3EE3C2BD45C0CBD6FA22A105...,Wednesday,POINT (-43.48251 -23.02199)
636968,10010863,C41395,-23.00874,-43.44326,1715175708000,0,315,1715175713000,1715175719000,0101000020E6100000FFCF61BEBCB845C0C32ADEC83C02...,Wednesday,POINT (-43.44326 -23.00874)
636969,10010871,C41081,-22.90745,-43.20999,1715175708000,33,315,1715175713000,1715175719000,0101000020E6100000573ECBF3E09A45C055C1A8A44EE8...,Wednesday,POINT (-43.20999 -22.90745)


In [104]:
def criar_grid(min_lat, min_lon, max_lat, max_lon, cell_size=50, crs="EPSG:4326"):
# Aproximação para conversão de metros para graus
    lat_mid = (min_lat + max_lat) / 2
    deg_per_meter_lat = 1 / 111320  # Aproximadamente 111.32 km por grau de latitude
    deg_per_meter_lon = 1 / (111320 * np.cos(np.deg2rad(lat_mid)))  # Varia com a latitude

    cell_size_deg_lat = cell_size * deg_per_meter_lat
    cell_size_deg_lon = cell_size * deg_per_meter_lon

    # criar as células em um loop
    grid_cells = []
    for x0 in np.arange(min_lon, max_lon, cell_size_deg_lon):
        for y0 in np.arange(min_lat, max_lat, cell_size_deg_lat):
            x1 = x0 + cell_size_deg_lon
            y1 = y0 + cell_size_deg_lat
            poly = shapely.geometry.box(x0, y0, x1, y1)
            grid_cells.append(poly)

    cells = gpd.GeoDataFrame(grid_cells, columns=['geometry'], crs=crs)
    
    return cells

In [105]:
min_lat, min_lon = -23.082, -43.795
max_lat, max_lon = -22.735, -43.099
cell_size = 50

In [106]:
grid_rio = criar_grid(min_lat, min_lon, max_lat, max_lon, cell_size)

In [107]:
grid_rio.shape

(1103844, 1)

In [108]:
def join_com_grid(gdf, grid):
    # Realizar o join espacial
    gdf_joined = grid.sjoin(gdf, how='inner').drop_duplicates('geometry')
    
    # Manter apenas as colunas grid_id e geometry
    gdf_joined = gdf_joined[['geometry']]
    
    # Redefinir o índice para garantir que seja único
    gdf_joined.reset_index(drop=True, inplace=True)
    
    return gdf_joined

In [109]:
grid_315 = join_com_grid(gdf, grid_rio)
grid_315 = grid_315.reset_index(names='grid_id')

In [110]:
grid_315.head(10)

Unnamed: 0,grid_id,geometry
0,0,"POLYGON ((-43.48293 -23.02136, -43.48293 -23.0..."
1,1,"POLYGON ((-43.48293 -23.02091, -43.48293 -23.0..."
2,2,"POLYGON ((-43.48293 -23.02047, -43.48293 -23.0..."
3,3,"POLYGON ((-43.48293 -23.02002, -43.48293 -23.0..."
4,4,"POLYGON ((-43.48293 -23.01957, -43.48293 -23.0..."
5,5,"POLYGON ((-43.48293 -23.01912, -43.48293 -23.0..."
6,6,"POLYGON ((-43.48244 -23.02316, -43.48244 -23.0..."
7,7,"POLYGON ((-43.48244 -23.02271, -43.48244 -23.0..."
8,8,"POLYGON ((-43.48244 -23.02226, -43.48244 -23.0..."
9,9,"POLYGON ((-43.48244 -23.02181, -43.48244 -23.0..."


In [111]:
def calcular_estatisticas(pontos_gdf, grid_gdf):
    pontos_na_grid = gpd.sjoin(pontos_gdf, grid_gdf, how='inner', op='within')
    contagem_pontos = pontos_na_grid.groupby('grid_id').size().reset_index(name='contagem_pontos')
    centroide_pontos = pontos_na_grid.groupby('grid_id').apply(lambda x: x.geometry.unary_union.centroid).reset_index(name='centroide_pontos')
    pontos_na_grid['hora'] = pd.to_datetime(pontos_na_grid['datahoraservidor'], unit='ms').dt.hour
    media_hora_pontos = pontos_na_grid.groupby('grid_id')['hora'].mean().reset_index(name='media_hora')
    pontos_na_grid['velocidade'] = pontos_na_grid['velocidade'].astype(float)  # Certificar-se de que a velocidade está no tipo float
    media_velocidade_pontos = pontos_na_grid.groupby('grid_id')['velocidade'].mean().reset_index(name='media_velocidade')
    estatisticas_grid = grid_gdf.merge(contagem_pontos, on='grid_id', how='left') \
                                .merge(media_hora_pontos, on='grid_id', how='left') \
                                .merge(centroide_pontos, on='grid_id', how='left') \
                                .merge(media_velocidade_pontos, on='grid_id', how='left')
    return estatisticas_grid

In [112]:
estatisticas_grid = calcular_estatisticas(gdf, grid_315)
estatisticas_grid.shape

  exec(code_obj, self.user_global_ns, self.user_ns)


(3256, 6)

In [113]:
def filtrar_grades(estatisticas_grid, pontos_garagem, radius=400):
    # Converter radius para graus (aproximação)
    deg_per_meter = 1 / 111320
    radius_deg = radius * deg_per_meter

    # Criar um GeoDataFrame para os pontos da garagem
    garagem_gdf = gpd.GeoDataFrame(geometry=[Point(lon, lat) for lat, lon in pontos_garagem], crs="EPSG:4326")

    # Buffer ao redor dos pontos da garagem
    garagem_buffer = garagem_gdf.buffer(radius_deg).unary_union

    # Filtrar grades que estão dentro do buffer da garagem
    grids_near_garagem = estatisticas_grid[estatisticas_grid.apply(lambda row: garagem_buffer.contains(row['geometry']), axis=1)]

    # Filtrar grades com contagem de pontos abaixo da mediana
    mediana_contagem = estatisticas_grid['contagem_pontos'].median()
    grids_below_median = estatisticas_grid[estatisticas_grid['contagem_pontos'] < mediana_contagem]

    # Excluir essas grades do DataFrame original
    grids_to_exclude = pd.concat([grids_near_garagem, grids_below_median]).drop_duplicates()
    estatisticas_filtradas = estatisticas_grid[~estatisticas_grid['grid_id'].isin(grids_to_exclude['grid_id'])]

    return estatisticas_filtradas

In [114]:
estatisticas_filtradas = filtrar_grades(estatisticas_grid, pontos_garagem['315'])


  garagem_buffer = garagem_gdf.buffer(radius_deg).unary_union


In [115]:
centro_mapa = [gdf['geometry'].y.mean(), gdf['geometry'].x.mean()]
m = folium.Map(location=centro_mapa, zoom_start=15)
for _, row in estatisticas_filtradas.iterrows():
    centroid = row['centroide_pontos']
    folium.GeoJson(row.geometry).add_to(m)
    folium.CircleMarker(
            location=[centroid.y, centroid.x],
            radius=3,
            color='red',
            fill=True,
            fill_color='red'
        ).add_to(m)

In [116]:
m

Percebe-se que os ônibus não tem uma quantidade fixa de garagens, portanto não é suficiente tomar um ponto fixo como garagem

In [213]:
initial_point = estatisticas_grid[(estatisticas_grid['media_velocidade'] <= 5) & (estatisticas_grid['media_hora'] > 7) & (estatisticas_grid['media_hora'] < 22)].sort_values(by='contagem_pontos', ascending=False).head(2)

In [219]:
centro_mapa = [gdf['geometry'].y.mean(), gdf['geometry'].x.mean()]
m = folium.Map(location=centro_mapa, zoom_start=15)
for _, row in initial_point.iterrows():
    centroid = row['centroide_pontos']
    folium.GeoJson(row.geometry).add_to(m)
    folium.CircleMarker(
            location=[centroid.y, centroid.x],
            radius=3,
            color='red',
            fill=True,
            fill_color='red'
        ).add_to(m)

In [220]:
m

## linha 606

In [33]:
teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '606'", conn)

  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '606'", conn)


In [34]:
teste = teste[teste['dia_da_semana'] == 'Wednesday']

In [35]:
teste['geometry'] = teste['geom'].apply(wkb.loads)

In [36]:
gdf = gpd.GeoDataFrame(teste, geometry='geometry')

In [37]:
gdf.set_crs(epsg=4326, inplace=True)

Unnamed: 0,id,ordem,latitude,longitude,datahora,velocidade,linha,datahoraenvio,datahoraservidor,geom,dia_da_semana,geometry
251645,5114563,B25532,-22.89575,-43.29498,1714562425000,28,606,1714562434000,1714562446000,0101000020E6100000AF7C96E7C1A545C05A643BDF4FE5...,Wednesday,POINT (-43.29498 -22.89575)
251646,5114565,B25574,-22.90425,-43.28579,1714562426000,18,606,1714562434000,1714562446000,0101000020E61000000DC347C494A445C0736891ED7CE7...,Wednesday,POINT (-43.28579 -22.90425)
251647,5114570,B25601,-22.90433,-43.28691,1714562428000,18,606,1714562434000,1714562446000,0101000020E61000009B728577B9A445C0ACCABE2B82E7...,Wednesday,POINT (-43.28691 -22.90433)
251648,5114574,B25542,-22.92452,-43.25731,1714562430000,1,606,1714562434000,1714562446000,0101000020E61000008577B988EFA045C0787FBC57ADEC...,Wednesday,POINT (-43.25731 -22.92452)
251649,5115376,B25582,-22.90246,-43.29927,1714562434000,0,606,1714562444000,1714562446000,0101000020E61000004356B77A4EA645C0BBF2599E07E7...,Wednesday,POINT (-43.29927 -22.90246)
...,...,...,...,...,...,...,...,...,...,...,...,...
615472,9648095,B25596,-22.91121,-43.20925,1715173242000,0,606,1715173250000,1715173252000,0101000020E6100000105839B4C89A45C0C5C9FD0E45E9...,Wednesday,POINT (-43.20925 -22.91121)
615473,9648098,B25586,-22.92796,-43.23633,1715173235000,24,606,1715173250000,1715173252000,0101000020E61000002788BA0F409E45C004FF5BC98EED...,Wednesday,POINT (-43.23633 -22.92796)
615474,9648099,B25575,-22.91058,-43.22224,1715173245000,6,606,1715173250000,1715173252000,0101000020E610000078EE3D5C729C45C0456458C51BE9...,Wednesday,POINT (-43.22224 -22.91058)
615475,9648102,B25571,-22.89621,-43.29625,1715173246000,3,606,1715173250000,1715173252000,0101000020E610000052B81E85EBA545C02159C0046EE5...,Wednesday,POINT (-43.29625 -22.89621)


In [38]:
grid_315 = join_com_grid(gdf, grid_rio)

In [39]:
grid_315 = grid_315.reset_index(names='grid_id')

In [40]:
estatisticas_grid = calcular_estatisticas(gdf, grid_315)

  exec(code_obj, self.user_global_ns, self.user_ns)


In [41]:
pontos_finais = estatisticas_grid[(estatisticas_grid['media_velocidade'] <= 5) & (estatisticas_grid['media_hora'] > 7) & (estatisticas_grid['media_hora'] < 22)].sort_values(by='contagem_pontos', ascending=False).head(5)

In [262]:
garagens = estatisticas_grid[(estatisticas_grid['media_velocidade'] == 0)].sort_values(by='contagem_pontos', ascending=False).head(10)

In [42]:
def calcular_distancia(p1, p2):
    return geodesic((p1.y, p1.x), (p2.y, p2.x)).meters

In [45]:
comb = list(combinations(pontos_finais['centroide_pontos'], 2))

In [46]:
distancias = [(p1, p2, calcular_distancia(p1, p2)) for p1, p2 in comb]

In [47]:
maior_distancia = max(distancias, key=lambda x: x[2])

In [48]:
ponto1, ponto2 = maior_distancia[0], maior_distancia[1]


In [49]:
pontos_mais_distantes = gpd.GeoDataFrame({'geometry': [ponto1, ponto2]}, crs="EPSG:4326")

In [51]:
centro_mapa = [gdf['geometry'].y.mean(), gdf['geometry'].x.mean()]
m = folium.Map(location=centro_mapa, zoom_start=15)
for _, row in pontos_mais_distantes.iterrows():
    folium.GeoJson(row.geometry).add_to(m)
    folium.CircleMarker(
        location=[row.geometry.y, row.geometry.x],
        radius=3,
        color='red',
        fill=True,
        fill_color='red'
    ).add_to(m)

In [52]:
m

## 100

In [239]:
teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '100'", conn)

  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '100'", conn)


In [240]:
teste = teste[teste['dia_da_semana'] == 'Wednesday']

In [241]:
teste['geometry'] = teste['geom'].apply(wkb.loads)

In [242]:
gdf = gpd.GeoDataFrame(teste, geometry='geometry')

In [243]:
gdf.set_crs(epsg=4326, inplace=True)

Unnamed: 0,id,ordem,latitude,longitude,datahora,velocidade,linha,datahoraenvio,datahoraservidor,geom,dia_da_semana,geometry
455269,5114689,A41019,-22.94789,-43.18142,1714562427000,55,100,1714562436000,1714562445000,0101000020E6100000906B43C5389745C0983446EBA8F2...,Wednesday,POINT (-43.18142 -22.94789)
455270,5114751,A41269,-22.91216,-43.17410,1714562434000,0,100,1714562437000,1714562445000,0101000020E6100000E71DA7E8489645C028B8585183E9...,Wednesday,POINT (-43.17410 -22.91216)
455271,5115230,A71510,-22.95112,-43.17536,1714562433000,23,100,1714562441000,1714562464000,0101000020E610000066834C32729645C04F92AE997CF3...,Wednesday,POINT (-43.17536 -22.95112)
455272,5115232,A71561,-22.92502,-43.17275,1714562435000,24,100,1714562441000,1714562464000,0101000020E6100000273108AC1C9645C05B25581CCEEC...,Wednesday,POINT (-43.17275 -22.92502)
455273,5115235,A71504,-22.93907,-43.17087,1714562437000,41,100,1714562441000,1714562464000,0101000020E61000000BEF7211DF9545C09CA73AE466F0...,Wednesday,POINT (-43.17087 -22.93907)
...,...,...,...,...,...,...,...,...,...,...,...,...
1020608,10131696,A71600,-22.97802,-43.19066,1715176537000,24,100,1715176545000,1715176567000,0101000020E6100000E353008C679845C07CD5CA845FFA...,Wednesday,POINT (-43.19066 -22.97802)
1020609,10131699,A71581,-22.90437,-43.19159,1715176539000,0,100,1715176545000,1715176567000,0101000020E6100000CD1E6805869845C0C87BD5CA84E7...,Wednesday,POINT (-43.19159 -22.90437)
1020610,10131708,A71506,-22.90030,-43.17720,1715176535000,27,100,1715176545000,1715176567000,0101000020E6100000F46C567DAE9645C0BC96900F7AE6...,Wednesday,POINT (-43.17720 -22.90030)
1020611,10132290,A41226,-22.90273,-43.18489,1715176546000,29,100,1715176551000,1715176553000,0101000020E6100000C1ADBB79AA9745C03A1E335019E7...,Wednesday,POINT (-43.18489 -22.90273)


In [244]:
grid_315 = join_com_grid(gdf, grid_rio)

In [245]:
grid_315 = grid_315.reset_index(names='grid_id')

In [246]:
estatisticas_grid = calcular_estatisticas(gdf, grid_315)

  exec(code_obj, self.user_global_ns, self.user_ns)


In [247]:
pontos_finais = estatisticas_grid[(estatisticas_grid['media_velocidade'] <= 5) & (estatisticas_grid['media_hora'] > 7) & (estatisticas_grid['media_hora'] < 22)].sort_values(by='contagem_pontos', ascending=False).head(2)

In [248]:
garagens = estatisticas_grid[(estatisticas_grid['media_velocidade'] == 0)].sort_values(by='contagem_pontos', ascending=False).head(4)

In [249]:
centro_mapa = [gdf['geometry'].y.mean(), gdf['geometry'].x.mean()]
m = folium.Map(location=centro_mapa, zoom_start=15)
for _, row in pontos_finais.iterrows():
    centroid = row['centroide_pontos']
    folium.GeoJson(row.geometry).add_to(m)
    folium.CircleMarker(
            location=[centroid.y, centroid.x],
            radius=3,
            color='red',
            fill=True,
            fill_color='red'
        ).add_to(m)

In [250]:
m

## Pontos finais

In [117]:
def dentro_do_raio(ponto, pontos_garagem, raio_metros):
    deg_per_meter = 1 / 111320  # Aproximação de graus por metro
    raio_graus = raio_metros * deg_per_meter
    for lat, lon in pontos_garagem:
        ponto_garagem = Point(lon, lat)
        if ponto.distance(ponto_garagem) <= raio_graus:
            return True
    return False

In [118]:
def calcular_distancia(p1, p2):
        return geodesic((p1.y, p1.x), (p2.y, p2.x)).meters

In [141]:
linhas_de_interesse = ['483', '864', '639', '3', '309', '774', '629', '371', '397', '100', '838', '315', '624', '388', '918', '665', '328', '497', '878', '355', '606', '457', '550', '803', '917', '638', '2336', '399', '298', '867', '553', '565', '422', '756', '292', '554', '634', '232', '415', '2803', '324', '852', '557', '759', '343', '779', '905', '108']

In [142]:
pontos_finais_gdf = gpd.GeoDataFrame(columns=['geometry', 'linha'], crs="EPSG:4326")
for linha in linhas_de_interesse:
    print(f"Calculando ponto final linha {linha}")
    teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
    teste = teste[teste['dia_da_semana'] == 'Wednesday']
    teste['geometry'] = teste['geom'].apply(wkb.loads)
    gdf = gpd.GeoDataFrame(teste, geometry='geometry')
    gdf.set_crs(epsg=4326, inplace=True)

    grid_315 = join_com_grid(gdf, grid_rio)
    grid_315 = grid_315.reset_index(names='grid_id')
    estatisticas_grid = calcular_estatisticas(gdf, grid_315)
    
    pontos_finais = estatisticas_grid[(estatisticas_grid['media_velocidade'] <= 5) & 
                                      (estatisticas_grid['media_hora'] > 7) & 
                                      (estatisticas_grid['media_hora'] < 22)].sort_values(by='contagem_pontos', ascending=False).head(5)
    
    pontos_finais = pontos_finais[~pontos_finais['centroide_pontos'].apply(lambda p: dentro_do_raio(p, pontos_garagem[linha], 400))]
    
    if len(pontos_finais) < 2:
        print(f"Não há pontos finais suficientes para a linha {linha} após filtrar os pontos próximos à garagem")
        continue
    
    comb = list(combinations(pontos_finais['centroide_pontos'], 2))
    distancias = [(p1, p2, calcular_distancia(p1, p2)) for p1, p2 in comb]
    
    maior_distancia = max(distancias, key=lambda x: x[2])
    ponto1, ponto2 = maior_distancia[0], maior_distancia[1]
    
    pontos_mais_distantes = gpd.GeoDataFrame({'geometry': [ponto1, ponto2], 'linha': [linha, linha]}, crs="EPSG:4326")
    pontos_finais_gdf = pd.concat([pontos_finais_gdf, pontos_mais_distantes])

Calculando ponto final linha 483


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 864


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 639


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 3


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Não há pontos finais suficientes para a linha 3 após filtrar os pontos próximos à garagem
Calculando ponto final linha 309


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 774


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 629


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 371


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 397


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 100


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 838


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 315


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 624


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 388


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Não há pontos finais suficientes para a linha 388 após filtrar os pontos próximos à garagem
Calculando ponto final linha 918


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 665


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 328


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 497


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 878


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 355


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 606


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 457


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 550


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 803


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 917


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 638


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Não há pontos finais suficientes para a linha 638 após filtrar os pontos próximos à garagem
Calculando ponto final linha 2336


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 399


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 298


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 867


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 553


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 565


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 422


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 756


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 292


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 554


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 634


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 232


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 415


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 2803


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 324


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 852


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)
  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)


Calculando ponto final linha 557


  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 759


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 343


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 779


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)
  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)


Calculando ponto final linha 905


  exec(code_obj, self.user_global_ns, self.user_ns)


Calculando ponto final linha 108


  teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
  exec(code_obj, self.user_global_ns, self.user_ns)


In [143]:
pontos_finais_gdf = pontos_finais_gdf.reset_index(drop=True)

In [153]:
for linha in linhas_de_interesse:
    linha_pf = pontos_finais_gdf[pontos_finais_gdf['linha'] == linha]
    coords = [(point.y, point.x) for point in linha_pf['geometry']]
    print(f"A linha {linha} tem os pontos: {coords}")

A linha 483 tem os pontos: [(-22.83697752016134, -43.28427567540325), (-22.985753591654262, -43.196997049180304)]
A linha 864 tem os pontos: [(-22.875660886363644, -43.463703249999845), (-22.902107943548394, -43.556323125000084)]
A linha 639 tem os pontos: [(-22.810864987146545, -43.32973251928012), (-22.923269905123338, -43.2345884629982)]
A linha 3 tem os pontos: []
A linha 309 tem os pontos: [(-23.001516469622352, -43.36517862068947), (-22.904522542372895, -43.192471638418056)]
A linha 774 tem os pontos: [(-22.80742955497383, -43.32748939790577), (-22.870281702127674, -43.34178435460993)]
A linha 629 tem os pontos: [(-22.922900065789456, -43.232511052631466), (-22.824892803234476, -43.3326103773585)]
A linha 371 tem os pontos: [(-22.90846427884616, -43.18926774038458), (-22.898570506024086, -43.35247556626498)]
A linha 397 tem os pontos: [(-22.901298226691065, -43.17992804387575), (-22.9022326923077, -43.55522134615382)]
A linha 100 tem os pontos: [(-22.90438480468754, -43.191637783

Algumas linhas ficaram com pontos colados, aumentarei o número de pontos candidatos para elas

In [149]:
linhas_para_deletar = ["918", "497", "878", "355", "638", "2336", "852"]

In [150]:
pontos_finais_gdf = pontos_finais_gdf[~pontos_finais_gdf['linha'].isin(linhas_para_deletar)]

In [151]:
pontos_finais_gdf = pontos_finais_gdf.reset_index(drop=True)

In [None]:
for linha in linhas_para_deletar:
    print(f"Calculando ponto final linha {linha}")
    teste = pd.read_sql(f"SELECT * FROM dias_uteis WHERE linha = '{linha}'", conn)
    teste = teste[teste['dia_da_semana'] == 'Wednesday']
    teste['geometry'] = teste['geom'].apply(wkb.loads)
    gdf = gpd.GeoDataFrame(teste, geometry='geometry')
    gdf.set_crs(epsg=4326, inplace=True)

    grid_315 = join_com_grid(gdf, grid_rio)
    grid_315 = grid_315.reset_index(names='grid_id')
    estatisticas_grid = calcular_estatisticas(gdf, grid_315)
    
    pontos_finais = estatisticas_grid[(estatisticas_grid['media_velocidade'] <= 5) & 
                                      (estatisticas_grid['media_hora'] > 7) & 
                                      (estatisticas_grid['media_hora'] < 22)].sort_values(by='contagem_pontos', ascending=False).head(15)
    
    pontos_finais = pontos_finais[~pontos_finais['centroide_pontos'].apply(lambda p: dentro_do_raio(p, pontos_garagem[linha], 400))]
    
    if len(pontos_finais) < 2:
        print(f"Não há pontos finais suficientes para a linha {linha} após filtrar os pontos próximos à garagem")
        continue
    
    comb = list(combinations(pontos_finais['centroide_pontos'], 2))
    distancias = [(p1, p2, calcular_distancia(p1, p2)) for p1, p2 in comb]
    
    maior_distancia = max(distancias, key=lambda x: x[2])
    ponto1, ponto2 = maior_distancia[0], maior_distancia[1]
    
    pontos_mais_distantes = gpd.GeoDataFrame({'geometry': [ponto1, ponto2], 'linha': [linha, linha]}, crs="EPSG:4326")
    pontos_finais_gdf = pd.concat([pontos_finais_gdf, pontos_mais_distantes])

In [154]:
pontos_finais_gdf['linha'].unique()

array(['483', '864', '639', '309', '774', '629', '371', '397', '100',
       '838', '315', '624', '665', '328', '606', '457', '550', '803',
       '917', '399', '298', '867', '553', '565', '422', '756', '292',
       '554', '634', '232', '415', '2803', '324', '557', '759', '343',
       '779', '905', '108', '918', '497', '878', '355', '638', '2336',
       '852'], dtype=object)

Coordenadas 388: (-43.182166100892914,-22.902007263316783), (-43.656221292995234, -22.935631245304858)

In [155]:
novos_pontos = [
    (-43.182166100892914, -22.902007263316783), 
    (-43.656221292995234, -22.935631245304858)
]
novos_pontos_gdf = gpd.GeoDataFrame({
    'geometry': [Point(lon, lat) for lon, lat in novos_pontos],
    'linha': [388, 388]
}, crs="EPSG:4326")


In [156]:
pontos_finais_gdf = pd.concat([pontos_finais_gdf, novos_pontos_gdf], ignore_index=True)

In [None]:
pontos_finais_gdf['linha'].unique()

In [157]:
output_file = "pontos_finais.geojson"

In [158]:
pontos_finais_gdf.to_file(output_file, driver='GeoJSON')