In [28]:
import geopy
import requests
import pandas as pd
from datetime import datetime
from geopy.distance import geodesic
import logging
import pytz
import threading
import time
import sqlite3

# Configuração de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# Função para criar o banco de dados e as tabelas, se não existirem
def criar_banco_e_tabelas(nome_banco):
    conn = sqlite3.connect(nome_banco)
    cursor = conn.cursor()

    cursor.execute('''
        CREATE TABLE IF NOT EXISTS onibus (
            COD INTEGER,
            REFRESH TEXT,
            LAT_IN_TIME REAL,
            LON_IN_TIME REAL,
            CODIGOLINHA INTEGER,
            ADAPT INTEGER,
            TIPO_VEIC INTEGER,
            TABELA TEXT,
            SITUACAO TEXT,
            SITUACAO2 TEXT,
            SENT TEXT,
            TCOUNT INTEGER,
            SENTIDO_IN_TIME TEXT,
            HORA TEXT,
            FLAG_PROCES INTEGER
        )
    ''')

    cursor.execute('''
        CREATE TABLE IF NOT EXISTS onibus_buffer (
            COD INTEGER,
            REFRESH TEXT,
            LAT_IN_TIME REAL,
            LON_IN_TIME REAL,
            CODIGOLINHA INTEGER,
            ADAPT INTEGER,
            TIPO_VEIC INTEGER,
            TABELA TEXT,
            SITUACAO TEXT,
            SITUACAO2 TEXT,
            SENT TEXT,
            TCOUNT INTEGER,
            SENTIDO_IN_TIME TEXT,
            HORA TEXT,
            FLAG_PROCES INTEGER
        )
    ''')

    conn.commit()
    conn.close()

# Função para carregar uma tabela para um DataFrame
def carregar_tabela_para_dataframe(nome_tabela, banco_de_dados):
    conn = sqlite3.connect(banco_de_dados)
    try:
        cursor = conn.cursor()
        cursor.execute("SELECT name FROM sqlite_master WHERE type='table' AND name=?;", (nome_tabela,))
        if cursor.fetchone():
            return pd.read_sql_query(f"SELECT * FROM {nome_tabela}", conn)
        return pd.DataFrame()
    finally:
        conn.close()

# Função para buscar e processar dados de uma linha de ônibus
def buscar_e_processar_dados(linha):
    url_base = f'https://transporteservico.urbs.curitiba.pr.gov.br/getVeiculos.php?linha={linha:03}&c=821f0'
    try:
        response = requests.get(url_base, timeout=20)
        response.raise_for_status()
        timezone_sp = pytz.timezone('America/Sao_Paulo')
        hora_online = datetime.now(timezone_sp).strftime("%Y-%m-%d %H:%M:%S")
        dados_json = response.json()

        if not dados_json or not isinstance(dados_json, dict):
            return None

        codigos_onibus = [{
            "COD": valor['COD'], "REFRESH": valor['REFRESH'], "LAT_IN_TIME": valor['LAT'],
            "LON_IN_TIME": valor['LON'], "CODIGOLINHA": int(valor['CODIGOLINHA']),
            "ADAPT": int(valor['ADAPT']), "TIPO_VEIC": int(valor['TIPO_VEIC']),
            "TABELA": valor['TABELA'], "SITUACAO": valor['SITUACAO'],
            "SITUACAO2": valor['SITUACAO2'], "SENT": valor['SENT'],
            "TCOUNT": valor.get('TCOUNT', 0), "SENTIDO_IN_TIME": valor['SENTIDO']
        } for chave, valor in dados_json.items()]

        df_codigos_onibus = pd.DataFrame(codigos_onibus)
        if not df_codigos_onibus.empty:
            df_codigos_onibus['HORA'] = hora_online
            return df_codigos_onibus
    except requests.RequestException:
        return None

# Função para remover duplicatas
def remover_duplicatas():
    with sqlite3.connect('dados_onibus.db') as conn:
        cursor = conn.cursor()
        logging.info("Removendo duplicatas da tabela onibus...")
        cursor.execute('''
            DELETE FROM onibus
            WHERE rowid NOT IN (
                SELECT MIN(rowid)
                FROM onibus
                GROUP BY COD, LAT_IN_TIME, LON_IN_TIME
            )
        ''')
        conn.commit()

# Função para limpar a tabela buffer
def limpar_tabela_buffer(nome_banco, nome_tabela):
    with sqlite3.connect(f'{nome_banco}.db') as conn:
        cursor = conn.cursor()
        cursor.execute(f'DELETE FROM {nome_tabela}')
        conn.commit()

# Função para gravar dados no banco
def gravar_no_banco(df_result, banco_de_dados, tabela):
    try:
        with sqlite3.connect(banco_de_dados) as conn:
            df_result.to_sql(tabela, conn, if_exists='append', index=False)
    except Exception as e:
        logging.error(f"Erro ao gravar no banco de dados: {e}")

# Função para processar uma linha específica
def processar_linha(linha, df_linhas, result_list):
    df_result = buscar_e_processar_dados(linha)
    if df_result is not None:
        result_list.append(df_result)

# Função para processar linhas usando threads
def processar_linhas_com_threads(linhas_unicas, df_linhas):
    global df_concatenado

    result_list = []
    threads = [
        threading.Thread(target=processar_linha, args=(linha, df_linhas, result_list))
        for linha in linhas_unicas
    ]

    for thread in threads:
        thread.start()
    for thread in threads:
        thread.join()

    if result_list:
        df_concatenado = pd.concat(result_list, ignore_index=True)
        gravar_no_banco(df_concatenado, 'dados_onibus.db', 'onibus')
        limpar_tabela_buffer('dados_onibus', 'onibus_buffer')
        gravar_no_banco(df_concatenado, 'dados_onibus.db', 'onibus_buffer')
        remover_duplicatas()

# Inicialização
criar_banco_e_tabelas('dados_onibus.db')


df_linhas = carregar_tabela_para_dataframe('onibus', 'dados_pontos.db')
df_linhas['COD'] = df_linhas['COD'].astype(int)
linhas_unicas = df_linhas['COD'].unique()

df_concatenado = pd.DataFrame()

# Processar linhas
processar_linhas_com_threads(linhas_unicas, df_linhas)


2024-10-26 13:40:48,770 - INFO - Removendo duplicatas da tabela onibus...


In [30]:
df = carregar_tabela_para_dataframe('onibus_buffer', 'dados_onibus.db')
df

Unnamed: 0,COD,REFRESH,LAT_IN_TIME,LON_IN_TIME,CODIGOLINHA,ADAPT,TIPO_VEIC,TABELA,SITUACAO,SITUACAO2,SENT,TCOUNT,SENTIDO_IN_TIME,HORA,FLAG_PROCES
0,BI863,13:40,-25.377100,-49.223415,214,1,7,1,NO HORÁRIO,REALIZANDO ROTA,IDA,1,819-TERMINAL CABRAL (14:05),2024-10-26 13:40:40,
1,GB302,13:40,-25.450471,-49.279128,11,0,15,1,ATRASADO,REALIZANDO ROTA,CIRCULAR,1,,2024-10-26 13:40:40,
2,JB304,13:39,-25.432505,-49.295026,11,0,15,,,,,1,sem tabela,2024-10-26 13:40:40,
3,HB303,13:40,-25.415808,-49.270155,10,0,15,2-2,ATRASADO,REALIZANDO ROTA,CIRCULAR,1,1463-P.U.C. (SENTIDO HORARIO) (14:00),2024-10-26 13:40:40,
4,BA027,13:40,-25.369236,-49.243983,226,1,1,1,NÃO CONFORMIDADE,INDETERMINADA,IDA,1,810-TERMINAL BOA VISTA (14:00),2024-10-26 13:40:41,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
452,MT013,13:38,-25.428686,-49.268418,979,0,3,5,NO HORÁRIO,REALIZANDO ROTA,CIRCULAR,1,1564-MEMORIAL ARABE (13:41),2024-10-26 13:40:48,
453,BT010,13:40,-25.388941,-49.267500,979,0,3,2,ATRASADO,REALIZANDO ROTA,CIRCULAR,1,634-PARQUE TANGUA (13:42),2024-10-26 13:40:48,
454,BT007,13:38,-25.413221,-49.322545,979,0,3,11,ATRASADO,REALIZANDO ROTA,CIRCULAR,1,1020-TORRE PANORAMICA (13:43),2024-10-26 13:40:48,
455,BT004,13:40,-25.385730,-49.278926,979,0,3,12,ATRASADO,REALIZANDO ROTA,CIRCULAR,1,655-PORTAL ITALIANO (13:46),2024-10-26 13:40:48,
