In [1]:
import geopy
import requests
import pandas as pd
from datetime import datetime
from geopy.distance import geodesic
import logging
import pytz
import threading
import time
import sqlite3

# Configuração de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# Conectar ao arquivo .db (ele será criado se não existir)
conn = sqlite3.connect('dados_onibus.db')
cursor = conn.cursor()

# Criar tabela (se ainda não existir)
cursor.execute('''
    CREATE TABLE IF NOT EXISTS onibus (
        COD INTEGER,
        REFRESH TEXT,
        LAT_IN_TIME REAL,
        LON_IN_TIME REAL,
        CODIGOLINHA INTEGER,
        ADAPT INTEGER,
        TIPO_VEIC INTEGER,
        TABELA TEXT,
        SITUACAO TEXT,
        SITUACAO2 TEXT,
        SENT TEXT,
        TCOUNT INTEGER,
        SENTIDO_IN_TIME TEXT,
        HORA TEXT,
        FLAG_PROCES INTEGER
    )
''')
conn.commit()

# Função para buscar e processar os dados de uma linha de ônibus
def buscar_e_processar_dados(linha):
    url_base = f'https://transporteservico.urbs.curitiba.pr.gov.br/getVeiculos.php?linha={linha:03}&c=821f0'
    try:
        response = requests.get(url_base, timeout=20)
        response.raise_for_status()

        timezone_sp = pytz.timezone('America/Sao_Paulo')
        hora_online = datetime.now(timezone_sp).strftime("%Y-%m-%d %H:%M:%S")
        dados_json = response.json()

        if not dados_json or not isinstance(dados_json, dict):
            return None

        codigos_onibus = [{
            "COD": valor['COD'],
            "REFRESH": valor['REFRESH'],
            "LAT_IN_TIME": valor['LAT'],
            "LON_IN_TIME": valor['LON'],
            "CODIGOLINHA": int(valor['CODIGOLINHA']),
            "ADAPT": int(valor['ADAPT']),
            "TIPO_VEIC": int(valor['TIPO_VEIC']),
            "TABELA": valor['TABELA'],
            "SITUACAO": valor['SITUACAO'],
            "SITUACAO2": valor['SITUACAO2'],
            "SENT": valor['SENT'],
            "TCOUNT": valor.get('TCOUNT', 0),
            "SENTIDO_IN_TIME": valor['SENTIDO']
        } for chave, valor in dados_json.items()]

        df_codigos_onibus = pd.DataFrame(codigos_onibus)
        if not df_codigos_onibus.empty:
            df_codigos_onibus['HORA'] = hora_online
        else:
            #logging.warning("Nenhum ônibus encontrado para a linha %s", linha)
            return None

        return df_codigos_onibus

    except requests.Timeout:
        #logging.error("Timeout: A conexão para a linha %s demorou mais de 10 segundos", linha)
        return None
    except requests.RequestException as e:
        #logging.error("Erro na requisição para a linha %s: %s", linha, e)
        return None
    except Exception as e:
        #logging.error("Erro ao processar a linha %s: %s", linha, e)
        return None


def carregar_tabela_para_dataframe(nome_tabela, banco_de_dados):
    conn = sqlite3.connect(banco_de_dados)
    
    try:
        # Verificar se a tabela existe
        cursor = conn.cursor()
        cursor.execute("""
            SELECT name FROM sqlite_master WHERE type='table' AND name=?;
        """, (nome_tabela,))
        
        resultado = cursor.fetchone()

        if resultado:
            # Se a tabela existe, carregar seus dados para um DataFrame
            df = pd.read_sql_query(f"SELECT * FROM {nome_tabela}", conn)
            return df
        else:
            # Retornar um DataFrame vazio se a tabela não existir
            return pd.DataFrame()  
    finally:
        conn.close()  # Garantir que a conexão seja fechada

# Função para processar cada linha e armazenar os resultados em uma lista
def processar_linha(linha, df_linhas, result_list):
    df_result = buscar_e_processar_dados(linha)
    if df_result is not None:
        result_list.append(df_result)
# Função para remover duplicatas do banco de dados
def remover_duplicatas():
    logging.info("Removendo duplicatas da tabela onibus...")

    # Remover duplicatas baseando-se no COD e HORA, mantendo a primeira entrada
    cursor.execute('''
        DELETE FROM onibus
        WHERE rowid NOT IN (
            SELECT MIN(rowid)
            FROM onibus
            GROUP BY COD, LAT_IN_TIME, LON_IN_TIME
        )
    ''')
    conn.commit()


# Função para gravar os dados no banco de dados SQLite
def gravar_no_banco(df_result):
    for index, row in df_result.iterrows():
        cursor.execute('''
            INSERT INTO onibus (COD, REFRESH, LAT_IN_TIME, LON_IN_TIME, CODIGOLINHA, ADAPT, TIPO_VEIC, TABELA, 
                                SITUACAO, SITUACAO2, SENT, TCOUNT, SENTIDO_IN_TIME, HORA, FLAG_PROCES) 
            VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
        ''', (
            row['COD'], row['REFRESH'], row['LAT_IN_TIME'], row['LON_IN_TIME'], row['CODIGOLINHA'],
            row['ADAPT'], row['TIPO_VEIC'], row['TABELA'], row['SITUACAO'], row['SITUACAO2'], 
            row['SENT'], row['TCOUNT'], row['SENTIDO_IN_TIME'], row['HORA'], 0
        ))
    conn.commit()
        # Remover as linhas que foram inseridas no banco de dados do DataFrame global
    global df_concatenado
    df_concatenado = df_concatenado.drop(df_result.index).reset_index(drop=True)

# Carregar os dados dos pontos da linha
df_linhas = carregar_tabela_para_dataframe('onibus','dados_pontos.db')
df_linhas['COD'] = df_linhas['COD'].astype(int)
# Obter os códigos únicos das linhas
linhas_unicas  = df_linhas['COD'].unique()

# DataFrame final para armazenar os resultados concatenados
df_concatenado = pd.DataFrame()

# Função para gerenciar threads e processamento de dados
def processar_linhas_com_threads(linhas_unicas, df_linhas):
    global df_concatenado

    result_list = []

    # Criar e iniciar threads para cada linha
    threads = [
        threading.Thread(target=processar_linha, args=(linha, df_linhas, result_list)) 
        for linha in linhas_unicas
    ]

    for thread in threads:
        thread.start()

    for thread in threads:
        thread.join()

    # Concatenar resultados e gravar no banco de dados
    if result_list:
        df_concatenado = pd.concat([df_concatenado] + result_list, ignore_index=True)
        gravar_no_banco(df_concatenado)

        remover_duplicatas()



# Inicializar o processamento com threads
try:
    processar_linhas_com_threads(linhas_unicas, df_linhas)
finally:
    # Fechar a conexão com o banco de dados ao final
    conn.close()


2024-10-23 13:28:35,925 - INFO - Removendo duplicatas da tabela onibus...
