In [1]:
DB_PARAMS = {
    'host': 'localhost',
    'user':'postgres',
    'password':'1302',
    'database':'gps'
}

In [2]:

import psycopg2
import pandas as pd
from psycopg2 import sql
import os
import json

In [None]:
def create_table(cursor, table_name, sample_data):
    # Dynamically create table schema based on sample data
    columns = ', '.join([f"{key} VARCHAR(255)" for key in sample_data.keys()])
    create_table_query = f"CREATE TABLE IF NOT EXISTS {table_name} ({columns});"
    cursor.execute(create_table_query)

def insert_json_data(cursor, table_name, json_data):
    for entry in json_data:
        columns = ', '.join(entry.keys())
        values = ', '.join(['%s'] * len(entry))
        insert_query = f"INSERT INTO {table_name} ({columns}) VALUES ({values})"
        cursor.execute(insert_query, list(entry.values()))

def load_json_files_to_db(json_directory):
    # Connect to the PostgreSQL database
    conn = psycopg2.connect(**DB_PARAMS)
    cursor = conn.cursor()
    
    # Iterate over each file in the JSON directory
    for folder in os.listdir(json_directory):
        if folder.startswith('2024-04-25'):
            if not os.path.isdir(os.path.join(json_directory, folder)):
                continue
            for filename in os.listdir(os.path.join(json_directory, folder)):
                if filename.endswith('.json'):
                    table_name = 'table_'+folder.replace('-', '_')
                    file_path = os.path.join(json_directory, folder,filename)
                    with open(file_path, 'r') as file:
                        json_data = json.load(file)
                        
                        # Create a table for the JSON data based on the first item structure
                        if json_data:
                            create_table(cursor, table_name, json_data[0])
                            
                            # Insert JSON data into the table
                            insert_json_data(cursor, table_name, json_data)
                            print(f"Loaded {filename} into table {table_name}.")
    
    # Commit the transaction and close the connection
    conn.commit()
    cursor.close()
    conn.close()

# Directory containing JSON files
json_directory = './'

# Load JSON files to the database
load_json_files_to_db(json_directory)

In [1]:
from sqlalchemy import create_engine
import pandas as pd
import psycopg2

# Conectar ao banco de dados PostgreSQL
db_params = 'postgresql://postgres:1302@localhost/gps'
engine = create_engine(db_params)
conn = psycopg2.connect(database="gps", user="postgres", password="1302", host="localhost", port="5432")


In [None]:
# Função para carregar dados de todos os dias de um mês específico
def load_data_for_month():
    all_data = []
    for month in range(4, 6):  # Assumindo que o ano tem 12 meses
      for day in range(1, 32):  # Assumindo que o mês pode ter até 31 dias
          try:
              query = f"SELECT * FROM public.table_2024_{month:02d}_{day:02d}"
              df = pd.read_sql_query(query, engine)
              all_data.append(df)
          except Exception as e:
              print(f"Erro ao carregar dados do dia {day}: {e}")
    return pd.concat(all_data, ignore_index=True)

# Carregar dados de um mês específico
df = load_data_for_month()  # Por exemplo, carregando dados de abril e maio de 2024

# Fechar a conexão
conn.close()

# Verificar informações gerais
print(df.info())


In [None]:
# Converter timestamps para datetime usando a coluna 'datahoraservidor'
df['datahoraservidor'] = pd.to_datetime(df['datahoraservidor'], unit='ms', errors='coerce')

# Verificar valores nulos
print(df.isnull().sum())

# Remover linhas com valores nulos em colunas críticas
df.dropna(subset=['latitude', 'longitude', 'datahoraservidor', 'ordem', 'linha'], inplace=True)



In [None]:
# Filtrar dados fora do horário (08:00 - 23:00)
df = df[(df['datahoraservidor'].dt.hour >= 8) & (df['datahoraservidor'].dt.hour <= 23)]

# Substituir vírgulas por pontos e converter para float
df['latitude'] = df['latitude'].str.replace(',', '.').astype(float)
df['longitude'] = df['longitude'].str.replace(',', '.').astype(float)

# Verificar se a conversão foi bem-sucedida
print(df[['latitude', 'longitude']].head())

# Remover colunas desnecessárias
df.drop(['datahoraenvio', 'datahora'], axis=1, inplace=True)


In [None]:
# Calcular diferença de tempo entre registros consecutivos do mesmo ônibus usando 'datahoraservidor'
df['time_diff'] = df.groupby('ordem')['datahoraservidor'].diff().dt.total_seconds()

# Identificar paradas longas (10 a 30 minutos)
final_points = df[(df['time_diff'] >= 600) & (df['time_diff'] <= 1800)]

# Obter coordenadas dos pontos finais
final_coords = final_points.groupby('ordem').first().reset_index()

# Identificar paradas longas (mais de 30 minutos)
garage_points = df[df['time_diff'] > 1800]

# Obter coordenadas das garagens
garage_coords = garage_points.groupby('ordem').first().reset_index()

# Verificar os resultados
print(final_coords.head())
print(garage_coords.head())


In [1]:
from sqlalchemy import create_engine
import pandas as pd
import psycopg2

# Conectar ao banco de dados PostgreSQL
db_params = 'postgresql://postgres:1302@localhost/gps'
engine = create_engine(db_params)
conn = psycopg2.connect(database="gps", user="postgres", password="1302", host="localhost", port="5432")


In [1]:
### Query feita no bd para tentar diminuir o consumo de RAM durante a execução do código
query = """
DO $$
DECLARE
    table_rec RECORD;
BEGIN
    -- Loop sobre todas as tabelas públicas
    FOR table_rec IN
        SELECT table_name
        FROM information_schema.tables
        WHERE table_schema = 'public'
    LOOP
        -- Formar o nome da tabela filtrada
        EXECUTE format('
            CREATE TABLE IF NOT EXISTS public.filtered_%I AS
            SELECT
                ordem,
                latitude,
                longitude,
                datahoraservidor,
                velocidade,
                linha
            FROM
                public.%I
            WHERE
                datahoraservidor IS NOT NULL
                AND latitude IS NOT NULL
                AND longitude IS NOT NULL
                AND ordem IS NOT NULL
                AND linha IS NOT NULL
                AND EXTRACT(HOUR FROM TO_TIMESTAMP(CAST(datahoraservidor AS BIGINT) / 1000)::TIMESTAMP WITH TIME ZONE) BETWEEN 8 AND 23;',
            table_rec.table_name, table_rec.table_name);
    END LOOP;
END $$;
"""

Criando tabela filtrada para table_2024_02_25


UndefinedFunction: ERRO:  não existe a função replace(double precision, unknown, unknown)
LINE 5:                     CAST(REPLACE(latitude, ',', '.') AS FLOA...
                                 ^
HINT:  Nenhuma função corresponde com o nome e os tipos de argumentos informados. Você precisa adicionar conversões de tipo explícitas.
