In [1]:
DB_PARAMS = {
    'host': 'localhost',
    'user':'postgres',
    'password':'1302',
    'database':'gps'
}

In [2]:

import psycopg2
import pandas as pd
from psycopg2 import sql
import os
import json

In [9]:
def create_table(cursor, table_name, sample_data):
    # Dynamically create table schema based on sample data
    columns = ', '.join([f"{key} VARCHAR(255)" for key in sample_data.keys()])
    create_table_query = f"CREATE TABLE IF NOT EXISTS {table_name} ({columns});"
    cursor.execute(create_table_query)

def insert_json_data(cursor, table_name, json_data):
    for entry in json_data:
        columns = ', '.join(entry.keys())
        values = ', '.join(['%s'] * len(entry))
        insert_query = f"INSERT INTO {table_name} ({columns}) VALUES ({values})"
        cursor.execute(insert_query, list(entry.values()))

def load_json_files_to_db(json_directory):
    # Connect to the PostgreSQL database
    conn = psycopg2.connect(**DB_PARAMS)
    cursor = conn.cursor()
    
    # Iterate over each file in the JSON directory
    for folder in os.listdir(json_directory):
        if folder.startswith('2024-04-25'):
            if not os.path.isdir(os.path.join(json_directory, folder)):
                continue
            for filename in os.listdir(os.path.join(json_directory, folder)):
                if filename.endswith('.json'):
                    table_name = 'table_'+folder.replace('-', '_')
                    file_path = os.path.join(json_directory, folder,filename)
                    with open(file_path, 'r') as file:
                        json_data = json.load(file)
                        
                        # Create a table for the JSON data based on the first item structure
                        if json_data:
                            create_table(cursor, table_name, json_data[0])
                            
                            # Insert JSON data into the table
                            insert_json_data(cursor, table_name, json_data)
                            print(f"Loaded {filename} into table {table_name}.")
    
    # Commit the transaction and close the connection
    conn.commit()
    cursor.close()
    conn.close()

# Directory containing JSON files
json_directory = './'

# Load JSON files to the database
load_json_files_to_db(json_directory)

Loaded 2024-04-25_00.json into table table_2024_04_25.
Loaded 2024-04-25_01.json into table table_2024_04_25.
Loaded 2024-04-25_02.json into table table_2024_04_25.
Loaded 2024-04-25_03.json into table table_2024_04_25.
Loaded 2024-04-25_04.json into table table_2024_04_25.
Loaded 2024-04-25_05.json into table table_2024_04_25.
Loaded 2024-04-25_06.json into table table_2024_04_25.
Loaded 2024-04-25_07.json into table table_2024_04_25.
Loaded 2024-04-25_08.json into table table_2024_04_25.
Loaded 2024-04-25_09.json into table table_2024_04_25.
Loaded 2024-04-25_10.json into table table_2024_04_25.
Loaded 2024-04-25_11.json into table table_2024_04_25.
Loaded 2024-04-25_12.json into table table_2024_04_25.
Loaded 2024-04-25_13.json into table table_2024_04_25.
Loaded 2024-04-25_14.json into table table_2024_04_25.
Loaded 2024-04-25_15.json into table table_2024_04_25.
Loaded 2024-04-25_16.json into table table_2024_04_25.
Loaded 2024-04-25_17.json into table table_2024_04_25.
Loaded 202

In [4]:
%pip install SQLAlchemy

Collecting SQLAlchemy
  Downloading SQLAlchemy-2.0.31-cp312-cp312-win_amd64.whl.metadata (9.9 kB)
Collecting typing-extensions>=4.6.0 (from SQLAlchemy)
  Downloading typing_extensions-4.12.2-py3-none-any.whl.metadata (3.0 kB)
Collecting greenlet!=0.4.17 (from SQLAlchemy)
  Downloading greenlet-3.0.3-cp312-cp312-win_amd64.whl.metadata (3.9 kB)
Downloading SQLAlchemy-2.0.31-cp312-cp312-win_amd64.whl (2.1 MB)
   ---------------------------------------- 0.0/2.1 MB ? eta -:--:--
    --------------------------------------- 0.0/2.1 MB 660.6 kB/s eta 0:00:04
   - -------------------------------------- 0.1/2.1 MB 825.8 kB/s eta 0:00:03
   -- ------------------------------------- 0.1/2.1 MB 1.1 MB/s eta 0:00:02
   ----------- ---------------------------- 0.6/2.1 MB 3.4 MB/s eta 0:00:01
   ---------------------------------------  2.1/2.1 MB 9.5 MB/s eta 0:00:01
   ---------------------------------------- 2.1/2.1 MB 9.5 MB/s eta 0:00:00
Downloading greenlet-3.0.3-cp312-cp312-win_amd64.whl (293 kB)


[notice] A new release of pip is available: 24.0 -> 24.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [10]:
from sqlalchemy import create_engine
import pandas as pd

# Conectar ao banco de dados PostgreSQL
achemy_params = 'postgresql://postgres:1302@localhost/gps'
engine = create_engine(achemy_params)
conn = psycopg2.connect(**DB_PARAMS)
# Função para carregar dados de um dia específico
def load_data_for_day(day, month=5):
    query = f"SELECT * FROM public.table_2024_{month:02d}_{day:02d}"
    df = pd.read_sql_query(query, engine)
    return df

# Carregar dados de um dia específico
df = load_data_for_day(25,4)  # Por exemplo, carregando dados do dia 1 de maio de 2024

# Fechar a conexão
conn.close()

# Verificar informações gerais
print(df.info())
# Converter timestamps para datetime
df['datahora'] = pd.to_datetime(df['datahora'], unit='ms', errors='coerce')

# Verificar valores nulos
print(df.isnull().sum())

# Remover linhas com valores nulos em colunas críticas
df.dropna(subset=['latitude', 'longitude', 'datahora', 'ordem', 'linha'], inplace=True)

# Filtrar dados fora do horário (08:00 - 23:00)
df = df[(df['datahora'].dt.hour >= 8) & (df['datahora'].dt.hour <= 23)]
# Substituir vírgulas por pontos e converter para float
df['latitude'] = df['latitude'].str.replace(',', '.').astype(float)
df['longitude'] = df['longitude'].str.replace(',', '.').astype(float)

# Verificar se a conversão foi bem-sucedida
print(df[['latitude', 'longitude']].head())
df.drop('datahoraenvio', axis=1, inplace=True)
df.drop('datahoraservidor', axis=1, inplace=True)
df.head()
# Calcular diferença de tempo entre registros consecutivos do mesmo ônibus
df['time_diff'] = df.groupby('ordem')['datahora'].diff().dt.total_seconds()

# Identificar paradas longas (10 a 30 minutos)
final_points = df[(df['time_diff'] >= 600) & (df['time_diff'] <= 1800)]

# Obter coordenadas dos pontos finais
final_coords = final_points.groupby('ordem').first().reset_index()

df.head()
# Identificar paradas longas (mais de 30 minutos)
garage_points = df[df['time_diff'] > 1800]

# Obter coordenadas das garagens
garage_coords = garage_points.groupby('ordem').first().reset_index()
garage_coords.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9971309 entries, 0 to 9971308
Data columns (total 8 columns):
 #   Column            Dtype 
---  ------            ----- 
 0   ordem             object
 1   latitude          object
 2   longitude         object
 3   datahora          object
 4   velocidade        object
 5   linha             object
 6   datahoraenvio     object
 7   datahoraservidor  object
dtypes: object(8)
memory usage: 608.6+ MB
None


  df['datahora'] = pd.to_datetime(df['datahora'], unit='ms', errors='coerce')


ordem               0
latitude            0
longitude           0
datahora            0
velocidade          0
linha               0
datahoraenvio       0
datahoraservidor    0
dtype: int64
       latitude  longitude
86435 -22.91755  -43.60740
86438 -22.91745  -43.60743
86440 -22.91745  -43.60743
86441 -22.91745  -43.60743
86445 -22.91745  -43.60743


Unnamed: 0,ordem,latitude,longitude,datahora,velocidade,linha,time_diff
0,A27556,-22.96106,-43.21244,2024-04-25 09:10:48,8,548,2040.0
1,A27619,-22.99246,-43.24927,2024-04-25 09:22:17,36,548,2220.0
2,A29005,-22.86865,-43.29248,2024-04-25 09:07:29,0,711,3343.0
3,A29009,-22.86848,-43.29108,2024-04-25 14:31:17,0,SV474,1859.0
4,A29010,-22.86848,-43.29161,2024-04-25 23:01:28,0,711,2647.0


In [None]:
from sqlalchemy import create_engine
import pandas as pd
import psycopg2

# Conectar ao banco de dados PostgreSQL
db_params = 'postgresql://postgres:1302@localhost/gps'
engine = create_engine(db_params)
conn = psycopg2.connect(database="gps", user="postgres", password="1302", host="localhost", port="5432")

# Função para carregar dados de todos os dias de um mês específico
def load_data_for_month():
    all_data = []
    for month in range(4, 6):  # Assumindo que o ano tem 12 meses
      for day in range(1, 32):  # Assumindo que o mês pode ter até 31 dias
          try:
              query = f"SELECT * FROM public.table_2024_{month:02d}_{day:02d}"
              df = pd.read_sql_query(query, engine)
              all_data.append(df)
          except Exception as e:
              print(f"Erro ao carregar dados do dia {day}: {e}")
      return pd.concat(all_data, ignore_index=True)

# Carregar dados de um mês específico
df = load_data_for_month()  # Por exemplo, carregando dados de maio de 2024

# Fechar a conexão
conn.close()

# Verificar informações gerais
print(df.info())

# Converter timestamps para datetime
df['datahora'] = pd.to_datetime(df['datahora'], unit='ms', errors='coerce')

# Verificar valores nulos
print(df.isnull().sum())

# Remover linhas com valores nulos em colunas críticas
df.dropna(subset=['latitude', 'longitude', 'datahora', 'ordem', 'linha'], inplace=True)

# Filtrar dados fora do horário (08:00 - 23:00)
df = df[(df['datahora'].dt.hour >= 8) & (df['datahora'].dt.hour <= 23)]

# Substituir vírgulas por pontos e converter para float
df['latitude'] = df['latitude'].str.replace(',', '.').astype(float)
df['longitude'] = df['longitude'].str.replace(',', '.').astype(float)

# Verificar se a conversão foi bem-sucedida
print(df[['latitude', 'longitude']].head())

# Remover colunas desnecessárias
df.drop(['datahoraenvio', 'datahoraservidor'], axis=1, inplace=True)

# Calcular diferença de tempo entre registros consecutivos do mesmo ônibus
df['time_diff'] = df.groupby('ordem')['datahora'].diff().dt.total_seconds()

# Identificar paradas longas (10 a 30 minutos)
final_points = df[(df['time_diff'] >= 600) & (df['time_diff'] <= 1800)]

# Obter coordenadas dos pontos finais
final_coords = final_points.groupby('ordem').first().reset_index()

# Identificar paradas longas (mais de 30 minutos)
garage_points = df[df['time_diff'] > 1800]

# Obter coordenadas das garagens
garage_coords = garage_points.groupby('ordem').first().reset_index()

# Verificar os resultados
print(final_coords.head())
print(garage_coords.head())

# Função para eliminar linhas que contem dados de certa hora
def remove_rows_by_hour(df, start_hour, end_hour):
    return df[~((df['datahora'].dt.hour >= start_hour) & (df['datahora'].dt.hour <= end_hour))]

# Exemplo de uso para remover linhas entre 0:00 e 5:00
df = remove_rows_by_hour(df, 0, 5)

# Verificar o DataFrame resultante
print(df.info())
print(df.head())


In [1]:
from sqlalchemy import create_engine
import pandas as pd
import psycopg2

# Conectar ao banco de dados PostgreSQL
db_params = 'postgresql://postgres:1302@localhost/gps'
engine = create_engine(db_params)
conn = psycopg2.connect(database="gps", user="postgres", password="1302", host="localhost", port="5432")


In [2]:
# Função para carregar dados de todos os dias de um mês específico
def load_data_for_month():
    all_data = []
    for month in range(4, 6):  # Assumindo que o ano tem 12 meses
      for day in range(1, 32):  # Assumindo que o mês pode ter até 31 dias
          try:
              query = f"SELECT * FROM public.table_2024_{month:02d}_{day:02d}"
              df = pd.read_sql_query(query, engine)
              all_data.append(df)
          except Exception as e:
              print(f"Erro ao carregar dados do dia {day}: {e}")
    return pd.concat(all_data, ignore_index=True)

# Carregar dados de um mês específico
df = load_data_for_month()  # Por exemplo, carregando dados de abril e maio de 2024

# Fechar a conexão
conn.close()

# Verificar informações gerais
print(df.info())


Erro ao carregar dados do dia 1: (psycopg2.errors.UndefinedTable) ERRO:  não existe a relação "public.table_2024_04_01"
LINE 1: SELECT * FROM public.table_2024_04_01
                      ^

[SQL: SELECT * FROM public.table_2024_04_01]
(Background on this error at: https://sqlalche.me/e/20/f405)
Erro ao carregar dados do dia 2: (psycopg2.errors.UndefinedTable) ERRO:  não existe a relação "public.table_2024_04_02"
LINE 1: SELECT * FROM public.table_2024_04_02
                      ^

[SQL: SELECT * FROM public.table_2024_04_02]
(Background on this error at: https://sqlalche.me/e/20/f405)
Erro ao carregar dados do dia 3: (psycopg2.errors.UndefinedTable) ERRO:  não existe a relação "public.table_2024_04_03"
LINE 1: SELECT * FROM public.table_2024_04_03
                      ^

[SQL: SELECT * FROM public.table_2024_04_03]
(Background on this error at: https://sqlalche.me/e/20/f405)
Erro ao carregar dados do dia 4: (psycopg2.errors.UndefinedTable) ERRO:  não existe a relação "public.table_2

In [None]:
# Converter timestamps para datetime usando a coluna 'datahoraservidor'
df['datahoraservidor'] = pd.to_datetime(df['datahoraservidor'], unit='ms', errors='coerce')

# Verificar valores nulos
print(df.isnull().sum())

# Remover linhas com valores nulos em colunas críticas
df.dropna(subset=['latitude', 'longitude', 'datahoraservidor', 'ordem', 'linha'], inplace=True)



In [None]:
# Filtrar dados fora do horário (08:00 - 23:00)
df = df[(df['datahoraservidor'].dt.hour >= 8) & (df['datahoraservidor'].dt.hour <= 23)]

# Substituir vírgulas por pontos e converter para float
df['latitude'] = df['latitude'].str.replace(',', '.').astype(float)
df['longitude'] = df['longitude'].str.replace(',', '.').astype(float)

# Verificar se a conversão foi bem-sucedida
print(df[['latitude', 'longitude']].head())

# Remover colunas desnecessárias
df.drop(['datahoraenvio', 'datahora'], axis=1, inplace=True)


In [None]:
# Calcular diferença de tempo entre registros consecutivos do mesmo ônibus usando 'datahoraservidor'
df['time_diff'] = df.groupby('ordem')['datahoraservidor'].diff().dt.total_seconds()

# Identificar paradas longas (10 a 30 minutos)
final_points = df[(df['time_diff'] >= 600) & (df['time_diff'] <= 1800)]

# Obter coordenadas dos pontos finais
final_coords = final_points.groupby('ordem').first().reset_index()

# Identificar paradas longas (mais de 30 minutos)
garage_points = df[df['time_diff'] > 1800]

# Obter coordenadas das garagens
garage_coords = garage_points.groupby('ordem').first().reset_index()

# Verificar os resultados
print(final_coords.head())
print(garage_coords.head())


In [1]:
from sqlalchemy import create_engine
import pandas as pd
import psycopg2

# Conectar ao banco de dados PostgreSQL
db_params = 'postgresql://postgres:1302@localhost/gps'
engine = create_engine(db_params)
conn = psycopg2.connect(database="gps", user="postgres", password="1302", host="localhost", port="5432")


In [1]:
from sqlalchemy import create_engine
import psycopg2

# Parâmetros de conexão
db_params = 'postgresql://postgres:1302@localhost/gps'
engine = create_engine(db_params)
conn = psycopg2.connect(database="gps", user="postgres", password="1302", host="localhost", port="5432")

# Função para criar tabelas filtradas
def create_filtered_tables():
    with conn.cursor() as cur:
        # Obter a lista de tabelas que correspondem ao padrão desejado
        cur.execute("""
            SELECT table_name
            FROM information_schema.tables
            WHERE table_schema = 'public'
            AND table_name ~ '^table_2024_[0-9]{2}_[0-9]{2}$'
        """)
        tables = cur.fetchall()
        
        # Iterar sobre as tabelas e criar tabelas filtradas
        for table in tables:
            table_name = table[0]
            filtered_table_name = f"filtered_{table_name}"
            
            create_table_query = f"""
                CREATE TABLE public.{filtered_table_name} AS
                SELECT
                    ordem,
                    CAST(REPLACE(latitude, ',', '.') AS FLOAT) AS latitude,
                    CAST(REPLACE(longitude, ',', '.') AS FLOAT) AS longitude,
                    datahoraservidor,
                    velocidade,
                    linha
                FROM
                    public.{table_name}
                WHERE
                    datahoraservidor IS NOT NULL
                    AND latitude IS NOT NULL
                    AND longitude IS NOT NULL
                    AND ordem IS NOT NULL
                    AND linha IS NOT NULL
                    AND EXTRACT(HOUR FROM TO_TIMESTAMP(datahoraservidor / 1000)) BETWEEN 8 AND 23;
            """
            
            print(f"Criando tabela filtrada para {table_name}")
            cur.execute(create_table_query)
            
        # Confirmar as mudanças
            conn.commit()

# Executar a função para criar tabelas filtradas
create_filtered_tables()

# Fechar a conexão
conn.close()


Criando tabela filtrada para table_2024_02_25


UndefinedFunction: ERRO:  não existe a função replace(double precision, unknown, unknown)
LINE 5:                     CAST(REPLACE(latitude, ',', '.') AS FLOA...
                                 ^
HINT:  Nenhuma função corresponde com o nome e os tipos de argumentos informados. Você precisa adicionar conversões de tipo explícitas.
