# TCC - Mineração de Processos no Transporte Público de Curitiba

## Etapa 1: Aquisição e Estruturação de Dados da API URBS

O primeiro passo fundamental deste projeto é a coleta de dados brutos do sistema de transporte. Com base na documentação oficial fornecida, vamos interagir com o web service da URBS para obter a posição dos veículos.

O método específico para esta tarefa é o `getVeiculos.php`. A autenticação é realizada passando um código de acesso como um parâmetro (`c`) diretamente na URL da requisição.

Utilizaremos a biblioteca `requests` para fazer a chamada HTTP e a biblioteca `pandas` para estruturar a resposta JSON em um DataFrame, que é a estrutura de dados ideal para as próximas etapas de análise.

### Boas Práticas e Recomendações da URBS
É fundamental seguir as diretrizes da URBS para evitar o bloqueio do acesso:
- **Frequência de Atualização:** Os dados de localização são atualizados a cada 2 minutos. Portanto, fazer requisições em uma frequência maior que essa é desnecessário e pode ser interpretado como uso abusivo.
- **Evitar Excesso de Requisições:** Múltiplas requisições em um curto período de tempo serão tratadas como um ataque de negação de serviço (DoS), resultando no bloqueio imediato do acesso. Para este TCC, faremos chamadas pontuais para coletar os dados necessários para a análise.

### Importe de bibliotecas

In [1]:
import requests
import pandas as pd

In [2]:
# --- Configurações para a API da URBS ---
# URL base do web service
base_url = "https://transporteservico.urbs.curitiba.pr.gov.br/"

# Endpoint específico para obter a posição dos veículos
endpoint = "getVeiculos.php"

# Seu código de acesso pessoal fornecido pela URBS
api_code = "65d35"

# Construindo a URL completa
full_url = f"{base_url}{endpoint}"

# Parâmetros da requisição. A biblioteca 'requests' adicionará isso à URL 
params = {
    'c': api_code
}
# -----------------------------------------

print(f"Acessando a API em: {full_url}")
print(f"Com os parâmetros: {params}")

try:
    # Realiza a requisição GET para a API, passando os parâmetros
    response = requests.get(full_url, params=params, timeout=30)
    
    # Lança uma exceção se a resposta indicar um erro de HTTP (ex: 401, 403, 500)
    response.raise_for_status()   
    
    # Converte a resposta JSON em um dicionário/lista Python
    data = response.json()
    print("\nConexão e recebimento de dados bem-sucedidos!")

except requests.exceptions.RequestException as e:
    print(f"\nERRO: Falha ao acessar a API. Causa: {e}")
    data = None
except requests.exceptions.JSONDecodeError:
    print("\nERRO: A resposta recebida não está no formato JSON.")
    print("Isso pode acontecer se o acesso for negado ou a página retornou um erro HTML.")
    print("Conteúdo da resposta recebida:")
    print(response.text)
    data = None

# Verifica se os dados foram recebidos e os carrega em um DataFrame
if data:
    try:
        # A API deve retornar uma lista de dicionários, um para cada veículo.
        # Podemos converter isso diretamente para um DataFrame.
        df_raw = pd.DataFrame(data)

        print("\nDados brutos carregados com sucesso em um DataFrame:")
        # Exibe as 5 primeiras linhas do DataFrame para verificação
        print(df_raw.head())

    except Exception as e:
        print(f"\nERRO: Falha ao converter os dados recebidos para um DataFrame. Causa: {e}")
        print("Estrutura de dados recebida para análise:")
        print(data)
else:
    print("\nNenhum dado foi carregado. Verifique a mensagem de erro acima.")

Acessando a API em: https://transporteservico.urbs.curitiba.pr.gov.br/getVeiculos.php
Com os parâmetros: {'c': '65d35'}

Conexão e recebimento de dados bem-sucedidos!

Dados brutos carregados com sucesso em um DataFrame:
                JI009       JI004      HI035       HE715       GE726  \
COD             JI009       JI004      HI035       HE715       GE726   
REFRESH         18:20       18:20      18:23       18:22       18:19   
LAT          -25.5119  -25.467826   -25.4594  -25.464513  -25.434023   
LON          -49.3244  -49.355215  -49.35881  -49.255631  -49.269328   
CODIGOLINHA       826         826        826         550         550   

                  HE720       GE729       GE713       GI033       GI031  ...  \
COD               HE720       GE729       GE713       GI033       GI031  ...   
REFRESH           18:23       18:22       18:20       18:23       18:23  ...   
LAT          -25.468951  -25.511711  -25.549625  -25.543006  -25.543645  ...   
LON          -49.253646  -

### Aplicando _transpose_ para melhor visualização da tabela

In [3]:
#df_raw = pd.read_csv('./DataFrames/DF_inicial.csv', index_col=0)
#df_transposed = df_raw.T
#df_transposed.to_csv('./DataFrames/DF_transposed.csv')

## Etapa 2: Preparação e Limpeza dos Dados

Com os dados brutos carregados no DataFrame `df_raw`, a próxima etapa é a limpeza e padronização. Este passo é crucial para transformar os dados em um formato utilizável para as fases subsequentes de análise.

As principais tarefas nesta etapa são:
1.  **Renomear as colunas:** Alterar os nomes originais da API (ex: `COD`, `LAT`, `CODIGOLINHA`) para um padrão mais claro e consistente (ex: `vehicle_id`, `latitude`, `line_id`), conforme sugerido pelo guia metodológico.
2.  **Converter e criar o Timestamp:** A coluna `REFRESH` da API contém apenas o horário. Para criar um timestamp completo, que é uma coluna obrigatória para a mineração de processos, vamos combinar este horário com a data atual. Em seguida, converteremos esta nova coluna para o tipo de dados `datetime` do pandas, o que permite ordenação cronológica e cálculos de tempo.

In [4]:
# Supondo que 'df_raw' é o DataFrame criado no Passo 1
# Se você reiniciou o notebook, carregue os dados do CSV salvo:
# df_raw = pd.read_csv('./DataFrames/DF_inicial.csv', index_col=0)

# 1. Renomeando as colunas para um padrão mais claro
# Mapeamento do nome original para o novo nome
column_mapping = {
    'COD': 'vehicle_id',
    'REFRESH': 'refresh_time',
    'LAT': 'latitude',
    'LON': 'longitude',
    'CODIGOLINHA': 'line_id',
    'ADAPT': 'adapted_vehicle',
    'TIPO_VEIC': 'vehicle_type',
    'TABELA': 'schedule_table',
    'SITUACAO': 'situation',
    'SITUACAO2': 'situation_2',
    'SENT': 'direction',
    'TCOUNT': 't_count' # Mantendo t_count para referência
}

df_cleaned = df_raw.rename(columns=column_mapping)

print("--- Colunas após renomear ---")
print(df_cleaned.columns)


# 2. Tratando e criando a coluna de Timestamp
# Como a API retorna apenas a hora, vamos combinar com a data de hoje.
today_date_str = str(pd.to_datetime('today').date())

# Cria uma nova coluna 'timestamp' combinando a data de hoje com a hora da coluna 'refresh_time'
df_cleaned['timestamp'] = pd.to_datetime(today_date_str + ' ' + df_cleaned['refresh_time'], 
                                         format='%Y-%m-%d %H:%M')

print("\n--- Verificação dos tipos de dados (note a coluna 'timestamp') ---")
df_cleaned.info()

print("\n--- Visualização do DataFrame limpo ---")
print(df_cleaned.head())

# Opcional: Salvar este DataFrame limpo para uso futuro
# df_cleaned.to_csv('./DataFrames/DF_cleaned.csv')

--- Colunas após renomear ---
Index(['JI009', 'JI004', 'HI035', 'HE715', 'GE726', 'HE720', 'GE729', 'GE713',
       'GI033', 'GI031',
       ...
       'HI029', 'BI888', 'EA005', 'EI002', 'EI014', 'BI891', 'PI005', 'ML314',
       'MN605', 'BI873'],
      dtype='object', length=1475)


KeyError: 'refresh_time'