# üìä An√°lise Explorat√≥ria de Dados - SPTrans Pipeline

**Autor:** Rafael - SPTrans Data Team  
**Data:** Janeiro 2025  
**Objetivo:** Explorar e entender os dados da API SPTrans e GTFS

---

## Sum√°rio
1. [Setup e Imports](#1-setup)
2. [An√°lise da API de Posi√ß√µes](#2-api-positions)
3. [An√°lise dos Dados GTFS](#3-gtfs-data)
4. [Qualidade dos Dados](#4-data-quality)
5. [Visualiza√ß√µes](#5-visualizations)
6. [Insights e Conclus√µes](#6-insights)

## 1. Setup e Imports {#1-setup}

In [None]:
# Imports b√°sicos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Configurar visualiza√ß√µes
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

# Configurar pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

print("‚úÖ Imports conclu√≠dos")

In [None]:
# Imports do projeto
import sys
sys.path.append('..')

from src.common.config import Config
from src.ingestion.sptrans_api_client import SPTransClient
from src.common.validators import CoordinateValidator, DataQualityValidator

config = Config()
print("‚úÖ M√≥dulos do projeto importados")

## 2. An√°lise da API de Posi√ß√µes {#2-api-positions}

In [None]:
# Conectar √† API
client = SPTransClient(token=config.SPTRANS_API_TOKEN)

# Obter posi√ß√µes atuais
print("Obtendo posi√ß√µes dos ve√≠culos...")
positions_data = client.get_all_positions()

print(f"‚úÖ Dados obtidos: {len(positions_data.get('l', []))} linhas")

In [None]:
# Processar dados em DataFrame
vehicles_list = []

for line in positions_data.get('l', []):
    route_code = line.get('c')
    route_name = line.get('lt0', '')
    
    for vehicle in line.get('vs', []):
        vehicles_list.append({
            'vehicle_id': vehicle.get('p'),
            'route_code': route_code,
            'route_name': route_name,
            'latitude': vehicle.get('py'),
            'longitude': vehicle.get('px'),
            'has_accessibility': vehicle.get('a', False),
            'timestamp': vehicle.get('ta')
        })

df_positions = pd.DataFrame(vehicles_list)

print(f"‚úÖ DataFrame criado: {len(df_positions):,} ve√≠culos")
df_positions.head()

In [None]:
# Estat√≠sticas b√°sicas
print("üìä ESTAT√çSTICAS B√ÅSICAS")
print("="*60)
print(f"Total de ve√≠culos: {len(df_positions):,}")
print(f"Total de rotas: {df_positions['route_code'].nunique():,}")
print(f"Ve√≠culos com acessibilidade: {df_positions['has_accessibility'].sum():,} ({df_positions['has_accessibility'].mean()*100:.1f}%)")
print(f"\nDados por rota:")
print(df_positions.groupby('route_code').size().sort_values(ascending=False).head(10))

## 3. An√°lise dos Dados GTFS {#3-gtfs-data}

In [None]:
# Carregar dados GTFS
print("Carregando dados GTFS...")

gtfs_path = '../data/gtfs/'

# Routes
df_routes = pd.read_csv(f'{gtfs_path}routes.txt')
print(f"‚úÖ Routes: {len(df_routes):,} linhas")

# Stops
df_stops = pd.read_csv(f'{gtfs_path}stops.txt')
print(f"‚úÖ Stops: {len(df_stops):,} paradas")

# Trips
df_trips = pd.read_csv(f'{gtfs_path}trips.txt')
print(f"‚úÖ Trips: {len(df_trips):,} viagens")

In [None]:
# An√°lise de routes
print("üìä AN√ÅLISE DE ROTAS (GTFS)")
print("="*60)
print(f"Total de rotas: {len(df_routes):,}")
print(f"\nTipos de rota:")
print(df_routes['route_type'].value_counts())
print(f"\nTop 10 rotas por nome:")
df_routes.head(10)[['route_short_name', 'route_long_name']]

In [None]:
# An√°lise de stops (paradas)
print("üìä AN√ÅLISE DE PARADAS (GTFS)")
print("="*60)
print(f"Total de paradas: {len(df_stops):,}")

# Distribui√ß√£o geogr√°fica
print(f"\nDistribui√ß√£o Geogr√°fica:")
print(f"Latitude: {df_stops['stop_lat'].min():.4f} a {df_stops['stop_lat'].max():.4f}")
print(f"Longitude: {df_stops['stop_lon'].min():.4f} a {df_stops['stop_lon'].max():.4f}")

# Amostra
df_stops.head()

## 4. Qualidade dos Dados {#4-data-quality}

In [None]:
# Validar coordenadas das posi√ß√µes
print("üîç VALIDA√á√ÉO DE QUALIDADE - POSI√á√ïES")
print("="*60)

# Verificar coordenadas v√°lidas
valid_coords = df_positions.apply(
    lambda row: CoordinateValidator.is_valid_coordinate(row['latitude'], row['longitude']),
    axis=1
)

print(f"Coordenadas v√°lidas: {valid_coords.sum():,} ({valid_coords.mean()*100:.2f}%)")
print(f"Coordenadas inv√°lidas: {(~valid_coords).sum():,}")

# Valores nulos
print(f"\nValores nulos:")
print(df_positions.isnull().sum())

# Duplicatas
duplicates = df_positions.duplicated(subset=['vehicle_id']).sum()
print(f"\nDuplicatas (vehicle_id): {duplicates:,}")

In [None]:
# Validar paradas GTFS
print("üîç VALIDA√á√ÉO DE QUALIDADE - PARADAS (GTFS)")
print("="*60)

# Verificar coordenadas v√°lidas
valid_stops = df_stops.apply(
    lambda row: CoordinateValidator.is_valid_coordinate(row['stop_lat'], row['stop_lon'], strict=False),
    axis=1
)

print(f"Paradas com coordenadas v√°lidas: {valid_stops.sum():,} ({valid_stops.mean()*100:.2f}%)")
print(f"Paradas com coordenadas inv√°lidas: {(~valid_stops).sum():,}")

# Valores nulos
print(f"\nValores nulos nas paradas:")
print(df_stops.isnull().sum())

## 5. Visualiza√ß√µes {#5-visualizations}

In [None]:
# Distribui√ß√£o de ve√≠culos por rota (top 20)
fig, ax = plt.subplots(figsize=(14, 6))

top_routes = df_positions['route_code'].value_counts().head(20)
top_routes.plot(kind='bar', ax=ax, color='steelblue')

ax.set_title('Top 20 Rotas com Mais Ve√≠culos', fontsize=16, fontweight='bold')
ax.set_xlabel('C√≥digo da Rota', fontsize=12)
ax.set_ylabel('N√∫mero de Ve√≠culos', fontsize=12)
ax.grid(axis='y', alpha=0.3)

plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

print(f"‚úÖ Visualiza√ß√£o gerada: Top 20 rotas")

In [None]:
# Mapa de calor - Distribui√ß√£o geogr√°fica de ve√≠culos
fig, ax = plt.subplots(figsize=(12, 10))

# Plotar posi√ß√µes dos ve√≠culos
scatter = ax.scatter(
    df_positions['longitude'],
    df_positions['latitude'],
    c='red',
    alpha=0.3,
    s=10,
    label='Ve√≠culos'
)

# Plotar paradas
ax.scatter(
    df_stops['stop_lon'],
    df_stops['stop_lat'],
    c='blue',
    alpha=0.1,
    s=2,
    label='Paradas'
)

ax.set_title('Distribui√ß√£o Geogr√°fica - Ve√≠culos e Paradas (S√£o Paulo)', fontsize=16, fontweight='bold')
ax.set_xlabel('Longitude', fontsize=12)
ax.set_ylabel('Latitude', fontsize=12)
ax.legend()
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"‚úÖ Mapa de distribui√ß√£o gerado")

In [None]:
# Acessibilidade dos ve√≠culos
fig, ax = plt.subplots(figsize=(8, 6))

accessibility_counts = df_positions['has_accessibility'].value_counts()
colors = ['#ff6b6b', '#4ecdc4']
labels = ['Sem Acessibilidade', 'Com Acessibilidade']

ax.pie(
    accessibility_counts,
    labels=labels,
    autopct='%1.1f%%',
    colors=colors,
    startangle=90,
    textprops={'fontsize': 12}
)

ax.set_title('Distribui√ß√£o de Acessibilidade nos Ve√≠culos', fontsize=16, fontweight='bold')

plt.tight_layout()
plt.show()

print(f"‚úÖ Gr√°fico de acessibilidade gerado")

## 6. Insights e Conclus√µes {#6-insights}

In [None]:
print("üìù INSIGHTS E CONCLUS√ïES")
print("="*80)

print(f"\n1Ô∏è‚É£ VOLUME DE DADOS")
print(f"   ‚Ä¢ {len(df_positions):,} ve√≠culos ativos no momento da coleta")
print(f"   ‚Ä¢ {df_positions['route_code'].nunique():,} rotas diferentes em opera√ß√£o")
print(f"   ‚Ä¢ {len(df_stops):,} paradas cadastradas no sistema GTFS")

print(f"\n2Ô∏è‚É£ QUALIDADE DOS DADOS")
valid_pct = valid_coords.mean() * 100
print(f"   ‚Ä¢ {valid_pct:.2f}% das coordenadas s√£o v√°lidas (dentro de S√£o Paulo)")
print(f"   ‚Ä¢ Taxa de nulos: {df_positions.isnull().sum().sum() / df_positions.size * 100:.2f}%")

print(f"\n3Ô∏è‚É£ ACESSIBILIDADE")
accessibility_pct = df_positions['has_accessibility'].mean() * 100
print(f"   ‚Ä¢ {accessibility_pct:.1f}% dos ve√≠culos possuem acessibilidade")

print(f"\n4Ô∏è‚É£ DISTRIBUI√á√ÉO GEOGR√ÅFICA")
print(f"   ‚Ä¢ Ve√≠culos distribu√≠dos por toda √°rea metropolitana")
print(f"   ‚Ä¢ Maior concentra√ß√£o no centro expandido")

print(f"\n5Ô∏è‚É£ RECOMENDA√á√ïES")
print(f"   ‚úÖ Dados t√™m qualidade suficiente para an√°lises")
print(f"   ‚úÖ API fornece dados em tempo real consistentes")
print(f"   ‚ö†Ô∏è  Valida√ß√£o de coordenadas √© essencial")
print(f"   ‚ö†Ô∏è  Tratamento de valores nulos necess√°rio")

print("\n" + "="*80)

---

## üìå Pr√≥ximos Passos

1. **An√°lise temporal**: Coletar dados ao longo do tempo para identificar padr√µes
2. **Performance**: An√°lise de velocidades e tempos de viagem
3. **Headway**: Calcular intervalos entre √¥nibus
4. **Integra√ß√£o**: Cruzar dados de API com GTFS para enriquecimento
5. **ML**: Modelos preditivos de atrasos e demanda

---

**Notebook criado por:** Rafael - SPTrans Data Team  
**Data:** Janeiro 2025  
**Vers√£o:** 1.0