In [6]:
import os
from typing import Annotated

from fastapi import APIRouter, status
from fastapi.params import Query

from bdi_api.settings import Settings

import requests
import os

In [20]:
# Exemplo mínimo para teste
flights_teste = {
    "ac": [
        {
            "lat": -23.5505,
            "lon": -46.6333,
            "flight": "TAM1234",
            "alt_baro": 35000
        },
        {
            "lat": -23.6505,
            "lon": -46.7333,
            "flight": "GOL5678",
            "alt_baro": 28000
        }
    ]
}

# Criar e salvar o mapa
map_flights = create_flight_map(flights_teste)
map_flights.save('flights_visualizations/flights_visualizations/flights_map.html')

KeyError: 'aircraft'

In [25]:
def create_flight_map(flights_data):
    """
    Cria um mapa com os voos usando Folium
    """
    # Calcular centro do mapa baseado na média das coordenadas
    lats = [flight['lat'] for flight in flights_data['aircraft'] if 'lat' in flight]
    lons = [flight['lon'] for flight in flights_data['aircraft'] if 'lon' in flight]
    
    if lats and lons:  # Verificar se há coordenadas válidas
        center_lat = sum(lats) / len(lats)
        center_lon = sum(lons) / len(lons)
    else:
        # Coordenadas padrão caso não haja dados válidos
        center_lat, center_lon = 0, 0

    # Criar mapa
    flight_map = folium.Map(location=[center_lat, center_lon], zoom_start=6)
    
    # Adicionar marcadores para cada voo
    for flight in flights_data['aircraft']:
        if 'lat' in flight and 'lon' in flight:
            # Criar popup com informações do voo
            popup_text = f"""
            Flight: {flight.get('flight', 'N/A')}
            Altitude: {flight.get('alt_baro', 'N/A')} ft
            Speed: {flight.get('gs', 'N/A')} kts
            Aircraft: {flight.get('t', 'N/A')}
            """
            
            folium.Marker(
                [flight['lat'], flight['lon']],
                popup=popup_text,
                icon=folium.Icon(color='red', icon='plane', prefix='fa')
            ).add_to(flight_map)
    
    return flight_map




In [26]:
import json


def read_flights_data(file_path):
    """
    Lê um arquivo JSON contendo dados de voos e retorna seu conteúdo.
    
    Parâmetros:
        file_path (str): Caminho para o arquivo JSON
        
    Retorna:
        dict: Dicionário contendo os dados dos voos
    """
    try:
        # Abrimos o arquivo em modo texto ('r') com codificação UTF-8
        with open(file_path, 'r', encoding='utf-8') as file:
            # json.load() converte o conteúdo JSON em um objeto Python
            data = json.load(file)
            return data
            
    except FileNotFoundError:
        # Caso o arquivo não seja encontrado
        print(f"Erro: O arquivo {file_path} não foi encontrado.")
        raise
        
    except json.JSONDecodeError:
        # Caso o arquivo não seja um JSON válido
        print(f"Erro: O arquivo {file_path} não contém um JSON válido.")
        raise
        
    except Exception as e:
        # Para outros tipos de erro que possam ocorrer
        print(f"Erro inesperado ao ler o arquivo: {str(e)}")
        raise



In [29]:
flights_data = read_flights_data('data/000010Z.json.gz')

flights_data


{'now': 1698796809.3,
 'messages': 1105437409,
 'aircraft': [{'hex': 'a65800',
   'type': 'adsc',
   'flight': 'DL295   ',
   'r': 'N508DN',
   't': 'A359',
   'alt_baro': 39996,
   'gs': 454.0,
   'track': 244.71,
   'baro_rate': -16,
   'lat': 46.57774,
   'lon': -178.413162,
   'nic': 0,
   'rc': 0,
   'seen_pos': 200.091,
   'alert': 0,
   'spi': 0,
   'mlat': [],
   'tisb': [],
   'messages': 31181264,
   'seen': 200.1,
   'rssi': -49.5},
  {'hex': 'ab5c12',
   'type': 'adsc',
   'flight': 'AA281   ',
   'r': 'N831AA',
   't': 'B789',
   'alt_baro': 37004,
   'gs': 450.0,
   'track': 254.26,
   'baro_rate': -16,
   'lat': 46.60675,
   'lon': -177.535114,
   'nic': 0,
   'rc': 0,
   'seen_pos': 42.497,
   'alert': 0,
   'spi': 0,
   'mlat': [],
   'tisb': [],
   'messages': 35005653,
   'seen': 42.5,
   'rssi': -49.5},
  {'hex': '76cdb7',
   'type': 'adsc',
   'flight': 'SQ31    ',
   'r': '9V-SMW',
   't': 'A359',
   'alt_baro': 38000,
   'gs': 442.0,
   'track': 251.77,
   'baro_

In [37]:
flight_map = create_flight_map(flights_data)
flight_map.save('flights_visualizations/flights_map.html')


AttributeError: 'NoneType' object has no attribute 'save'

In [5]:
settings = Settings()


s1 = APIRouter(
    responses={
        status.HTTP_404_NOT_FOUND: {"description": "Not found"},
        status.HTTP_422_UNPROCESSABLE_ENTITY: {"description": "Something is wrong with the request"},
    },
    prefix="/api/s1",
    tags=["s1"],
)

In [None]:
import json


def read_flights_data(file_path):
    """
    Lê um arquivo JSON contendo dados de voos e retorna seu conteúdo.
    
    Parâmetros:
        file_path (str): Caminho para o arquivo JSON
        
    Retorna:
        dict: Dicionário contendo os dados dos voos
    """
    try:
        # Abrimos o arquivo em modo texto ('r') com codificação UTF-8
        with open(file_path, 'r', encoding='utf-8') as file:
            # json.load() converte o conteúdo JSON em um objeto Python
            data = json.load(file)
            return data
            
    except FileNotFoundError:
        # Caso o arquivo não seja encontrado
        print(f"Erro: O arquivo {file_path} não foi encontrado.")
        raise
        
    except json.JSONDecodeError:
        # Caso o arquivo não seja um JSON válido
        print(f"Erro: O arquivo {file_path} não contém um JSON válido.")
        raise
        
    except Exception as e:
        # Para outros tipos de erro que possam ocorrer
        print(f"Erro inesperado ao ler o arquivo: {str(e)}")
        raise



In [100]:
import json
import glob

@s1.post("/aircraft/download")
def download_data(
    file_limit: Annotated[
        int,
        Query(
            ...,
            description="""
    Limits the number of files to download.
    You must always start from the first the page returns and
    go in ascending order in order to correctly obtain the results.
    I'll test with increasing number of files starting from 100.""",
        ),
    ] = 100,
) -> str:
    """Downloads the `file_limit` files AS IS inside the folder data/20231101

    data: https://samples.adsbexchange.com/readsb-hist/2023/11/01/
    documentation: https://www.adsbexchange.com/version-2-api-wip/
        See "Trace File Fields" section

    Think about the way you organize the information inside the folder
    and the level of preprocessing you might need.

    To manipulate the data use any library you feel comfortable with.
    Just make sure to configure it in the `pyproject.toml` file
    so it can be installed using `poetry update`.


    TIP: always clean the download folder before writing again to avoid having old files.
    """
    download_dir = os.path.join(settings.raw_dir, "day=20231101")
    base_url = settings.source_url + "/2023/11/01/"

    os.makedirs(download_dir, exist_ok=True)
    # Remove todos os arquivos .gz dentro do diretório
    for f in glob.glob(os.path.join(download_dir, "*.gz")):
        os.remove(f)
    params = {
        "file_limit": file_limit,
    }

    headers = {
        "accept": "application/json",
    }

    number = 0
    for _ in range(file_limit):
        file_name = f"{str(number).zfill(6)}Z.json.gz"
        file_url = f"{base_url}/{file_name}"

        response = requests.get(file_url) # , params=params, headers=headers

        file_path = os.path.join(download_dir, file_name)
        print(f'i: {number} ')
        print(f'file name: {file_name} ')


        if response.status_code == 200:  
            print('response = 200')
            with open(file_path, 'w') as f:
                json.dump(response.json(), f)
                print('arquivo criado')
            number = number + 45 if number % 100 == 55 else number + 5

    

    return 'OK'

In [101]:
download_data(file_limit=100)

i: 0 
file name: 000000Z.json.gz 
response = 200
arquivo criado
i: 5 
file name: 000005Z.json.gz 
response = 200
arquivo criado
i: 10 
file name: 000010Z.json.gz 
response = 200
arquivo criado
i: 15 
file name: 000015Z.json.gz 
response = 200
arquivo criado
i: 20 
file name: 000020Z.json.gz 
response = 200
arquivo criado
i: 25 
file name: 000025Z.json.gz 
response = 200
arquivo criado
i: 30 
file name: 000030Z.json.gz 
response = 200
arquivo criado
i: 35 
file name: 000035Z.json.gz 
response = 200
arquivo criado
i: 40 
file name: 000040Z.json.gz 
response = 200
arquivo criado
i: 45 
file name: 000045Z.json.gz 
response = 200
arquivo criado
i: 50 
file name: 000050Z.json.gz 
response = 200
arquivo criado
i: 55 
file name: 000055Z.json.gz 
response = 200
arquivo criado
i: 100 
file name: 000100Z.json.gz 
response = 200
arquivo criado
i: 105 
file name: 000105Z.json.gz 
response = 200
arquivo criado
i: 110 
file name: 000110Z.json.gz 
response = 200
arquivo criado
i: 115 
file name: 00011

OSError: [Errno 28] No space left on device: '/Users/flor/Documents/BTS - Barcelona /Disciplinas/Big Data Infrastructure/big-data-infrastructure-exercises/data/raw/day=20231101/000210Z.json.gz'

In [None]:
import json


def read_flights_data(file_path):
    """
    Lê um arquivo JSON contendo dados de voos e retorna seu conteúdo.
    
    Parâmetros:
        file_path (str): Caminho para o arquivo JSON
        
    Retorna:
        dict: Dicionário contendo os dados dos voos
    """
    try:
        # Abrimos o arquivo em modo texto ('r') com codificação UTF-8
        with open(file_path, 'r', encoding='utf-8') as file:
            # json.load() converte o conteúdo JSON em um objeto Python
            data = json.load(file)
            return data
            
    except FileNotFoundError:
        # Caso o arquivo não seja encontrado
        print(f"Erro: O arquivo {file_path} não foi encontrado.")
        raise
        
    except json.JSONDecodeError:
        # Caso o arquivo não seja um JSON válido
        print(f"Erro: O arquivo {file_path} não contém um JSON válido.")
        raise
        
    except Exception as e:
        # Para outros tipos de erro que possam ocorrer
        print(f"Erro inesperado ao ler o arquivo: {str(e)}")
        raise



In [None]:
import json


def read_flights_data(file_path):
    """
    Lê um arquivo JSON contendo dados de voos e retorna seu conteúdo.
    
    Parâmetros:
        file_path (str): Caminho para o arquivo JSON
        
    Retorna:
        dict: Dicionário contendo os dados dos voos
    """
    try:
        # Abrimos o arquivo em modo texto ('r') com codificação UTF-8
        with open(file_path, 'r', encoding='utf-8') as file:
            # json.load() converte o conteúdo JSON em um objeto Python
            data = json.load(file)
            return data
            
    except FileNotFoundError:
        # Caso o arquivo não seja encontrado
        print(f"Erro: O arquivo {file_path} não foi encontrado.")
        raise
        
    except json.JSONDecodeError:
        # Caso o arquivo não seja um JSON válido
        print(f"Erro: O arquivo {file_path} não contém um JSON válido.")
        raise
        
    except Exception as e:
        # Para outros tipos de erro que possam ocorrer
        print(f"Erro inesperado ao ler o arquivo: {str(e)}")
        raise



In [27]:
def download_data(file_limit: Annotated[int, Query(...)] = 100) -> dict:
    download_dir = os.path.join(settings.raw_dir, "day=20231101")
    base_url = settings.source_url + "/2023/11/01"
    
    os.makedirs(download_dir, exist_ok=True)
    
    downloaded_files = []
    errors = []

    for i in range(0, file_limit*5, 5):  
        file_name = f"{i:06d}.json"
        file_url = f"{base_url}/{file_name}"
        
        try:
            response = requests.get(file_url)
            
            # Imprimir informações de debug
            print(f"URL: {file_url}")
            print(f"Status Code: {response.status_code}")
            print(f"Content Type: {response.headers.get('content-type', 'No content-type')}")
            print(f"First 200 chars of response: {response.text[:200]}\n")
            
            if response.status_code == 200:
                # Verificar se o conteúdo é realmente JSON
                try:
                    json_content = response.json()
                    # Se chegou aqui, é um JSON válido
                    file_path = os.path.join(download_dir, file_name)
                    with open(file_path, 'w') as f:
                        json.dump(json_content, f)
                    downloaded_files.append(file_name)
                except requests.exceptions.JSONDecodeError:
                    errors.append(f"File {file_name} is not valid JSON")
            else:
                errors.append(f"Failed to download {file_name}. Status code: {response.status_code}")
                
        except Exception as e:
            errors.append(f"Error processing {file_name}: {str(e)}")
    
    return {
        "message": f"Downloaded {len(downloaded_files)} files",
        "files": downloaded_files,
        "errors": errors
    }

In [4]:
import pandas as pd
import duckdb  

#@s1.post("/aircraft/prepare")
def prepare_data() -> str:
    """Prepara os dados para análise eficiente"""

    
    # Diretórios
    raw_dir = os.path.join(settings.raw_dir, "day=20231101")
    prepared_dir = os.path.join(settings.prepared_dir, "day=20231101")
    
    # Limpar diretório prepared
    if os.path.exists(prepared_dir):
        shutil.rmtree(prepared_dir)
    os.makedirs(prepared_dir)
    
    # Processar todos os arquivos
    all_data = []
    for file in glob.glob(os.path.join(raw_dir, "*.gz")):
        with open(file) as f:
            data = json.load(f)
            df = pd.DataFrame(data)
            all_data.append(df)
    
    # Combinar todos os dados
    df = pd.concat(all_data)
    
    # 1. Preparar dados de aeronaves (para list_aircraft)
    aircraft_info = df[['icao', 'registration', 'type']].drop_duplicates()
    aircraft_info = aircraft_info.sort_values('icao')
    
    # 2. Preparar posições (para get_aircraft_position)
    positions = df[['icao', 'timestamp', 'lat', 'lon']].sort_values(['icao', 'timestamp'])
    
    # 3. Preparar estatísticas (para get_aircraft_statistics)
    stats = df.groupby('icao').agg({
        'alt_baro': 'max',  # max_altitude_baro
        'gs': 'max',        # max_ground_speed
        'emergency': lambda x: any(x == '1')  # had_emergency
    }).reset_index()
    
    # Salvar em formato parquet (eficiente para consultas)
    aircraft_info.to_parquet(os.path.join(prepared_dir, 'aircraft_info.parquet'))
    positions.to_parquet(os.path.join(prepared_dir, 'positions.parquet'))
    stats.to_parquet(os.path.join(prepared_dir, 'statistics.parquet'))
    
    # Criar índices usando DuckDB para consultas mais rápidas
    con = duckdb.connect(os.path.join(prepared_dir, 'aircraft.db'))
    
    # Criar tabelas otimizadas
    con.execute("""
        CREATE TABLE aircraft AS 
        SELECT * FROM read_parquet('aircraft_info.parquet');
        
        CREATE TABLE positions AS 
        SELECT * FROM read_parquet('positions.parquet');
        
        CREATE TABLE stats AS 
        SELECT * FROM read_parquet('statistics.parquet');
        
        -- Criar índices
        CREATE INDEX idx_aircraft_icao ON aircraft(icao);
        CREATE INDEX idx_positions_icao ON positions(icao);
        CREATE INDEX idx_stats_icao ON stats(icao);
    """)
    con.close()
    
    return "OK"

In [5]:
prepare_data()

NameError: name 'settings' is not defined

In [8]:
"""Prepara os dados para análise eficiente"""

raw_dir = os.path.join(settings.raw_dir, "day=20231101")
prepared_dir = os.path.join(settings.prepared_dir, "day=20231101")

os.makedirs(prepared_dir, exist_ok=True)
for f in glob.glob(os.path.join(prepared_dir, "*.gz")):
    os.remove(f)


# Processar todos os arquivos
all_data = []
for file in glob.glob(os.path.join(raw_dir, "*.gz")):
    with open(file) as f:
        data = json.load(f)
        # Pegar o timestamp do arquivo
        timestamp = data['now']
        aircraft_list = data['aircraft']
        # Criar DataFrame e adicionar o timestamp
        df = pd.DataFrame(aircraft_list)
        df['timestamp'] = timestamp
        all_data.append(df)

# Combinar todos os dados
df = pd.concat(all_data)

# data for list_aircraft

aircraft_info = df[['hex', 'r', 't']].drop_duplicates()
aircraft_info = aircraft_info.sort_values('hex')
aircraft_info.columns = ['icao', 'registration', 'type']  
aircraft_info.to_csv(os.path.join(prepared_dir, 'aircraft_info.csv'), index=False)


#data for get airline position

positions = df[['hex', 'timestamp', 'lat', 'lon']].sort_values(['hex', 'timestamp'])
positions.columns = ['icao', 'timestamp', 'lat', 'lon'] 
positions.to_csv(os.path.join(prepared_dir, 'positions.csv'), index=False)



#data for get_aircraft_statistics
df['emergency'] = df['emergency'].fillna('none')

df['had_emergency'] = df['emergency'] != 'none'
df['alt_baro'] = pd.to_numeric(df['alt_baro'], errors='coerce')
df['gs'] = pd.to_numeric(df['gs'], errors='coerce')
df['had_emergency'] = df['had_emergency'].astype(bool)

stats = df.groupby('hex').agg({
    'alt_baro': 'max',
    'gs': 'max',
    'had_emergency': 'max'
}).reset_index()

stats.columns = ['icao', 'max_altitude_baro', 'max_ground_speed', 'had_emergency']
stats.to_csv(os.path.join(prepared_dir, 'statistics.csv'), index=False)



TypeError: expected str, bytes or os.PathLike object, not property

In [3]:
import os
def count_raw_files():
    raw_dir = '/Users/flor/Documents/BTS - Barcelona /Disciplinas/Big Data Infrastructure/big-data-infrastructure-exercises/data/raw/day=20231101'
    return len([f for f in os.listdir(raw_dir) if os.path.isfile(os.path.join(raw_dir, f))])


count_raw_files()

715