In [1]:
import sys
print(sys.executable)

c:\Users\jhon1\data\.venv\Scripts\python.exe


In [2]:
# Importação das bibliotecas:
import pandas as pd
import numpy as np
from datetime import datetime
from geopy.geocoders import Nominatim
import requests
import time
import pytz

In [3]:
# Função para converter datas e corrigir valores inválidos
def clean_and_convert(df, date_column, datetime_format="%Y-%m-%dT%H:%M:%S%z"):
    # Converter colunas de data para datetime timezone-aware
    df[date_column] = pd.to_datetime(df[date_column], errors='coerce', format=datetime_format)
    
    # Substituir valores inválidos por NULL (NaN)
    df.replace({"N/D": np.nan, "-": np.nan, "": np.nan}, inplace=True)
    
    # Convertendo vírgulas para ponto e depois para float nas colunas numéricas
    for col in df.select_dtypes(include=[object]).columns:
        # Tratar a coluna 'wind' para extrair apenas o valor numérico
        if col == 'wind':
            df[col] = df[col].str.extract(r'([0-9,\.]+)').replace(',', '.', regex=True).astype(float)
        else:
            if df[col].str.contains(',').any():
                df[col] = df[col].str.replace(',', '.').astype(float)
    
    # Normalizando os nomes das colunas para snake_case
    df.columns = [col.lower().replace(" ", "_") for col in df.columns]
    
    return df


In [4]:
# Função de filtragem temporal
def filter_by_date(df, start_date, end_date):
    # Converter as datas para o intervalo desejado
    df['read_at'] = pd.to_datetime(df['read_at'], errors='coerce')
    df = df[df['read_at'].between(start_date, end_date)]
    return df

In [5]:
# Acessar os dados de meteorologia diretamente do JSON
features = [
    {'geometry': {'type': 'Point', 'coordinates': [-43.233056, -22.9925]}, 'type': 'Feature', 'properties': {'data': {'temperature': '-', 'min': '-', 'max': '-', 'humidity': '-', 'pressure': '-', 'wind': '14,4 (N)'}, 'station': {'id': 1, 'name': 'Vidigal'}, 'type': 'text', 'read_at': '2025-05-12T18:55:00-03:00'}},
    {'geometry': {'type': 'Point', 'coordinates': [-43.336944, -22.826944]}, 'type': 'Feature', 'properties': {'data': {'temperature': '23,6', 'min': '19,1', 'max': '28,0', 'humidity': '85', 'pressure': '-', 'wind': '-'}, 'station': {'id': 11, 'name': 'Irajá'}, 'type': 'text', 'read_at': '2025-05-12T18:55:00-03:00'}},
    {'geometry': {'type': 'Point', 'coordinates': [-43.223889, -22.972778]}, 'type': 'Feature', 'properties': {'data': {'temperature': '22,9', 'min': '19,1', 'max': '27,1', 'humidity': '100', 'pressure': '-', 'wind': '-'}, 'station': {'id': 16, 'name': 'Jardim Botânico'}, 'type': 'text', 'read_at': '2025-05-12T18:55:00-03:00'}}
]

In [6]:
# Convertendo para DataFrame
df_meteorologia = pd.DataFrame(features)

# Extraindo os dados relevantes
df_meteorologia_extracted = pd.DataFrame({
    'longitude': df_meteorologia['geometry'].apply(lambda x: x['coordinates'][0]),
    'latitude': df_meteorologia['geometry'].apply(lambda x: x['coordinates'][1]),
    'temperature': df_meteorologia['properties'].apply(lambda x: x['data']['temperature']),
    'humidity': df_meteorologia['properties'].apply(lambda x: x['data']['humidity']),
    'wind': df_meteorologia['properties'].apply(lambda x: x['data']['wind']),
    'station': df_meteorologia['properties'].apply(lambda x: x['station']['name']),
    'read_at': df_meteorologia['properties'].apply(lambda x: x['read_at']),
})

# Limpeza e conversão dos dados
df_meteorologia_cleaned = clean_and_convert(df_meteorologia_extracted, 'read_at')

In [7]:
# Filtrando os dados com base no intervalo de datas (por exemplo, entre 2025-05-12T00:00:00 e 2025-05-12T23:59:59)
start_date = '2025-05-12T00:00:00-03:00'
end_date = '2025-05-12T23:59:59-03:00'
df_meteorologia_cleaned = filter_by_date(df_meteorologia_cleaned, start_date, end_date)

In [10]:
# Persistência em Parquet
# Adicionando uma coluna de data_evento para partição
df_meteorologia_cleaned['data_evento'] = df_meteorologia_cleaned['read_at'].dt.date

In [11]:
df_meteorologia_cleaned.head()  

Unnamed: 0,longitude,latitude,temperature,humidity,wind,station,read_at,data_evento
0,-43.233056,-22.9925,,,14.4,Vidigal,2025-05-12 18:55:00-03:00,2025-05-12
1,-43.336944,-22.826944,23.6,85.0,,Irajá,2025-05-12 18:55:00-03:00,2025-05-12
2,-43.223889,-22.972778,22.9,100.0,,Jardim Botânico,2025-05-12 18:55:00-03:00,2025-05-12


In [12]:
# Salvando em Parquet particionado por data_evento
df_meteorologia_cleaned.to_parquet('meteorologia_estacoes.parquet', partition_cols=['data_evento'])

In [None]:
# Exemplo de como salvar em um banco de dados (PostgreSQL e MySQL) para coleta incremental Conexão com o banco de dados
engine = sqlalchemy.create_engine('postgresql://username:password@localhost/dbname')

# Salvando em banco de dados, caso a tabela já exista, novos dados serão acrescidos
df_meteorologia_cleaned.to_sql('meteorologia_estacoes', con=engine, if_exists='append', index=False)