In [34]:
import pandas as pd
from sqlalchemy import create_engine

def enviar_para_postgres(parquet_file):
    """
    Lê um arquivo Parquet, conecta-se ao PostgreSQL e envia os dados para a tabela 'notificacoes'.
    
    Args:
        parquet_file (str): Caminho para o arquivo Parquet.
    """
    # Detalhes do banco de dados
    db_url = "postgresql://u_grupo04:grupo04@200.144.245.12:65432/db_grupo04"

    # Ler o arquivo Parquet em um DataFrame
    df = pd.read_parquet(parquet_file)

    # Configuração do pool de conexões
    engine = create_engine(db_url, pool_size=5, max_overflow=0)

    try:
        # Enviar o DataFrame para o banco de dados
        df.to_sql('notificacoes', engine, if_exists='replace', index=False)
        print("Dados enviados para a tabela 'notificacoes' no PostgreSQL com sucesso!")
    except Exception as e:
        print(f"Erro ao enviar dados para o PostgreSQL: {e}")
    finally:
        # Liberar o pool de conexões
        engine.dispose()

# Exemplo de uso:
parquet_file = "C:/Users/celso/Desktop/WIKI_DENGUE/lab-soft-wiki/encyclopedia/data_analytics/Sisaweb/notificacoes_count.parquet"
enviar_para_postgres(parquet_file)


Erro ao enviar dados para o PostgreSQL: Can't reconnect until invalid transaction is rolled back.  Please rollback() fully before proceeding (Background on this error at: https://sqlalche.me/e/20/8s2b)


In [1]:
import geopandas as gpd
import matplotlib.pyplot as plt
import pandas as pd
from sqlalchemy import create_engine
import re
import traceback

def plot_mapa_calor_postgres(data_inicio=None, data_fim=None):
    """
    Gera um mapa de calor de notificações por setor censitário, filtrando por intervalo de datas,
    utilizando dados do PostgreSQL.

    Args:
        data_inicio (str): Data inicial no formato 'YYYYMM' (default: None, sem filtro inferior).
        data_fim (str): Data final no formato 'YYYYMM' (default: None, sem filtro superior).
    """
    # Validação dos parâmetros de data
    date_pattern = re.compile(r'^\d{6}$')
    if data_inicio and not date_pattern.match(data_inicio):
        print("data_inicio deve estar no formato 'YYYYMM'.")
        return
    if data_fim and not date_pattern.match(data_fim):
        print("data_fim deve estar no formato 'YYYYMM'.")
        return

    # Detalhes do banco de dados
    db_url = "postgresql://u_grupo04:grupo04@200.144.245.12:65432/db_grupo04"

    # Configuração do pool de conexões com tamanho reduzido
    engine = create_engine(db_url, pool_size=1, max_overflow=2)

    try:
        with engine.connect() as connection:
            # Construção da consulta SQL com filtros de data
            query = "SELECT * FROM notificacoes"
            conditions = []
            if data_inicio:
                conditions.append(f"mes_ano >= '{data_inicio}'")
            if data_fim:
                conditions.append(f"mes_ano <= '{data_fim}'")
            if conditions:
                query += " WHERE " + " AND ".join(conditions)

            print("Executando consulta ao banco de dados...")
            df = pd.read_sql(query, connection)
            print(f"{len(df)} registros recuperados.")

        # Garantir que a coluna 'mes_ano' seja string
        df['mes_ano'] = df['mes_ano'].astype(str)

        # Conversão da coluna 'geometry' de WKB para geometria
        try:
            df['geometry'] = gpd.GeoSeries.from_wkb(df['geometry'])
        except Exception as e:
            print(f"Erro ao converter a geometria: {e}")
            traceback.print_exc()
            return

        # Converter para GeoDataFrame
        gdf = gpd.GeoDataFrame(df, geometry='geometry')

        # Agrupar os dados por setor censitário, somando as notificações
        gdf_agrupado = gdf.groupby('censitario').agg({
            'notificacoes': 'sum',
            'geometry': 'first'  # Preservar a geometria do setor censitário
        }).reset_index()

        # Criar um GeoDataFrame para visualização
        gdf_agrupado = gpd.GeoDataFrame(gdf_agrupado, geometry='geometry')

        # Verificar se o GeoDataFrame não está vazio
        if gdf_agrupado.empty:
            print("Aviso: O GeoDataFrame está vazio. Verifique os filtros aplicados.")
            return

        # Configurar o plot
        fig, ax = plt.subplots(1, 1, figsize=(12, 8))
        gdf_agrupado.plot(
            column='notificacoes',
            cmap='OrRd',  # Mapa de cores
            legend=True,
            legend_kwds={'label': "Número de Notificações por Setor Censitário"},
            ax=ax
        )

        # Adicionar título e ajustar layout
        ax.set_title("Mapa de Calor - Notificações por Setor Censitário", fontsize=16)
        ax.set_axis_off()

        # Exibir o mapa
        plt.show()

    except Exception as e:
        print(f"Erro ao criar o mapa: {e}")
        traceback.print_exc()
    finally:
        # Liberar o pool de conexões
        engine.dispose()

# Exemplo de uso:
data_inicio = "202201"  # Data inicial no formato YYYYMM
data_fim = "202212"     # Data final no formato YYYYMM
plot_mapa_calor_postgres(data_inicio=data_inicio, data_fim=data_fim)


Executando consulta ao banco de dados...
12303 registros recuperados.
Erro ao converter a geometria: ParseException: Unknown WKB type 408


Traceback (most recent call last):
  File "C:\Users\celso\AppData\Local\Temp\ipykernel_26432\1143841967.py", line 53, in plot_mapa_calor_postgres
    df['geometry'] = gpd.GeoSeries.from_wkb(df['geometry'])
  File "c:\Users\celso\Desktop\WIKI_DENGUE\lab-soft-wiki\venv\lib\site-packages\geopandas\geoseries.py", line 420, in from_wkb
    return cls._from_wkb_or_wkt(
  File "c:\Users\celso\Desktop\WIKI_DENGUE\lab-soft-wiki\venv\lib\site-packages\geopandas\geoseries.py", line 554, in _from_wkb_or_wkt
    from_wkb_or_wkt_function(data, crs=crs, on_invalid=on_invalid),
  File "c:\Users\celso\Desktop\WIKI_DENGUE\lab-soft-wiki\venv\lib\site-packages\geopandas\array.py", line 215, in from_wkb
    return GeometryArray(shapely.from_wkb(data, on_invalid=on_invalid), crs=crs)
  File "c:\Users\celso\Desktop\WIKI_DENGUE\lab-soft-wiki\venv\lib\site-packages\shapely\io.py", line 320, in from_wkb
    return lib.from_wkb(geometry, invalid_handler, **kwargs)
shapely.errors.GEOSException: ParseException: Un

In [8]:
import geopandas as gpd
import pandas as pd
import plotly.express as px
from sqlalchemy import create_engine

def plot_mapa_calor_interativo_postgres(
    db_url,
    outlier_threshold_factor=3,
    data_inicio=None,
    data_fim=None,
    output_html="heatmap_plotly_from_db.html"
):
    """
    Gera um mapa de calor interativo de notificações por setor censitário, filtrando por intervalo de datas
    e tratando outliers. Os dados são lidos do banco de dados PostgreSQL.
    
    Args:
        db_url (str): URL de conexão com o banco de dados PostgreSQL.
        outlier_threshold_factor (float): Fator de multiplicação para determinar outliers.
        data_inicio (str): Data inicial no formato 'YYYYMM' (default: None, sem filtro inferior).
        data_fim (str): Data final no formato 'YYYYMM' (default: None, sem filtro superior).
        output_html (str): Caminho para salvar o arquivo HTML do mapa (default: "heatmap_plotly_from_db.html").
    """
    # Conexão ao banco de dados
    engine = create_engine(db_url)
    
    # Construir consulta SQL com filtro de datas e conversão para WKT
    query = """
        SELECT 
            censitario, 
            notificacoes, 
            ST_AsText(geometry) AS geometry, 
            mes_ano 
        FROM notificacoes
    """
    if data_inicio or data_fim:
        conditions = []
        if data_inicio:
            conditions.append(f"mes_ano >= '{data_inicio}'")
        if data_fim:
            conditions.append(f"mes_ano <= '{data_fim}'")
        query += " WHERE " + " AND ".join(conditions)
    
    print("Executando consulta ao banco de dados...")
    df = pd.read_sql(query, engine)
    print(f"{len(df)} registros recuperados.")
    
    # Converter 'geometry' para GeoSeries usando WKT
    try:
        df['geometry'] = gpd.GeoSeries.from_wkt(df['geometry'])
    except Exception as e:
        print(f"Erro ao converter a geometria: {e}")
        return
    
    # Converter para GeoDataFrame
    gdf = gpd.GeoDataFrame(df, geometry='geometry', crs="EPSG:4326")
    
    # Agrupar os dados por setor censitário
    gdf_agrupado = gdf.groupby('censitario').agg({
        'notificacoes': 'sum',
        'geometry': 'first'
    }).reset_index()
    
    # Garantir que 'geometry' seja GeoSeries no GeoDataFrame resultante
    gdf_agrupado = gpd.GeoDataFrame(gdf_agrupado, geometry='geometry', crs="EPSG:4326")
    
    # Calcular limites para outliers
    q1 = gdf_agrupado['notificacoes'].quantile(0.25)
    q3 = gdf_agrupado['notificacoes'].quantile(0.75)
    iqr = q3 - q1
    outlier_threshold = q3 + outlier_threshold_factor * iqr
    
    # Identificar outliers e criar uma coluna de flag
    gdf_agrupado['is_outlier'] = gdf_agrupado['notificacoes'] > outlier_threshold
    
    # Extrair coordenadas para o Plotly
    gdf_agrupado['lon'] = gdf_agrupado.geometry.centroid.x
    gdf_agrupado['lat'] = gdf_agrupado.geometry.centroid.y
    
    # Configurar o centro e o zoom do mapa
    center_lat = gdf_agrupado['lat'].mean()
    center_lon = gdf_agrupado['lon'].mean()
    
    # Separar outliers e dados normais
    gdf_outliers = gdf_agrupado[gdf_agrupado['is_outlier']]
    gdf_normal = gdf_agrupado[~gdf_agrupado['is_outlier']]
    
    # Criar mapa interativo
    fig = px.scatter_mapbox(
        gdf_normal,
        lat='lat',
        lon='lon',
        color='notificacoes',
        size='notificacoes',
        size_max=15,
        mapbox_style="carto-positron",
        color_continuous_scale="Reds",
        hover_data={'notificacoes': True, 'censitario': True},
        title="Mapa de Calor - Notificações de Dengue",
        center=dict(lat=center_lat, lon=center_lon),
        zoom=12
    )
    
    # Adicionar outliers
    if not gdf_outliers.empty:
        fig.add_scattermapbox(
            lat=gdf_outliers['lat'],
            lon=gdf_outliers['lon'],
            mode='markers',
            marker=dict(size=10, color='black', opacity=0.7),
            name='Outliers'
        )
    
    # Atualizar layout
    fig.update_layout(
        legend=dict(title="Legenda"),
        margin=dict(l=10, r=10, t=30, b=10),
    )
    
    # Salvar como HTML otimizado
    fig.write_html(output_html, include_plotlyjs='cdn')
    print(f"Mapa salvo como {output_html}")

# Exemplo de uso
db_url = "postgresql://u_grupo04:grupo04@200.144.245.12:65432/db_grupo04"
data_inicio = "202201"
data_fim = "202212"

plot_mapa_calor_interativo_postgres(db_url, data_inicio=data_inicio, data_fim=data_fim)


Executando consulta ao banco de dados...


ProgrammingError: (psycopg2.errors.UndefinedFunction) function st_astext(text) does not exist
LINE 5:             ST_AsText(geometry) AS geometry, 
                    ^
HINT:  No function matches the given name and argument types. You might need to add explicit type casts.

[SQL: 
        SELECT 
            censitario, 
            notificacoes, 
            ST_AsText(geometry) AS geometry, 
            mes_ano 
        FROM notificacoes
     WHERE mes_ano >= '202201' AND mes_ano <= '202212']
(Background on this error at: https://sqlalche.me/e/20/f405)