# 3. Processamento e Pr√©-processamento de Dados Geoespaciais
Nesta se√ß√£o, vamos explorar opera√ß√µes fundamentais de pr√©-processamento de dados geoespaciais, essenciais para preparar os dados para an√°lises e modelagens mais avan√ßadas. Cada t√≥pico ser√° acompanhado de uma aplica√ß√£o pr√°tica.

### 3.1 Geocoding e Geocoding Reverso
O geocoding √© o processo de converter um endere√ßo (como "Cristo Redentor, Rio de Janeiro") em coordenadas geogr√°ficas (latitude e longitude). J√° o geocoding reverso realiza o caminho oposto: ele transforma coordenadas em um endere√ßo textual.

##### Geocoding: endere√ßo -> coordenadas

In [None]:
from geopy.geocoders import Nominatim # Servico de Geocoding fornecido pelo OpenSteetMap

geolocator = Nominatim(user_agent="geoapi") # 
location = geolocator.geocode("Cristo Redentor, Rio de Janeiro")

print("Coordenadas do Cristo Redentor:")
print(f"Latitude: {location.latitude}, Longitude: {location.longitude}")


#### Geocoding Reverso: coordenadas -> endere√ßo

In [None]:
reverse_location = geolocator.reverse((location.latitude, location.longitude), language="pt")
print("\nEndere√ßo reverso aproximado:")
print(reverse_location.address)


#### Depois de converter um endere√ßo em coordenadas geogr√°ficas (geocoding),podemos plotar o ponto em mapa com `folium`.

In [None]:

m = folium.Map(location=[location.latitude, location.longitude], zoom_start=15)
folium.Marker([location.latitude, location.longitude], popup='Cristo Redentor').add_to(m)
m

Nesta se√ß√£o, vamos transformar endere√ßos de im√≥veis em coordenadas geogr√°ficas (latitude/longitude), e utilizar esses dados para fazer an√°lises espaciais de pre√ßos.

O dataset cont√©m informa√ß√µes sobre revenda de apartamentos p√∫blicos (HDB flats) em Singapura. Vamos:

- üß≠ Geocodificar os endere√ßos
- üìç Mapear os im√≥veis no espa√ßo
- üìä Analisar a varia√ß√£o de pre√ßos por localiza√ß√£o

Este script abaixo automatiza o geocoding de endere√ßos no dataset de im√≥veis sg-resale-flat-prices-2017-onwards.csv, transformando cada endere√ßo em coordenadas geogr√°ficas (latitude e longitude).

Ele eh necessario pois como a API do OpenStreetMap limita 60 requisicoes por minuto, eh necessario pre-processar e criar o dataset em que faremos as analises.


In [None]:
import pandas as pd
import time
from geopy.geocoders import Nominatim
from geopy.extra.rate_limiter import RateLimiter

rodar = False
if rodar:
    # Carregar dataset original
    df = pd.read_csv("datasets/Singapore/sg-resale-flat-prices-2017-onwards.csv")
    df["endereco"] = df["block"] + " " + df["street_name"] + ", " + df["town"] + ", Singapore"
    
    # Geocodificador
    geolocator = Nominatim(user_agent="geoapi_sg_full")
    geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1)
    
    # Tentar carregar resultados anteriores
    try:
        df_geo = pd.read_csv("datasets/Singapore/geocodificados.csv")
        processados = set(df_geo["endereco"])
        print(f"Retomando, {len(processados)} endere√ßos j√° processados.")
    except FileNotFoundError:
        df_geo = pd.DataFrame()
        processados = set()
    
    novos = []
    batch_size = 50
    pause_seconds = 60
    
    # Iniciar processamento por blocos
    for i, row in df.iterrows():
        endereco = row["endereco"]
        if endereco in processados:
            continue
        
        try:
            location = geocode(endereco)
            lat = location.latitude if location else None
            lon = location.longitude if location else None
        except:
            lat, lon = None, None
    
        # Copiar a linha original e adicionar coordenadas
        nova_linha = row.copy()
        nova_linha["latitude"] = lat
        nova_linha["longitude"] = lon
        novos.append(nova_linha)
    
        print(f"{len(novos)} -> {endereco} => ({lat}, {lon})")
    
        if len(novos) % batch_size == 0:
            df_novos = pd.DataFrame(novos)
            df_geo = pd.concat([df_geo, df_novos], ignore_index=True).drop_duplicates(subset=["endereco"])
            df_geo.to_csv("datasets/Singapore/geocodificados.csv", index=False)
            print(f"üìù Salvo ap√≥s {len(novos)} registros.")
            novos.clear()
            print(f"‚è∏Ô∏è Pausando por {pause_seconds} segundos...")
            time.sleep(pause_seconds)
    
    # Salvar o restante
    if novos:
        df_novos = pd.DataFrame(novos)
        df_geo = pd.concat([df_geo, df_novos], ignore_index=True).drop_duplicates(subset=["endereco"])
        df_geo.to_csv("datasets/Singapore/geocodificados.csv", index=False)
        print("‚úÖ Processamento finalizado.")
    

In [None]:
# Carregar os dados ja pre-processados 
df = pd.read_csv("datasets/Singapore/geocodificados.csv")

# Amostrar para testes r√°pidos
df_amostra = df.sample(n=30, random_state=42).copy()
df = df.dropna()

####  Mapa Interativo: Distribui√ß√£o Espacial dos Pre√ßos por m¬≤

Este mapa mostra a localiza√ß√£o dos im√≥veis do programa HDB (Habita√ß√£o P√∫blica de Singapura) com base no dataset de revenda.

Cada ponto representa um im√≥vel geocodificado, e sua **cor** reflete o **pre√ßo por metro quadrado (pre√ßo/m¬≤)**, calculado como:

Para classificar os im√≥veis, usamos uma abordagem **estat√≠stica baseada nos quartis**:

| Faixa | Crit√©rio | Cor |
|-------|----------|-----|
| **Barato** | Pre√ßo/m¬≤ abaixo do 1¬∫ quartil (Q1) | üü¢ Verde |
| **Na m√©dia** | Entre Q1 e Q3 (mediana) | üü† Laranja |
| **Caro** | Acima do 3¬∫ quartil (Q3) | üî¥ Vermelho |

In [None]:
import folium

# Calcular o pre√ßo por m¬≤
df["preco_m2"] = df["resale_price"] / df["floor_area_sqm"]

# Calcular quartis
q1 = df["preco_m2"].quantile(0.25)
q3 = df["preco_m2"].quantile(0.75)

# Fun√ß√£o de cor baseada nos quartis
def cor_por_preco_m2(valor):
    if valor < q1:
        return "green"
    elif valor > q3:
        return "red"
    else:
        return "orange"

# Criar o mapa
m = folium.Map(location=[1.3521, 103.8198], zoom_start=12, tiles="CartoDB positron")

# Adicionar marcadores com cores baseadas em pre√ßo/m¬≤
for _, row in df.iterrows():
    preco_total = row["resale_price"]
    preco_m2 = row["preco_m2"]
    popup_text = (
        f"<b>Pre√ßo total:</b> ${preco_total:,.0f}<br>"
        f"<b>√Årea:</b> {row['floor_area_sqm']} m¬≤<br>"
        f"<b>Pre√ßo/m¬≤:</b> ${preco_m2:,.0f}<br>"
        f"<b>Tipo:</b> {row['flat_type']}"
    )
    folium.CircleMarker(
        location=(row["latitude"], row["longitude"]),
        radius=6,
        color=cor_por_preco_m2(preco_m2),
        fill=True,
        fill_opacity=0.75,
        popup=folium.Popup(popup_text, max_width=250)
    ).add_to(m)

print(f"{len(df)} im√≥veis plotados com cores baseadas em pre√ßo/m¬≤.")
m


### ‚úÖ Conclus√£o

Com base apenas nos endere√ßos textuais, conseguimos:

- Localizar im√≥veis no mapa
- Visualizar a distribui√ß√£o espacial dos pre√ßos
- Preparar os dados para an√°lises como clusters, interpola√ß√µes ou dashboards

Isso mostra como a **geocodifica√ß√£o √© uma ponte entre dados tradicionais e an√°lises espaciais**.


### 3.2 Proje√ß√µes Cartogr√°ficas

Proje√ß√µes cartogr√°ficas s√£o transforma√ß√µes matem√°ticas que convertem a superf√≠cie curva da Terra (esferoide) em uma superf√≠cie plana (mapa). Como n√£o √© poss√≠vel representar perfeitamente uma esfera em um plano, cada proje√ß√£o faz **compromissos entre preservar forma, √°rea, dist√¢ncia ou dire√ß√£o**.

#### üîç Por que isso importa?

Para muitas an√°lises espaciais ‚Äî como **c√°lculo de √°rea, dist√¢ncia entre pontos, buffers e rotas** ‚Äî √© essencial que os dados estejam em uma **proje√ß√£o apropriada**. A maioria dos dados geogr√°ficos brutos vem no sistema **WGS84** (EPSG:4326), que usa latitude e longitude (graus), mas n√£o √© adequado para medi√ß√µes m√©tricas.

#### üåé Exemplos de Proje√ß√µes

- **WGS84 (EPSG:4326)**: padr√£o global, usa graus. Bom para visualiza√ß√£o, ruim para c√°lculos.
- **UTM (Universal Transverse Mercator)**: divide o globo em zonas com proje√ß√£o m√©trica, ideal para c√°lculos de dist√¢ncia e √°rea em regi√µes menores.
- **Albers Equal Area**: preserva √°rea, √∫til para an√°lise de distribui√ß√£o espacial em grandes regi√µes.


**Aplica√ß√£o:** Transformar um dataset de coordenadas geogr√°ficas (WGS84) para proje√ß√£o m√©trica (UTM), facilitando o c√°lculo de dist√¢ncias reais.

In [None]:
import geopandas as gpd

# Carregando shapefile dos munic√≠pios do RJ
shapefile_path = "datasets/RJ_2023/RJ_Municipios_2023.shp"
gdf = gpd.read_file(shapefile_path)

# Selecionar apenas um munic√≠pio (por exemplo, Rio de Janeiro)
rio = gdf[gdf["NM_MUN"] == "Rio de Janeiro"]

# Calcular √°rea no sistema WGS84 (em graus) ‚Äì N√ÉO CONFI√ÅVEL!
area_wgs84 = rio.geometry.area.iloc[0]

# Agora convertemos para UTM zona 23S (proje√ß√£o m√©trica adequada)
rio_utm = rio.to_crs(epsg=31983)

# Calcular √°rea no sistema UTM (em metros quadrados) ‚Äì CONFI√ÅVEL!
area_utm = rio_utm.geometry.area.iloc[0]

# Mostrar os resultados
print(f"√Årea no sistema WGS84 (graus¬≤): {area_wgs84}")
print(f"√Årea no sistema UTM (m¬≤): {area_utm:,.2f}")
print(f"√Årea no sistema UTM (km¬≤): {area_utm/1e6:,.2f}")


#### ‚úÖ Conclus√£o:
- O valor em graus quadrados n√£o tem interpreta√ß√£o pr√°tica direta ‚Äî ele depende da curvatura da Terra e da latitude!

- J√° o valor em metros quadrados, obtido com uma proje√ß√£o como UTM, √© o que voc√™ precisa para:

  - Calcular densidade populacional

  - Estimar √°rea √∫til de uma zona

  - Fazer modelagem espacial confi√°vel

üîó Se voc√™ errar a proje√ß√£o, voc√™ compromete os resultados do modelo!

### 3.3 Interse√ß√µes de Camadas Geoespaciais

Uma das opera√ß√µes mais poderosas em ci√™ncia de dados geoespaciais √© a **interse√ß√£o entre camadas (layers)**. Essa t√©cnica permite responder a perguntas espaciais complexas, como:

- üè• Quais hospitais est√£o em √°reas de risco ambiental?
- üå≥ Quais bairros t√™m escolas dentro de zonas verdes?
- üö® Quais ocorr√™ncias policiais aconteceram dentro de determinada regi√£o?

Essas respostas emergem ao **cruzar diferentes fontes de dados espaciais** ‚Äî como a sobreposi√ß√£o de **pontos, linhas e pol√≠gonos** com camadas raster (como imagens de sat√©lite ou dados clim√°ticos).

---

#### ‚ö° Substitui√ß√£o de Usinas F√≥sseis por Energia Solar: An√°lise Espacial

Neste notebook, realizamos uma an√°lise baseada em dados reais para avaliar o **potencial de substitui√ß√£o de usinas f√≥sseis por energia solar no Brasil**.

A l√≥gica √©:
- Ver **onde as usinas f√≥sseis est√£o localizadas**
- Verificar se essas regi√µes t√™m **alto potencial solar (PVOUT)**
- Calcular se seria **energeticamente vi√°vel substituir** a gera√ß√£o dessas usinas por usinas solares

In [None]:
import pandas as pd
import geopandas as gpd
import rasterio
from shapely.geometry import Point
import matplotlib.pyplot as plt

# Carregar dados das usinas f√≥sseis no Brasil
usinas = pd.read_csv('datasets/solar_potential/globalpowerplantdatabasev130/global_power_plant_database.csv')
usinas_br = usinas[(usinas.country_long == "Brazil") & 
                   (usinas.primary_fuel.isin(["Coal", "Gas", "Oil"]))]

# Converter em GeoDataFrame
geometry = [Point(xy) for xy in zip(usinas_br.longitude, usinas_br.latitude)]
gdf = gpd.GeoDataFrame(usinas_br, geometry=geometry, crs="EPSG:4326")

# Carregar raster PVOUT
raster = rasterio.open("datasets\solar_potential\World_PVOUT_GISdata_LTAy_AvgDailyTotals_GlobalSolarAtlas-v2_GEOTIFF\World_PVOUT_GISdata_LTAy_DailySum_GlobalSolarAtlas_GEOTIFF\PVOUT.tif")

# Extrair valores de PVOUT para cada usina
coords = [(geom.x, geom.y) for geom in gdf.geometry]
pvout_values = [val[0] for val in raster.sample(coords)]
gdf["pvout"] = pvout_values

# Filtrar por alto potencial solar
gdf_altas = gdf[gdf["pvout"] > 4.6]  # limite ajust√°vel
print(gdf_altas.shape)
print(gdf_altas.head())

# Visualiza√ß√£o
fig, ax = plt.subplots(figsize=(10, 8))
gdf.plot(ax=ax, color="gray", label="Usinas f√≥sseis")
gdf_altas.plot(ax=ax, color="orange", label="Alto potencial solar")
plt.title("Usinas f√≥sseis em regi√µes com alto potencial de energia solar (PVOUT)")
plt.legend()
plt.grid(True)
plt.show()

#### 3.4 Interpola√ß√£o Espacial (Kriging)

### üìå O problema

Imagine que voc√™ possui medi√ß√µes de temperatura do fundo do mar feitas por sensores em pontos esparsos. Voc√™ quer criar um **mapa cont√≠nuo** para visualizar a varia√ß√£o da temperatura ao longo de toda a regi√£o.

Para isso, usamos **interpola√ß√£o espacial** ‚Äî uma t√©cnica que estima valores em locais onde n√£o h√° dados, com base na localiza√ß√£o e valor dos pontos conhecidos.


### üîÑ Comparando abordagens

| M√©todo | Como funciona | Limita√ß√µes |
|--------|----------------|-------------|
| **IDW** (Inverse Distance Weighting) | A m√©dia ponderada dos pontos vizinhos, com pesos baseados na dist√¢ncia (‚Äúpontos mais pr√≥ximos s√£o mais parecidos‚Äù) | N√£o considera padr√µes espaciais complexos, s√≥ a dist√¢ncia |
| **Kriging** | Ajusta um modelo estat√≠stico (variograma) para estimar valores com base na **estrutura espacial do dado** | Mais complexo, exige ajuste de modelo e interpreta√ß√£o mais t√©cnica |


### üß† O que √© o Kriging?

Kriging √© uma t√©cnica de interpola√ß√£o **baseada em modelos estat√≠sticos** que incorporam:

- A **dist√¢ncia** entre os pontos
- A **variabilidade dos dados**
- A **dire√ß√£o ou tend√™ncia** dos dados (em vers√µes mais avan√ßadas)

Ideal para fen√¥menos naturais como temperatura, polui√ß√£o, teor de min√©rio, etc.


In [None]:
from pykrige.ok import OrdinaryKriging
from scipy.interpolate import griddata
# Recarregar o CSV pulando a linha com as unidades
df = pd.read_csv("datasets/temp_sea_bottom/northeast_atlatic_sea_bottom_temp.csv")
# Garantir convers√£o correta para tipos num√©ricos
df["latitude"] = pd.to_numeric(df["latitude"], errors="coerce")
df["longitude"] = pd.to_numeric(df["longitude"], errors="coerce")
df["sea_bottom_temperature"] = pd.to_numeric(df["sea_bottom_temperature"], errors="coerce")

# Remover linhas com valores faltantes
df = df.dropna(subset=["latitude", "longitude", "sea_bottom_temperature"])

# Exibir preview
df.head()


In [None]:

# Amostrar 500 pontos para agilizar a krigagem
df_sample = df.sample(n=1000, random_state=42)

# Extrair vari√°veis
x = df_sample["longitude"].values
y = df_sample["latitude"].values
z = df_sample["sea_bottom_temperature"].values


In [None]:
# Interpola√ß√£o com IDW usando griddata
grid_x, grid_y = np.meshgrid(
    np.linspace(x.min(), x.max(), 100),
    np.linspace(y.min(), y.max(), 100)
)

zi_idw = griddata((x, y), z, (grid_x, grid_y), method='linear')


In [None]:
# Interpola√ß√£o com Kriging
OK = OrdinaryKriging(x, y, z, variogram_model='linear', verbose=False, enable_plotting=False)
zi_krig, _ = OK.execute("grid", grid_x[0], grid_y[:, 0])


In [None]:
# Compara√ß√£o visual
fig, axs = plt.subplots(1, 2, figsize=(18, 7))

# IDW
im1 = axs[0].imshow(zi_idw, extent=(x.min(), x.max(), y.min(), y.max()), origin='lower', cmap='coolwarm')
axs[0].set_title("Interpola√ß√£o por IDW")
axs[0].scatter(x, y, c=z, edgecolors='k', s=10)
plt.colorbar(im1, ax=axs[0], label="Temperatura (¬∞C)")

# Kriging
im2 = axs[1].imshow(zi_krig, extent=(x.min(), x.max(), y.min(), y.max()), origin='lower', cmap='coolwarm')
axs[1].set_title("Interpola√ß√£o por Kriging")
axs[1].scatter(x, y, c=z, edgecolors='k', s=10)
plt.colorbar(im2, ax=axs[1], label="Temperatura (¬∞C)")

plt.suptitle("Compara√ß√£o: IDW vs Kriging", fontsize=16)
plt.tight_layout()
plt.show()
