<a href="https://colab.research.google.com/github/RaphaelRAY/airbnb-rating-ml/blob/main/notebooks/01.5_feature_engineering_notebook.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# 02 - Feature Engineering Geogr√°fica para Dados Airbnb - Rio de Janeiro

Este notebook demonstra o processo de enriquecimento do dataset de listings do Airbnb com features geogr√°ficas, como dist√¢ncias a pontos de interesse (POIs) e contagem de POIs pr√≥ximos. Utilizamos o arquivo `listings_processed.csv` (que √© o `airbnb_rio_clean.csv` da etapa anterior) como base e o `neighbourhoods.geojson` para contexto geogr√°fico, embora os POIs sejam baixados via OpenStreetMap (OSM) para maior granularidade.

**Nota:** Para evitar timeouts em ambientes com recursos limitados, este notebook executa a feature engineering em uma **amostra** do dataset. Para processar o dataset completo, as linhas de amostragem devem ser comentadas no script `02_feature_engineering.py`.

## 1. Configura√ß√£o Inicial e Carregamento de Dados

Importa√ß√£o das bibliotecas necess√°rias e carregamento do dataset `listings_processed.csv`.

In [1]:
import pandas as pd
import os
import geopandas as gpd
import numpy as np
from shapely.geometry import Point, Polygon
%pip install osmnx
import osmnx as ox

# Definir o diret√≥rio de sa√≠da
output_dir = "data/processed"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
    print(f"Diret√≥rio \'{output_dir}\' criado.")

print("\n--- Carregando o dataset processado de listings ---")
# Usar o arquivo listings_processed.csv fornecido pelo usu√°rio
df = pd.read_csv("https://github.com/RaphaelRAY/airbnb-rating-ml/raw/refs/heads/main/data/processed/listings_Encode.csv")
print(f"Dataset carregado. Shape inicial: {df.shape}")

Collecting osmnx
  Downloading osmnx-2.0.6-py3-none-any.whl.metadata (4.9 kB)
Downloading osmnx-2.0.6-py3-none-any.whl (101 kB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m101.5/101.5 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: osmnx
Successfully installed osmnx-2.0.6
Diret√≥rio 'data/processed' criado.

--- Carregando o dataset processado de listings ---
Dataset carregado. Shape inicial: (41724, 40)


## 2. M√≥dulo `geo_features.py`

As fun√ß√µes para baixar POIs, calcular dist√¢ncias (Haversine) e adicionar features geogr√°ficas foram encapsuladas no m√≥dulo `src/airbnb_rating/utils/geo_features.py` para melhor organiza√ß√£o e reusabilidade. Este m√≥dulo inclui otimiza√ß√µes como o uso de √≠ndices espaciais para acelerar os c√°lculos.

In [4]:
import osmnx as ox
import geopandas as gpd
import pandas as pd
import numpy as np
from shapely.geometry import Point
from tqdm import tqdm

EARTH_RADIUS_KM = 6371
tqdm.pandas()  # ativa barra de progresso no .apply

def get_pois(city: str, geojson_path: str = None):
    tags = {
        "natural": "beach",
        "aeroway": "aerodrome",
        "tourism": True,
        "amenity": ["restaurant", "bar", "cafe"],
        "leisure": ["park"]
    }
    print(f"\nüåç Baixando POIs para {city} do OpenStreetMap...")
    pois = ox.features_from_place(city, tags)
    print(f"‚úîÔ∏è {len(pois)} pontos baixados.\n")
    return pois.to_crs("EPSG:4326")

def haversine(lat1, lon1, lat2, lon2):
    lat1, lon1, lat2, lon2 = map(np.radians, [lat1, lon1, lat2, lon2])
    dlat = lat2 - lat1
    dlon = lon2 - lon1
    a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
    c = 2 * np.arcsin(np.sqrt(a))
    return EARTH_RADIUS_KM * c

def add_geo_features(df, city="Rio de Janeiro, Brazil", geojson_path: str = None):
    print("üöÄ Iniciando enriquecimento geogr√°fico...\n")

    gdf = gpd.GeoDataFrame(
        df, geometry=gpd.points_from_xy(df["longitude"], df["latitude"]), crs="EPSG:4326"
    )
    pois = get_pois(city, geojson_path)

    beaches = pois[pois["natural"] == "beach"]
    airports = pois[pois["aeroway"] == "aerodrome"]
    tourism = pois[pois["tourism"].notna()]
    restaurants = pois[pois["amenity"].isin(["restaurant", "bar", "cafe"])] if "amenity" in pois.columns else gpd.GeoDataFrame()
    parks = pois[pois["leisure"] == "park"]

    beaches_sindex = beaches.sindex
    airports_sindex = airports.sindex
    tourism_sindex = tourism.sindex
    restaurants_sindex = restaurants.sindex
    parks_sindex = parks.sindex

    def get_poi_coords(geom):
        if geom is None or not geom.is_valid:
            return np.nan, np.nan
        if geom.geom_type == 'Point':
            return geom.y, geom.x
        elif geom.geom_type == 'Polygon':
            return geom.centroid.y, geom.centroid.x
        return np.nan, np.nan

    def min_dist_optimized(point_geom, targets_gdf, targets_sindex):
        if targets_gdf.empty:
            return np.nan
        possible_matches_indices = list(targets_sindex.intersection(point_geom.bounds))
        if not possible_matches_indices:
            return np.nan
        min_d = np.inf
        for idx in possible_matches_indices:
            target_geom = targets_gdf.iloc[idx].geometry
            target_lat, target_lon = get_poi_coords(target_geom)
            if not np.isnan(target_lat):
                dist = haversine(point_geom.y, point_geom.x, target_lat, target_lon)
                if dist < min_d:
                    min_d = dist
        return min_d if min_d != np.inf else np.nan

    print("üìè Calculando dist√¢ncia para praias...")
    gdf["dist_beach_km"] = gdf.geometry.progress_apply(lambda p: min_dist_optimized(p, beaches, beaches_sindex))

    print("‚úàÔ∏è Calculando dist√¢ncia para aeroportos...")
    gdf["dist_airport_km"] = gdf.geometry.progress_apply(lambda p: min_dist_optimized(p, airports, airports_sindex))

    print("üèõÔ∏è Calculando dist√¢ncia para pontos tur√≠sticos...")
    gdf["dist_touristic_km"] = gdf.geometry.progress_apply(lambda p: min_dist_optimized(p, tourism, tourism_sindex))

    def count_nearby_optimized(point_geom, targets_gdf, targets_sindex, radius_km=1):
        if targets_gdf.empty:
            return 0
        count = 0
        radius_deg = radius_km / 111.139
        buffered_point = point_geom.buffer(radius_deg)
        possible_matches_indices = list(targets_sindex.intersection(buffered_point.bounds))
        for idx in possible_matches_indices:
            target_geom = targets_gdf.iloc[idx].geometry
            target_lat, target_lon = get_poi_coords(target_geom)
            if not np.isnan(target_lat):
                if haversine(point_geom.y, point_geom.x, target_lat, target_lon) <= radius_km:
                    count += 1
        return count

    print("üçΩÔ∏è Contando restaurantes em 1 km...")
    gdf["n_restaurants_1km"] = gdf.geometry.progress_apply(
        lambda p: count_nearby_optimized(p, restaurants, restaurants_sindex, radius_km=1)
    )

    print("üå≥ Contando parques em 2 km...")
    gdf["n_parks_2km"] = gdf.geometry.progress_apply(
        lambda p: count_nearby_optimized(p, parks, parks_sindex, radius_km=2)
    )

    print("\n‚úÖ Enriquecimento conclu√≠do.\n")
    return pd.DataFrame(gdf.drop(columns="geometry"))


In [None]:
print("\n--- Adicionando features geogr√°ficas autom√°ticas ---")
df_enriched = add_geo_features(df, city="Rio de Janeiro, Brazil") # Usar
print(f"Dataset enriquecido. Novo shape: {df_enriched.shape}")


--- Adicionando features geogr√°ficas autom√°ticas ---
üöÄ Iniciando enriquecimento geogr√°fico...


üåç Baixando POIs para Rio de Janeiro, Brazil do OpenStreetMap...
‚úîÔ∏è 5682 pontos baixados.

üìè Calculando dist√¢ncia para praias...


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 41724/41724 [00:11<00:00, 3646.30it/s]


‚úàÔ∏è Calculando dist√¢ncia para aeroportos...


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 41724/41724 [00:01<00:00, 28308.35it/s]


üèõÔ∏è Calculando dist√¢ncia para pontos tur√≠sticos...


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 41724/41724 [00:01<00:00, 28318.10it/s]


üçΩÔ∏è Contando restaurantes em 1 km...


  4%|‚ñç         | 1606/41724 [00:40<20:08, 33.20it/s]

## 4. Salvando o Dataset Enriquecido

O dataset resultante, contendo as novas features geogr√°ficas, √© salvo em um novo arquivo CSV.

In [None]:
print("\n--- Salvando o dataset enriquecido ---")
df_enriched.to_csv(os.path.join(output_dir, "airbnb_rio_geo_sample.csv"), index=False) # Salvar amostra
print("‚úÖ Dataset enriquecido (amostra) salvo em data/processed/airbnb_rio_geo_sample.csv")