<a href="https://colab.research.google.com/github/dtoralg/INESDI_Data-Science_ML_IA/blob/main/%5B01%5D%20-%20Preparaci%C3%B3n%20de%20datos%20y%20EDA/Ingenieria_Ejercicio_8_nuevas_variables_airbnb_barcelona.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Ingenieria - Ejercicio 8: nuevas_variables_airbnb_barcelona.ipynb

En este ejercicio aplicarás técnicas de ingeniería de variables sobre el dataset de Airbnb Barcelona.
El flujo está guiado, con comentarios y celdas TODO para que puedas completarlo paso a paso.

### Objetivos
- Diseñar y crear variables derivadas útiles para análisis y modelado.
- Documentar decisiones y validar las nuevas variables con visualizaciones simples.
- Mantener un pipeline reproducible y ordenado para aplicar las transformaciones.

### Descripción del dataset
El dataset proviene de Inside Airbnb (Sección "Get the Data" para Barcelona). Incluye `listings.csv`, que contiene información de los alojamientos: precio, tipo de habitación, barrio/neighborhood, número de noches mínimas, latitud, longitud, disponibilidad, etc.

Fuente: [Inside Airbnb Barcelona](https://data.insideairbnb.com/spain/catalonia/barcelona/2025-06-12/visualisations/listings.csv)

Como Inside Airbnb cambia el enlace con cada nueva release, puede que sea necesario actualizarlo buscandolo en [Inside Airbnb](https://insideairbnb.com/get-the-data/)

### 1. Preparación y carga de datos

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid')

In [None]:
# Cargar dataset de Inside Airbnb Barcelona (CSV comprimido)
url = 'https://data.insideairbnb.com/spain/catalonia/barcelona/2025-06-12/visualisations/listings.csv'
df = pd.read_csv(url)
df.head()

In [None]:
# TODO: Revisa el tamaño del dataset y tipos de datos principales
# Indica en un comentario si observas columnas claramente irrelevantes para ingeniería de variables
# Sugerencia: usa df.shape, df.dtypes.head(20)
# TODO

### 2. Selección de columnas objetivo y tratamiento previo mínimo

In [None]:
vars_numericas = df.select_dtypes(include=['int']).columns
vars_categoricas = df.select_dtypes(include=['object']).columns
vars_numericas, vars_categoricas

In [None]:
# TODO: Imputa nulos mínimos si es necesario para continuar (sin entrar aún en escalado/codificación)
# Reglas sugeridas:
#  - Numéricas: mediana
#  - Categóricas: moda
# Aplica de forma genérica sobre todas las columnas identificadas
# Pista: usa df[col].fillna(..., inplace=True)
# TODO

### 3. Ingeniería de variables derivadas

#### 3.1. Transformaciones numéricas útiles

In [None]:
# Ejemplo resuelto: precio logarítmico para reducir asimetría
if 'price' in df.columns:
    df['log_price'] = np.log1p(df['price'])
    df[['price','log_price']].head()
else:
    print('Columna price no encontrada, ajusta el nombre en el dataset actual.')

In [None]:
# TODO: Crea transformaciones numéricas adicionales sobre todas las columnas numéricas enteras
# Ideas:
#  - Escala logarítmica para variables sesgadas (p.ej., number_of_reviews, availability_365 si existen)
#  - Winsorizar o recortar valores extremos para visualizaciones (sin perder original)
#  - Ratios simples entre columnas relacionadas (si procede)
# Aclara en comentarios por qué aplicas cada transformación
# TODO

#### 3.2. Variables combinadas

In [None]:
# TODO: Crea al menos dos variables combinadas teniendo en cuenta coherencia del dominio
# Ejemplos:
#  - price_per_min_night = price / (minimum_nights + 1e-6)
#  - intensidad_disponibilidad = availability_365 / 365
#  - densidad_resenas = number_of_reviews / (reviews_per_month + 1e-6)
# Ajusta a las columnas disponibles en este dataset
# TODO

#### 3.3. Binning y categorización supervisada por reglas

In [None]:
# Ejemplo resuelto: categorizar precio en tramos para análisis descriptivo
if 'price' in df.columns:
    df['price_bin'] = pd.cut(df['price'], bins=[-1, 50, 100, 200, 1000, np.inf],
                             labels=['muy_bajo','bajo','medio','alto','muy_alto'])
    df['price_bin'].value_counts().sort_index()
else:
    print('Columna price no encontrada, ajusta el nombre en el dataset actual.')

In [None]:
# TODO: Crea al menos un binning adicional sobre otra variable numérica presente
# Justifica los cortes utilizados (por ejemplo, percentiles o cortes de negocio)
# TODO

#### 3.4. Variables geográficas simples

In [None]:
# TODO: A partir de latitude y longitude, crea:
#  - un indicador de si el anuncio está dentro de un bounding box central (ej: centro de Barcelona)
#  - una cuadrícula sencilla (tile_x, tile_y) redondeando coordenadas para agregación
# Sugerencia:
#  - centro aproximado BCN ~ (41.385, 2.173)
#  - bounding box simple: lat in [41.35, 41.41], lon in [2.13, 2.20]
# TODO

#### 3.5. Variables textuales ligeras

In [None]:
# TODO: Si existen columnas textuales (name, description, amenities, etc.), crea contadores simples
# Ejemplos:
#  - len_name = longitud del título
#  - count_amenities = número de amenidades si viene en formato lista/cadena separada por comas
#  - binary flags: has_wifi, has_kitchen, etc. (si es viable con string contains)
# Aclara posibles problemas (idioma, limpieza)
# TODO

### 4. Validación rápida de las nuevas variables

In [None]:
# TODO: Selecciona 4-6 variables creadas y muestra:
#  - describe() o value_counts() según el tipo
#  - al menos dos visualizaciones sencillas (histogramas, countplots)
# Pista: usa df.select_dtypes para decidir tipo de gráfico
# TODO

### 5. Ensamblado del dataset enriquecido

In [None]:
# TODO: Construye un DataFrame final con las columnas originales clave + nuevas variables
# Asegúrate de no sobrescribir columnas necesarias y conservar identificadores si existen
# Sugerencia: df_final = df[cols_originales + cols_nuevas]
# TODO

In [None]:
# TODO: Guarda a CSV local (opcional)
# df.to_csv('airbnb_barcelona_enriquecido.csv', index=False)
# TODO

### Conclusión
Describe brevemente las variables que has creado, por qué pueden aportar valor en un modelo predictivo
y cómo validarías su utilidad (por ejemplo, con correlaciones, importancia de variables o rendimiento en un modelo base).