## 1. Carga de datos
#### Elimino variables no relevantes para caso estudio ya que no voy a hacer procesamiento de texto (Url's, Id's, descripciones y metadata).


In [1]:
import numpy  as np  
import pandas as pd

In [2]:
raw_data = pd.read_csv("airbnb-listings-extract.csv", sep=';')  # cargamos fichero
print(raw_data.shape)
raw_data.head(5).T  

(14780, 89)


Unnamed: 0,0,1,2,3,4
ID,11210388,17471131,17584891,5398030,18104606
Listing Url,https://www.airbnb.com/rooms/11210388,https://www.airbnb.com/rooms/17471131,https://www.airbnb.com/rooms/17584891,https://www.airbnb.com/rooms/5398030,https://www.airbnb.com/rooms/18104606
Scrape ID,20170306202425,20170407214050,20170407214050,20170407214050,20170407214050
Last Scraped,2017-03-07,2017-04-08,2017-04-08,2017-04-08,2017-04-08
Name,The Loft-Full Bath-Deck w/View,"Claris I, Friendly Rentals","Style Terrace Red, Friendly Rentals",Picasso Suite 1.4 Paseo de Gracia,Smart City Centre Apartment II
...,...,...,...,...,...
Cancellation Policy,moderate,super_strict_30,super_strict_30,strict,flexible
Calculated host listings count,1.0,106.0,106.0,24.0,92.0
Reviews per Month,3.5,0.86,,1.09,
Geolocation,"30.3373609355,-97.8632766782","41.3896829422,2.17262543017","41.3930345489,2.16217327868","41.3969668101,2.1674178103","41.3886851936,2.15514963616"


In [3]:
# Crear una copia de los datos para trabajar 
input_data = raw_data.copy()

columns_to_drop = [
    'ID', 'Listing Url', 'Scrape ID', 'Thumbnail Url', 'Medium Url', 
    'Picture Url', 'XL Picture Url', 'Host URL', 'Host Thumbnail Url', 
    'Host Picture Url', 'Last Scraped', 'Name', 'Summary', 'Space', 
    'Description', 'Neighborhood Overview', 'License', 'Jurisdiction Names', 
    'Cancellation Policy', 'Notes', 'Transit', 'Access', 'Interaction', 'House Rules', 'Host ID', 'Host Name', 
    'Host Location', 'Host About', 'Host Response Time', 'Geolocation', 'Smart Location', 'Market', 'Street', 
    'Host Verifications', 'Neighbourhood', 'Neighbourhood Cleansed', 'State',
    'Neighbourhood Group Cleansed', 'Country Code', 'Calendar Updated', 
    'Calendar last Scraped', 'Features', 'Host Neighbourhood'
]

cleaned_data = input_data.drop(columns=columns_to_drop)  # Aplico la eliminación de variables

print(f"Dataset original: {raw_data.shape}")
print(f"Dataset después de limpieza: {cleaned_data.shape}")
cleaned_data.head(5).T

Dataset original: (14780, 89)
Dataset después de limpieza: (14780, 46)


Unnamed: 0,0,1,2,3,4
Experiences Offered,none,none,none,none,none
Host Since,2016-02-11,2016-11-08,2016-11-08,2010-05-25,2016-01-12
Host Response Rate,100.0,100.0,100.0,100.0,99.0
Host Acceptance Rate,,,,,
Host Listings Count,1.0,162.0,162.0,27.0,207.0
Host Total Listings Count,1.0,162.0,162.0,27.0,207.0
City,Austin,Barcelona,Barcelona,Barcelona,Barcelona
Zipcode,78733,08010,08008,08009,08036
Country,United States,Spain,Spain,Spain,Spain
Latitude,30.337361,41.389683,41.393035,41.396967,41.388685


## 2. División de datos Train / Test
#### Después aplico método `train_test_split` para separación fisica en dos archivos .csv (datos de entrenamiento y prueba)

In [None]:
from sklearn.model_selection import train_test_split

train, test = train_test_split(cleaned_data, test_size=0.2, shuffle=True, random_state=0)

print(f'Dimensiones del dataset de training: {train.shape}')
print(f'Dimensiones del dataset de test: {test.shape}')

# Guardamos
train.to_csv('airbnb-listings-extract-train.csv', sep=';', decimal='.', index=False)
test.to_csv('airbnb-listings-extract-test.csv', sep=';', decimal='.', index=False)

# Trabajo sólo con el dataset de train

pretrain_data = pd.read_csv('airbnb-listings-extract-train.csv', sep=';', decimal='.')
pretrain_data.head(5).T

## 3. Análisis exploratorio
#### Miro los datos de Train para saber distribuciones estadisticas, outliers, correlaciones.
- info, describe...
- Histogramas, scatterplots..
- (Matriz correlaciones entre variables)
- (Método de filtrado: `f_reg, mutual_info_reg`)

In [21]:
# Clasificación de variables: Numéricas vs Categóricas
numerical_var = pretrain_data.select_dtypes(include=[np.number]).columns.tolist()
categorical_var = pretrain_data.select_dtypes(include=['object', 'category']).columns.tolist()

print(f"{len(pretrain_data.columns)} variables total | {len(numerical_var)} numéricas | {len(categorical_var)} categóricas")

46 variables total | 33 numéricas | 13 categóricas


### 3.1 Análisis exploratorio - Variables categórcias

Voy a estudiar primero las categoricas:

| Atributo | descripción | conclusión |
|:---------|:------------|:-----------|
| *Experiences Offered* | experiencias adicionales al piso | |
| *Host Since* | fecha registro del anfitrión en Airbnb | Pasar a días --> númerica y tratar nulos =0|
| *Host Acceptance Rate* | % solicitudes aceptadas por anfitrión | Eliminar por nulos |
| *City* | ciudad | Filtrar por Madrid y eliminar |
| *ZipCode* | código barras | |
| *Country* | pais | Eliminar |
| *Property Type* | tipo de propiedad | |
| *Room Type* | tipo de habitación | |
| *Bed Type* | tipo de cama | |
| *Amenities* | comodidades adicionales | |
| *Has Availability* | disponibilidad actual | Eliminar por nulos |
| *First Review* | fecha primera reseña | Pasar a días --> númerica y tratar nulos =0|
| *Last Review* | fecha última reseña | Pasar a días --> númerica y tratar nulos =0|

In [82]:
# Variables CATEGÓRICAS
categorical_data = []
for col in categorical_var:
    null_pct = (pretrain_data[col].isnull().sum() / len(pretrain_data)) * 100
    categorical_data.append({
        'Variable': col,
        'Dtype': str(pretrain_data[col].dtype),
        'Valores_únicos': pretrain_data[col].nunique(),
        'Nulos_%': round(null_pct, 2),
    })

categorical_df = pd.DataFrame(categorical_data)
display(categorical_df)

Unnamed: 0,Variable,Dtype,Valores_únicos,Nulos_%
0,Experiences Offered,object,5,0.0
1,Host Since,object,2043,0.03
2,Host Acceptance Rate,object,10,99.75
3,City,object,222,0.03
4,Zipcode,object,535,3.37
5,Country,object,17,0.01
6,Property Type,object,21,0.0
7,Room Type,object,3,0.0
8,Bed Type,object,5,0.0
9,Amenities,object,10077,1.19


`Host Acceptance Rate`, `Has Availability`: pueden ser eliminadas por alto porcentaje de valores nulos (>95%)

`City`, `Country` Puedo filtrar para quedarme sólo con las propiedades que pertencen a España o la comunidad de Madrid:

In [83]:
# Análisis de España
total_filas = len(pretrain_data)
spain_count = pretrain_data[pretrain_data['Country'] == 'Spain'].shape[0]
spain_percentage = (spain_count / total_filas) * 100

print(f"Total dataset: {total_filas:,} propiedades")
print(f"Total España: {spain_count:,} propiedades ({spain_percentage:.2f}%)")

Total dataset: 11,824 propiedades
Total España: 11,203 propiedades (94.75%)


In [84]:
# Análisis de Madrid 
total_filas = len(pretrain_data)

# Buscar en Madrid
madrid_filter = pretrain_data['City'].str.contains('madrid', case=False, na=False)
madrid_count = madrid_filter.sum()
madrid_percentage = (madrid_count / total_filas) * 100

# Buscar otras ciudades de la Comunidad de Madrid
ciudades_madrid = [
    'pozuelo', 'alcalá', 'alcala', 'getafe', 'leganés', 'leganes', 'fuenlabrada', 
    'alcorcón', 'alcorcon', 'móstoles', 'mostoles', 'torrejón', 'torrejon',
    'parla', 'alcobendas', 'aranjuez', 'coslada', 'las rozas', 'majadahonda',
    'rivas', 'collado villalba', 'boadilla', 'san sebastián de los reyes',
    'san sebastian de los reyes', 'tres cantos', 'valdemoro', 'pinto',
    'arganda', 'chinchón', 'chinchon', 'navalcarnero', 'colmenar viejo'
]

otras_madrid_filter = pretrain_data['City'].str.contains('|'.join(ciudades_madrid), case=False, na=False) & ~madrid_filter
otras_madrid_count = otras_madrid_filter.sum()
otras_madrid_percentage = (otras_madrid_count / total_filas) * 100

# Total Comunidad de Madrid
total_madrid_count = madrid_count + otras_madrid_count
total_madrid_percentage = (total_madrid_count / total_filas) * 100

print(f"Total dataset: {total_filas:,} propiedades")
print(f"Total Madrid: {total_madrid_count:,} propiedades ({total_madrid_percentage:.2f}%)")

Total dataset: 11,824 propiedades
Total Madrid: 10,600 propiedades (89.65%)


Elegir Madrid supone perder cerca de un 11% de datos, lo cual es bastante dado el tamaño del dataset. Pero elegir como muestra España (y perder sólo 5%) puede estar metiendo más variabilidad al modelo para Madrid si los precios entre comunidades son muy diferentes y no habría suficiente muestra representativa del resto de ciudades

In [None]:
pretrain_data.describe().T

In [None]:
pretrain_data.info()

## 4. Preprocesado datos Train
#### Proceso datos de train en función de las conclusiones estadisticas
- Imputación de valores ausentes
- Codificación variables categoricas
- (Eliminación por random forest/Lasso, muchos Nan, alta correlación..)
- (Generación y transformación de variables)
- (Filtrado outliers)

## 5. Procesado datos Test
#### Aplico las mismas transformaciones que en Train en el punto 5

## 6. Preparacion dataset Train / Test
#### Normalizar Test según Train si aplica

## 7. Modelado
#### Cross validation

## 8. Evaluación