# Notebook #1: Captura de datos

In [1]:
# Importamos liberías

from tqdm import tqdm  # Usar barras de progreso
import requests  # Trabajar con APIs
from time import sleep  # Funciones con time (pausas, espera)
import pandas as pd  # Trabajar con DataFrames para análisis de datos
import geopandas as gpd
from shapely.geometry import Point
import numpy as np # Trabajar con arrays y operaciones matemáticas avanzadas
from IPython.display import display  # Mostrar salidas de manera más clara en entornos interactivos (como Jupyter)
import time  # Funciones relacionadas con el tiempo
import datetime  # Obtener la fecha y hora actuales
import os  # Interactuar con el sistema operativo, como rutas y variables de entorno
import dotenv  # Manejo de archivos .env para cargar tokens y claves
dotenv.load_dotenv()  # Cargar variables de entorno desde un archivo .env
import json

from googletrans import Translator

from geopy.geocoders import Nominatim

from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.by import By # By permite localizar elementos web usando diferentes estrategias de búsqueda (ID, CSS_SELECTOR, XPATH, etc.)
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.
from selenium.webdriver.support.ui import WebDriverWait  # Esperas explícitas para que ciertos elementos sean visibles o interactuables.
from selenium.webdriver.support import expected_conditions as EC  # Condiciones esperadas que ayudan a realizar esperas explícitas en Selenium.
from selenium.common.exceptions import NoSuchElementException  # Excepciones comunes de selenium, como cuando no se encuentra un elemento.
from bs4 import BeautifulSoup  # Herramienta para extraer y analizar datos de páginas HTML.
import re





In [2]:
# Librerías para tratamiento de datos

import pandas as pd
pd.set_option('display.max_columns', None) # Parámetro que modifica la visualización de los DFs
import numpy as np

# Librería para el acceso a variables y funciones
import sys
sys.path.append("../")
from src import soporte_funciones as sf #Archivo .py donde encontraremos todas nuestras funciones.
#from src import soporte_variables as sv

# Librería para trabajar con archivos pickle
import pickle

# Librería para ignorar avisos
import warnings
warnings.filterwarnings("ignore") # Ignora TODOS los avisos

## API AirBnB

In [3]:
#resultados_airbnb = sf.consulta_airbnbs("Madrid", "2025-01-31", "2025-02-02", 9)

In [4]:
#with open("../datos/origen/airbnb.json", "w") as json_file:
#    json.dump(resultados_airbnb, json_file, indent=4)

In [5]:
with open("../datos/origen/airbnb.json", 'r') as file:
    resultados_airbnb = json.load(file)

In [6]:
df_airbnb = sf.dataframe_airbnb(resultados_airbnb)

In [7]:
df_airbnb.shape

(320, 4)

- Usaremos la función `traducir_es`, que recibe un texto y lo traduce a español haciendo uso de Google Translate, y la aplicaremos a la columna "Descripción", para traducir su contenido a español.

In [None]:
#df_airbnb["Descripción"] = df_airbnb["Descripción"].apply(sf.traducir_es)

In [20]:
df_airbnb.sample(5)

Unnamed: 0,Latitud,Longitud,Descripción,Precio Total
197,40.410318,-3.702245,Apartamento Madrid Centro Balcón Privado,359
239,40.47266,-3.68533,Apartamentos de Madrid Studio,194
152,40.41272,-3.71057,"Cutapart Sol Palacio Real, Duplex.Great Vistas...",325
69,40.41326,-3.71335,Park Studio en el centro de Madrid!,175
245,40.424603,-3.66183,Salamanca Ventas Studio,214


- Convertimos la latitud y la longitud a geopuntos, cambiamos el formato de CRS (Coordinate Reference System) para que estandarizar el formato con los datos obtenidos de los municipios de Madrid, y guardamos en un archivo de tipo `geojason`.

In [None]:
gdf_airbnb = gpd.GeoDataFrame(df_airbnb, geometry=gpd.points_from_xy(df_airbnb.Longitud, df_airbnb.Latitud))
gdf_airbnb.crs = "EPSG:4326"
#gdf_airbnb.to_file('../datos/origen/airbnb.geojson', driver='GeoJSON')

In [24]:
gdf_distritos = gpd.read_file("../datos/origen/madrid-districts.geojson")

In [25]:
gdf_distritos = gdf_distritos.rename(columns={"name":"Distrito","cartodb_id":"ID_Distrito"})
gdf_distritos.drop(columns= ["created_at", "updated_at"], inplace=True)

In [26]:
gdf_sjoin = gpd.sjoin(gdf_airbnb, gdf_distritos, how="inner", predicate="within")
gdf_sjoin = gdf_sjoin.drop(columns="index_right")

In [27]:
gdf_sjoin.head(5)

Unnamed: 0,Latitud,Longitud,Descripción,Precio Total,geometry,Distrito,ID_Distrito
0,40.411549,-3.697992,Acogedor baño de doble baño en el corazón de M...,186,POINT (-3.69799 40.41155),Centro,1
1,40.41493,-3.70837,"APART. EXPERIENCE A - CENTRO MADRID, PARA 2PERS!",278,POINT (-3.70837 40.41493),Centro,1
2,40.41597,-3.70572,Apartamento único entre Sol y Plaza Mayor Wifi...,232,POINT (-3.70572 40.41597),Centro,1
3,40.42084,-3.70391,Sala de bodas en el centro de Madrid,140,POINT (-3.70391 40.42084),Centro,1
4,40.399791,-3.697796,Bonita habitación a 10 minutos de distancia Re...,102,POINT (-3.6978 40.39979),Arganzuela,2


In [None]:
#gdf_sjoin.to_file('../datos/finales/airbnb.geojson', driver='GeoJSON')
#gdf_sjoin.to_file('../datos/finales/airbnb.shp')

## Creación del DF Distritos
- En él se listan los distritos de Madrid junto con los códigos asignados por el ayuntamiento.
- Guardamos en .CSV.

In [15]:
df_distritos = gdf_distritos
#df_distritos.to_file('../datos/finales/distritos.geojson', driver='GeoJSON')
df_distritos

Unnamed: 0,Distrito,ID_Distrito,geometry
0,Centro,1,"MULTIPOLYGON (((-3.69185 40.40853, -3.69189 40..."
1,Arganzuela,2,"MULTIPOLYGON (((-3.70258 40.40638, -3.70166 40..."
2,Retiro,3,"MULTIPOLYGON (((-3.66279 40.4097, -3.66384 40...."
3,Salamanca,4,"MULTIPOLYGON (((-3.65809 40.43945, -3.65828 40..."
4,Chamartin,5,"MULTIPOLYGON (((-3.67231 40.48388, -3.67237 40..."
5,Tetuan,6,"MULTIPOLYGON (((-3.69633 40.47572, -3.69619 40..."
6,Chamberi,7,"MULTIPOLYGON (((-3.68991 40.44737, -3.69048 40..."
7,Fuencarral-El Pardo,8,"MULTIPOLYGON (((-3.64131 40.63922, -3.64118 40..."
8,Moncloa-Aravaca,9,"MULTIPOLYGON (((-3.79973 40.47063, -3.79887 40..."
9,Latina,10,"MULTIPOLYGON (((-3.7213 40.41256, -3.72051 40...."


## WebScraping de Redpiso

In [16]:
#sopas_redpiso = sf.scraping_alquileres_redpiso(50)

In [17]:
#with open('../datos/origen/sopas_redpiso.pkl', 'wb') as file:
#    pickle.dump(sopas_redpiso, file)

In [18]:
with open('../datos/origen/sopas_redpiso.pkl', 'rb') as file:
    sopas_redpiso = pickle.load(file)

In [19]:
df_redpiso = sf.dataframe_redpiso(sopas_redpiso)

UnboundLocalError: local variable 'descripcion' referenced before assignment

- Vemos que, hemos obtenido un DF con un total de 599 viviendas en alquiler.

In [None]:
df_redpiso.shape

(600, 2)

- Procederemos ahora a limpiar los datos:
1. Aplicaremos la función `extraer_distrito` a la columna descripción. Esta función aplica un patrón de Regex al string para obtener únicamente el distrito. Si no lo encuentra, devuelve "Distrito no identificado". Limpiaremos esos registros posteriormente.
2. En la columna precio sustituimos los puntos, los signos de euro y los strings "a consultar".
3. Homogenizamos los nombres de los distritos eliminando las tildes y los nombres generales. 

In [None]:
df_redpiso["Distrito"] = df_redpiso['Descripción'].apply(sf.extraer_distrito)
df_redpiso["Descripción"] = df_redpiso["Descripción"].str.title()
df_redpiso["Precio"] = df_redpiso["Precio"].str.replace("A consultar","0")
df_redpiso["Precio"] = df_redpiso["Precio"].str.replace(".","")
df_redpiso["Precio"] = df_redpiso["Precio"].str.replace(" €","").astype(int)
df_redpiso["Distrito"] = df_redpiso["Distrito"].str.replace("Villa de Vallecas-Ensanche y Santa Eugenia","Puente de Vallecas")
df_redpiso["Distrito"] = df_redpiso["Distrito"].str.replace("San Blas-Canillejas","San Blas")
df_redpiso["Distrito"] = df_redpiso["Distrito"].str.replace("Vicálvaro-Ambroz-Centro-Valdebernardo-Valderribas","Vicálvaro")
df_redpiso["Distrito"] = df_redpiso["Distrito"].str.replace("Chamberí","Chamberi")
df_redpiso["Distrito"] = df_redpiso["Distrito"].str.replace("Chamartín","Chamartin")
df_redpiso["Distrito"] = df_redpiso["Distrito"].str.replace("Vicálvaro","Vicalvaro")
df_redpiso["Distrito"] = df_redpiso["Distrito"].str.replace("Tetuán","Tetuan")

- Tras aplicar el patrón de Regex, nos hemos quedado con 20 entradas sin identificar. Asignaremos esos distritos manualmente y comprobaremos que se hayan eliminado.

In [None]:
df_redpiso["Distrito"][0] = "Villaverde"
df_redpiso["Distrito"][13] = "Moncloa-Aravaca"
df_redpiso["Distrito"][39] = "Moncloa-Aravaca"
df_redpiso["Distrito"][112] = "Moncloa-Aravaca"
df_redpiso["Distrito"][187] = "Villaverde"
df_redpiso["Distrito"][235] = "Centro"
df_redpiso["Distrito"][257] = "Puente de Vallecas"
df_redpiso["Distrito"][273] = "Centro"
df_redpiso["Distrito"][288] = "Moncloa-Aravaca"
df_redpiso["Distrito"][380] = "Usera"
df_redpiso["Distrito"][387] = "Moncloa-Aravaca"
df_redpiso["Distrito"][446] = "Centro"
df_redpiso["Distrito"][464] = "Moncloa-Aravaca"
df_redpiso["Distrito"][493] = "Centro"
df_redpiso["Distrito"][501] = "Centro"
df_redpiso["Distrito"][527] = "Chamberi"
df_redpiso["Distrito"][551] = "Chamartin"
df_redpiso["Distrito"][568] = "Moncloa-Aravaca"
df_redpiso["Distrito"][591] = "Moncloa-Aravaca"
df_redpiso["Distrito"][592] = "Moncloa-Aravaca"

In [None]:
df_redpiso[df_redpiso["Distrito"].str.contains("Distrito no identificado", case=False, na=False)]

Unnamed: 0,Descripción,Precio,Distrito


- Comprobamos nuevamente que los nombres de los distritos son consistentes y no tenemos registros inesperados.

In [None]:
df_redpiso["Distrito"].unique()

array(['Villaverde', 'Chamberi', 'Salamanca', 'Ciudad Lineal',
       'Puente de Vallecas', 'Barajas', 'San Blas', 'Arganzuela',
       'Tetuan', 'Moncloa-Aravaca', 'Latina', 'Hortaleza',
       'Fuencarral-El Pardo', 'Retiro', 'Centro', 'Carabanchel',
       'Chamartin', 'Moratalaz', 'Usera', 'Vicalvaro'], dtype=object)

- Eliminamos los registros donde el precio del alquiler sea cero, debido a que distorsionarían el análisis.

In [None]:
df_redpiso["Precio"].value_counts()

Precio
1100    53
1200    51
0       43
850     42
1000    40
        ..
2350     1
550      1
690      1
720      1
1480     1
Name: count, Length: 83, dtype: int64

In [None]:
df_redpiso = df_redpiso[
    (df_redpiso["Precio"] != 0)
]

- Tras eliminar los registros, nos quedamos con 556 pisos repartidos en 20 distritos, de un total de 21 que tenemos en Madrid.

In [None]:
df_redpiso["Distrito"].value_counts()

Distrito
Chamberi               74
Chamartin              69
Centro                 62
Fuencarral-El Pardo    47
Hortaleza              44
Puente de Vallecas     43
Arganzuela             35
Salamanca              33
Latina                 31
Moncloa-Aravaca        26
Tetuan                 25
Retiro                 17
Carabanchel            15
San Blas               11
Villaverde              8
Ciudad Lineal           6
Vicalvaro               6
Barajas                 2
Moratalaz               2
Usera                   1
Name: count, dtype: int64

- Para asignar el ID a cada municipio, realiaremos un merge con el dataframe de distritos. Reordenaremos las columnas y lo guardaremos en un archivo CSV.

In [None]:
df_redpiso_merge = df_redpiso.merge(df_distritos, how="inner", left_on="Distrito", right_on="Distrito")

In [None]:
df_redpiso_merge.drop(columns = ["Distrito", "geometry"], inplace=True)
df_redpiso_merge = df_redpiso_merge[["ID_Distrito", "Descripción", "Precio"]]
df_redpiso_merge.head(5)

Unnamed: 0,ID_Distrito,Descripción,Precio
0,17,"Piso En Alquiler En Villaverde, Madrid, Madrid",850
1,7,"Piso En Alquiler En Calle Cristobal Bordiu, Rí...",1100
2,4,"Apartamento En Alquiler En Calle Fundadores, F...",2000
3,15,"Piso En Alquiler En Calle Pepe Isbert, Pueblo ...",744
4,13,Estudio En Alquiler En Calle Embalse De Navace...,750


In [None]:
#df_redpiso_merge.to_csv("../datos/finales/alquileres.csv")