In [2]:
import pandas as pd
import requests

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options

import warnings
warnings.filterwarnings('ignore')

# CSV Inicial

Nos descargamos el CSV que vamos a utilizar de Kaggle.

Los datos son sobre casas en los Estados de Washington, California y Oregón, y divididos por ciudades. Incluye muchas de las ciudades más importantes de cada estado. Los datos incluyen el precio, dirección, número de cuartos, baños, el área de la casa, etc.

Link al kaggle: https://www.kaggle.com/ialjadani/houses-prices-in-selected-area-in-usa

In [3]:
df = pd.read_csv ("../Data/01.1 CSV_inicial_houses_USA.csv")
df.sort_values(by = ["City"]).head(3)

Unnamed: 0.1,Unnamed: 0,Price,Currency,Brokered_by,AD_Situation,Rooms,Bath,Building space,Measruing unit,Address,City,State
1182,1182,899000,USD,Redfin Corporation,New - 18 hours ago,4,2.5,1860,sqft,"301 S Cordova St, Alhambra, CA 91801",Alhambra,CA 91801
1234,1234,510000,USD,Keller Williams Signature,New - 20 hours ago,2,2.0,1123,sqft,"777 E Valley Blvd Apt 56, Alhambra, CA 91801",Alhambra,CA 91801
1302,1302,1188000,USD,COMPASS,New,3,2.5,1890,sqft,"424 N Cordova St, Alhambra, CA 91801",Alhambra,CA 91801


In [4]:
df.shape

(1718, 12)

# Selenium

A continuación, haremos uso de Seleniom para extraer información sobre índices (de poder adquisitivo, calidad, seguridad, sanidad, etc.) de las 11 ciudades más importantes y relevantes de los 3 Estados en análisis. Esto lo usaremos más adelante para enriquecer nuestro CSV inicial

Lo primero que vamos a hacer es definir una serie de opciones para trabajar con Selenium

In [5]:
opciones= Options()
opciones.add_experimental_option('excludeSwitches', ['enable-automation'])
#para ocultarme como robot
opciones.add_experimental_option('useAutomationExtension', False)
opciones.add_argument('--start-maximized') #empezar maximizado
opciones.add_argument('user.data-dir=selenium') #guarda las cookies
opciones.add_argument('--incognito')#incognito window

In [6]:
# iniciamos el driver
driver = webdriver.Chrome(ChromeDriverManager().install())
## accedemos a la pagina web

driver.get("https://es.numbeo.com/calidad-de-vida/pa%25C3%25ADs/Estados-Unidos")
driver.implicitly_wait(15)
# esperamos

driver.find_element_by_css_selector("#content_and_logo > table:nth-child(10) > tbody").text



Current google-chrome version is 99.0.4844
Get LATEST chromedriver version for 99.0.4844 google-chrome
Driver [/Users/monicagoizuetabeltran/.wdm/drivers/chromedriver/mac64/99.0.4844.51/chromedriver] found in cache


'Índice de Poder Adquisitivo 104,42   Alto\nÍndice de Seguridad 51,72   Moderado\nÍndice de Sanidad 69,06   Alto\nÍndice de Clima 77,33   Alto\nÍndice de Costo de Vida 70,11   Moderado\nRelación Precio/Ingresos para Propiedades 3,93   Muy Bajo\nÍndice de Tiempo de Desplazamiento en Tráfico 32,88   Bajo\nÍndice de Contaminación 35,44   Bajo\nƒ Índice de Calidad de Vida: 170,01   Muy alto'

Hemos accedido a la información genérica de Estados Unidos, perfecto! Y ahora vamos a acceder a la información de las ciudades que nos interesan:

In [7]:
ciudades_list = ["Olympia","Portland","Seattle","Anaheim","Bellevue","Irvine","Playa-Larga","Pasadena","Redmond","Tacoma","Vancouver"]         

In [8]:
url_list = []

for i in ciudades_list:
    url_list.append(f"https://es.numbeo.com/calidad-de-vida/ciudad/{i}")

url_list

['https://es.numbeo.com/calidad-de-vida/ciudad/Olympia',
 'https://es.numbeo.com/calidad-de-vida/ciudad/Portland',
 'https://es.numbeo.com/calidad-de-vida/ciudad/Seattle',
 'https://es.numbeo.com/calidad-de-vida/ciudad/Anaheim',
 'https://es.numbeo.com/calidad-de-vida/ciudad/Bellevue',
 'https://es.numbeo.com/calidad-de-vida/ciudad/Irvine',
 'https://es.numbeo.com/calidad-de-vida/ciudad/Playa-Larga',
 'https://es.numbeo.com/calidad-de-vida/ciudad/Pasadena',
 'https://es.numbeo.com/calidad-de-vida/ciudad/Redmond',
 'https://es.numbeo.com/calidad-de-vida/ciudad/Tacoma',
 'https://es.numbeo.com/calidad-de-vida/ciudad/Vancouver']

Ya tenemos la lista de las url que queremos! Ahora vamos a sacar la tabla para cada una de las url de arriba:

In [9]:
resultados = []
for z in url_list:
    driver.get(z)
    driver.implicitly_wait(15)
    res = driver.find_element_by_xpath('/html/body/div[2]/table[2]/tbody').text
    resultados.append(res)

In [10]:
resultados

['Índice de Poder Adquisitivo 108,43   Alto\nÍndice de Seguridad 70,61   Alto\nÍndice de Sanidad 71,99   Alto\nÍndice de Clima 83,44   Muy alto\nÍndice de Costo de Vida 70,23   Moderado\nRelación Precio/Ingresos para Propiedades 3,37   Muy Bajo\nÍndice de Tiempo de Desplazamiento en Tráfico 19,11   Muy Bajo\nÍndice de Contaminación 16,01   Muy Bajo\nƒ Índice de Calidad de Vida: 204,67   Muy alto',
 'Índice de Poder Adquisitivo 103,67   Alto\nÍndice de Seguridad 48,14   Moderado\nÍndice de Sanidad 73,18   Alto\nÍndice de Clima 89,56   Muy alto\nÍndice de Costo de Vida 78,48   Moderado\nRelación Precio/Ingresos para Propiedades 4,66   Muy Bajo\nÍndice de Tiempo de Desplazamiento en Tráfico 33,38   Bajo\nÍndice de Contaminación 30,83   Bajo\nƒ Índice de Calidad de Vida: 174,92   Muy alto',
 'Índice de Poder Adquisitivo 145,56   Muy alto\nÍndice de Seguridad 49,23   Moderado\nÍndice de Sanidad 74,06   Alto\nÍndice de Clima 91,73   Muy alto\nÍndice de Costo de Vida 89,21   Moderado\nRelació

A continuación vamos a crear un diccionario, pasándole los Key-values, y con objetivo de convertirlo en un DataFrame:

In [11]:
key_list = ["Olympia","Portland","Seattle","Anaheim","Bellevue","Irvine","Long Beach","Pasadena","Redmond","Tacoma","Vancouver"]
value_list = resultados

In [12]:
dict_from_list = dict(zip(key_list, value_list))
#print(dict_from_list)

In [13]:
df1 = pd.DataFrame(dict_from_list, index = ["indice1"]).T
df1

Unnamed: 0,indice1
Olympia,"Índice de Poder Adquisitivo 108,43 Alto\nÍnd..."
Portland,"Índice de Poder Adquisitivo 103,67 Alto\nÍnd..."
Seattle,"Índice de Poder Adquisitivo 145,56 Muy alto\..."
Anaheim,"Índice de Poder Adquisitivo 95,65 Alto\nÍndi..."
Bellevue,"Índice de Poder Adquisitivo 193,53 Muy alto\..."
Irvine,"Índice de Poder Adquisitivo 130,49 Muy alto\..."
Long Beach,"Índice de Poder Adquisitivo 107,76 Alto\nÍnd..."
Pasadena,"Índice de Poder Adquisitivo 105,63 Alto\nÍnd..."
Redmond,"Índice de Poder Adquisitivo 143,10 Muy alto\..."
Tacoma,"Índice de Poder Adquisitivo 88,87 Moderado\n..."


A continuación vamos a split la columna "indice1" por los espacios! Y resetemos el índice:

In [14]:
df2 = (df1["indice1"].str.split("\n", expand=True)).reset_index()
df2.head(1)

Unnamed: 0,index,0,1,2,3,4,5,6,7,8
0,Olympia,"Índice de Poder Adquisitivo 108,43 Alto","Índice de Seguridad 70,61 Alto","Índice de Sanidad 71,99 Alto","Índice de Clima 83,44 Muy alto","Índice de Costo de Vida 70,23 Moderado","Relación Precio/Ingresos para Propiedades 3,37...",Índice de Tiempo de Desplazamiento en Tráfico ...,"Índice de Contaminación 16,01 Muy Bajo","ƒ Índice de Calidad de Vida: 204,67 Muy alto"


Actualizamos el nombre de las columnas

In [15]:
df2.columns = ['City', 'índice_poder_adq', 'índice_seguridad','índice_sanidad', 'índice_clima', 'índice_costo_vida', 'relación_precio_ingresos_propiedades', 'índice_costo_desplazamiento', 'índice_contaminación', 'índice_calidad_vida']
df2.head(1)

Unnamed: 0,City,índice_poder_adq,índice_seguridad,índice_sanidad,índice_clima,índice_costo_vida,relación_precio_ingresos_propiedades,índice_costo_desplazamiento,índice_contaminación,índice_calidad_vida
0,Olympia,"Índice de Poder Adquisitivo 108,43 Alto","Índice de Seguridad 70,61 Alto","Índice de Sanidad 71,99 Alto","Índice de Clima 83,44 Muy alto","Índice de Costo de Vida 70,23 Moderado","Relación Precio/Ingresos para Propiedades 3,37...",Índice de Tiempo de Desplazamiento en Tráfico ...,"Índice de Contaminación 16,01 Muy Bajo","ƒ Índice de Calidad de Vida: 204,67 Muy alto"


Creamos nuevas columnas, quedándonos únicamente con los valores numéricos:

In [16]:
df2["Índice_poder_adqui"] = df2.índice_poder_adq.str.extract("(\d+,\d+)", expand=True)
df2["Índice_seguridad"] = df2.índice_seguridad.str.extract("(\d+,\d+)", expand=True)
df2["Índice_sanidad"] = df2.índice_sanidad.str.extract("(\d+,\d+)", expand=True)
df2["Índice_clima"] = df2.índice_clima.str.extract("(\d+,\d+)", expand=True)
df2["Índice_costo_vida"] = df2.índice_costo_vida.str.extract("(\d+,\d+)", expand=True)
df2["Relación_precio_ingresos_propiedades"] = df2.relación_precio_ingresos_propiedades.str.extract("(\d+,\d+)", expand=True)
df2["Índice_costo_desplazamiento"] = df2.índice_costo_desplazamiento.str.extract("(\d+,\d+)", expand=True)
df2["Índice_contaminación"] = df2.índice_contaminación.str.extract("(\d+,\d+)", expand=True)
df2["Índice_calidad_vida"] = df2.índice_calidad_vida.str.extract("(\d+,\d+)", expand=True)
df2.head(1)

Unnamed: 0,City,índice_poder_adq,índice_seguridad,índice_sanidad,índice_clima,índice_costo_vida,relación_precio_ingresos_propiedades,índice_costo_desplazamiento,índice_contaminación,índice_calidad_vida,Índice_poder_adqui,Índice_seguridad,Índice_sanidad,Índice_clima,Índice_costo_vida,Relación_precio_ingresos_propiedades,Índice_costo_desplazamiento,Índice_contaminación,Índice_calidad_vida
0,Olympia,"Índice de Poder Adquisitivo 108,43 Alto","Índice de Seguridad 70,61 Alto","Índice de Sanidad 71,99 Alto","Índice de Clima 83,44 Muy alto","Índice de Costo de Vida 70,23 Moderado","Relación Precio/Ingresos para Propiedades 3,37...",Índice de Tiempo de Desplazamiento en Tráfico ...,"Índice de Contaminación 16,01 Muy Bajo","ƒ Índice de Calidad de Vida: 204,67 Muy alto",10843,7061,7199,8344,7023,337,1911,1601,20467


Eliminamos las columnas que ya no necesitamos porque la información está duplicada:

In [17]:
eliminar = ['índice_poder_adq', 'índice_seguridad', 'índice_sanidad',
       'índice_clima', 'índice_costo_vida',
       'relación_precio_ingresos_propiedades', 'índice_costo_desplazamiento',
       'índice_contaminación', 'índice_calidad_vida']

In [18]:
df2_limpio = df2.drop(eliminar, axis = 1)
df2_limpio.head(1)

Unnamed: 0,City,Índice_poder_adqui,Índice_seguridad,Índice_sanidad,Índice_clima,Índice_costo_vida,Relación_precio_ingresos_propiedades,Índice_costo_desplazamiento,Índice_contaminación,Índice_calidad_vida
0,Olympia,10843,7061,7199,8344,7023,337,1911,1601,20467


Exportamos el DataFrame a un CSV

In [19]:
df2_limpio.to_csv("01.2 Resultado_Selenium_limpio_índices_ciudades_EEUU_.csv")

# Mergeo de CSV inicial y Selenium

A continuaición vamos a mergear ambos DataFrames:

In [20]:
mergeado_inner = df.merge(df2_limpio, on= "City")
mergeado_inner.head(1)

Unnamed: 0.1,Unnamed: 0,Price,Currency,Brokered_by,AD_Situation,Rooms,Bath,Building space,Measruing unit,Address,...,State,Índice_poder_adqui,Índice_seguridad,Índice_sanidad,Índice_clima,Índice_costo_vida,Relación_precio_ingresos_propiedades,Índice_costo_desplazamiento,Índice_contaminación,Índice_calidad_vida
0,0,289900,USD,Greene Realty Group LLC,New - 7 hours ago,3,2.0,1944,sqft,"5142 Puget Rd NE, Olympia, WA 98516",...,WA 98516,10843,7061,7199,8344,7023,337,1911,1601,20467


Exportamos el DataFrame mergeado a un CSV

In [21]:
mergeado_inner.to_csv("01.3 Datos_enriquecidos_.csv")