# B) Speculation Watch List

In [1]:
import numpy as np

In [2]:
data = np.loadtxt('data/Speculation_Watch_List.csv', delimiter=',', usecols=(11), skiprows=1, converters={1: lambda s:float(str(s.decode()).replace(",","."))})

In [3]:
pricesAsc = np.sort(data)
print("Los precios más bajos son: ", pricesAsc[:5])
print("Mientras que los más altos: ", pricesAsc[::-1][:5])

Los precios más bajos son:  [ 500000.  750000.  871215.  950000. 1400000.]
Mientras que los más altos:  [90000000. 74700000. 64500000. 62000000. 60000000.]


In [4]:
print("El precio mínimo es: ", pricesAsc.min())
print("El precio máximo es : ", pricesAsc.max())

El precio mínimo es:  500000.0
El precio máximo es :  90000000.0


In [5]:
print("La media de los precios es: ", round(pricesAsc.mean(), 2))
print("La mediana de dichos precios la podemos encontrar en el valor: ", np.median(pricesAsc))

La media de los precios es:  9284909.49
La mediana de dichos precios la podemos encontrar en el valor:  6775000.0


Vamos a ver cual es la zona mas cara. La zona la obtendremos con las columnas del df borough y boro. Para ello cogeremos la mediana de las diferentes zonas.

In [6]:
data = np.loadtxt('data/Speculation_Watch_List.csv', delimiter=',', usecols=(0, 1, 11), skiprows=1, dtype=[('borough', np.unicode_, 12), ('boro', 'i4'), ('price', 'i4')])
print(data[:10])

[('BX', 2,  6120000) ('BX', 2,  4880000) ('BX', 2, 11989543)
 ('BX', 2,  1825000) ('BK', 3,  9475000) ('MN', 1, 10200000)
 ('BK', 3,  9250000) ('QN', 4,  2650000) ('MN', 1,  5500000)
 ('MN', 1,  7875000)]


In [7]:
# Realizamos la mediana realizando un group by por la variable 'borough'
boroughData = data['borough']
boroughUnique = np.unique(boroughData)
priceBtweenBorough = np.array([(i, round(np.median(data['price'][boroughData == i]), 2)) for i in boroughUnique], dtype=[('borough', np.unicode_, 12), ('price', 'i4')])

In [8]:
print("La mediana de los precios de las diferentes zonas es:\n", priceBtweenBorough)

La mediana de los precios de las diferentes zonas es:
 [('BK', 6325000) ('BX', 5600000) ('MN', 8560193) ('QN', 5168000)
 ('SI', 2100000)]


In [9]:
argmax = priceBtweenBorough[priceBtweenBorough['price'].argmax()]
print("EL lugar con la mediana más elevada es ", argmax[0])
print("Su media es de: ", argmax[1])

EL lugar con la mediana más elevada es  MN
Su media es de:  8560193


In [10]:
argmin = priceBtweenBorough[priceBtweenBorough['price'].argmin()]
print("EL lugar con la mediana más pequeña es ", argmin[0])
print("Su media es de: ", argmin[1])

EL lugar con la mediana más pequeña es  SI
Su media es de:  2100000


Ahora vamos a mirar si vemos algún patrón que pueda indicarnos que diferencias encontramos entre la zona con los precios mayores y menores. Para ello vamos a trabajar con las columnas que nos indican el ratio de capitalización. Estas son **cap_rate** y **borough_cap_rate**.

In [11]:
data = np.loadtxt('data/Speculation_Watch_List.csv', delimiter=',', usecols=(0, 12, 13), skiprows=1, dtype=[('borough', np.unicode_, 12), ('cap_rate', 'f4'), ('borough_cap_rate', 'f4')])
print(data[:5])

[('BX', 0.038, 0.044) ('BX', 0.038, 0.044) ('BX', 0.033, 0.034)
 ('BX', 0.034, 0.046) ('BK', 0.024, 0.034)]


In [12]:
maximunPriceBorough = data[data['borough'] == argmax[0]]

In [13]:
print("El ratio de capitalización media de la zona más cara es de ", np.mean(maximunPriceBorough['cap_rate']), " y la mediana de ", np.median(maximunPriceBorough['cap_rate']))
print("La desviación estàndar ", np.std(maximunPriceBorough['cap_rate']))

El ratio de capitalización media de la zona más cara es de  0.03262195  y la mediana de  0.031
La desviación estàndar  0.011226211


In [14]:
print("El ratio de capitalización media de la zona más barata es de ", np.mean(maximunPriceBorough['borough_cap_rate']), " y la mediana de ", np.median(maximunPriceBorough['borough_cap_rate']))
print("La desviación estàndar ", np.std(maximunPriceBorough['borough_cap_rate']))

El ratio de capitalización media de la zona más barata es de  0.044579268  y la mediana de  0.05
La desviación estàndar  0.01066507


In [15]:
minimunPriceBorough = data[data['borough'] == argmin[0]]

In [16]:
print("El ratio de capitalización media es de ", np.mean(minimunPriceBorough['cap_rate']), " y la mediana de ", np.median(minimunPriceBorough['cap_rate']))
print("La desviación estàndar ", np.std(minimunPriceBorough['cap_rate']))

El ratio de capitalización media es de  0.04975  y la mediana de  0.045
La desviación estàndar  0.010685856


In [17]:
print("El ratio de capitalización media es de ", np.mean(minimunPriceBorough['borough_cap_rate']), " y la mediana de ", np.median(minimunPriceBorough['borough_cap_rate']))
print("La desviación estàndar ", np.std(minimunPriceBorough['borough_cap_rate']))

El ratio de capitalización media es de  0.061499998  y la mediana de  0.061499998
La desviación estàndar  0.011543396


Como podemos ver tanto el **cap_rate** como el **borough_cap_rate** es mayor en la zona más barata.

In [18]:
print("En concreto estamos hablando de una diferencia de ", round((np.mean(minimunPriceBorough['cap_rate'])-np.mean(maximunPriceBorough['cap_rate']))*100, 2), " puntos porcentuales de 'cap_rate'")
print("Y de una diferencia de ", round((np.mean(minimunPriceBorough['borough_cap_rate'])-np.mean(maximunPriceBorough['borough_cap_rate']))*100, 2), " puntos porcentuales de 'borough_cap_rate'")

En concreto estamos hablando de una diferencia de  1.71  puntos porcentuales de 'cap_rate'
Y de una diferencia de  1.69  puntos porcentuales de 'borough_cap_rate'
