# EXPLORATORY DATA ANALYSIS (EDA) DE LAS VIVIENDAS EN VENTA EN MADRID

## CARGA DE DATOS Y LIBRERÍAS DE PYTHON

### CARGA DE LIBRERÍAS DE PYTHON

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import seaborn as sns
import random
# import counter

# Archivo fuente de datos
file = './Data/idealista_madrid.csv'

### CARGA DE DATOS

In [None]:
# Array, de Numpy, con los datos de la columna "price" del archivo fuente csv.
precios = np.genfromtxt(file, usecols=(0), delimiter=",", skip_header=1, dtype=np.int64, encoding="UTF-8")

# Array, de Numpy, con los datos de la columna "baths" del archivo fuente csv.
num_banos = np.genfromtxt(file, usecols=(1), delimiter=",", skip_header=1, dtype=np.int16, encoding="UTF-8")

# Array, de Numpy, con los datos de la columna "rooms" del archivo fuente csv.
num_habitaciones = np.genfromtxt(file, usecols=(2), delimiter=",", skip_header=1, dtype=np.int16, encoding="UTF-8")

# Array, de Numpy, con los datos de la columna "sqft" del archivo fuente csv.
superficie = np.genfromtxt(file, usecols=(3), delimiter=",", skip_header=1, dtype=np.int16, encoding="UTF-8")

# Array, de Numpy, con los datos de la columna "address" del archivo fuente csv.
barrios = np.genfromtxt(file, usecols=(4), delimiter=",", skip_header=1, dtype=str, encoding="UTF-8")

## ESTADÍSTICA DESCRIPTIVA

### MEDIDAS DE TENDENCIA CENTRAL: MEDIA, MEDIANA y MODA.

#### MEDIAS

In [31]:
media_precios = np.mean(precios)
media_banos = np.mean(num_banos)
media_habitaciones = np.mean(num_habitaciones)
media_superficie = np.mean(superficie)

# Se calcula también la media de las frecuencias de los barrios que más viviendas tienen en venta
# Se define un nuevo array con los barrios únicos del array 'barrios' y se obtiene otro array con las frecuencias de aparación de cada barrio.
barrios_unicos, frecuencias_barrios = np.unique(barrios, return_counts=True)

# Se calcula la media de las frecuencias de aparición de cada barrio único. Reflexión: ¿Tendría algún sentido calcular esta media?
media_fre_barrios_unicos = np.mean(frecuencias_barrios)

print(f"La media de precios de las viviendas en venta es: {media_precios:.2f}€")
print(f"La media del número de baños de las viviendas en venta es: {media_banos:.2f}")
print(f"La media del número de habitaciones de las viviendas en venta es: {media_habitaciones:.2f}")
print(f"La media de la superficie de las viviendas en venta es: {media_superficie:.2f} m2")
print(f"La media de la frecuencia de los barrios con viviendas en venta es: {media_fre_barrios_unicos:.2f}")

# Obeservación: Se imprime el barrio con más viviendas en venta
print(f"El barrio con más viviendas en venta es: {str(barrios_unicos[np.argmax(frecuencias_barrios)])}") # Esto es la moda también.



La media de precios de las viviendas en venta es: 1290575.26€
La media del número de baños de las viviendas en venta es: 2.90
La media del número de habitaciones de las viviendas en venta es: 3.47
La media de la superficie de las viviendas en venta es: 217.24 m2
La media de la frecuencia de los barrios con viviendas en venta es: 8.71
El barrio con más viviendas en venta es: Barrio de Salamanca


#### MEDIANAS

In [None]:
mediana_precios = np.median(precios)
mediana_banos = np.median(num_banos)
mediana_habitaciones = np.median(num_habitaciones)
mediana_superficie = np.median(superficie)
mediana_barrios = np.median(frecuencias_barrios)

print(f"La mediana de precios de las viviendas en venta es: {mediana_precios:.2f}€")
print(f"La mediana del número de baños de las viviendas en venta es: {mediana_banos:.2f}")
print(f"La mediana del número de habitaciones de las viviendas en venta es: {mediana_habitaciones:.2f}")
print(f"La mediana de la superficie de las viviendas en venta es: {mediana_superficie:.2f} m2")
print(f"La mediana de la frecuencia de las barrios con viviendas en venta es: {mediana_barrios:.2f}")


#### MODAS

In [32]:
moda_precios = stats.mode(precios)
moda_banos = stats.mode(num_banos)
moda_habitaciones = stats.mode(num_habitaciones)
moda_superficie = stats.mode(superficie)
moda_barrios = stats.mode(frecuencias_barrios) # Otra forma de calcular la moda. Aunque anteriormente ya se ha calculado de otra manera.

print(f"La moda de precios de las viviendas en venta es: {moda_precios[0]:.2f}€ y se repite {moda_precios[1]} veces")
print(f"La moda del número de baños de las viviendas en venta es: {moda_banos[0]:.2f} y se repite {moda_banos[1]} veces")
print(f"La moda del número de habitaciones de las viviendas en venta es: {moda_habitaciones[0]:.2f} y se repite {moda_habitaciones[1]} veces")
print(f"La moda de la superficie de las viviendas en venta es: {moda_superficie[0]:.2f} m2 y se repite {moda_superficie[1]} veces")
print(f"La moda de la frecuencia de los barrios con viviendas en venta es: {str(barrios_unicos[np.argmax(frecuencias_barrios)])} y se repite {moda_barrios[1]} veces")

La moda de precios de las viviendas en venta es: 850000.00€ y se repite 15 veces
La moda del número de baños de las viviendas en venta es: 2.00 y se repite 301 veces
La moda del número de habitaciones de las viviendas en venta es: 3.00 y se repite 254 veces
La moda de la superficie de las viviendas en venta es: 133.00 m2 y se repite 12 veces
La moda de la frecuencia de los barrios con viviendas en venta es: Barrio de Salamanca y se repite 26 veces


### MÉDIDAS DESCRIPTIVAS: MÁXIMOS Y MÍNIMOS

#### MÁXIMOS

In [None]:
max_precios = np.max(precios)
max_banos = np.max(num_banos)
max_habitaciones = np.max(num_habitaciones)
max_superficie = np.max(superficie)
max_barrios = np.max(frecuencias_barrios)

print(f"El valor máximo de precios de las viviendas en venta es: {max_precios:.2f}€")
print(f"El valor máximo del número de baños de las viviendas en venta es: {max_banos:.2f}")
print(f"El valor máximo del número de habitaciones de las viviendas en venta es: {max_habitaciones:.2f}")
print(f"El valor máximo de la superficie de las viviendas en venta es: {max_superficie:.2f} m2")
print(f"El valor máximo de la frecuencia de los barrios con viviendas en venta es: {max_barrios:.2f}")

#### MÍNIMOS

In [None]:
min_precios = np.min(precios)
min_banos = np.min(num_banos)
min_habitaciones = np.min(num_habitaciones)
min_superficie = np.min(superficie)
min_barrios = np.min(frecuencias_barrios)

print(f"El valor mínimo de precios de las viviendas en venta es: {min_precios:.2f}€")
print(f"El valor mínimo del número de baños de las viviendas en venta es: {min_banos:.2f}")
print(f"El valor mínimo del número de habitaciones de las viviendas en venta es: {min_habitaciones:.2f}")
print(f"El valor mínimo de la superficie de las viviendas en venta es: {min_superficie:.2f} m2")
print(f"El valor mínimo de la frecuencia de los barrios con viviendas en venta es: {min_barrios:.2f}")

### HISTOGRAMAS Y CURVAS DE DENSIDAD.

#### PRECIOS.

In [None]:
# Histograma utilizando la librería MatplotLib
plt.figure(figsize=(8, 5))
plt.hist(precios, bins=50, edgecolor='k', alpha=0.5)
plt.title("Precios de viviendas en Madrid")
plt.xlabel("Precio (en milones de €)")
plt.ylabel("Frecuencia")
plt.axvline(media_precios, color='red', linestyle='dashed', linewidth=2, label=f'Media(€): {media_precios:.2f}')
plt.axvline(mediana_precios, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(€): {mediana_precios:.2f}')
plt.legend()
plt.grid()
plt.show()

In [None]:
# Histograma y Curva de Densidad utilizando la librería Seaborn
plt.figure(figsize=(8, 5))
sns.histplot(precios, bins=50, kde=True, color="green", edgecolor="black")
plt.title("Precios de viviendas en Madrid")
plt.xlabel("Precio (en milones de €)")
plt.ylabel("Frecuencia")
plt.axvline(media_precios, color='red', linestyle='dashed', linewidth=2, label=f'Media(€): {media_precios:.2f}')
plt.axvline(mediana_precios, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(€): {mediana_precios:.2f}')
plt.legend()
plt.grid()
plt.show()


#### Nº DE BAÑOS.

In [None]:
# Histograma y Curva de Densidad utilizando la librería Seaborn
plt.figure(figsize=(8, 5))
sns.histplot(num_banos, bins=10, kde=True, color="green", edgecolor="black")
plt.title("Número de baños de viviendas en venta en Madrid")
plt.xlabel("Nº Baños")
plt.ylabel("Nº Viviendas")
plt.axvline(media_banos, color='red', linestyle='dashed', linewidth=2, label=f'Media(€): {media_banos:.2f}')
plt.axvline(mediana_banos, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(€): {mediana_banos:.2f}')
plt.legend()
plt.grid()
plt.show()

#### Nº DE HABITACIONES.

In [None]:
# Histograma y Curva de Densidad utilizando la librería Seaborn
plt.figure(figsize=(8, 5))
sns.histplot(num_habitaciones, bins=10, kde=True, color="green", edgecolor="black")
plt.title("Número de habitaciones de viviendas en venta en Madrid")
plt.xlabel("Nº Habitaciones")
plt.ylabel("Nº Viviendas")
plt.axvline(media_habitaciones, color='red', linestyle='dashed', linewidth=2, label=f'Media(habitaciones): {media_habitaciones:.2f}')
plt.axvline(mediana_habitaciones, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(habitaciones): {mediana_habitaciones:.2f}')
plt.legend()
plt.grid()
plt.show()

#### SUPERFICIES.

In [None]:
# Histograma y Curva de Densidad utilizando la librería Seaborn
plt.figure(figsize=(8, 5))
sns.histplot(superficie, bins=30, kde=True, color="green", edgecolor="black")
plt.title("Superficie de las viviendas en venta en Madrid")
plt.xlabel("Superficie (m2)")
plt.ylabel("Nº Viviendas")
plt.axvline(media_superficie, color='red', linestyle='dashed', linewidth=2, label=f'Media(m2): {media_superficie:.2f}')
plt.axvline(mediana_superficie, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(m2): {mediana_superficie:.2f}')
plt.legend()
plt.grid()
plt.show()

#### BARRIOS.

In [None]:
# Barrios, al tratarse de variables cualitativas, se emplean gráficos de barras utilizando la librería MatplotLib
plt.figure(figsize=(8, 25))
plt.barh(barrios_unicos, frecuencias_barrios, color='skyblue', edgecolor='k', alpha=0.5)
plt.title("Viviendas en en venta por cada Barrio de Madrid")
plt.xlabel("Nº Viviendas")
plt.ylabel("Barrios")
plt.axvline(media_fre_barrios_unicos, color='red', linestyle='dashed', linewidth=2, label=f'Media(Nº Viviendas): {media_fre_barrios_unicos:.2f}')
plt.axvline(mediana_barrios, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(Nº Viviendas): {mediana_barrios:.2f}')
plt.legend()
plt.grid()
plt.show()

### MEDIDAS DE POSICIÓN NO CENTRAL: CUARTILES

#### CUARTILES

##### PRECIOS

In [None]:
# Aunque los cuartiles se van a calcular de forma unitaria, también se pueden obtener los cuartiles de una vez, como elementos de un array. Por ejemplo:
# cuartiles = np.quantile(a = precios, q = [0.25, 0.50, 0.75], interpolation = "lower")
# La línea de código de más arriba obtiene una array cuyos elementos son los valores de los cuartiles 25%, 50% y 75%)

# En este estudio, se van a calcular los cuartiles por separado.
q1_precios = np.quantile(a = precios, q = 0.25, interpolation = "lower")
q2_precios = mediana_precios
q3_precios = np.quantile(a = precios, q = 0.75, interpolation = "lower")

print(f"El valor del cuartil 25% de los precios de las viviendas en venta es: {q1_precios:.2f}€")
print(f"El valor del cuartil 50% de los precios de las viviendas en venta es: {q2_precios:.2f}€")
print(f"El valor del cuartil 75% de los precios de las viviendas en venta es: {q3_precios:.2f}€")


##### Nº DE BAÑOS

In [15]:
q1_banos = np.quantile(a = num_banos, q = 0.25, interpolation = "lower")
q2_banos = mediana_banos
q3_banos = np.quantile(a = num_banos, q = 0.75, interpolation = "lower")

print(f"El valor del cuartil 25% del número de baños de las viviendas en venta es: {q1_banos:.2f}")
print(f"El valor del cuartil 50% del número de baños de las viviendas en venta es: {q2_banos:.2f}")
print(f"El valor del cuartil 75% del número de baños de las viviendas en venta es: {q3_banos:.2f}")

##### Nº DE HABITACIONES

In [16]:
q1_habitaciones = np.quantile(a = num_habitaciones, q = 0.25, interpolation = "lower")
q2_habitaciones = mediana_habitaciones
q3_habitaciones = np.quantile(a = num_habitaciones, q = 0.75, interpolation = "lower")

print(f"El valor del cuartil 25% del número de habitaciones de las viviendas en venta es: {q1_habitaciones:.2f}")
print(f"El valor del cuartil 50% del número de habitaciones de las viviendas en venta es: {q2_habitaciones:.2f}")
print(f"El valor del cuartil 75% del número de habitaciones de las viviendas en venta es: {q3_habitaciones:.2f}")

##### SUPERFICIE

In [17]:
q1_superficie = np.quantile(a = superficie, q = 0.25, interpolation = "lower")
q2_superficie = mediana_superficie
q3_superficie = np.quantile(a = superficie, q = 0.75, interpolation = "lower")

print(f"El valor del cuartil 25% de la superficie de las viviendas en venta es: {q1_superficie:.2f} m2")
print(f"El valor del cuartil 50% de la superficie de las viviendas en venta es: {q2_superficie:.2f} m2")
print(f"El valor del cuartil 75% de la superficie de las viviendas en venta es: {q3_superficie:.2f} m2")

##### BARRIOS

In [18]:
q1_barrios = np.quantile(a = frecuencias_barrios, q = 0.25, interpolation = "lower")
q2_barrios = mediana_barrios
q3_barrios = np.quantile(a = frecuencias_barrios, q = 0.75, interpolation = "lower")

print(f"El valor del cuartil 25% de los barrios con viviendas en venta es: {q1_barrios:.2f}")
print(f"El valor del cuartil 50% de los barrios con viviendas en venta es: {q2_barrios:.2f}")
print(f"El valor del cuartil 75% de los barrios con viviendas en venta es: {q3_barrios:.2f}")

### MEDIDAS DE DISPERSIÓN: RANGO, RANGO INTERCUARTIL (IQR), VARIANZA Y DESVIACIÓN ESTÁNDAR

#### RANGO

In [19]:
rango_precios = max_precios - min_precios
rango_banos = max_banos - min_banos
rango_habitaciones = max_habitaciones - min_habitaciones
rango_superficie = max_superficie - min_superficie
rango_barrios = max_barrios - min_barrios

print(f"El valor rango de los precios de las viviendas en venta es: {rango_precios:.2f}€")
print(f"El valor rango del número de baños de las viviendas en venta es: {rango_banos:.2f}")
print(f"El valor rango del número de habitaciones de las viviendas en venta es: {rango_habitaciones:.2f}")
print(f"El valor rango de la superficies de las viviendas en venta es: {rango_superficie:.2f} m2")
print(f"El valor rango de las viviendas en venta por barrios es: {rango_barrios:.2f}")

#### RANGO INTERCUARTÍLICO (IQR)

In [20]:
iqr_precios = q3_precios - q1_precios
iqr_banos = q3_banos - q1_banos
iqr_habitaciones = q3_habitaciones - q1_habitaciones
iqr_superficie = q3_superficie - q1_superficie
iqr_barrios = q3_barrios - q1_barrios

print(f"El valor IQR de los precios de las viviendas en venta es: {iqr_precios:.2f}€")
print(f"El valor IQR del número de baños de las viviendas en venta es: {iqr_banos:.2f}")
print(f"El valor IQR del número de habitaciones de las viviendas en venta es: {iqr_habitaciones:.2f}")
print(f"El valor IQR de la superficies de las viviendas en venta es: {iqr_superficie:.2f} m2")
print(f"El valor IQR de las viviendas en venta por barrios es: {iqr_barrios:.2f}")

#### VARIANZA

In [21]:
var_precios = np.var(precios)
var_banos = np.var(num_banos)
var_habitaciones = np.var(num_habitaciones)
var_superficie = np.var(superficie)
var_barrios = np.var(frecuencias_barrios)

print(f"La varianza de los precios de las viviendas en venta es: {var_precios:.2f}€")
print(f"La varianza del número de baños de las viviendas en venta es: {var_banos:.2f}")
print(f"La varianza del número de habitaciones de las viviendas en venta es: {var_habitaciones:.2f}")
print(f"La varianza de la superficies de las viviendas en venta es: {var_superficie:.2f} m2")
print(f"La varianza de las viviendas en venta por barrios es: {var_barrios:.2f}")

#### DESVIACIÓN ESTÁNDAR

In [22]:
desv_precios = np.std(precios)
desv_banos = np.std(num_banos)
desv_habitaciones = np.std(num_habitaciones)
desv_superficie = np.std(superficie)
desv_barrios = np.std(frecuencias_barrios)

print(f"La desviación estándar de los precios de las viviendas en venta es: {desv_precios:.2f}€")
print(f"La desviación estándar del número de baños de las viviendas en venta es: {desv_banos:.2f}")
print(f"La desviación estándar del número de habitaciones de las viviendas en venta es: {desv_habitaciones:.2f}")
print(f"La desviación estándar de la superficies de las viviendas en venta es: {desv_superficie:.2f} m2")
print(f"La desviación estándar de las viviendas en venta por barrios es: {desv_barrios:.2f}")

#### FILTRADO DE DATOS

##### PRECIO MÁXIMO DEL 20% DE LAS VIVIENDAS MÁS BARATAS

In [36]:
# Filtrado de resultados empleando los percentiles.
precio_percentil_20 = np.percentile(precios, 20)
print(f"El 20% de las viviendas más baratas en venta en Madrid, cuestan menos de: {precio_percentil_20:.2f}€")
viviendas_mas_baratas = precios[precios <= precio_percentil_20]
media_viviendas_mas_baratas = np.mean(viviendas_mas_baratas)
print(f"El precio medio del 20% de las viviendas más baratas en venta en Madrid es: {media_viviendas_mas_baratas:.2f}€")

El 20% de las viviendas más baratas en venta en Madrid, cuestan menos de: 529900.00€
El precio medio del 20% de las viviendas más baratas en venta en Madrid es: 350706.89€


##### PRECIO MÍNIMO DEL 20% DE LAS VIVIENDAS MÁS CARAS

In [None]:
# Filtrado de resultados empleando los percentiles.
precio_percentil_80 = np.percentile(precios, 80)
print(f"El 20% de las viviendas más caras en venta en Madrid, cuestan más de: {precio_percentil_80:.2f}€")
viviendas_mas_caras = precios[precios >= precio_percentil_80]
media_viviendas_mas_caras = np.mean(viviendas_mas_caras)
print(f"El precio medio del 20% de las viviendas más caras en venta en Madrid es: {media_viviendas_mas_caras:.2f}€")

##### LOS BARRIOS DONDE SE ENCUENTRAN EL 20% DE LAS VIVIENDAS EN VENTA MÁS BARATAS DE MADRID

In [None]:
# Se ordena el array de precios, de menor a mayor. Devuelve un array cuyos elementos son índices del array "precios".
index_precios_asc = np.argsort(precios)

# Se calcula la cantidad de filas que representa el 20% del total de filas de la muestra
filas_percentil_20 = int(len(precios) * 0.2)

# Utilizando el nº de filas que representa el 20% de la muestra y el array de índices obtenido más arriba, se obtiene un subconjunto de los barrios correspondientes asociados al 20% de las viviendas más baratas.
barrios_baratos_percentil_20 = barrios[index_precios_asc[:filas_percentil_20]]

# Como en el array barrios_baratos_percentil_20 puede contener elementos (barrios) repetidos, se obtienen los barrios únicos y su frecuencia correspondiente.
barrios_baratos_unicos_percentil_20, frecuencias_barrios_baratos_unicos_percentil_20 = np.unique(barrios_baratos_percentil_20, return_counts=True)

# Se recorren ambos arrays y se presentan los resultados.
print("Estos son los barrios en donde se encuentran el 20% de las viviendas más baratas de Madrid:")
for barrios_mas_baratos_percentil_20, viviendas_barrios_mas_baratos_percentil_20 in zip(barrios_baratos_unicos_percentil_20, frecuencias_barrios_baratos_unicos_percentil_20):
    print(f"{barrios_mas_baratos_percentil_20}: {viviendas_barrios_mas_baratos_percentil_20} vivienda/s en venta.")


##### LOS BARRIOS DONDE SE ENCUENTRAN EL 20% DE LAS VIVIENDAS MÁS EN VENTA CARAS DE MADRID

In [None]:
# Se ordena el array de precios, de mayor a menor. Devuelve un array cuyos elementos son índices del array "precios".
index_precios_asc = np.argsort(precios)[::-1]

# Se calcula la cantidad de filas que representa el 20% del total de filas de la muestra. Ahora, la lista está ordenada de mayor a menor precio
filas_percentil_80 = int(len(precios) * 0.2)

# Utilizando el nº de filas que representa el 20% de la muestra y el array de índices obtenido más arriba, se obtiene un subconjunto de los barrios correspondientes asociados al 20% de las viviendas más baratas.
barrios_caros_percentil_80 = barrios[index_precios_asc[:filas_percentil_80]]

# Como en el array barrios_baratos_percentil_20 puede contener elementos (barrios) repetidos, se obtienen los barrios únicos y su frecuencia correspondiente.
barrios_caros_unicos_percentil_80, frecuencias_barrios_caros_unicos_percentil_80 = np.unique(barrios_caros_percentil_80, return_counts=True)

# Se recorren ambos arrays y se presentan los resultados.
print("Estos son los barrios en donde se encuentran el 20% de las viviendas más caras de Madrid:")
for barrios_mas_caros_percentil_80, viviendas_barrios_mas_caros_percentil_80 in zip(barrios_caros_unicos_percentil_80, frecuencias_barrios_caros_unicos_percentil_80):
    print(f"{barrios_mas_caros_percentil_80}: {viviendas_barrios_mas_caros_percentil_80} vivienda/s en venta.")
