# ANÁLISIS EXPLORATORIO (EDA) DE LAS VIVIENDAS EN VENTA EN MADRID

## CARGA DE DATOS Y LIBRERÍAS DE PYTHON

### CARGA DE LIBRERÍAS DE PYTHON

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import seaborn as sns
import random
# import counter

# Archivo fuente de datos
file = './Data/idealista_madrid.csv'

### CARGA DE DATOS

In [2]:
# Array, de Numpy, con los datos de la columna "price" del archivo fuente csv.
precios = np.genfromtxt(file, usecols=(0), delimiter=",", skip_header=1, dtype=np.int64, encoding="UTF-8")

# Array, de Numpy, con los datos de la columna "baths" del archivo fuente csv.
num_banos = np.genfromtxt(file, usecols=(1), delimiter=",", skip_header=1, dtype=np.int16, encoding="UTF-8")

# Array, de Numpy, con los datos de la columna "rooms" del archivo fuente csv.
num_habitaciones = np.genfromtxt(file, usecols=(2), delimiter=",", skip_header=1, dtype=np.int16, encoding="UTF-8")

# Array, de Numpy, con los datos de la columna "sqft" del archivo fuente csv.
superficie = np.genfromtxt(file, usecols=(3), delimiter=",", skip_header=1, dtype=np.int16, encoding="UTF-8")

# Array, de Numpy, con los datos de la columna "address" del archivo fuente csv.
barrios = np.genfromtxt(file, usecols=(4), delimiter=",", skip_header=1, dtype=str, encoding="UTF-8")

## MEDIDAS DE TENDENCIA CENTRAL. CÁLCULO DE MEDIA, MEDIANA y MODA.

### MEDIAS

In [None]:
media_precios = np.mean(precios)
media_banos = np.mean(num_banos)
media_habitaciones = np.mean(num_habitaciones)
media_superficie = np.mean(superficie)

# Se calcula también la media de las frecuencias de los barrios que más viviendas tienen en venta
# Se define un nuevo array con los barrios únicos del array 'barrios' y se obtiene otro array con las frecuencias de aparación de cada barrio.
barrios_unicos, frecuencias_barrios = np.unique(barrios, return_counts=True)

# Se calcula la media de las frecuencias de aparición de cada barrio único. Reflexión: ¿Tendría algún sentido calcular esta media?
media_fre_barrios_unicos = np.mean(frecuencias_barrios)

print(f"La media de precios de los viviendas en venta es: {media_precios:.2f}")
print(f"La media del número de baños de los viviendas en venta es: {media_banos:.2f}")
print(f"La media del número de habitaciones de los viviendas en venta es: {media_habitaciones:.2f}")
print(f"La media de la superficie de los viviendas en venta es: {media_superficie:.2f}")
print(f"La media de la frecuencia de los barrios con viviendas en venta es: {media_fre_barrios_unicos:.2f}")

# Obeservación: Se imprime el barrio con más viviendas en venta
print(f"El barrio con más viviendas en venta es: {str(barrios_unicos[np.argmax(frecuencias_barrios)])}") # Esto es la moda también.



### MEDIANAS

In [None]:
mediana_precios = np.median(precios)
mediana_banos = np.median(num_banos)
mediana_habitaciones = np.median(num_habitaciones)
mediana_superficie = np.median(superficie)
mediana_barrios = np.median(frecuencias_barrios)

print(f"La mediana de precios de los viviendas en venta es: {mediana_precios:.2f}")
print(f"La mediana del número de baños de los viviendas en venta es: {mediana_banos:.2f}")
print(f"La mediana del número de habitaciones de los viviendas en venta es: {mediana_habitaciones:.2f}")
print(f"La mediana de la superficie de los viviendas en venta es: {mediana_superficie:.2f}")
print(f"La mediana de la frecuencia de los barrios con viviendas en venta es: {mediana_barrios:.2f}")


### MODAS

In [None]:
moda_precios = stats.mode(precios)
moda_banos = stats.mode(num_banos)
moda_habitaciones = stats.mode(num_habitaciones)
moda_superficie = stats.mode(superficie)
moda_barrios = stats.mode(frecuencias_barrios) # Otra forma de calcular la moda. Aunque anteriormente ya se ha calculado de otra manera.

print(f"La moda de precios de los viviendas en venta es: {moda_precios[0]:.2f} y se repite {moda_precios[1]} veces")
print(f"La moda del número de baños de los viviendas en venta es: {moda_banos[0]:.2f} y se repite {moda_banos[1]} veces")
print(f"La moda del número de habitaciones de los viviendas en venta es: {moda_habitaciones[0]:.2f} y se repite {moda_habitaciones[1]} veces")
print(f"La moda de la superficie de los viviendas en venta es: {moda_superficie[0]:.2f} y se repite {moda_superficie[1]} veces")
print(f"La moda de la frecuencia de los barrios con viviendas en venta es: {str(barrios_unicos[np.argmax(frecuencias_barrios)])} y se repite {moda_barrios[1]} veces")

## MÉDIDAS DESCRIPTIVAS: VALORES MÁXIMOS Y MÍNIMOS

### MÁXIMOS

In [None]:
max_precios = np.max(precios)
max_banos = np.max(num_banos)
max_habitaciones = np.max(num_habitaciones)
max_superficie = np.max(superficie)
max_barrios = np.max(frecuencias_barrios)

print(f"El valor máximo de precios de los viviendas en venta es: {max_precios:.2f}")
print(f"El valor máximo del número de baños de los viviendas en venta es: {max_banos:.2f}")
print(f"El valor máximo del número de habitaciones de los viviendas en venta es: {max_habitaciones:.2f}")
print(f"El valor máximo de la superficie de los viviendas en venta es: {max_superficie:.2f}")
print(f"El valor máximo de la frecuencia de los barrios con viviendas en venta es: {max_barrios:.2f}")

### MÍNIMOS

In [None]:
min_precios = np.min(precios)
min_banos = np.min(num_banos)
min_habitaciones = np.min(num_habitaciones)
min_superficie = np.min(superficie)
min_barrios = np.min(frecuencias_barrios)

print(f"El valor mínimo de precios de los viviendas en venta es: {min_precios:.2f}")
print(f"El valor mínimo del número de baños de los viviendas en venta es: {min_banos:.2f}")
print(f"El valor mínimo del número de habitaciones de los viviendas en venta es: {min_habitaciones:.2f}")
print(f"El valor mínimo de la superficie de los viviendas en venta es: {min_superficie:.2f}")
print(f"El valor mínimo de la frecuencia de los barrios con viviendas en venta es: {min_barrios:.2f}")

## HISTOGRAMAS Y CURVAS DE DENSIDAD.

### PRECIOS.

In [None]:
# Histograma utilizando la librería MatplotLib
plt.figure(figsize=(8, 5))
plt.hist(precios, bins=50, edgecolor='k', alpha=0.5)
plt.title("Precios de viviendas en Madrid")
plt.xlabel("Precio (en milones de €)")
plt.ylabel("Frecuencia")
plt.axvline(media_precios, color='red', linestyle='dashed', linewidth=2, label=f'Media(€): {media_precios:.2f}')
plt.axvline(mediana_precios, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(€): {mediana_precios:.2f}')
plt.legend()
plt.grid()
plt.show()

In [None]:
# Histograma y Curva de Densidad utilizando la librería Seaborn
plt.figure(figsize=(8, 5))
sns.histplot(precios, bins=50, kde=True, color="green", edgecolor="black")
plt.title("Precios de viviendas en Madrid")
plt.xlabel("Precio (en milones de €)")
plt.ylabel("Frecuencia")
plt.axvline(media_precios, color='red', linestyle='dashed', linewidth=2, label=f'Media(€): {media_precios:.2f}')
plt.axvline(mediana_precios, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(€): {mediana_precios:.2f}')
plt.legend()
plt.grid()
plt.show()


### Nº DE BAÑOS.

In [None]:
# Histograma y Curva de Densidad utilizando la librería Seaborn
plt.figure(figsize=(8, 5))
sns.histplot(num_banos, bins=10, kde=True, color="green", edgecolor="black")
plt.title("Número de baños de viviendas en venta en Madrid")
plt.xlabel("Nº Baños")
plt.ylabel("Nº Viviendas")
plt.axvline(media_banos, color='red', linestyle='dashed', linewidth=2, label=f'Media(€): {media_banos:.2f}')
plt.axvline(mediana_banos, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(€): {mediana_banos:.2f}')
plt.legend()
plt.grid()
plt.show()

### Nº DE HABITACIONES.

In [None]:
# Histograma y Curva de Densidad utilizando la librería Seaborn
plt.figure(figsize=(8, 5))
sns.histplot(num_habitaciones, bins=10, kde=True, color="green", edgecolor="black")
plt.title("Número de habitaciones de viviendas en venta en Madrid")
plt.xlabel("Nº Habitaciones")
plt.ylabel("Nº Viviendas")
plt.axvline(media_habitaciones, color='red', linestyle='dashed', linewidth=2, label=f'Media(habitaciones): {media_habitaciones:.2f}')
plt.axvline(mediana_habitaciones, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(habitaciones): {mediana_habitaciones:.2f}')
plt.legend()
plt.grid()
plt.show()

### SUPERFICIES.

In [None]:
# Histograma y Curva de Densidad utilizando la librería Seaborn
plt.figure(figsize=(8, 5))
sns.histplot(superficie, bins=30, kde=True, color="green", edgecolor="black")
plt.title("Superficie de las viviendas en venta en Madrid")
plt.xlabel("Superficie (m2)")
plt.ylabel("Nº Viviendas")
plt.axvline(media_superficie, color='red', linestyle='dashed', linewidth=2, label=f'Media(m2): {media_superficie:.2f}')
plt.axvline(mediana_superficie, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(m2): {mediana_superficie:.2f}')
plt.legend()
plt.grid()
plt.show()

### BARRIOS.

In [None]:
# Barrios, al tratarse de variables cualitativas, se emplean gráficos de barras utilizando la librería MatplotLib
plt.figure(figsize=(8, 25))
plt.barh(barrios_unicos, frecuencias_barrios, color='skyblue', edgecolor='k', alpha=0.5)
plt.title("Barrios con viviendas en en venta en Madrid")
plt.xlabel("Nº Viviendas")
plt.ylabel("Barrios")
plt.axvline(media_fre_barrios_unicos, color='red', linestyle='dashed', linewidth=2, label=f'Media(Nº Viviendas): {media_fre_barrios_unicos:.2f}')
plt.axvline(mediana_barrios, color='purple', linestyle="dotted", linewidth=3, label=f'Mediana(Nº Viviendas): {mediana_barrios:.2f}')
plt.legend()
plt.grid()
plt.show()