In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from collections import Counter

In [None]:
# Cargar datos
def cargar_datos(filepath):
    data = np.genfromtxt(filepath, delimiter=",", dtype=None, encoding="utf-8", skip_header=1)
    price = data[:, 0].astype(float)
    baths = data[:, 1].astype(float)
    rooms = data[:, 2].astype(float)
    m2 = data[:, 3].astype(float)
    addresses = np.array([addr.replace(", Madrid", "") for addr in data[:, 4]])
    return price, baths, rooms, m2, addresses

In [None]:
# Cargar datos
def cargar_datos(filepath):
    price = np.genfromtxt(filepath, usecols=(0),delimiter=",", dtype=None, encoding="utf-8", skip_header=1)
    baths = np.genfromtxt(filepath, usecols=(1),delimiter=",", dtype=None, encoding="utf-8", skip_header=1)
    rooms = np.genfromtxt(filepath, usecols=(2),delimiter=",", dtype=None, encoding="utf-8", skip_header=1)
    m2 = np.genfromtxt(filepath, usecols=(3), delimiter=",", dtype=None, encoding="utf-8", skip_header=1)
    addresses = np.genfromtxt(filepath, usecols=(4), delimiter=",", dtype=None, encoding="utf-8", skip_header=1)

    return price, baths, rooms, m2, addresses


In [None]:
# Estadística básica
def estadistica_basica(price):
    mean_price = round(np.mean(price), 4)
    median_price = round(np.median(price), 4)
    max_price = np.max(price)
    min_price = np.min(price)
    print("Estadística básica sobre precios:")
    print(f"Media: {mean_price} €, Mediana: {median_price} €, Máximo: {max_price} €, Mínimo: {min_price} €")

In [None]:
# Histograma y curva de densidad
def histograma_curva_densidad(price):
    print("Histograma y Curva de Densidad de Precios")
    plt.figure(figsize=(10, 6))
    sns.histplot(price, kde=True, bins=30, color="blue", alpha=0.6)
    plt.title("Histograma y Curva de Densidad de Precios")
    plt.xlabel("Precio (€)")
    plt.ylabel("Frecuencia del precio")
    plt.grid()
    plt.show()

In [None]:
# Cuartiles e IQR
def cuartiles_iqr(price):
    q1 = np.percentile(price, 25)
    q2 = np.percentile(price, 50)
    q3 = np.percentile(price, 75)
    iqr = q3 - q1
    print("Cuartiles e IQR:")
    print(f"Q1: {q1}, Q2 (mediana): {q2}, Q3: {q3}")
    print(f"IQR: {iqr}")
    return q1, q3, iqr

In [None]:
# Filtrar por porcentaje
def filtrar_por_porcentaje(price):
    price_sorted = np.sort(price)
    # Calcular los percentiles
    bottom_20_percent = np.percentile(price_sorted, 20)
    top_20_percent = np.percentile(price_sorted, 80)
    
    # Filtrar precios según los percentiles
    bottom_prices = price[price <= bottom_20_percent]
    top_prices = price[price >= top_20_percent]

    # Imprimir resultados
    print("Filtrar por porcentaje:")
    print(f"Percentil 20: {bottom_20_percent:.2f}")
    print(f"Percentil 80: {top_20_percent:.2f}")
    print(f"Cantidad en el 20% más barato: {len(bottom_prices)}")
    print(f"Cantidad en el 20% más caro: {len(top_prices)}")
   
    return top_prices, bottom_prices, top_20_percent, bottom_20_percent


In [None]:
def filtrar_barrios_baratos(price, addresses):
    # Crear un diccionario para agrupar precios por barrio
    barrios = {}
    for precio, barrio in zip(price, addresses):
        if barrio not in barrios:
            barrios[barrio] = []
        barrios[barrio].append(precio)

    # Calcular el percentil 20 para cada barrio
    barrios_baratos = {}
    for barrio, precios in barrios.items():
        percentil_20 = np.percentile(precios, 20)
        precios_baratos = [p for p in precios if p <= percentil_20]
        barrios_baratos[barrio] = {
            "percentil_20": percentil_20,
            "precios_baratos": precios_baratos,
            "num_casas_baratas": len(precios_baratos)
        }

    # Mostrar resultados
    print(f"Número total de barrios analizados: {len(barrios_baratos)}")
    print("Barrios con precios en el 20% más baratos:")
    for barrio, info in barrios_baratos.items():
        print(f"- {barrio}:")
        print(f"  Percentil 20: {info['percentil_20']:.2f}")
        print(f"  Número de casas baratas: {info['num_casas_baratas']}")
        print(f"  Precios más baratos: {info['precios_baratos']}")

    return barrios_baratos





#def visualizar_barrios(barrios_baratos):
    # Extraer datos para la visualización
    #barrios = list(barrios_baratos.keys())
    #num_casas_baratas = [info["num_casas_baratas"] for info in barrios_baratos.values()]
    
    # Crear un gráfico de barras
    #plt.figure(figsize=(10, 6))
    #plt.bar(barrios, num_casas_baratas, color='skyblue', edgecolor='black')
    #plt.title("Número de casas baratas por barrio (20% más barato)")
    #plt.xlabel("Barrios")
    #plt.ylabel("Número de casas baratas")
    #plt.xticks(rotation=45, ha="right")
    #plt.grid(axis='y', linestyle='--', alpha=0.7)
    #plt.tight_layout()
    #plt.show()

# Visualizar resultados
#visualizar_barrios(barrios_baratos)

In [None]:
# Moda
def moda(addresses):
    address_mode = Counter(addresses).most_common(1)
    print(f"Moda de las direcciones: {address_mode}")

In [None]:
# Varianza y desviación estándar
def varianza_desviacion(price):
    variance = np.var(price)
    std_dev = np.std(price)
    print(f"Varianza: {variance}, Desviación estándar: {std_dev}")
    return variance, std_dev

In [None]:
# Detectar outliers con Tukey
def filtro_outliers_tukey(price, q1, q3, iqr):
    upper_limit = q3 + 1.5 * iqr
    lower_limit = q1 - 1.5 * iqr
    outliers = price[(price > upper_limit) | (price < lower_limit)]
    print(f"Outliers detectados con Tukey: {len(outliers)}")
    return upper_limit, lower_limit, outliers

In [None]:
# Graficar outliers
def graficar_outliers(price, upper_limit, lower_limit):
    print("Graficar Outliers")
    plt.figure(figsize=(10, 6))
    sns.histplot(price, bins=30, color="blue", alpha=0.6, kde=True)
    plt.axvline(upper_limit, color='red', linestyle='dashed', linewidth=1, label="Límite Superior")
    plt.axvline(lower_limit, color='blue', linestyle='dashed', linewidth=1, label="Límite Inferior")
    plt.legend()
    plt.title("Outliers con límites marcados")
    plt.grid()
    plt.show()

In [None]:
# Matriz de correlación
def matriz_correlacion(price, bedrooms, bathrooms, m2):
    data_matrix = np.corrcoef([price, bedrooms, bathrooms, m2])
    sns.heatmap(data_matrix, annot=True, xticklabels=["price", "bedrooms", "bathrooms", "m2"], yticklabels=["price", "bedrooms", "bathrooms", "m2"])
    print("Matriz de correlación")
    plt.title("Matriz de Correlación")
    plt.show()

In [None]:
# Estandarizar
def estandarizar(price):
    print("Estandarización de precios")
    mean_price = np.mean(price)
    std_dev_price = np.std(price)
    price_std = (price - mean_price) / std_dev_price
    return price_std

In [None]:
# Asimetría y curtosis
def asimetria_curtosis(price):
    print("Asimetría y curtosis")
    skewness = stats.skew(price)
    kurtosis = stats.kurtosis(price)
    print(f"Asimetría: {skewness}, Curtosis: {kurtosis}")

In [None]:
# Transformar distribuciones
def transformar_distribuciones(price):
    print("Transformar distribuciones")
    price_log = np.log(price[price > 0])
    plt.figure(figsize=(10, 6))
    sns.histplot(price_log, kde=True, bins=30, color="green", alpha=0.6)
    plt.title("Transformación Logarítmica de Precios")
    plt.xlabel("Log(Precio)")
    plt.ylabel("Frecuencia")
    plt.grid()
    plt.show()

In [None]:
# Contraste de hipótesis
def contraste_hipotesis_barrio(price, addresses, barrio_x, barrio_y):
    print("Contraste de hipótesis")
    barrio_x_prices = price[addresses == barrio_x]
    barrio_y_prices = price[addresses == barrio_y]
    t_stat, p_value = stats.ttest_ind(barrio_x_prices, barrio_y_prices, equal_var=False)
    print(f"T-stat: {t_stat}, P-value: {p_value}")

def contraste_hipotesis_baños(price, bathrooms):
    three_bathrooms = price[bathrooms >= 3]
    one_two_bathrooms = price[(bathrooms == 1) | (bathrooms == 2)]
    t_stat, p_value = stats.ttest_ind(three_bathrooms, one_two_bathrooms, equal_var=False)
    print(f"T-stat: {t_stat}, P-value: {p_value}")

In [None]:
# Carga del archivo y ejecución de análisis
filepath = "../Data/idealista_madrid.csv" 
price, baths, rooms, m2, addresses = cargar_datos(filepath)
# Verificar los datos cargados
print("Primeros 10 Precios:", price[:10])  # Primeros 10 precios
print("Primeros 10 número de Baños:", baths[:10])    # Primeros 10 valores de baños
print("Primeros 10 número de Habitaciones:", rooms[:10])  # Primeros 10 valores de habitaciones
print("Primeros 10 Metros cuadrados:", m2[:10])  # Primeros 10 valores de tamaño
print("Primeros 10 Barrios:", addresses[:10])  # Primeros 10 valores de direcciones
print("------------------------------------------------")

estadistica_basica(price)
print("------------------------------------------------")

histograma_curva_densidad(price)
print("------------------------------------------------")

q1, q3, iqr = cuartiles_iqr(price)
print("------------------------------------------------")

filtrar_por_porcentaje(price)
print("------------------------------------------------")

filtrar_barrios_baratos(price, addresses)
print("------------------------------------------------")

moda(addresses)
print("------------------------------------------------")

variance, std_dev = varianza_desviacion(price)
print("------------------------------------------------")

upper_limit, lower_limit, outliers = filtro_outliers_tukey(price, q1, q3, iqr)
print("------------------------------------------------")

graficar_outliers(price, upper_limit, lower_limit)
print("------------------------------------------------")

matriz_correlacion(price, baths, rooms, m2)
print("------------------------------------------------")

price_std = estandarizar(price)
print("------------------------------------------------")

asimetria_curtosis(price)
print("------------------------------------------------")

transformar_distribuciones(price)
print("------------------------------------------------")

print("plotbox")
plt.boxplot(price, showmeans=True)