## Ejercicio Práctico: Predicción de Precios de Viviendas

Eres un analista de datos en una inmobiliaria. Necesitas predecir el precio de las viviendas basándote en sus características. Los datos disponibles incluyen:

    Metros cuadrados (tamaño de la vivienda)

    Número de habitaciones

    Años de antigüedad de la construcción

    Distancia al centro (en km)

    Calificación del barrio (1-10, siendo 10 el mejor)

### Parte 1: Generación y Exploración de Datos

In [7]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.preprocessing import StandardScaler

# Configurar semilla para reproducibilidad
np.random.seed(42)

# Generar 500 muestras de viviendas
n_muestras = 500

# Características (variables independientes)
metros_cuadrados = np.random.normal(120, 40, n_muestras)
metros_cuadrados = np.clip(metros_cuadrados, 40, 250)  # Limitar entre 40-250 m²

habitaciones = np.random.choice([1, 2, 3, 4, 5], n_muestras, p=[0.1, 0.2, 0.3, 0.25, 0.15])

antiguedad = np.random.exponential(15, n_muestras)
antiguedad = np.clip(antiguedad, 0, 50)  # Máximo 50 años

distancia_centro = np.random.gamma(2, 2, n_muestras)
distancia_centro = np.clip(distancia_centro, 0.5, 15)  # 0.5 a 15 km

calificacion_barrio = np.random.uniform(1, 10, n_muestras)

# Crear DataFrame
df = pd.DataFrame({
    'metros_cuadrados': metros_cuadrados,
    'habitaciones': habitaciones,
    'antiguedad': antiguedad,
    'distancia_centro': distancia_centro,
    'calificacion_barrio': calificacion_barrio
})

# Precio base (variable dependiente)
# Fórmula: Precio = 1000*metros + 50000*habitaciones - 2000*antiguedad - 10000*distancia + 15000*calificacion + ruido
precio_base = (
    1000 * df['metros_cuadrados'] +
    50000 * df['habitaciones'] -
    2000 * df['antiguedad'] -
    10000 * df['distancia_centro'] +
    15000 * df['calificacion_barrio']
)

# Agregar ruido aleatorio (20% del precio base)
ruido = np.random.normal(0, 0.2 * precio_base.std(), n_muestras)
df['precio'] = precio_base + ruido

# Convertir a miles de euros para interpretación más fácil
df['precio'] = df['precio'] / 1000

print("=== DATAFRAME DE VIVIENDAS ===")
print(f"Dimensión: {df.shape}")
print("\nPrimeras 5 filas:")
print(df.head())
print("\nEstadísticas descriptivas:")
print(df.describe())

=== DATAFRAME DE VIVIENDAS ===
Dimensión: (500, 6)

Primeras 5 filas:
   metros_cuadrados  habitaciones  antiguedad  distancia_centro  \
0        139.868566             4   30.817550          1.218992   
1        114.469428             3    0.445253          0.500000   
2        145.907542             3   26.214711          3.317683   
3        180.921194             5    2.069459          6.000843   
4        110.633865             4    6.122205          3.549111   

   calificacion_barrio      precio  
0             6.765537  364.081416  
1             6.999404  386.839316  
2             2.464298  264.735057  
3             6.085768  454.289433  
4             7.944642  420.148910  

Estadísticas descriptivas:
       metros_cuadrados  habitaciones  antiguedad  distancia_centro  \
count        500.000000    500.000000  500.000000        500.000000   
mean         120.418793      3.152000   14.497855          4.009470   
std           38.590019      1.204906   13.238711          2.640