In [None]:
###################
### EJERCICIO 1 ###
###################

In [2]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

# Cargar el dataset
data = pd.read_csv("housing_time_series_by_madrid_neighbourhood.csv")

# Previsualizar los datos
print(data.head())


  neighbourhood_group        date  m2_price  inflation  HICP  \
0              Centro  2010-08-01      15.3        0.3   1.6   
1              Centro  2011-01-01      15.6       -0.7   3.0   
2              Centro  2011-02-01      15.4        0.1   3.4   
3              Centro  2011-05-01      15.0        0.0   3.4   
4              Centro  2011-06-01      15.0       -0.1   3.0   

   population_density  listings_count  minimum_nights  nigth_price  \
0                 796               1             2.0   114.000000   
1                 800               1             2.0   114.000000   
2                 800               4             7.0   184.000000   
3                 800               5             9.6    61.000000   
4                 800               5             5.4   135.333333   

   availability_365  listing_reviews  number_of_reviews  reviews_per_month  \
0            305.00                1              155.0             0.9000   
1            305.00                1  

In [2]:

# 1. Distribución del precio promedio por metro cuadrado (m2_price)
fig1 = px.histogram(
    data,
    x="m2_price",
    nbins=50,
    title="Distribución del precio promedio por metro cuadrado",
    labels={"m2_price": "Precio por metro cuadrado (EUR)"},
)
fig1.show()



In [75]:


# 2. Evolución del precio promedio por metro cuadrado a lo largo del tiempo por barrios 
fig2 = px.line(
    data,
    x="date",
    y="m2_price",
    color="neighbourhood_group",
    title="Evolución del precio promedio por metro cuadrado",
    labels={"date": "Fecha", "m2_price": "Precio por metro cuadrado (EUR)", "neighbourhood_group": "Distrito"},
)
fig2.show()


In [76]:

# 3. Relación entre densidad de población y precio promedio por metro cuadrado
fig3 = px.scatter(
    data,
    x="population_density",
    y="m2_price",
    color="neighbourhood_group",
    size="listings_count",
    title="Relación entre densidad de población y precio por metro cuadrado",
    labels={
        "population_density": "Densidad de población (personas/km²)",
        "m2_price": "Precio por metro cuadrado (EUR)",
        "listings_count": "Propiedades listadas",
    },
)
fig3.show()

# Podemos observar que a mayor densidad de población, el precio por metro cuadrado tiende a ser más alto.



In [5]:

# 4. Comparación de la disponibilidad de propiedades por tipo de habitación
room_types = ["Private_room", "Entire_home", "Hotel_room", "Shared_room"]
room_data = data[room_types].sum().reset_index()
room_data.columns = ["Room Type", "Count"]
fig4 = px.bar(
    room_data,
    x="Room Type",
    y="Count",
    title="Disponibilidad de propiedades por tipo de habitación",
    labels={"Room Type": "Tipo de habitación", "Count": "Número de propiedades"},
)
fig4.show()

#Podemos ver que la gran mayoria de ofertas son viviendas completas, seguidas de habitaciones privadas.


In [6]:


# 5. Distribución de días disponibles por año (availability_365)
fig5 = px.box(
    data,
    x="neighbourhood_group",
    y="availability_365",
    title="Distribución de días disponibles por vecindario",
    labels={"availability_365": "Días disponibles al año", "neighbourhood_group": "Distrito"},
)
fig5.show()

#Podemos observar que en general, la disponibilidad de propiedades es similar en todos los distritos.
#Aunque se aprecia que en las zonas centros esta mas concentrada y tiene menos variabilidad. Mientras que en otras zonas hay mas variabilidad y menos concentración.
# Me sorprende que no haya tan diferencia entre zonas populares y zonas centricas y turisticas. La hay, por ejemplo
# la latina es una zona muy turistca y tiene una menor  disponibilidad que otras zonas menos turisticas, como por ejemplo villaverde.



In [7]:


# 6. Número promedio de reseñas por mes en diferentes distritos
fig6 = px.box(
    data,
    x="neighbourhood_group",
    y="reviews_per_month",
    title="Número promedio de reseñas por mes en diferentes distritos",
    labels={"reviews_per_month": "Reseñas por mes", "neighbourhood_group": "Distrito"},
)
fig6.show()

#Vemos que el numero de reseñas por mes es similar en todos los distritos, aunque sroprende que Barajas este significativamente por encima.


In [80]:

# 9. ¿Cuál es la evolución del precio promedio por noche en los distritos de Madrid?

fig9 = px.line(
    data,
    x="date",
    y="nigth_price",
    color="neighbourhood_group",
    title="Evolución del precio promedio por noche en los distritos de Madrid",
    labels={"date": "Fecha", "nigth_price": "Precio por noche (EUR)", "neighbourhood_group": "Distrito"},
)
fig9.show()

#MUY INTERESANTE
#Parece que todos los precios van a la par pero hay unos outliers muy interesantes en villaverde que pensaba que era un error pero investigando ese barrio por esas fehcas:
#Marzo 2019:
#Mayo - Julio 2019 -> Siniestro Total.
#Enero 2020:
# Parece que coinciden con fiestas y concierto del barrio y los precios se disparan, por ejemplo en julio 2019 que 
# vino un grupo de rock muy famoso a tocar al barrio y las casas que por ejemplo tenian vistas al concierto publico pues se dispararon de precio
# son una combinacion de factores que porducen esos outliers, no reflejen las tendencias del barrio, son casos asilados pero llaman la atencion

# 10. ¿Cuál es la evolución de la inflación en los distritos de Madrid?
fig10 = px.line(
    data,
    x="date",
    y="inflation",
    color="neighbourhood_group",
    title="Evolución de la inflación en los distritos de Madrid",
    labels={"date": "Fecha", "inflation": "Inflación", "neighbourhood_group": "Distrito"},
)
fig10.show()

# Los datos no son muy claros, pero parece que la inflacion es similar en todos los distritos,hasta 2017 que no hay mas datos y se ve que repunta en 2022.




In [None]:
###################
### EJERCICIO 2 ###
###################

In [8]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

import plotly.express as px
import plotly.graph_objects as go

# Cargar el dataset
data = pd.read_csv("housing_time_series_by_madrid_neighbourhood.csv")


In [9]:
# Preprocesamiento de datos para regresión
# Seleccionar variables relevantes a nivel agregado
aggregated_data = (
    data.groupby("date")
    .agg(
        {
            "m2_price": "mean",
            "inflation": "mean",
            "HICP": "mean",
            "population_density": "mean",
            "listings_count": "sum",
            "minimum_nights": "mean",
            "nigth_price": "mean",
            "availability_365": "mean",
            "listing_reviews": "mean",
            "reviews_per_month": "mean",
            "hosts_count": "sum",
            "Private_room": "sum",
            "Entire_home": "sum",
            "Hotel_room": "sum",
            "Shared_room": "sum",
        }
    )
    .reset_index()
)

In [10]:
# Definir variables predictoras (X) y objetivo (y)
X = aggregated_data.drop(columns=["date", "m2_price"])
y = aggregated_data["m2_price"]


In [11]:
# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [12]:
# Escalar las variables predictoras
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [13]:
# Entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train_scaled, y_train)

In [14]:
# Obtener coeficientes del modelo
coefficients = pd.DataFrame({"Feature": X.columns, "Coefficient": model.coef_})

In [15]:
# Predecir en el conjunto de prueba
y_pred = model.predict(X_test_scaled)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)


In [18]:
# Mostrar resultados
print("Coeficientes del modelo de regresión lineal:")
print(coefficients)
print(f"Mean Squared Error: {mse}")
print(f"R2 Score: {r2}")

# Visualización de los coeficientes
fig = px.bar(
    coefficients,
    x="Feature",
    y="Coefficient",
    title="Coeficientes del modelo de regresión lineal",
    labels={"Coefficient": "Valor del coeficiente", "Feature": "Variable"},
)
fig.show()



Coeficientes del modelo de regresión lineal:
               Feature  Coefficient
0            inflation    -0.095772
1                 HICP     0.295107
2   population_density     1.919439
3       listings_count     0.064817
4       minimum_nights    -0.329551
5          nigth_price     0.300567
6     availability_365     0.181993
7      listing_reviews    -0.431469
8    reviews_per_month    -0.315868
9          hosts_count    -2.263548
10        Private_room     2.891657
11         Entire_home    -0.748888
12          Hotel_room    -0.166127
13         Shared_room    -0.194020
Mean Squared Error: 0.2308242445689529
R2 Score: 0.8526199030770636


In [20]:
#Visualizar el p-valor y evaluar el modelo y la signifcania de las variables
import statsmodels.api as sm

X_train_scaled = sm.add_constant(X_train_scaled)
model = sm.OLS(y_train, X_train_scaled).fit()
print(model.summary())


                            OLS Regression Results                            
Dep. Variable:               m2_price   R-squared:                       0.782
Model:                            OLS   Adj. R-squared:                  0.757
Method:                 Least Squares   F-statistic:                     30.41
Date:                Thu, 19 Dec 2024   Prob (F-statistic):           1.79e-30
Time:                        15:28:58   Log-Likelihood:                -132.64
No. Observations:                 124   AIC:                             293.3
Df Residuals:                     110   BIC:                             332.8
Df Model:                          13                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         12.7590      0.067    189.762      0.0

In [24]:
#Significancia de los coeficientes
# 1. ¿Cuál es la importancia de cada variable en el modelo de regresión lineal? 

""" 
Podemos observar que las variables más importantes en el modelo de regresión lineal son aquellas
con pvalor < 0.05, es decir, aquellas que son estadísticamente significativas. En este caso,
las variables más importantes son "HICP", "population desnity", "minimun nights", "night price",
"availability_365", "reviews per month" y "private room". El resto tienen un pvalor mayor a 0.05 y
por lo tanto no son estadísticamente significativas.
"""

# Calculamos un nuevo modelo solamente con estas variables

X = aggregated_data[["HICP", "population_density", "minimum_nights", "nigth_price", "availability_365", "reviews_per_month", "Private_room"]]
y = aggregated_data["m2_price"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)

X_test_scaled = scaler.transform(X_test)

model = LinearRegression()

model.fit(X_train_scaled, y_train)

coefficients = pd.DataFrame({"Feature": X.columns, "Coefficient": model.coef_})

y_pred = model.predict(X_test_scaled)

mse = mean_squared_error(y_test, y_pred)

r2 = r2_score(y_test, y_pred)

print("Coeficientes del modelo de regresión lineal:")

print(coefficients)

print(f"Mean Squared Error: {mse}")

print(f"R2 Score: {r2}")

# Visualización de los coeficientes

fig = px.bar(coefficients, x="Feature", y="Coefficient", title="Coeficientes del modelo de regresión lineal", labels={"Coefficient": "Valor del coeficiente", "Feature": "Variable"})

fig.show()

# Evaluamos el modelo para ver qhe tan bien se ajusta a los datos

X_train_scaled = sm.add_constant(X_train_scaled)

model = sm.OLS(y_train, X_train_scaled).fit()

print(model.summary())






 

Coeficientes del modelo de regresión lineal:
              Feature  Coefficient
0                HICP     0.114557
1  population_density     1.241170
2      minimum_nights    -0.354433
3         nigth_price     0.242477
4    availability_365     0.187107
5   reviews_per_month    -0.322809
6        Private_room    -0.076032
Mean Squared Error: 0.2724914755499488
R2 Score: 0.826015589687206


                            OLS Regression Results                            
Dep. Variable:               m2_price   R-squared:                       0.738
Model:                            OLS   Adj. R-squared:                  0.723
Method:                 Least Squares   F-statistic:                     46.75
Date:                Thu, 19 Dec 2024   Prob (F-statistic):           6.75e-31
Time:                        15:43:06   Log-Likelihood:                -144.06
No. Observations:                 124   AIC:                             304.1
Df Residuals:                     116   BIC:                             326.7
Df Model:                           7                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         12.7590      0.072    177.714      0.0

In [None]:
# Vemos que el nuevo modelo es un peor ajuste que el anterior, ya que el R2 es menor y el AIC es mayor.
# Por lo tanto, el modelo original es mejor que el modelo con las variables seleccionadas. Pero el modelo
# es significativamente mas simple

In [None]:
# Explicar la dinámica del precio de la vivienda en base a los datos de alquiler vacacional a nivel agregado, no por barrio.

    """
    Coeficientes del modelo de regresión lineal:
               Feature  Coefficient
0            inflation    -0.095772
1                 HICP     0.295107
2   population_density     1.919439
3       listings_count     0.064817
4       minimum_nights    -0.329551
5          nigth_price     0.300567
6     availability_365     0.181993
7      listing_reviews    -0.431469
8    reviews_per_month    -0.315868
9          hosts_count    -2.263548
10        Private_room     2.891657
11         Entire_home    -0.748888
12          Hotel_room    -0.166127
13         Shared_room    -0.194020
Mean Squared Error: 0.2308242445689529
R2 Score: 0.8526199030770636

Las variables con un p_valor menor a 0.05 son: "HICP", "population_density", "minimum_nights", "nigth_price", "availability_365", "reviews_per_month", "Private_room".


Con todos los datos mostrados podemos analizar la dinamica del precio de la vivienda y vemos que las variables que mas influyen en el precio de la vivienda y tambien son estadisticamente significativas son:
- HICP: Indice de precios al consumo -> Tiene una correlación positiva de 0.30 con el precio de la vivienda, es decir, a medida que el HICP aumenta, el precio de la vivienda también aumenta.
- Population Density: Densidad de población -> Tiene una correlación positiva de 1.92 con el precio de la vivienda, es decir, a medida que la densidad de población aumenta, el precio de la vivienda también aumenta. 
- Minimum Nights: Noches mínimas -> Tiene una correlación negativa de -0.33 con el precio de la vivienda, es decir, a medida que el número de noches mínimas aumenta, el precio de la vivienda disminuye. Esto igual sugiere que son mas viviendas de alquiler a largas estancias.
- Nigth Price: Precio por noche -> Tiene una correlación positiva de 0.30 con el precio de la vivienda, es decir, a medida que el precio por noche aumenta, el precio de la vivienda también aumenta.
- Availability 365: Disponibilidad al año -> Tiene una correlación positiva de 0.18 con el precio de la vivienda, es decir, a medida que la disponibilidad al año aumenta, el precio de la vivienda también aumenta.
- Reviews per Month: Reseñas por mes -> Tiene una correlación negativa de -0.31 con el precio de la vivienda, es decir, a medida que el número de reseñas por mes aumenta, el precio de la vivienda disminuye. 
- Private Room: Habitación privada -> Tiene una correlación positiva de 2.89 con el precio de la vivienda, es decir, a medida que el número de habitaciones privadas aumenta, el precio de la vivienda también aumenta.

El resto de variables tienen un p_valor mayor a 0.05 y por lo tanto no son estadísticamente significativas. Pero hemos visto que nuestro modelo tiene una performance mayor con ellas asi que vamos a analizar sus coeficientes:
- Inflation: Inflación -> Tiene una correlación negativa de -0.10 con el precio de la vivienda, es decir, a medida que la inflación aumenta, el precio de la vivienda disminuye.
- Listings Count: Número de listados -> Tiene una correlación positiva de 0.06 con el precio de la vivienda, es decir, a medida que el número de listados aumenta, el precio de la vivienda también aumenta.
- Listing Reviews: Reseñas de listado -> Tiene una correlación negativa de -0.43 con el precio de la vivienda, es decir, a medida que el número de reseñas de listado aumenta, el precio de la vivienda disminuye.
- Hosts Count: Número de anfitriones -> Tiene una correlación negativa de -2.26 con el precio de la vivienda, es decir, a medida que el número de anfitriones aumenta, el precio de la vivienda disminuye.
- Entire Home: Casa entera -> Tiene una correlación negativa de -0.75 con el precio de la vivienda, es decir, a medida que el número de casas enteras aumenta, el precio de la vivienda disminuye.
- Hotel Room: Habitación de hotel -> Tiene una correlación negativa de -0.17 con el precio de la vivienda, es decir, a medida que el número de habitaciones de hotel aumenta, el precio de la vivienda disminuye.
- Shared Room: Habitación compartida -> Tiene una correlación negativa de -0.19 con el precio de la vivienda, es decir, a medida que el número de habitaciones compartidas aumenta, el precio de la vivienda disminuye.

"""

In [None]:
###################
### EJERCICIO 3 ###
###################

In [73]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Crear subplots para el dashboard
fig = make_subplots(
    rows=3,
    cols=2,
    subplot_titles=(
        "Distribución precio por metro cuadrado",
        "Evolución del precio promedio por metro cuadrado",
        "Relación entre densidad de población y precio",
        "Evolución del precio promedio por metro cuadrado por barrios",
        "Coeficientes del modelo de regresión lineal",
        "Distribución de días disponibles por año por barrios"
    )

)

# Grafico 1. Distribución del precio promedio por metro cuadrado (m2_price)
fig1 = px.histogram(
    data,
    x="m2_price",
    nbins=50,
    title="Distribución del precio por metro cuadrado",
    labels={"m2_price": "Precio por metro cuadrado (EUR)"},
)

# Añadimos al subplot
fig.add_trace(fig1.data[0], row=1, col=1)

# Gráfico 2: Evolución del precio promedio por metro cuadrado
fig2 = px.line(
    aggregated_data, x="date", y="m2_price", labels={"date": "Fecha", "m2_price": "Precio por metro cuadrado (EUR)"}
)
for trace in fig2["data"]:
    fig.add_trace(trace, row=1, col=2)

# Gráfico 3: Número promedio de reseñas por mes en diferentes distritos
fig3 = px.box(
    data,
    x="neighbourhood_group",
    y="reviews_per_month",
    title="Número promedio de reseñas por mes en diferentes distritos",
    labels={"reviews_per_month": "Reseñas por mes", "neighbourhood_group": "Distrito"},
)

# Añadimos al subplot
fig.add_trace(fig3.data[0], row=2, col=1)


# Gráfico 4: Evolución del precio promedio por metro cuadrado a lo largo del tiempo
fig4 = px.line(
    data,
    x="date",
    y="m2_price",
    color="neighbourhood_group",
    title="Evolución del precio promedio por metro cuadrado",
    labels={"date": "Fecha", "m2_price": "Precio por metro cuadrado (EUR)", "neighbourhood_group": "Distrito"},

)

# Grafico 5. Coeficientes del modelo de regresión lineal
fig5 = px.bar(
    coefficients, x="Feature", y="Coefficient", labels={"Coefficient": "Valor del coeficiente", "Feature": "Variable"}
)

# Añadimos al subplot
fig.add_trace(fig5.data[0], row=3, col=1)

# 6. Distribución de días disponibles por año (availability_365)
fig5 = px.box(
    data,
    x="neighbourhood_group",
    y="availability_365",
    title="Distribución de días disponibles por vecindario",
    labels={"availability_365": "Días disponibles al año", "neighbourhood_group": "Distrito"},
    points="outliers"
)

# Añadimos al subplot
fig.add_trace(fig5.data[0], row=3, col=2)

#Añadimos al subplot
fig.add_trace(fig4.data[0], row=2, col=2)
fig.add_trace(fig4.data[1], row=2, col=2)
fig.add_trace(fig4.data[2], row=2, col=2)
fig.add_trace(fig4.data[3], row=2, col=2)
fig.add_trace(fig4.data[4], row=2, col=2)
fig.add_trace(fig4.data[5], row=2, col=2)
fig.add_trace(fig4.data[6], row=2, col=2)
fig.add_trace(fig4.data[7], row=2, col=2)
fig.add_trace(fig4.data[8], row=2, col=2)
fig.add_trace(fig4.data[9], row=2, col=2)
fig.add_trace(fig4.data[10], row=2, col=2)
fig.add_trace(fig4.data[11], row=2, col=2)
fig.add_trace(fig4.data[12], row=2, col=2)
fig.add_trace(fig4.data[13], row=2, col=2)
fig.add_trace(fig4.data[14], row=2, col=2)
fig.add_trace(fig4.data[15], row=2, col=2)
fig.add_trace(fig4.data[16], row=2, col=2)
fig.add_trace(fig4.data[17], row=2, col=2)

# Modifico las dimensiones totales y el titulo global
fig.update_layout(width = 1050, height =1100, title = "DASHBOARD VIVIENDAS MADRID", bargap = 0.1) #Global ya que  no indica fila ni columna

