# Examen final de Desarrollo de Aplicaciones para la Visualización de Datos

Nombre: Fernando

Apellidos: Siljestrom Berenguer

Tiempo: 2 horas y 30 minutos

## Contexto del ejercicio

El Ayuntamiento de Madrid desea entender en más detalle la situación del problema habitacional en la ciudad de Madrid basada en múltiples fuentes de datos como alquiler vacacional, evolución del precio de alquiler, inflacción y densidad poblacional.

El objetivo del análisis es buscar patrones para entender mejor que está sucediendo, que barrios son los más estresados y que factores son que hacen que el precio de la vivienda esté en máximos. Por lo tanto, se pide:

1. Realizar un análisis descriptivo de los datos con al menos 6 visualizaciones diferentes. (3 Puntos)
2. Realizar un modelo de regresión lineal que explique (mostrar coeficientes) la dinámica del precio de la vivienda en base a los datos de alquiler vacacional a nivel agregado, no por barrio. (2 Puntos)
3. Montar un dashboard con 4 visualizaciones diferentes cómo mínimo. (2 Punto)
4. Concluir todo este análisis haciendo un informe con 2 páginas como mínimo que incluya, preguntas que se van a responder, dashboard resumen que sustente las preguntas y recomendaciones para mejorar la situación habitacional a partir de los resultados obtenidos de los análisis realizados con los datos. (3 Puntos)

## Juego de datos

Para realizar este análisis se provee un juego de datos con las siguientes variables:


| **Variable**           | **Descripción**                                                                                     | **Tipo**                 |
|-------------------------|-----------------------------------------------------------------------------------------------------|--------------------------|
| `neighbourhood_group`   | Grupo de vecindarios o distritos en Madrid.                                                        | Categórica               |
| `date`                 | Fecha de la observación en formato `YYYY-MM-DD`.                                                   | Temporal                 |
| `m2_price`             | Precio promedio por metro cuadrado en euros.                                                       | Cuantitativa continua     |
| `inflation`            | Inflación mensual como porcentaje (incremento en los precios al consumidor).                       | Cuantitativa continua     |
| `HICP`                 | Índice armonizado de precios al consumidor (indicador de inflación en la zona euro).               | Cuantitativa continua     |
| `population_density`   | Densidad de población anual por km² para toda la Comunidad de Madrid.                                                  | Cuantitativa continua     |
| `listings_count`       | Número total de propiedades listadas en Airbnb en un vecindario.                                   | Cuantitativa discreta     |
| `minimum_nights`       | Número mínimo de noches requerido para alquilar una propiedad.                                     | Cuantitativa discreta     |
| `nigth_price`          | Precio promedio por noche de las propiedades en Airbnb.                                            | Cuantitativa continua     |
| `availability_365`     | Número de días al año que una propiedad está disponible para alquilarse.                           | Cuantitativa discreta     |
| `listing_reviews`      | Número promedio de reseñas por propiedad listada.                                                 | Cuantitativa continua     |
| `number_of_reviews`    | Total acumulado de reseñas para todas las propiedades en un vecindario.                            | Cuantitativa discreta     |
| `reviews_per_month`    | Número promedio de reseñas recibidas por una propiedad al mes.                                     | Cuantitativa continua     |
| `hosts_count`          | Número de anfitriones activos en un vecindario.                                                   | Cuantitativa discreta     |
| `Private_room`         | Número de propiedades que ofrecen habitaciones privadas.                                           | Cuantitativa discreta     |
| `Entire_home`          | Número de propiedades que ofrecen viviendas completas.                                             | Cuantitativa discreta     |
| `Hotel_room`           | Número de propiedades categorizadas como habitaciones de hotel.                                    | Cuantitativa discreta     |
| `Shared_room`          | Número de propiedades que ofrecen habitaciones compartidas.                                        | Cuantitativa discreta     |


Ejemplos de preguntas que se pueden realizar a los datos:
1. ¿Cuál es el precio promedio del metro cuadrado (m2_price) por neighbourhood_group y cómo ha cambiado con el tiempo (date)?
2. ¿Existe una correlación entre el precio por metro cuadrado (m2_price) y la densidad de población (population_density)?
3. ¿Qué patrones estacionales se pueden identificar en las reseñas mensuales (reviews_per_month) o en la disponibilidad anual (availability_365)?
4. ¿Qué vecindarios tienen el mayor número de anfitriones (hosts_count) y cómo se relaciona con el precio de la vivienda?
5. ¿Qué vecindarios muestran el mayor crecimiento en precios (m2_price o nigth_price) entre años (year)?
6. ¿Qué factores (e.g., inflation, availability_365, population_density) explican mejor las variaciones en el precio por metro cuadrado (m2_price) o el precio por noche (nigth_price)?

Nota:
- Puedes hacer group_by para sacar variables agregadas por fecha.
- Se valorará la creatividad en las hipótesis, soluciones y limpieza del código y visualizaciones.

## Entrega del exámen

Compartir Url de github con:
- notebook que responde a las preguntas 1, 2 y 3
- PDF respondiendo a la pregunta 4

Puedes entregar el exámen en el siguiente enlace:

https://forms.gle/xe3En2raC3C3UUY39


# Librerías necesarias

In [1]:
from dash import Input, Output, State
from dash import dcc, html
import dash_bootstrap_components as dbc
import pandas as pd
import numpy as np

  from pandas.core import (


In [62]:
import dash
from dash import dcc, html, Input, Output
import plotly.express as px
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler

In [147]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import (classification_report, mean_squared_error, mean_absolute_error, mean_absolute_percentage_error,
                            silhouette_score, r2_score)
from sklearn.linear_model import ElasticNet
from sklearn.cluster import KMeans

# Importar las librerías necesarias
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
import plotly_express as px

In [3]:
import matplotlib.pyplot as plt

In [96]:
df = pd.read_csv("housing_time_series_by_madrid_neighbourhood.csv", delimiter=",")

# 1. Análisis descriptivos


In [112]:
df.head()

Unnamed: 0,neighbourhood_group,date,m2_price,inflation,HICP,population_density,listings_count,minimum_nights,nigth_price,availability_365,listing_reviews,number_of_reviews,reviews_per_month,hosts_count,Private_room,Entire_home,Hotel_room,Shared_room
0,Centro,2010-08-01,15.3,0.3,1.6,796,1,2.0,114.0,305.0,1,155.0,0.9,1,0,1,0,0
1,Centro,2011-01-01,15.6,-0.7,3.0,800,1,2.0,114.0,305.0,1,155.0,0.9,1,0,1,0,0
2,Centro,2011-02-01,15.4,0.1,3.4,800,4,7.0,184.0,44.25,4,100.0,0.5925,3,0,4,0,0
3,Centro,2011-05-01,15.0,0.0,3.4,800,5,9.6,61.0,134.6,11,264.4,1.612,4,1,4,0,0
4,Centro,2011-06-01,15.0,-0.1,3.0,800,5,5.4,135.333333,129.2,15,289.8,1.768,4,1,4,0,0


In [8]:
df.dtypes

neighbourhood_group     object
date                    object
m2_price               float64
inflation              float64
HICP                   float64
population_density       int64
listings_count           int64
minimum_nights         float64
nigth_price            float64
availability_365       float64
listing_reviews          int64
number_of_reviews      float64
reviews_per_month      float64
hosts_count              int64
Private_room             int64
Entire_home              int64
Hotel_room               int64
Shared_room              int64
dtype: object

In [137]:
# DATOS POR NEIGHBORHOOD

fig = px.line(df, x="date", y = "m2_price", color = "neighbourhood_group")  # x_col, y_col, z_col deben ser numéricas
fig.show()

In [127]:
fig = px.scatter(df, x="population_density", y = "m2_price", color = "neighbourhood_group")  # x_col, y_col, z_col deben ser numéricas
fig.show()

In [126]:
fig = px.scatter(df, x="HICP", y = "m2_price", color = "neighbourhood_group")  # x_col, y_col, z_col deben ser numéricas
fig.show()

In [124]:
## DATOS MACROECONOMICOS
df_scatter = df[["m2_price","HICP"]]
fig = px.scatter_matrix(df_scatter)
fig.show()

In [131]:
# INFO ALQUILERES PRECIO

df_scatter2 = df[["m2_price","listings_count", "minimum_nights", "nigth_price", "availability_365", "hosts_count"]]
fig = px.scatter_matrix(df_scatter2)
fig.show()


In [129]:
fig = px.scatter(df, x="m2_price", y = "listings_count", color = "neighbourhood_group")  # x_col, y_col, z_col deben ser numéricas
fig.show()

In [132]:
# "listing_reviews", "number_of_reviews", "reviews_per_month"
df_scatter4 = df[["m2_price","listing_reviews", "number_of_reviews", "reviews_per_month"]]
fig = px.scatter_matrix(df_scatter4)
fig.show()

In [123]:
# "Private_room", "Entire_home", "Hotel_room", "Shared_room"
df_scatter5 = df[["m2_price", "Private_room", "Entire_home", "Hotel_room", "Shared_room"]]
fig = px.scatter_matrix(df_scatter5)
fig.show()

In [133]:
fig = px.scatter_3d(df, x="m2_price", y="nigth_price", z="reviews_per_month", color = "neighbourhood_group")  # x_col, y_col, z_col deben ser numéricas
fig.show()

In [138]:
fig = px.scatter(df, x="m2_price", y = "hosts_count", color = "neighbourhood_group")  # x_col, y_col, z_col deben ser numéricas
fig.show()

# 2. Modelo de Regresión Lineal

In [140]:
df2 = pd.read_csv("housing_time_series_by_madrid_neighbourhood.csv", delimiter=",")
X = df2.drop(columns=['m2_price','neighbourhood_group', 'date'])
y = df2['m2_price']

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [141]:
reg = ElasticNet()
reg.fit(X_train,y_train)


Objective did not converge. You might want to increase the number of iterations, check the scale of the features or consider increasing regularisation. Duality gap: 1.559e+03, tolerance: 1.284e+00



In [59]:
predictions = reg.predict(X_test)
predictions

array([12.6123806 ,  7.1538064 , 11.10559786, 11.09737025, 23.68545034,
       13.54050046, 14.74943923, 11.82210287, 11.21333414, 12.00667319,
       11.42849725, 12.67196548, 17.81281674, 10.87154655, 14.76526122,
       13.15613857, 10.80803881, 12.9791728 , 13.60177689, 11.9835962 ,
       11.26163709, 11.27326338, 10.19307077, 13.64662474, 11.66438335,
       13.26443939, 10.43815136, 12.45583738, 11.51157356, 16.89024207,
       16.36206685, 12.60248441, 11.66220586, 10.42370442, 12.92126359,
       15.60098495, 14.01239653, 19.79494338, 15.30692715, 11.84034706,
       14.96940385, 17.12361487, 14.08312556, 12.13430305, 12.93126513,
       11.93922975, 11.54757001, 13.27959064, 12.34908261, 12.72724101,
       11.39214939, 11.19011106, 11.02334764, 13.12198215, 11.75697926,
       12.28588485, 17.36565082, 12.54614921, 10.65448987, 10.5369102 ,
       11.65471537, 11.33221159, 12.17790989, 12.10688896, 11.69326771,
       13.53952033, 10.68925191, 16.64024826, 16.20791116, 11.18

In [142]:
predictions_train = reg.predict(X_train)

In [150]:
# Metricas de evaluación
rmse_train = np.sqrt(mean_squared_error(y_train,predictions_train))
mae_train = mean_absolute_error(y_train, predictions_train)
mape_train = mean_absolute_percentage_error(y_train, predictions_train)

rmse_test = np.sqrt(mean_squared_error(y_test,predictions))
mae_test = mean_absolute_error(y_test, predictions)
mape_test = mean_absolute_percentage_error(y_test, predictions)

print("El RMSE de train del modelo es: {}".format(rmse_train))
print(f"El MAE de train del modelo es: {mae_train}")
print(f"El MAPE de train del modelo es: {100 * mape_train} %")

print("")

print("El RMSE de test del modelo es: {}".format(rmse_test))
print(f"El MAE de test del modelo es: {mae_test}")
print(f"El MAPE de test del modelo es: {100*mape_test} %")


r2_test = r2_score(y_test, predictions, force_finite=False)
r2_train = r2_score(y_train, predictions_train, force_finite=False)
print(r2_train)
print(r2_test)

El RMSE de train del modelo es: 2.0291270985700596
El MAE de train del modelo es: 1.6554574095564283
El MAPE de train del modelo es: 13.086646034107522 %

El RMSE de test del modelo es: 1.9835865662085437
El MAE de test del modelo es: 1.6170013956608975
El MAPE de test del modelo es: 12.615200603864155 %
0.5023209303308169
0.5365168372883309


In [144]:
d = {'Real': y_train, 'Predicted': predictions_train}
df3 = pd.DataFrame(data=d)

In [145]:
fig = px.scatter(df3, x = "Real" , y="Predicted")  # x_col y y_col deben ser numéricas o categóricas
fig.show()

# 3. Dashboard

In [136]:
app = dash.Dash(__name__)

df = pd.read_csv("housing_time_series_by_madrid_neighbourhood.csv", delimiter=",")

d = {'Real M2 Price': y_train, 'Predicted M2 Price': predictions_train}
df3 = pd.DataFrame(data=d)


# Layout de la aplicación
app.layout = html.Div([
    html.H1("Análisis del precio de la vivinda en Madrid"),
    html.Div([
        dcc.Graph(
            figure=px.line(df, x="date", y = "m2_price", color = "neighbourhood_group")
        ),
        dcc.Graph(
            figure=px.scatter(df, x="m2_price", y = "listings_count", color = "neighbourhood_group")
        )
    ], style={'width': '49%', 'display': 'inline-block'}),
    html.Div([
        dcc.Graph(
            figure=px.scatter_3d(df, x="m2_price", y="nigth_price", z="reviews_per_month", color = "neighbourhood_group")
        ),
        dcc.Graph(
            figure=px.scatter(df3, x = "Real M2 Price" , y="Predicted M2 Price")
        )
    ], style= {'width': '49%', 'display': 'inline-block'})
    
])


# Ejecutar la aplicación
if __name__ == '__main__':
    app.run_server(debug=True)