In [17]:
import pandas as pd
import plotly.express as px
from sklearn.impute import KNNImputer

In [18]:
df = pd.read_csv('../data/real_state_data_for_model.csv')
#df_1 = pd.read_csv('../data/real_state_data_after_cleaning.csv')

In [19]:
df.columns

Index(['precio', 'ambientes', 'no_baños', 'terreno_m2', 'año_constr',
       'no_dormitorios', 'area_constr_m2', 'estacionamientos', 'latitud',
       'longitud', 'tipo_de_propiedad', 'ciudad', 'zona'],
      dtype='object')

#### Preparación de los datos

Queda reemplazar los valores faltantes de la columna ambientes con los resultados de gridseachCV

In [20]:
imputer = KNNImputer(n_neighbors=5)
df = df.copy()
column_to_impute = df['ambientes'].values.reshape(-1, 1)
imputed_column = imputer.fit_transform(column_to_impute)
df['ambientes'] = imputed_column
df.isna().sum().sum()

0

In [26]:
df_1 = df[df['zona']=="ESTE"]
df_1.zona.value_counts()
print(df.shape, df_1.shape)
#son varios valores, entonces no eliminar la categoria ESTE (mayúsculas)

(1445, 13) (21, 13)


df_1 son los datos que se usará para construir el dashboard

In [7]:
df.to_csv('../data/real_state_data_for_dashboard.csv',index=False)

#### Plots

In [8]:
df_f = df.año_constr.value_counts().to_frame().reset_index()
df_f = df_f.sort_values('año_constr')
df_f.rename(columns={'año_constr' : 'Año de construcción',
                   'count' : 'Cantidad de propiedades'}, inplace=True)

fig = px.line(
    df_f,
    x="Año de construcción",
    y="Cantidad de propiedades",
    title="Properties Built per Year",
    color_discrete_sequence=[px.colors.qualitative.Dark2[3]]
)
fig.show()

In [9]:
df.columns

Index(['precio', 'ambientes', 'no_baños', 'terreno_m2', 'año_constr',
       'no_dormitorios', 'area_constr_m2', 'estacionamientos', 'latitud',
       'longitud', 'tipo_de_propiedad', 'ciudad', 'zona'],
      dtype='object')

In [10]:
df.isna().sum().sum()

0

In [11]:
data = df[df['estacionamientos']<5]
px.scatter(data, x='area_constr_m2', y='terreno_m2',color='estacionamientos')

In [12]:
px.imshow(df.corr(numeric_only=True), zmin=-1, zmax=1, color_continuous_scale='rdbu')

In [13]:
fig = px.histogram(df, x='precio', title="Histogram", nbins=50,
                   color_discrete_sequence=px.colors.qualitative.Set2)
fig.update_layout(
    xaxis_title="Values",
    yaxis_title="Frequency"
)
fig.show()

In [14]:
import pandas as pd
import plotly.express as px

#prepocesanod para el gráfico
df_habitaciones = df["no_dormitorios"].value_counts().to_frame().reset_index()
df_habitaciones.columns = ["cantidad", "propiedades_habitaciones"]

df_baños = df["no_baños"].value_counts().to_frame().reset_index()
df_baños.columns = ["cantidad", "propiedades_baños"]

df_habitaciones["cantidad"] = df_habitaciones["cantidad"].astype(int)
df_baños["cantidad"] = df_baños["cantidad"].astype(int)

df_merged = pd.merge(df_habitaciones, df_baños, 
                     #left_on="dormitorios", 
                     #right_on="baños", 
                     how="outer",
                     on="cantidad")
df_merged


#gráfico de barras
fig = px.bar(df_merged, x="cantidad", 
             y=["propiedades_habitaciones", "propiedades_baños"],
             barmode="group", 
             title="Número de propiedades según el número de habitaciones y baños",
             color_discrete_sequence=px.colors.qualitative.Dark2)

fig.show()

In [15]:
df_plot = df["no_dormitorios"].value_counts().to_frame().reset_index()
df_plot = df["no_dormitorios"].value_counts().to_frame().reset_index()
fig = px.bar(df_plot, x="no_dormitorios", y="count", title="Property Count by Number of Bedrooms")
fig.show()

In [16]:
import plotly.graph_objects as go

fig = go.Figure()

fig.add_trace(go.Indicator(
    mode = "number",
    value = 200,
    title = {'text': "Total de propiedades"},
    domain = {'row': 0, 'column': 0}))

fig.add_trace(go.Indicator(
    mode = "number",
    value = 200,
    title = {'text': "Total de propiedades"},
    domain = {'row': 1, 'column': 0}))

fig.add_trace(go.Indicator(
    mode = "number",
    value = 200,
    title = {'text': "Total de propiedades"},
    domain = {'row': 2, 'column': 0}))

fig.add_trace(go.Indicator(
    mode = "number",
    value = 200,
    title = {'text': "Total de propiedades"},
    domain = {'row': 3, 'column': 0}))

fig.update_layout(
    grid = {'rows': 4, 'columns': 1, 'pattern': "independent"},
)