In [1]:
import pandas as pd
import matplotlib.pyplot as plt

# Cargar el archivo Excel
file_path = 'data_no_dp_semestre.xlsx'  # Reemplazar con la ruta real
data = pd.read_excel(file_path)

# Verificar las primeras filas para entender la estructura
print(data.head())


In [2]:
data['comuna_norm'].value_counts()

# Análisis explorativo

In [3]:
# Filtrar terrenos en las comunas de interés y con más de 100 hectáreas
# comunas_interes = ['AYSEN', 'RIO IBANEZ', 'COYHAIQUE', 'CHILE CHICO']
comunas_interes = ['AYSEN', 'RIO IBANEZ']
data_filtrada = data[(data['comuna_norm'].isin(comunas_interes)) & (data['ha_final'] >= 50) & (data['ha_final'] < 500)]

# Asegurarse de que la columna UF por hectárea tenga valores válidos
data_filtrada = data_filtrada.dropna(subset=['UF_Ha'])
data_filtrada = data_filtrada[(data_filtrada['UF_Ha'] > 0)]

# Extraer el año de la columna 'created_at'
data_filtrada['year'] = pd.DatetimeIndex(data_filtrada['created_at']).year

#Desde 2021
data_filtrada = data_filtrada[(data_filtrada['year'] >= 2021)]

# Verificar las primeras filas para entender la estructura
print(data_filtrada.describe())

In [4]:
# Filtrar terrenos en las comunas de interés y con más de 100 hectáreas
# comunas_interes = ['AYSEN', 'RIO IBANEZ', 'COYHAIQUE', 'CHILE CHICO']
comunas_interes = ['AYSEN', 'RIO IBANEZ']

# Cargar el archivo Excel
file_path = 'data_no_dp_año.xlsx'  # Reemplazar con la ruta real
data = pd.read_excel(file_path)

data_filtrada_año = data[(data['comuna_norm'].isin(comunas_interes)) & (data['ha_final'] >= 50) & (data['ha_final'] < 500)]

# Asegurarse de que la columna UF por hectárea tenga valores válidos
data_filtrada_año = data_filtrada_año.dropna(subset=['UF_Ha'])
data_filtrada_año = data_filtrada_año[(data_filtrada_año['UF_Ha'] > 0)]

# Extraer el año de la columna 'created_at'
data_filtrada_año['year'] = pd.DatetimeIndex(data_filtrada_año['created_at']).year

#Desde 2021
data_filtrada_año = data_filtrada_año[(data_filtrada_año['year'] >= 2021)]

# Verificar las primeras filas para entender la estructura
print(data_filtrada_año.describe())

In [5]:
# Crear boxplots para cada año
plt.figure(figsize=(20, 9))
data_filtrada.boxplot(column='UF_Ha', by='año_semestre', grid=False)
plt.title('Boxplot de Precio UF por Hectárea por Semestre')
plt.suptitle('')  # Eliminar el título automático generado por pandas
plt.xlabel('Semestre')
plt.ylabel('Precio UF por Hectárea')
# plt.ylim(-10, 500)
plt.xticks(rotation=55, ha='right')
plt.show()


In [6]:
# Definir una función para eliminar outliers usando el rango intercuartílico (IQR)
def remove_outliers_by(df, column, by='year'):
    # Aplicar eliminación de outliers por año
    def iqr_outliers(group):
        Q1 = group[column].quantile(0.25)
        Q3 = group[column].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        return group[(group[column] >= lower_bound) & (group[column] <= upper_bound)]
    
    # Aplicar a cada grupo por año
    return df.groupby(by).apply(iqr_outliers).reset_index(drop=True)

# Aplicar la limpieza de outliers por año a la columna UF_Ha
data_limpia_año = remove_outliers_by(data_filtrada_año, 'UF_Ha','year')

# Aplicar la limpieza de outliers por semestre a la columna UF_Ha
data_limpia_semestre = remove_outliers_by(data_filtrada, 'UF_Ha', 'año_semestre')

In [7]:
# Crear boxplots para cada año
plt.figure(figsize=(20, 9))
data_limpia_año.boxplot(column='UF_Ha', by='year', grid=False)
plt.title('Boxplot de Precio UF por Hectárea por Año')
plt.suptitle('')  # Eliminar el título automático generado por pandas
plt.xlabel('Año')
plt.ylabel('Precio UF por Hectárea')
# plt.ylim(-10, 500)
plt.xticks(rotation=55, ha='right')
plt.show()

In [8]:
# Crear boxplots para cada semestre
plt.figure(figsize=(20, 9))
data_limpia_semestre.boxplot(column='UF_Ha', by='año_semestre', grid=False)
plt.title('Boxplot de Precio UF por Hectárea por Semestre')
plt.suptitle('')  # Eliminar el título automático generado por pandas
plt.xlabel('Semestre')
plt.ylabel('Precio UF por Hectárea')
# plt.ylim(-10, 500)
plt.xticks(rotation=55, ha='right')
plt.show()

In [9]:
# Aplicar la limpieza de outliers por año a la columna UF_Ha
data_limpia_año2 = remove_outliers_by(data_limpia_año, 'UF_Ha', 'year')

# Crear boxplots para cada año
plt.figure(figsize=(20, 9))
data_limpia_año2.boxplot(column='UF_Ha', by='year', grid=False)
plt.title('Boxplot de Precio UF por Hectárea por Año')
plt.suptitle('')  # Eliminar el título automático generado por pandas
plt.xlabel('Año')
plt.ylabel('Precio UF por Hectárea')
# plt.ylim(-10, 500)
plt.xticks(rotation=55, ha='right')
plt.show()

In [10]:
# Aplicar la limpieza de outliers por año a la columna UF_Ha
data_limpia_semestre2 = remove_outliers_by(data_limpia_semestre, 'UF_Ha', 'año_semestre')

# Crear boxplots para cada año
plt.figure(figsize=(20, 9))
data_limpia_semestre2.boxplot(column='UF_Ha', by='año_semestre', grid=False)
plt.title('Boxplot de Precio UF por Hectárea por Semestre')
plt.suptitle('')  # Eliminar el título automático generado por pandas
plt.xlabel('Semestre')
plt.ylabel('Precio UF por Hectárea')
# plt.ylim(-10, 500)
plt.xticks(rotation=55, ha='right')
plt.show()

# Análisis histórico 

## Por semestre

In [11]:
import matplotlib.pyplot as plt

# Crear la figura
fig, ax1 = plt.subplots(figsize=(20, 9))

# Crear el primer gráfico (boxplot de UF por hectárea por año-mes)
ax1 = data_limpia_semestre.boxplot(column='UF_Ha', by='año_semestre', grid=False, ax=ax1)
plt.title('Boxplot de Precio UF por Hectárea por Semestre')
plt.suptitle('')  # Eliminar el título automático generado por pandas
ax1.set_xlabel('Semestre')
ax1.set_ylabel('Precio UF por Hectárea')
plt.xticks(rotation=55, ha='right')

val_terr = 18056.62/297
ax1.axhline(y=val_terr, color='r', linestyle='--', label='UF/Ha Reserva Aysén')

ax1.legend(loc='upper left')

# Crear el segundo eje (número de datos por año-mes)
ax2 = ax1.twinx()

# Contar cuántos datos hay por año-mes
data_count_semester = data_limpia_semestre.groupby('año_semestre').size()

# Graficar la cantidad de datos por año-mes como barras detrás de los boxplots
positions = range(1, len(data_count_semester) + 1)

# Ajustar el ancho de las barras con el parámetro 'width'
bars = ax2.bar(positions, data_count_semester.values, color='r', alpha=0.3, width=0.5, zorder=1, label='Cantidad de datos')  # width=0.5 para hacer las barras más angostas
ax2.set_ylabel('Cantidad de datos')
ax2.legend(loc='upper right')

# Agregar etiquetas con la cantidad de datos encima de cada barra
for bar, count in zip(bars, data_count_semester.values):
    ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.show()

In [12]:
import matplotlib.pyplot as plt

# Calcular estadísticas (mediana, media, mínimo, máximo) por semestre
statistics = data_limpia_semestre.groupby('año_semestre')['UF_Ha'].agg(['median', 'mean', 'min', 'max']).reset_index()

# Crear la figura
fig, ax1 = plt.subplots(figsize=(20, 9))

# Graficar la mediana, media, máximo y mínimo como líneas en el eje izquierdo
ax1.plot(statistics['año_semestre'], statistics['median'], label='Mediana', marker='o')
ax1.plot(statistics['año_semestre'], statistics['mean'], label='Media', marker='o')
ax1.plot(statistics['año_semestre'], statistics['min'], label='Mínimo', marker='o')
ax1.plot(statistics['año_semestre'], statistics['max'], label='Máximo', marker='o')

# Ajustar etiquetas y títulos
plt.title('Estadísticas de Precio UF por Hectárea por Semestre')
ax1.set_xlabel('Semestre')
ax1.set_ylabel('Precio UF por Hectárea')
plt.xticks(rotation=55, ha='right')

val_terr = 18056.62/297
ax1.axhline(y=val_terr, color='r', linestyle='--', label='UF/Ha Reserva Aysén')

# Añadir la leyenda para el gráfico de líneas
ax1.legend(loc='upper left')

# Crear el segundo eje (número de datos por semestre)
ax2 = ax1.twinx()

# Contar cuántos datos hay por semestre
data_count_semester = data_limpia_semestre.groupby('año_semestre').size()

# Graficar la cantidad de datos por semestre como barras detrás de las líneas
positions = range(0, len(data_count_semester) )
bars = ax2.bar(positions, data_count_semester.values, color='r', alpha=0.3, width=0.5, zorder=1, label='Cantidad de datos')
ax2.set_ylabel('Cantidad de datos')

# Añadir etiquetas encima de las barras
for bar, count in zip(bars, data_count_semester.values):
    ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=10)

# Añadir leyenda para el eje de las barras
ax2.legend(loc='upper right')

# Ajustar el diseño del gráfico
plt.tight_layout()
plt.show()

### Heatmap

In [13]:
import folium
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import LinearSegmentedColormap

# Coordenadas centrales aproximadas de la región de Aysén
centro_aysen = [-45.575, -72.066]  # Latitud, Longitud central aproximada de la región de Aysén

# Filtrar las comunas que tienen coordenadas válidas (no 0.0, 0.0)
data_limpia_semestre_heatmap = data_limpia_semestre[(data_limpia_semestre['latitude'] != 0.0) & 
                                               (data_limpia_semestre['longitude'] != 0.0)]

# Calcular los bigotes de un boxplot (rango intercuartílico) en el conjunto completo
q1 = data_limpia_semestre_heatmap['UF_Ha'].quantile(0.25)
q3 = data_limpia_semestre_heatmap['UF_Ha'].quantile(0.75)
iqr = q3 - q1
bigote_inferior = q1 - 1.5 * iqr
bigote_superior = q3 + 1.5 * iqr
mediana = data_limpia_semestre_heatmap['UF_Ha'].median()
minimum = data_limpia_semestre_heatmap['UF_Ha'].min()

# Crear el degradado de colores
# colormap_blue = LinearSegmentedColormap.from_list('blue_white', ['blue', 'white'], N=100)
colormap_red = LinearSegmentedColormap.from_list('white_red', ['white', 'red'], N=100)

# Función para producir colores basada en el valor UF_Ha
def color_producer(uf_ha):
    if uf_ha <= minimum:
        return 'white' #'blue'
    elif uf_ha >= bigote_superior:
        return 'red'
    else:
        # Normalizar el valor de UF_Ha entre el mínimo y bigote superior
        norm_value = (uf_ha - minimum) / (bigote_superior - minimum)  # De blanco a rojo
        rgba_color = colormap_red(norm_value)
        hex_color = '#{:02x}{:02x}{:02x}'.format(int(rgba_color[0]*255), int(rgba_color[1]*255), int(rgba_color[2]*255))
        return hex_color

# Obtener los años únicos en el dataset
semesters = data_limpia_semestre_heatmap['año_semestre'].unique()

# Generar un mapa por cada año
for semester in semesters:
    # Filtrar los datos del año actual
    data_semester = data_limpia_semestre_heatmap[data_limpia_semestre_heatmap['año_semestre'] == semester]
    
    # Crear el mapa base centrado en la región de Aysén
    mapa = folium.Map(location=centro_aysen, zoom_start=8)
    
    # Añadir los puntos de colores al mapa
    for index, row in data_semester.iterrows():
        folium.CircleMarker(
            location=[row['latitude'], row['longitude']],
            radius=8,
            popup=f"UF/Ha: {row['UF_Ha']}",
            color="black",  # Color del borde
            fill=True,
            fill_color=color_producer(row['UF_Ha']),
            fill_opacity=0.7,
            weight=0.5
        ).add_to(mapa)

    # Crear una leyenda con una barra continua de colores
    import branca.colormap as cm

    colormap = cm.LinearColormap(
        colors=['white', 'red'],
        index=[minimum, bigote_superior],  # Definir los puntos clave
        vmin=minimum,
        vmax=bigote_superior
    )

    # Añadir leyenda al mapa
    colormap.caption = f"Mínimo ({minimum:.2f}), Mediana ({mediana:.2f}), Bigote superior ({bigote_superior:.2f})"
    colormap.add_to(mapa)
    
    # Personalizar el recuadro con estilo CSS (fondo blanco y borde negro delgado)
    legend_html = '''
         <div style="position: fixed; 
         top: 5px; right: 20px; width: 430px; height: 50px; 
         background-color: white; border:1px solid black; z-index:1000; font-size:14px;
         padding: 10px;">
         </div>
         '''

    # Insertar el colormap en el recuadro personalizado
    mapa.get_root().html.add_child(folium.Element(legend_html))   
    
    # Agregar el año_semestre al mapa como un texto en la esquina superior izquierda
    title_html = f'''
         <div style="position: fixed; 
         top: 10px; left: 800px; width: 250px; height: 40px; 
         background-color: white; border:1px solid black; z-index :1000; font-size:20px;
         padding: 5px;"> 
         <b>Año/Semestre: {semester}</b> 
         </div>
         '''

    # Insertar el título en el mapa
    mapa.get_root().html.add_child(folium.Element(title_html))

    # Guardar el mapa en un archivo HTML con el año en el nombre del archivo
    mapa.save(f'heatmaps_semestre/mapa_aysen_active_heatmap_{semester}.html')

## Por año

In [14]:
import matplotlib.pyplot as plt

# Crear la figura
fig, ax1 = plt.subplots(figsize=(20, 9))

# Crear el primer gráfico (boxplot de UF por hectárea)
ax1 = data_limpia_año.boxplot(column='UF_Ha', by='year', grid=False, ax=ax1)
plt.title('Boxplot de Precio UF por Hectárea por Año')
plt.suptitle('')  # Eliminar el título automático generado por pandas
ax1.set_xlabel('Año')
ax1.set_ylabel('Precio UF por Hectárea')
plt.xticks(rotation=55, ha='right')

val_terr = 18056.62/297
ax1.axhline(y=val_terr, color='r', linestyle='--', label='UF/Ha Reserva Aysén')

ax1.legend(loc='upper left')

# Crear el segundo eje (número de datos por año)
ax2 = ax1.twinx()

# Contar cuántos datos hay por año
data_count_year = data_limpia_año.groupby('year').size()

# Graficar la cantidad de datos por año como barras detrás de los boxplots
# Usar las posiciones de los boxplots para alinear las barras
positions = range(1, len(data_count_year) + 1)
bars = ax2.bar(positions, data_count_year.values, color='r', alpha=0.3, width=0.2, zorder=1, label='Cantidad de datos')  # Colocar detrás (zorder=1)
ax2.set_ylabel('Cantidad de datos')
ax2.legend(loc='upper right')

# Agregar etiquetas con la cantidad de datos encima de cada barra
for bar, count in zip(bars, data_count_year.values):
    ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.show()



In [15]:
import matplotlib.pyplot as plt

# Calcular estadísticas (mediana, media, mínimo, máximo) por semestre
statistics_year = data_limpia_año.groupby('year')['UF_Ha'].agg(['median', 'mean', 'min', 'max']).reset_index()

# Crear la figura
fig, ax1 = plt.subplots(figsize=(20, 9))

# Graficar la mediana, media, máximo y mínimo como líneas en el eje izquierdo
ax1.plot(statistics_year['year'], statistics_year['median'], label='Mediana', marker='o')
ax1.plot(statistics_year['year'], statistics_year['mean'], label='Media', marker='o')
# ax1.plot(statistics_year['year'], statistics_year['min'], label='Mínimo', marker='o')
# ax1.plot(statistics_year['year'], statistics_year['max'], label='Máximo', marker='o')

# Ajustar etiquetas y títulos
plt.title('Estadísticas de Precio UF por Hectárea por Año')
ax1.set_xlabel('Año')
ax1.set_ylabel('Precio UF por Hectárea')
plt.xticks(rotation=55, ha='right')

val_terr = 18056.62/297
ax1.axhline(y=val_terr, color='r', linestyle='--', label='UF/Ha Reserva Aysén')

# Añadir la leyenda para el gráfico de líneas
ax1.legend(loc='upper left')

# Crear el segundo eje (número de datos por semestre)
ax2 = ax1.twinx()

# Contar cuántos datos hay por semestre
data_count_año = data_limpia_año.groupby('year').size()

# Graficar la cantidad de datos por semestre como barras detrás de las líneas
positions = [2021, 2022, 2023, 2024] #range(0, len(data_count_año) )
bars = ax2.bar(positions, data_count_año.values, color='r', alpha=0.3, width=0.5, zorder=1, label='Cantidad de datos')
ax2.set_ylabel('Cantidad de datos')

# Añadir etiquetas encima de las barras
for bar, count in zip(bars, data_count_año.values):
    ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=10)

# Añadir leyenda para el eje de las barras
ax2.legend(loc='upper right')

# Ajustar el diseño del gráfico
plt.tight_layout()
plt.show()


### Heatmap

In [16]:
import folium
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import LinearSegmentedColormap

# Coordenadas centrales aproximadas de la región de Aysén
centro_aysen = [-45.575, -72.066]  # Latitud, Longitud central aproximada de la región de Aysén

# Filtrar las comunas que tienen coordenadas válidas (no 0.0, 0.0)
data_limpia_año_heatmap = data_limpia_año[(data_limpia_año['latitude'] != 0.0) & (data_limpia_año['longitude'] != 0.0)]

# Calcular los bigotes de un boxplot (rango intercuartílico) en el conjunto completo
q1 = data_limpia_año_heatmap['UF_Ha'].quantile(0.25)
q3 = data_limpia_año_heatmap['UF_Ha'].quantile(0.75)
iqr = q3 - q1
bigote_inferior = q1 - 1.5 * iqr
bigote_superior = q3 + 1.5 * iqr
mediana = data_limpia_año_heatmap['UF_Ha'].median()
minimum = data_limpia_año_heatmap['UF_Ha'].min()

# Crear el degradado de colores
# colormap_blue = LinearSegmentedColormap.from_list('blue_white', ['blue', 'white'], N=100)
colormap_red = LinearSegmentedColormap.from_list('white_red', ['white', 'red'], N=100)

# Función para producir colores basada en el valor UF_Ha
def color_producer(uf_ha):
    if uf_ha <= minimum:
        return 'white' #'blue'
    elif uf_ha >= bigote_superior:
        return 'red'
    else:
        # Normalizar el valor de UF_Ha entre el mínimo y bigote superior
        norm_value = (uf_ha - minimum) / (bigote_superior - minimum)  # De blanco a rojo
        rgba_color = colormap_red(norm_value)
        hex_color = '#{:02x}{:02x}{:02x}'.format(int(rgba_color[0]*255), int(rgba_color[1]*255), int(rgba_color[2]*255))
        return hex_color

# Obtener los años únicos en el dataset
years = data_limpia_año_heatmap['year'].unique()

# Generar un mapa por cada año
for year in years:
    # Filtrar los datos del año actual
    data_year = data_limpia_año_heatmap[data_limpia_año_heatmap['year'] == year]
    
    # Crear el mapa base centrado en la región de Aysén
    mapa = folium.Map(location=centro_aysen, zoom_start=8)
    
    # Añadir los puntos de colores al mapa
    for index, row in data_year.iterrows():
        folium.CircleMarker(
            location=[row['latitude'], row['longitude']],
            radius=8,
            popup=f"UF/Ha: {row['UF_Ha']}",
            color="black",  # Color del borde
            fill=True,
            fill_color=color_producer(row['UF_Ha']),
            fill_opacity=0.7,
            weight=0.5
        ).add_to(mapa)

    # Crear una leyenda con una barra continua de colores
    import branca.colormap as cm

    colormap = cm.LinearColormap(
        colors=['white', 'red'],
        index=[minimum, bigote_superior],  # Definir los puntos clave
        vmin=minimum,
        vmax=bigote_superior
    )

    # Añadir leyenda al mapa
    colormap.caption = f"Mínimo ({minimum:.2f}), Mediana ({mediana:.2f}), Bigote superior ({bigote_superior:.2f})"
    colormap.add_to(mapa)
    
    # Personalizar el recuadro con estilo CSS (fondo blanco y borde negro delgado)
    legend_html = '''
         <div style="position: fixed; 
         top: 5px; right: 20px; width: 430px; height: 50px; 
         background-color: white; border:1px solid black; z-index:1000; font-size:14px;
         padding: 10px;">
         </div>
         '''

    # Insertar el colormap en el recuadro personalizado
    mapa.get_root().html.add_child(folium.Element(legend_html))
    
    # Agregar el año_semestre al mapa como un texto en la esquina superior izquierda
    title_html = f'''
         <div style="position: fixed; 
         top: 10px; left: 800px; width: 250px; height: 40px; 
         background-color: white; border:1px solid black; z-index:1000; font-size:20px;
         padding: 5px;"> 
         <b>Año: {year}</b> 
         </div>
         '''

    # Insertar el título en el mapa
    mapa.get_root().html.add_child(folium.Element(title_html))
    
    # Guardar el mapa en un archivo HTML con el año en el nombre del archivo
    mapa.save(f'heatmaps_año/mapa_aysen_active_heatmap_{year}.html')

## Por comuna

In [17]:
import matplotlib.pyplot as plt

# Lista de comunas de interés
# comunas_interes = ['AYSEN', 'RIO IBANEZ', 'COYHAIQUE', 'CHILE CHICO']
comunas_interes = ['AYSEN', 'RIO IBANEZ']

# Definir un diccionario de colores para diferenciar las comunas
colores = {
    'AYSEN': 'blue',
    'RIO IBANEZ': 'green',
#     'COYHAIQUE': 'orange',
#     'CHILE CHICO': 'purple'
}

# Crear la figura
fig, ax1 = plt.subplots(figsize=(20, 9))

# Iterar sobre cada comuna de interés
for comuna in comunas_interes:
    # Filtrar los datos para cada comuna
    data_comuna = data_filtrada_año[data_filtrada_año['comuna_norm'] == comuna]
    data_comuna = remove_outliers_by(data_comuna, 'UF_Ha', 'year')
    
    # Calcular estadísticas (mediana, media, mínimo, máximo) por año para la comuna
    statistics_comuna = data_comuna.groupby('year')['UF_Ha'].agg(['median', 'mean', 'min', 'max']).reset_index()
    
    # Graficar la mediana, media, máximo y mínimo como líneas en el eje izquierdo, diferenciando cada comuna
    ax1.plot(statistics_comuna['year'], statistics_comuna['median'], label=f'Mediana - {comuna}', marker='o', color=colores[comuna])
#     ax1.plot(statistics_comuna['year'], statistics_comuna['mean'], label=f'Media - {comuna}', marker='o', linestyle='--', color=colores[comuna])
#     ax1.plot(statistics_comuna['year'], statistics_comuna['min'], label=f'Mínimo - {comuna}', linestyle=':', color=colores[comuna])
#     ax1.plot(statistics_comuna['year'], statistics_comuna['max'], label=f'Máximo - {comuna}', linestyle='-.', color=colores[comuna])

# Ajustar etiquetas y títulos
plt.title('Estadísticas de Precio UF por Hectárea por Año y Comuna')
ax1.set_xlabel('Año')
ax1.set_ylabel('Precio UF por Hectárea')
plt.xticks(rotation=55, ha='right')

val_terr = 18056.62/297
ax1.axhline(y=val_terr, color='r', linestyle='--', label='UF/Ha Reserva Aysén')

# Añadir la leyenda para el gráfico de líneas
ax1.legend(loc='upper left')

# Crear el segundo eje (número de datos por año) para cada comuna
ax2 = ax1.twinx()

# Graficar la cantidad de datos por comuna en barras detrás de las líneas
for i, comuna in enumerate(comunas_interes):
    # Filtrar los datos de la comuna
    data_comuna = data_filtrada_año[data_filtrada_año['comuna_norm'] == comuna]
    data_comuna = remove_outliers_by(data_comuna, 'UF_Ha','year')
    
    # Contar cuántos datos hay por año
    data_count_año_comuna = data_comuna.groupby('year').size()
    
    # Graficar la cantidad de datos por año como barras detrás de las líneas
    positions = data_count_año_comuna.index
    bars = ax2.bar(positions + i/10, data_count_año_comuna.values, color=colores[comuna], alpha=0.3, width=0.15, zorder=1, label=f'Cantidad de datos - {comuna}')
    
    # Añadir etiquetas con la cantidad de datos encima de cada barra
    for bar, count in zip(bars, data_count_año_comuna.values):
        ax2.text(bar.get_x() + bar.get_width() / 2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=10)

# Añadir leyenda para el eje de las barras
ax2.set_ylabel('Cantidad de datos')
ax2.legend(loc='upper right')

# Ajustar el diseño del gráfico
plt.tight_layout()
plt.show()


In [18]:
import matplotlib.pyplot as plt

# Lista de comunas de interés
# comunas_interes = ['AYSEN', 'RIO IBANEZ', 'COYHAIQUE', 'CHILE CHICO']
comunas_interes = ['AYSEN', 'RIO IBANEZ']

# Crear la figura con subplots (uno por cada comuna)
fig, axes = plt.subplots(1, len(comunas_interes), figsize=(40, 9), sharey=True)  # 1 fila, varias columnas (según la cantidad de comunas)

# Iterar sobre cada comuna de interés y su respectivo eje (subplot)
for i, comuna in enumerate(comunas_interes):
    # Eje de la comuna actual
    ax1 = axes[i]

    # Filtrar los datos para cada comuna
    data_comuna = remove_outliers_by(data_filtrada_año[data_filtrada_año['comuna_norm'] == comuna], 'UF_Ha', 'year')
    
    # Calcular estadísticas (mediana, media, mínimo, máximo) por año para la comuna
    statistics_comuna = data_comuna.groupby('year')['UF_Ha'].agg(['median', 'mean', 'min', 'max']).reset_index()
    
    # Graficar la mediana, media, máximo y mínimo como líneas en el eje izquierdo, diferenciando cada comuna
    ax1.plot(statistics_comuna['year'], statistics_comuna['median'], label='Mediana', marker='o', color='blue')
    ax1.plot(statistics_comuna['year'], statistics_comuna['mean'], label='Media', marker='o', linestyle='--', color='green')
#     ax1.plot(statistics_comuna['year'], statistics_comuna['min'], label='Mínimo', linestyle=':', color='orange')
#     ax1.plot(statistics_comuna['year'], statistics_comuna['max'], label='Máximo', linestyle='-.', color='red')
    
    # Título y etiquetas de los subplots
    ax1.set_title(f'Estadísticas de Precio UF - {comuna}')
    ax1.set_xlabel('Año')
    if i == 0:  # Solo el primer gráfico muestra el ylabel
        ax1.set_ylabel('Precio UF por Hectárea')
    
    val_terr = 18056.62/297
    ax1.axhline(y=val_terr, color='r', linestyle='--', label='UF/Ha Reserva Aysén')
        
    # Añadir leyenda específica para cada gráfico
    ax1.legend(loc='upper left')
    
    # Crear el segundo eje (número de datos por año) para cada comuna
    ax2 = ax1.twinx()

    # Contar cuántos datos hay por año para la comuna
    data_count_año_comuna = data_comuna.groupby('year').size()

    # Graficar la cantidad de datos por año como barras detrás de las líneas
    positions = data_count_año_comuna.index
    bars = ax2.bar(positions, data_count_año_comuna.values, color='r', alpha=0.3, width=0.3, zorder=1, label='Cantidad de datos')
    
    # Añadir etiquetas encima de las barras
    for bar, count in zip(bars, data_count_año_comuna.values):
        ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=10)

    # Etiqueta del eje Y para el conteo de datos
    if i == len(comunas_interes) - 1:  # Solo el último subplot muestra el ylabel del eje derecho
        ax2.set_ylabel('Cantidad de datos')

# Añadir la leyenda global solo una vez para las líneas
# fig.legend(loc='upper left', bbox_to_anchor=(0.1, 0.95), bbox_transform=fig.transFigure)

# Ajustar el diseño del gráfico
plt.tight_layout()
plt.show()


# Análisis oferta activa

In [19]:
sources = ['Portalinmobiliario', 'Yapo', 'Portalterreno', 'Mercurio']

# Cargar el archivo Excel
file_path = 'data_no_dp_año.xlsx'  # Reemplazar con la ruta real
data_active_año = pd.read_excel(file_path)

comunas_interes = ['AYSEN', 'RIO IBANEZ']
data_active_año = data_active_año[(data_active_año['comuna_norm'].isin(comunas_interes)) & 
                                  (data_active_año['ha_final'] >= 50) & 
                                  (data_active_año['ha_final'] < 500)]

# Asegurarse de que la columna UF por hectárea tenga valores válidos
data_active_año = data_active_año.dropna(subset=['UF_Ha'])
data_active_año = data_active_año[(data_active_año['UF_Ha'] > 0)]

# Extraer el año de la columna 'created_at'
data_active_año['year'] = pd.DatetimeIndex(data_active_año['created_at']).year

#Desde 2021
data_active_año = data_active_año[(data_active_año['year'] >= 2021)]

data_active = data_active_año[(data_active_año['data_source'].isin(sources)) & data_active_año['active'] == True ]
data_active = remove_outliers_by(data_active, 'UF_Ha', 'year')
data_active.groupby('year').size()

In [20]:
years = [2023, 2024]
data_active = data_active[(data_active['year'].isin(years))]
data_active.groupby('year').size()

## Por año

In [21]:
import matplotlib.pyplot as plt

# Crear la figura
fig, ax1 = plt.subplots(figsize=(20, 9))

# Crear el primer gráfico (boxplot de UF por hectárea)
ax1 = data_active.boxplot(column='UF_Ha', by='year', grid=False, ax=ax1)
plt.title('Boxplot de Precio UF por Hectárea por Año')
plt.suptitle('')  # Eliminar el título automático generado por pandas
ax1.set_xlabel('Año')
ax1.set_ylabel('Precio UF por Hectárea')
plt.xticks(rotation=55, ha='right')

val_terr = 18056.62/297
ax1.axhline(y=val_terr, color='r', linestyle='--', label='UF/Ha Reserva Aysén')

ax1.legend(loc='upper left')

# Crear el segundo eje (número de datos por año)
ax2 = ax1.twinx()

# Contar cuántos datos hay por año
data_count_year = data_active.groupby('year').size()

# Graficar la cantidad de datos por año como barras detrás de los boxplots
# Usar las posiciones de los boxplots para alinear las barras
positions = range(1, len(data_count_year) + 1)
bars = ax2.bar(positions, data_count_year.values, color='r', alpha=0.3, width=0.2, zorder=1, label='Cantidad de datos')  # Colocar detrás (zorder=1)
ax2.set_ylabel('Cantidad de datos')
ax2.legend(loc='upper right')

# Agregar etiquetas con la cantidad de datos encima de cada barra
for bar, count in zip(bars, data_count_year.values):
    ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.show()

In [22]:
import matplotlib.pyplot as plt

# Calcular estadísticas (mediana, media, mínimo, máximo) por semestre
statistics_year = data_active.groupby('year')['UF_Ha'].agg(['median', 'mean', 'min', 'max']).reset_index()

# Crear la figura
fig, ax1 = plt.subplots(figsize=(20, 9))

# Graficar la mediana, media, máximo y mínimo como líneas en el eje izquierdo
ax1.plot(statistics_year['year'], statistics_year['median'], label='Mediana', marker='o')
ax1.plot(statistics_year['year'], statistics_year['mean'], label='Media', marker='o')
ax1.plot(statistics_year['year'], statistics_year['min'], label='Mínimo', marker='o')
ax1.plot(statistics_year['year'], statistics_year['max'], label='Máximo', marker='o')

# Ajustar etiquetas y títulos
plt.title('Estadísticas de Precio UF por Hectárea por Año')
ax1.set_xlabel('Año')
ax1.set_ylabel('Precio UF por Hectárea')
plt.xticks(rotation=55, ha='right')

val_terr = 18056.62/297
ax1.axhline(y=val_terr, color='r', linestyle='--', label='UF/Ha Reserva Aysén')

# Añadir la leyenda para el gráfico de líneas
ax1.legend(loc='upper left')

# Crear el segundo eje (número de datos por semestre)
ax2 = ax1.twinx()

# Contar cuántos datos hay por semestre
data_count_año = data_active.groupby('year').size()

# Graficar la cantidad de datos por semestre como barras detrás de las líneas
positions = years #range(0, len(data_count_año) )
bars = ax2.bar(positions, data_count_año.values, color='r', alpha=0.3, width=0.5, zorder=1, label='Cantidad de datos')
ax2.set_ylabel('Cantidad de datos')

# Añadir etiquetas encima de las barras
for bar, count in zip(bars, data_count_año.values):
    ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=10)

# Añadir leyenda para el eje de las barras
ax2.legend(loc='upper right')

# Ajustar el diseño del gráfico
plt.tight_layout()
plt.show()

## Por comuna

In [23]:
sources = ['Portalinmobiliario', 'Yapo', 'Portalterreno', 'Mercurio']
data_active_comuna = data_active_año[(data_active_año['data_source'].isin(sources)) & data_active_año['active'] == True ]
data_active_comuna = remove_outliers_by(data_active_comuna, 'UF_Ha', 'comuna_norm')
data_active_comuna.groupby('comuna_norm').size()

In [24]:
years = [2023, 2024]
data_active_comuna = data_active_comuna[(data_active_comuna['year'].isin(years))]
data_active_comuna.groupby('comuna_norm').size()

In [25]:
import matplotlib.pyplot as plt

# Crear la figura
fig, ax1 = plt.subplots(figsize=(20, 9))

# Crear el primer gráfico (boxplot de UF por hectárea)
ax1 = data_active_comuna.boxplot(column='UF_Ha', by='comuna_norm', grid=False, ax=ax1)
plt.title('Boxplot de Precio UF por Ha por Comuna - Publicaciones activas entre 50 y 500 Ha')
plt.suptitle('')  # Eliminar el título automático generado por pandas
ax1.set_xlabel('Comuna')
ax1.set_ylabel('Precio UF por Hectárea')
plt.xticks(rotation=55, ha='right')

val_terr = 18056.62/297
ax1.axhline(y=val_terr, color='r', linestyle='--', label='UF/Ha Reserva Aysén')

ax1.legend(loc='upper left')

# Crear el segundo eje (número de datos por año)
ax2 = ax1.twinx()

# Contar cuántos datos hay por año
data_count_year = data_active_comuna.groupby('comuna_norm').size()

# Graficar la cantidad de datos por año como barras detrás de los boxplots
# Usar las posiciones de los boxplots para alinear las barras
positions = range(1, len(data_count_year) + 1)
bars = ax2.bar(positions, data_count_year.values, color='r', alpha=0.3, width=0.2, zorder=1, label='Cantidad de datos')  # Colocar detrás (zorder=1)
ax2.set_ylabel('Cantidad de datos')
ax2.legend(loc='upper right')

# Agregar etiquetas con la cantidad de datos encima de cada barra
for bar, count in zip(bars, data_count_year.values):
    ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.show()

In [26]:
data_active_comuna.describe()

## Por conectividad

In [27]:
sources = ['Portalinmobiliario', 'Yapo', 'Portalterreno', 'Mercurio']
data_active_conect = data_active_año[(data_active_año['active'] == True) & (data_active_año['year'] >= 2023)]
# data_active_conect = remove_outliers_by(data_active_conect, 'UF_Ha', 'conectividad')
data_active_conect.groupby('conectividad').size()

In [28]:
import matplotlib.pyplot as plt

# Crear la figura
fig, ax1 = plt.subplots(figsize=(20, 9))

# Crear el primer gráfico (boxplot de UF por hectárea)
ax1 = data_active_conect.boxplot(column='UF_Ha', by='conectividad', grid=False, ax=ax1)
plt.title('Boxplot de Precio UF por Ha por Conectividad - Publicaciones activas entre 50 y 500 Ha')
plt.suptitle('')  # Eliminar el título automático generado por pandas
ax1.set_xlabel('Conectividad')
ax1.set_ylabel('Precio UF por Hectárea')
plt.xticks(rotation=55, ha='right')

val_terr = 18056.62/297
ax1.axhline(y=val_terr, color='r', linestyle='--', label='UF/Ha Reserva Aysén')

ax1.legend(loc='upper left')

# Crear el segundo eje (número de datos por año)
ax2 = ax1.twinx()

# Contar cuántos datos hay por año
data_count_conect = data_active_conect.groupby('conectividad').size()

# Graficar la cantidad de datos por año como barras detrás de los boxplots
# Usar las posiciones de los boxplots para alinear las barras
positions = range(1, len(data_count_conect) + 1)
bars = ax2.bar(positions, data_count_conect.values, color='r', alpha=0.3, width=0.2, zorder=1, label='Cantidad de datos')  # Colocar detrás (zorder=1)
ax2.set_ylabel('Cantidad de datos')
ax2.legend(loc='upper right')

# Agregar etiquetas con la cantidad de datos encima de cada barra
for bar, count in zip(bars, data_count_conect.values):
    ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.show()

In [29]:
import matplotlib.pyplot as plt

# Calcular estadísticas (mediana, media, mínimo, máximo) por semestre
statistics_conect = data_active_conect.groupby('conectividad')['UF_Ha'].agg(['median', 'mean', 'min', 'max']).reset_index()

# Crear la figura
fig, ax1 = plt.subplots(figsize=(20, 9))

# Graficar la mediana, media, máximo y mínimo como líneas en el eje izquierdo
ax1.plot(statistics_conect['conectividad'], statistics_conect['median'], label='Mediana', marker='o')
# ax1.plot(statistics_conect['conectividad'], statistics_conect['mean'], label='Media', marker='o')
ax1.plot(statistics_conect['conectividad'], statistics_conect['min'], label='Mínimo', marker='o')
ax1.plot(statistics_conect['conectividad'], statistics_conect['max'], label='Máximo', marker='o')

# Crear el primer gráfico (boxplot de UF por hectárea)
ax1 = data_active_conect.boxplot(column='UF_Ha', by='conectividad', grid=False, ax=ax1)
plt.title('Boxplot de Precio UF por Ha por Conectividad - Publicaciones activas entre 50 y 500 Ha')
plt.suptitle('')  # Eliminar el título automático generado por pandas
ax1.set_xlabel('Conectividad')
ax1.set_ylabel('Precio UF por Hectárea')
plt.xticks(rotation=55, ha='right')

val_terr = 18056.62/297
ax1.axhline(y=val_terr, color='r', linestyle='--', label='UF/Ha Reserva Aysén')

ax1.legend(loc='upper left')

# Crear el segundo eje (número de datos por año)
ax2 = ax1.twinx()

# Contar cuántos datos hay por año
data_count_conect = data_active_conect.groupby('conectividad').size()

# Graficar la cantidad de datos por año como barras detrás de los boxplots
# Usar las posiciones de los boxplots para alinear las barras
positions = range(1, len(data_count_conect) + 1)
bars = ax2.bar(positions, data_count_conect.values, color='r', alpha=0.3, width=0.2, zorder=1, label='Cantidad de datos')  # Colocar detrás (zorder=1)
ax2.set_ylabel('Cantidad de datos')
ax2.legend(loc='upper right')

# Agregar etiquetas con la cantidad de datos encima de cada barra
for bar, count in zip(bars, data_count_conect.values):
    ax2.text(bar.get_x() + bar.get_width()/2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.show()

### Distribución conectividad igual a Reserva Aysén

In [30]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import norm

# Filtrar los datos de la conectividad 3
data_subset = data_active_conect[data_active_conect['conectividad'] == 3]
# data_subset = remove_outliers_by(data_subset, 'UF_Ha', 'conectividad')

# Obtener los valores de la columna UF_Ha
uf_ha_values = data_subset['UF_Ha']

# Calcular la media y la desviación estándar para ajustar la curva
mu, std = norm.fit(uf_ha_values)

# Crear el histograma
plt.figure(figsize=(10, 6))
sns.histplot(uf_ha_values, bins=5, kde=False, stat='density', color='blue', alpha=0.6, label="UF/Ha Data")

# Ajustar y superponer la curva de distribución normal
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = norm.pdf(x, mu, std)
plt.plot(x, p, 'r--', linewidth=2, label=f'Ajuste Normal: μ={mu:.2f}, σ={std:.2f}')

# Marcar el UF_Ha del terreno en particular
particular_uf_ha = 18056.62 / 297
plt.axvline(particular_uf_ha, color='green', linestyle='--', linewidth=2, label=f'Terreno: UF/Ha={particular_uf_ha:.2f}')

# Etiquetas y leyenda
plt.title("Distribución de UF/Ha con Ajuste a Normal", fontsize=16)
plt.xlabel("UF/Ha", fontsize=14)
plt.ylabel("Densidad", fontsize=14)
plt.legend()

# Mostrar el gráfico
plt.show()


In [31]:
plt.figure(figsize=(10, 6))

# y = data_subset['UF_Ha']
# y = remove_outliers_by(data_subset, 'UF_Ha', 'conectividad')['UF_Ha']
y = data_subset[data_subset['UF_Ha'] < data_subset['UF_Ha'].max()]['UF_Ha']

# Crear el boxplot
sns.boxplot(y=y, color='lightblue')

# Marcar el UF_Ha del terreno específico
plt.axhline(particular_uf_ha, color='green', linestyle='--', linewidth=2, label=f'Terreno: UF/Ha={particular_uf_ha:.2f}')

# Etiquetas y leyenda
plt.title("Boxplot de UF/Ha con Referencia al Terreno", fontsize=16)
plt.ylabel("UF/Ha", fontsize=14)
# plt.ylim(20,80)
plt.legend()

# Mostrar el gráfico
plt.show()


In [32]:
plt.figure(figsize=(15, 6))

# Filtrar los datos eliminando el valor máximo
x = data_subset[data_subset['UF_Ha'] < data_subset['UF_Ha'].max()]['UF_Ha']

# Crear el boxplot en horizontal
sns.boxplot(x=x, color='lightblue')

# Marcar el UF_Ha del terreno específico en la misma orientación horizontal
plt.axvline(particular_uf_ha, color='green', linestyle='--', linewidth=2, label=f'Terreno: UF/Ha={particular_uf_ha:.2f}')

# Etiquetas y leyenda
plt.title("Boxplot de UF/Ha con Referencia al Terreno", fontsize=16)
plt.xlabel("UF/Ha", fontsize=14)
plt.xlim(25, 120)  # Limitar el eje X para que concuerde con los datos
plt.legend()

# Mostrar el gráfico
plt.show()


In [33]:
plt.figure(figsize=(10, 6))

# y = remove_outliers_by(data_subset, 'UF_Ha', 'conectividad')['UF_Ha']
y = data_subset[data_subset['UF_Ha'] < data_subset['UF_Ha'].max()]['UF_Ha']

# Crear el violin plot
sns.violinplot(y=y, color='lightblue')

# Marcar el UF_Ha del terreno específico
plt.axhline(particular_uf_ha, color='green', linestyle='--', linewidth=2, label=f'Terreno: UF/Ha={particular_uf_ha:.2f}')

# Etiquetas y leyenda
plt.title("Violin Plot de UF/Ha con Referencia al Terreno", fontsize=16)
plt.ylabel("UF/Ha", fontsize=14)
plt.legend()

# Mostrar el gráfico
plt.show()


In [34]:
plt.figure(figsize=(10, 6))

# y = remove_outliers_by(data_subset, 'UF_Ha', 'conectividad')['UF_Ha']
x = data_subset[data_subset['UF_Ha'] < data_subset['UF_Ha'].max()]['UF_Ha']

# Crear el violin plot
sns.violinplot(x=x, color='lightblue')

# Marcar el UF_Ha del terreno específico
plt.axvline(particular_uf_ha, color='green', linestyle='--', linewidth=2, label=f'Terreno: UF/Ha={particular_uf_ha:.2f}')

# Etiquetas y leyenda
plt.title("Violin Plot de UF/Ha con Referencia al Terreno", fontsize=16)
plt.xlabel("UF/Ha", fontsize=14)
plt.legend()

# Mostrar el gráfico
plt.show()

In [35]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import gamma

# Filtrar los datos eliminando el valor máximo
x = data_subset[data_subset['UF_Ha'] < data_subset['UF_Ha'].max()]['UF_Ha']

# Ajustar una distribución Gamma a los datos
shape, loc, scale = gamma.fit(x, floc=0)  # Fijar loc=0 para valores estrictamente positivos

# Crear el espacio de valores x para la curva ajustada
xmin, xmax = min(x), max(x)
x_vals = np.linspace(xmin, xmax, 100)

# Obtener la densidad de probabilidad ajustada
pdf_vals = gamma.pdf(x_vals, shape, loc, scale)

# Crear el gráfico
plt.figure(figsize=(10, 6))
plt.plot(x_vals, pdf_vals, 'r-', linewidth=2, label=f'Ajuste Gamma: α={shape:.2f}, β={1/scale:.2f}')

# Marcar el UF_Ha del terreno específico
particular_uf_ha = 18056.62 / 297
plt.axvline(particular_uf_ha, color='green', linestyle='--', linewidth=2, label=f'Terreno: UF/Ha={particular_uf_ha:.2f}')

# Etiquetas y leyenda
plt.title("Ajuste de Distribución Gamma a UF/Ha", fontsize=16)
plt.xlabel("UF/Ha", fontsize=14)
plt.ylabel("Densidad de probabilidad", fontsize=14)
plt.legend()

# Mostrar el gráfico
plt.show()



In [36]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import lognorm

# Filtrar los datos eliminando el valor máximo
x = data_subset[data_subset['UF_Ha'] < data_subset['UF_Ha'].max()]['UF_Ha']

# Ajustar una distribución log-normal a los datos
shape, loc, scale = lognorm.fit(x, floc=0)  # Fijar loc=0 para asegurar que los valores sean positivos

# Crear el espacio de valores x para la curva ajustada
xmin, xmax = min(x), max(x)
x_vals = np.linspace(xmin, xmax, 100)

# Obtener la densidad de probabilidad ajustada
pdf_vals = lognorm.pdf(x_vals, shape, loc, scale)

# Crear el gráfico
plt.figure(figsize=(10, 6))
plt.plot(x_vals, pdf_vals, 'r-', linewidth=2, label=f'Ajuste Log-Normal: μ={np.log(scale):.2f}, σ={shape:.2f}')

# Marcar el UF_Ha del terreno específico
particular_uf_ha = 18056.62 / 297
plt.axvline(particular_uf_ha, color='green', linestyle='--', linewidth=2, label=f'Terreno: UF/Ha={particular_uf_ha:.2f}')

# Etiquetas y leyenda
plt.title("Ajuste de Distribución Log-Normal a UF/Ha", fontsize=16)
plt.xlabel("UF/Ha", fontsize=14)
plt.ylabel("Densidad de probabilidad", fontsize=14)
plt.legend()

# Mostrar el gráfico
plt.show()


In [37]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import gamma, lognorm

# Filtrar los datos eliminando el valor máximo
x = data_subset[data_subset['UF_Ha'] < data_subset['UF_Ha'].max()]['UF_Ha']

# Ajustar la distribución Gamma a los datos
gamma_shape, gamma_loc, gamma_scale = gamma.fit(x, floc=0)  # Fijar loc=0 para valores positivos

# Ajustar la distribución Log-Normal a los datos
lognorm_shape, lognorm_loc, lognorm_scale = lognorm.fit(x, floc=0)  # Fijar loc=0 para valores positivos

# Crear el espacio de valores x para las curvas ajustadas
xmin, xmax = min(x), max(x)
x_vals = np.linspace(xmin, xmax, 100)

# Obtener las densidades de probabilidad ajustadas
gamma_pdf_vals = gamma.pdf(x_vals, gamma_shape, gamma_loc, gamma_scale)
lognorm_pdf_vals = lognorm.pdf(x_vals, lognorm_shape, lognorm_loc, lognorm_scale)

# Crear el gráfico
plt.figure(figsize=(10, 6))

# Graficar la curva ajustada de la distribución Gamma
plt.plot(x_vals, gamma_pdf_vals, 'r--', linewidth=2, label=f'Ajuste Gamma: α={gamma_shape:.2f}, β={1/gamma_scale:.2f}')

# Graficar la curva ajustada de la distribución Log-Normal
plt.plot(x_vals, lognorm_pdf_vals, 'b-', linewidth=2, label=f'Ajuste Log-Normal: μ={np.log(lognorm_scale):.2f}, σ={lognorm_shape:.2f}')

# Marcar el UF_Ha del terreno específico
particular_uf_ha = 18056.62 / 297
plt.axvline(particular_uf_ha, color='green', linestyle='--', linewidth=2, label=f'Terreno: UF/Ha={particular_uf_ha:.2f}')

# Etiquetas y leyenda
plt.title("Comparación de Ajustes Gamma y Log-Normal de UF/Ha", fontsize=16)
plt.xlabel("UF/Ha", fontsize=14)
plt.ylabel("Densidad de probabilidad", fontsize=14)
plt.legend()

# Mostrar el gráfico
plt.show()


In [38]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Filtrar los datos eliminando el valor máximo
x = data_subset[data_subset['UF_Ha'] < data_subset['UF_Ha'].max()]['UF_Ha']

# Crear el gráfico
plt.figure(figsize=(10, 6))

# Graficar la KDE con relleno, comenzando desde 0
# sns.kdeplot(x, color='blue', fill=True, clip=(min(x), np.inf), label='KDE (Violin Plot)', linewidth=2)
sns.kdeplot(x, color='blue', fill=True, clip=(min(x), np.inf), label='Distribución de precios', linewidth=2)

# Marcar el UF_Ha del terreno específico
particular_uf_ha = 18056.62 / 297
plt.axvline(particular_uf_ha, color='green', linestyle='--', linewidth=2, label=f'Terreno: UF/Ha={particular_uf_ha:.2f}')

# Etiquetas y título
plt.title("Distribución de precio UF por hectárea de terrenos", fontsize=16)
plt.xlabel("UF/Ha", fontsize=14)
# plt.ylabel("Densidad de probabilidad", fontsize=14)
plt.ylabel("Densidad", fontsize=14)
plt.legend()

# Mostrar el gráfico
plt.show()

In [39]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import gamma

# Filtrar los datos eliminando el valor máximo
x = data_subset[data_subset['UF_Ha'] < data_subset['UF_Ha'].max()]['UF_Ha']

# Ajustar la distribución Gamma a los datos
gamma_shape, gamma_loc, gamma_scale = gamma.fit(x, floc=0)  # Fijar loc=0 para asegurar valores positivos

# Crear el espacio de valores x para la curva ajustada
xmin, xmax = min(x), max(x)
x_vals = np.linspace(xmin, xmax, 100)

# Obtener la densidad de probabilidad ajustada
gamma_pdf_vals = gamma.pdf(x_vals, gamma_shape, gamma_loc, gamma_scale)

# Crear el gráfico
plt.figure(figsize=(10, 6))

# Graficar la curva de la distribución Gamma con relleno
# plt.fill_between(x_vals, gamma_pdf_vals, color='blue', alpha=0.2, label=f'Ajuste Gamma: α={gamma_shape:.2f}, β={1/gamma_scale:.2f}')
plt.fill_between(x_vals, gamma_pdf_vals, color='blue', alpha=0.2, label='Distribución de precios')
plt.plot(x_vals, gamma_pdf_vals, 'b-', linewidth=2)

# Marcar el UF_Ha del terreno específico
particular_uf_ha = 18056.62 / 297
plt.axvline(particular_uf_ha, color='green', linestyle='--', linewidth=2, label=f'Terreno: UF/Ha={particular_uf_ha:.2f}')

# Etiquetas y título
plt.title("Distribución de precio UF por hectárea de terrenos", fontsize=16)
plt.xlabel("UF/Ha", fontsize=14)
# plt.ylabel("Densidad de probabilidad", fontsize=14)
plt.ylabel("Densidad", fontsize=14)
plt.legend()
plt.ylim(0)

# Mostrar el gráfico
plt.show()


### Mapa

In [40]:
import folium
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import LinearSegmentedColormap

# Coordenadas centrales aproximadas de la región de Aysén
centro_aysen = [-45.575, -72.066]  # Latitud, Longitud central aproximada de la región de Aysén

# Filtrar las comunas que tienen coordenadas válidas (no 0.0, 0.0)
data_active_comuna = data_active_comuna[(data_active_comuna['latitude'] != 0.0) & (data_active_comuna['longitude'] != 0.0)]


# Crear el mapa base centrado en la región de Aysén
mapa = folium.Map(location=centro_aysen, zoom_start=8)


# Normalizar los valores de UF_Ha para asignar colores de la escala
def color_conect(conectivity):
    # Definir un diccionario de colores para diferenciar las comunas
    colores = {
        1: 'red',
        2: 'orange',
        3: 'purple',
        4: 'blue',
        5: 'green'
    }
    try: 
        return colores[conectivity]
    except:
        return 'black'
    

# Añadir los puntos de colores al mapa
for index, row in data_active_comuna.iterrows():
    folium.CircleMarker(
        location=[row['latitude'], row['longitude']],
        radius=8,
        popup=f"ID: {row['id']} - UF/Ha: {row['UF_Ha']}",
        color="black", #color_producer(row['UF_Ha']),
        fill=True,
        fill_color=color_conect(row['conectividad']),
        fill_opacity=0.7,
        weight=0.5
    ).add_to(mapa)
    
# Reserva Aysén
folium.CircleMarker(
    location=[-46.131740, -72.221179],
    radius=15,
    popup=f"ID: Reserva Aysén - UF/Ha: {18056.62/297}",
    color="black", #color_producer(row['UF_Ha']),
    fill=True,
    fill_color=color_conect(3),
    fill_opacity=0.2,
    weight=2
).add_to(mapa)

# Crear una leyenda personalizada
legend_html = '''
     <div style="position: fixed; 
     top: 50px; right: 100px; width: 150px; height: 150px; 
     background-color: white; border:2px solid grey; z-index:9999; font-size:14px;
     ">&nbsp; <b>Conectividad</b> <br>
     &nbsp; <i class="fa fa-circle" style="color:green"></i> &nbsp; 5: Muy alta<br>
     &nbsp; <i class="fa fa-circle" style="color:blue"></i> &nbsp; 4: Alta<br>
     &nbsp; <i class="fa fa-circle" style="color:purple"></i> &nbsp; 3: Media<br>
     &nbsp; <i class="fa fa-circle" style="color:orange"></i> &nbsp; 2: Baja<br>
     &nbsp; <i class="fa fa-circle" style="color:red"></i> &nbsp; 1: Muy baja<br>
     &nbsp; <i class="fa fa-circle" style="color:black"></i> &nbsp; No definido<br>
     </div>
     '''
mapa.get_root().html.add_child(folium.Element(legend_html))


# Guardar el mapa en un archivo HTML para visualizarlo en el navegador
mapa.save('mapa_aysen_active_conectividad.html')


## Heatmap

In [41]:
data_active_comuna.groupby('latitude').size()

In [42]:
import folium
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import LinearSegmentedColormap

# Coordenadas centrales aproximadas de la región de Aysén
centro_aysen = [-45.575, -72.066]  # Latitud, Longitud central aproximada de la región de Aysén

# Filtrar las comunas que tienen coordenadas válidas (no 0.0, 0.0)
data_active_comuna = data_active_comuna[(data_active_comuna['latitude'] != 0.0) & (data_active_comuna['longitude'] != 0.0)]

# Calcular los bigotes de un boxplot (rango intercuartílico)
q1 = data_active_comuna['UF_Ha'].quantile(0.25)
q3 = data_active_comuna['UF_Ha'].quantile(0.75)
iqr = q3 - q1
bigote_inferior = q1 - 1.5 * iqr
bigote_superior = q3 + 1.5 * iqr
mediana = data_active_comuna['UF_Ha'].median()
minimum = data_active_comuna['UF_Ha'].min()

# Crear el mapa base centrado en la región de Aysén
mapa = folium.Map(location=centro_aysen, zoom_start=8)

# Crear un degradado de azul (por debajo del bigote inferior) a rojo (por encima del bigote superior)
colormap = LinearSegmentedColormap.from_list('blue_red', ['blue', 'white', 'red'], N=100)
colormap_blue = LinearSegmentedColormap.from_list('blue_red', ['blue', 'white'], N=100)
colormap_red = LinearSegmentedColormap.from_list('blue_red', ['white', 'red'], N=100)

# Normalizar los valores de UF_Ha para asignar colores de la escala
def color_producer(uf_ha):
    if uf_ha <= minimum:
        return 'blue'
    elif uf_ha >= bigote_superior:
        return 'red'
    else:
#         # Normalizar el valor de UF_Ha entre el bigote inferior y superior
#         norm_value = (uf_ha - minimum) / (bigote_superior - minimum)
#         rgba_color = colormap(norm_value)  # Obtener el color como RGBA
#         hex_color = '#{:02x}{:02x}{:02x}'.format(int(rgba_color[0]*255), int(rgba_color[1]*255), int(rgba_color[2]*255))
#         return hex_color

        # Normalizar el valor de UF_Ha entre el mínimo y máximo
        if uf_ha <= mediana:
            norm_value = (uf_ha - minimum) / (mediana - minimum)  # De azul a blanco
            rgba_color = colormap_blue(norm_value)
        else:
            norm_value = (uf_ha - mediana) / (bigote_superior - mediana)  # De blanco a rojo
            rgba_color = colormap_red(norm_value)
#         print(f"mediana: {mediana} - UF/Ha: {uf_ha} - norm_value: {norm_value}")
#         rgba_color = colormap(norm_value)
        hex_color = '#{:02x}{:02x}{:02x}'.format(int(rgba_color[0]*255), int(rgba_color[1]*255), int(rgba_color[2]*255))
        return hex_color

# Añadir los puntos de colores al mapa
for index, row in data_active_comuna.iterrows():
    folium.CircleMarker(
        location=[row['latitude'], row['longitude']],
        radius=8,
        popup=f"UF/Ha: {row['UF_Ha']}",
        color="black", #color_producer(row['UF_Ha']),
        fill=True,
        fill_color=color_producer(row['UF_Ha']),
        fill_opacity=0.7,
        weight=0.5
    ).add_to(mapa)
    
# Reserva Aysén
folium.CircleMarker(
    location=[-46.131740, -72.221179],
    radius=12,
    popup=f"UF/Ha: {18056.62/297}",
    color="black", #color_producer(row['UF_Ha']),
    fill=True,
    fill_color=color_producer(18056.62/297),
    fill_opacity=0.1,
    weight=2
).add_to(mapa)

# Crear una leyenda con una barra continua de colores
# Generamos la barra de degradado
import branca.colormap as cm

# Crear una leyenda con una barra continua de colores
colormap = cm.LinearColormap(
    colors=['blue', 'white', 'red'],
    index=[minimum, mediana, bigote_superior],  # Definir los puntos clave
#     vmin=bigote_inferior
    vmin=minimum,
    vmax=bigote_superior
)

# Añadimos los valores clave en la leyenda
# colormap.caption = f"Bigote inferior ({bigote_inferior:.2f}), Mediana ({mediana:.2f}), Bigote superior ({bigote_superior:.2f})"
colormap.caption = f"Mínimo ({minimum:.2f}), Mediana ({mediana:.2f}), Bigote superior ({bigote_superior:.2f})"

# Añadir la leyenda al mapa
colormap.add_to(mapa)

# Personalizar el recuadro con estilo CSS (fondo blanco y borde negro delgado)
legend_html = '''
     <div style="position: fixed; 
     top: 5px; right: 20px; width: 430px; height: 50px; 
     background-color: white; border:1px solid black; z-index:1000; font-size:14px;
     padding: 10px;">
     </div>
     '''

# Insertar el colormap en el recuadro personalizado
mapa.get_root().html.add_child(folium.Element(legend_html))

# Guardar el mapa en un archivo HTML para visualizarlo en el navegador
mapa.save('mapa_aysen_active_heatmap_degradado.html')


# Heatmap todos

In [43]:
import folium
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import LinearSegmentedColormap

# Coordenadas centrales aproximadas de la región de Aysén
centro_aysen = [-45.575, -72.066]  # Latitud, Longitud central aproximada de la región de Aysén

# Filtrar las comunas que tienen coordenadas válidas (no 0.0, 0.0)
data_limpia_semestre_heatmap = data_limpia_semestre[(data_limpia_semestre['latitude'] != 0.0) & (data_limpia_semestre['longitude'] != 0.0)]

# Calcular los bigotes de un boxplot (rango intercuartílico)
q1 = data_limpia_semestre_heatmap['UF_Ha'].quantile(0.25)
q3 = data_limpia_semestre_heatmap['UF_Ha'].quantile(0.75)
iqr = q3 - q1
bigote_inferior = q1 - 1.5 * iqr
bigote_superior = q3 + 1.5 * iqr
mediana = data_limpia_semestre_heatmap['UF_Ha'].median()
minimum = data_limpia_semestre_heatmap['UF_Ha'].min()

# Crear el mapa base centrado en la región de Aysén
mapa = folium.Map(location=centro_aysen, zoom_start=8)

# Crear un degradado de azul (por debajo del bigote inferior) a rojo (por encima del bigote superior)
colormap = LinearSegmentedColormap.from_list('blue_red', ['blue', 'white', 'red'], N=100)
colormap_blue = LinearSegmentedColormap.from_list('blue_red', ['blue', 'white'], N=100)
colormap_red = LinearSegmentedColormap.from_list('blue_red', ['white', 'red'], N=100)

# Normalizar los valores de UF_Ha para asignar colores de la escala
def color_producer(uf_ha):
    if uf_ha <= minimum:
        return 'blue'
    elif uf_ha >= bigote_superior:
        return 'red'
    else:
#         # Normalizar el valor de UF_Ha entre el bigote inferior y superior
#         norm_value = (uf_ha - minimum) / (bigote_superior - minimum)
#         rgba_color = colormap(norm_value)  # Obtener el color como RGBA
#         hex_color = '#{:02x}{:02x}{:02x}'.format(int(rgba_color[0]*255), int(rgba_color[1]*255), int(rgba_color[2]*255))
#         return hex_color

        # Normalizar el valor de UF_Ha entre el mínimo y máximo
        if uf_ha <= mediana:
            norm_value = (uf_ha - minimum) / (mediana - minimum)  # De azul a blanco
            rgba_color = colormap_blue(norm_value)
        else:
            norm_value = (uf_ha - mediana) / (bigote_superior - mediana)  # De blanco a rojo
            rgba_color = colormap_red(norm_value)
#         print(f"mediana: {mediana} - UF/Ha: {uf_ha} - norm_value: {norm_value}")
#         rgba_color = colormap(norm_value)
        hex_color = '#{:02x}{:02x}{:02x}'.format(int(rgba_color[0]*255), int(rgba_color[1]*255), int(rgba_color[2]*255))
        return hex_color

# Añadir los puntos de colores al mapa
for index, row in data_limpia_semestre_heatmap.iterrows():
    folium.CircleMarker(
        location=[row['latitude'], row['longitude']],
        radius=8,
        popup=f"UF/Ha: {row['UF_Ha']}",
        color="black", #color_producer(row['UF_Ha']),
        fill=True,
        fill_color=color_producer(row['UF_Ha']),
        fill_opacity=0.7,
        weight=0.5
    ).add_to(mapa)

# Crear una leyenda con una barra continua de colores
# Generamos la barra de degradado
import branca.colormap as cm

# Crear una leyenda con una barra continua de colores
colormap = cm.LinearColormap(
    colors=['blue', 'white', 'red'],
    index=[minimum, mediana, bigote_superior],  # Definir los puntos clave
#     vmin=bigote_inferior
    vmin=minimum,
    vmax=bigote_superior
)

# Añadimos los valores clave en la leyenda
# colormap.caption = f"Bigote inferior ({bigote_inferior:.2f}), Mediana ({mediana:.2f}), Bigote superior ({bigote_superior:.2f})"
colormap.caption = f"Mínimo ({minimum:.2f}), Mediana ({mediana:.2f}), Bigote superior ({bigote_superior:.2f})"

# Añadir la leyenda al mapa
colormap.add_to(mapa)

# Personalizar el recuadro con estilo CSS (fondo blanco y borde negro delgado)
legend_html = '''
     <div style="position: fixed; 
     top: 5px; right: 20px; width: 430px; height: 50px; 
     background-color: white; border:1px solid black; z-index:1000; font-size:14px;
     padding: 10px;">
     </div>
     '''

# Insertar el colormap en el recuadro personalizado
mapa.get_root().html.add_child(folium.Element(legend_html))

# Guardar el mapa en un archivo HTML para visualizarlo en el navegador
mapa.save('mapa_aysen_all_heatmap_degradado.html')