In [None]:
import json
import glob
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pathlib import Path

In [None]:
# ==========================
# Funciones auxiliares de graficos
# ==========================

def build_scores_df(CH_series, NH_series, RCP_series):
    """
    Construye un DataFrame resumen con CH, NH, RCP y Score_Final.
    Recibe Series indexadas por destino: CH_series, NH_series, RCP_series.
    """
    ch_df = CH_series.to_frame(name="CH")
    nh_df = NH_series.to_frame(name="NH")
    rcp_df = RCP_series.to_frame(name="RCP")

    df_scores = ch_df.join(nh_df, how="inner").join(rcp_df, how="inner")

    # Ajusta si tus ponderaciones globales son otras
    w_ch, w_nh, w_rcp = 0.35, 0.35, 0.30
    df_scores["Score_Final"] = (
        w_ch * df_scores["CH"] +
        w_nh * df_scores["NH"] +
        w_rcp * df_scores["RCP"]
    )
    df_scores = df_scores.reset_index().rename(columns={"index": "destino"})
    return df_scores


def plot_score_final_barh(df_scores):
    """
    Barras horizontales del Score_Final, ordenado de mayor a menor.
    """
    data = df_scores.sort_values("Score_Final", ascending=True)
    plt.figure(figsize=(8, 5))
    plt.barh(data["destino"], data["Score_Final"])
    for i, v in enumerate(data["Score_Final"]):
        plt.text(v + 0.005, i, f"{v:.3f}", va="center")
    plt.xlabel("Score final")
    plt.ylabel("Destino")
    plt.title("Ranking de destinos seg√∫n Score final")
    plt.tight_layout()
    plt.show()


def plot_scores_heatmap(df_scores):
    """
    Heatmap con CH, NH, RCP y Score_Final por destino.
    """
    cols = ["CH", "NH", "RCP", "Score_Final"]
    data = df_scores.set_index("destino")[cols]
    plt.figure(figsize=(6, 4))
    plt.imshow(data, aspect="auto")
    plt.colorbar(label="Valor normalizado")
    plt.xticks(ticks=range(len(cols)), labels=cols, rotation=45, ha="right")
    plt.yticks(ticks=range(len(data.index)), labels=data.index)
    plt.title("Resumen de indicadores por destino")
    plt.tight_layout()
    plt.show()


def plot_price_category_mix(proportion_by_category):
    """
    Grafico de barras apiladas para la mezcla de categor√≠as de precios.
    """
    proportion_by_category.plot(kind='bar', stacked=True, figsize=(10, 6))
    plt.title("Mix de categor√≠as de precio por destino")
    plt.ylabel("Proporci√≥n")
    plt.xlabel("Destino")
    plt.legend(title="Categor√≠a", bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.tight_layout()
    plt.show()


def plot_ch_components(ch_components):
    """
    Grafico de barras agrupadas para los componentes normalizados de CH.
    """
    ch_components.plot(kind='bar', figsize=(12, 6), width=0.8)
    plt.title("Componentes de la Capacidad Hospitalaria (CH)")
    plt.ylabel("Valor Normalizado")
    plt.xlabel("Destino")
    plt.legend(title="Componentes", bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.tight_layout()
    plt.show()


def plot_critical_services(sc_series):
    """
    Grafico de barras horizontales para la proporci√≥n de servicios cr√≠ticos.
    """
    plt.figure(figsize=(10, 6))
    sc_series.sort_values().plot(kind='barh', color='teal')
    plt.title("Proporci√≥n de Alojamientos con Servicios Cr√≠ticos (SC)")
    plt.xlabel("Proporci√≥n")
    plt.ylabel("Destino")
    plt.grid(axis='x', linestyle='--', alpha=0.7)
    plt.tight_layout()
    plt.show()


def plot_nh_components(nh_components):
    """
    Grafico de barras agrupadas para componentes de NH.
    """
    nh_components.plot(kind='bar', figsize=(12, 6), width=0.8)
    plt.title("Componentes del Nivel de Hospitalidad (NH)")
    plt.ylabel("Puntaje")
    plt.xlabel("Destino")
    plt.legend(title="Indicadores", bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.tight_layout()
    plt.show()

In [None]:
"""
Script de planteamiento metodol√≥gico y an√°lisis comparativo de resultados
"""

DATA_DIR = Path.cwd().parent / "datos_booking"

#Lectura de archivos JSON generados con web scraper en Booking.com
json_paths = {
    "destinos_ids": DATA_DIR / "destinos_ids.json",
    "manta": DATA_DIR / "manta_data.json",
    "salinas": DATA_DIR / "salinas_data.json",
    "monta√±ita": DATA_DIR / "monta√±ita_data.json",
    "puerto_lopez": DATA_DIR / "puerto_l√≥pez_data.json",
    "general_villamil": DATA_DIR / "general_villamil_data.json",
    "ayampe": DATA_DIR / "ayampe_data.json",
    "atacames": DATA_DIR / "atacames_data.json"
}

data_raw = {}

for key, file_path in json_paths.items():
    with open(file_path, "r", encoding="utf-8") as f:
        content = json.load(f)
        data_raw[key] = content

In [None]:
# Creaci√≥n de df con informaci√≥n b√°sica del alojamiento, servicios cr√≠ticos y rese√±as

records = []

for key, content in data_raw.items():
    if "alojamientos" not in content:
        continue  # destinos_ids.json no tiene alojamientos

    destino = content["destino"]

    for aloj in content["alojamientos"]:
        records.append({
            "destino": destino,
            "title": aloj.get("title"),
            "price": aloj.get("price"),
            "rating": aloj.get("rating"),
            "dist_centro_km": aloj.get("distance"),
            "description": aloj.get("description"),
            "services":aloj.get("services", []),
            "reviews": aloj.get("reviews", []),
            "features": aloj.get("features", [])
        })

df = pd.DataFrame(records)

In [None]:
df

In [None]:
# Limpieza de valores de precio, remoci√≥n de US$ y reemplazo de comas por puntos
df["price"] = (
    df["price"]
    .str.replace("US$", "", regex=False)
    .str.replace(".", "", regex=False)
    .str.replace(",", ".", regex=False)
    .astype(float)
)

# Limpieza de valores de rating, reemplazo de comas por puntos
df["rating"] = (
    df["rating"]
    .replace({"Sin puntuaci√≥n": np.nan})
    .str.replace(",", ".", regex=False)
    .astype(float)
)

# Limpieza de valores de distancia, extracci√≥n de flotantes en km
df["dist_centro_km"] = (
    df["dist_centro_km"]
    .str.extract(r"(\d+,\d+|\d+\.\d+|\d+)")
    [0]
    .str.replace(",", ".", regex=False)
    .astype(float)
)

In [None]:
# Definici√≥n de categor√≠as basadas en precios
q1 = df["price"].quantile(0.33)
q2 = df["price"].quantile(0.66)

def categorize_price(p):
    if p <= q1: return "accesible"
    elif p <= q2: return "est√°ndar"
    else: return "premium"

df["categoria"] = df["price"].apply(categorize_price)

In [None]:
# Categorizaci√≥n de alojamientos con servicios cr√≠ticos
def has_pool(services):
    return any("piscina" in s.lower() for s in services)

def has_breakfast(features, services):
    text = (features or "") + " " + " ".join(services)
    return "desayuno" in text.lower()

def has_beachfront(services):
    return any("frente a la playa" in s.lower() for s in services)

df["pool"] = df["services"].apply(has_pool)
df["breakfast"] = df.apply(lambda r: has_breakfast(r["features"], r["services"]), axis=1)
df["beachfront"] = df["services"].apply(has_beachfront)

**Capacidad Hospitalaria (CH)**
Est+a definida por los siguientes criterios:

1.   Total de Alojamientos (TA)
2.   Distribuci√≥n por categor√≠a (DC)
3.   Proximidad media al centro (PC)
4.   Proporci√≥n de alojamientos con servicios criticos (SC)

La ponderaci√≥n de este criterio se dar√° de la siguiente manera:

CH = 0.4TA + 0.25DC + 0.25PC + 0.1SC





In [None]:
#1. Total Alojamientos (TA)
TA = df.groupby('destino')["title"].count().rename("TA")
TA

La DC es una descripci√≥n de qu√© tan equitativa es la distribuci√≥n de los alojamientos por cada categor√≠a de precios. Un valor cercano a 1 indica una distribuci√≥n m√°s balanceada, la misma cantidad de alojamientos entre cada categor√≠a.

In [None]:
#2. Distribuci√≥n por categor√≠a (DC)
cat_counts = df.groupby(
    ["destino", "categoria"]
    )["title"].count().unstack().fillna(0)
DC = 1 - (
    cat_counts.max(axis=1) - cat_counts.min(axis=1)
    ) / cat_counts.sum(axis=1)
DC.name = "DC"
proportion_by_category = cat_counts.div(cat_counts.sum(axis=1), axis=0)
combined_cats = pd.concat([proportion_by_category, DC], axis=1)
display(combined_cats)

In [None]:
# 1. Mix de categor√≠as de precio por destino
plot_price_category_mix(proportion_by_category)

Aqu√≠ tienes una tabla que muestra la distancia media al centro (`dist_mean`) y la proximidad media al centro (`PC`) para cada destino:

In [None]:
#3. Proximidad media al centro (PC)
dist_mean = df.groupby("destino")["dist_centro_km"].mean()
PC = 1 - (dist_mean - dist_mean.min()) / (dist_mean.max() - dist_mean.min())
PC.name = "PC"
combined_distances = pd.concat([dist_mean, PC], axis=1)
display(combined_distances)

In [None]:
#4. Proporci√≥n de alojamientos con servicios cr√≠ticos (SC)
SC = (
    (df.groupby("destino")["pool"].mean() +
     df.groupby("destino")["breakfast"].mean() +
     df.groupby("destino")["beachfront"].mean()) / 3
).rename("SC")
SC

In [None]:
# 2. Proporci√≥n de Servicios Cr√≠ticos (SC)
# Esto muestra qu√© destino tiene mayor cobertura de servicios clave (piscina, desayuno, frente a playa)
plot_critical_services(SC)

In [None]:
# Min-Max Scaling, con rango de 0‚Äì1
CH_df = pd.concat([TA, DC, PC, SC], axis=1)
CH_norm = (CH_df - CH_df.min()) / (CH_df.max() - CH_df.min())

CH_df["CH"] = (
    0.40 * CH_norm["TA"] +
    0.25 * CH_norm["DC"] +
    0.25 * CH_norm["PC"] +
    0.1 * CH_norm["SC"]
)
CH_df

In [None]:
# 3. Componentes de Capacidad Hospitalaria (CH)
# Esto nos deja ver si la capacidad es por 'cantidad' (TA) o 'calidad/ubicaci√≥n' (PC/SC)
ch_components = CH_norm[["TA", "DC", "PC", "SC"]]
plot_ch_components(ch_components)

**Nivel de Hospitalidad (NH)**
Est√° definida con base a las ponderaciones de los siguientes criterios:
1.   Rating promedio del destino (RP)
2.   Mediana del rating (MR)
3.   An√°lisis de sentimiento (HF)
4.   Hospitality Experience Score (HES)

La ponderaci√≥n de este criterio se dar√° de la siguiente forma:

NH = 0.25HF + 0.2HES + 0.2MR + 0.35RP

In [None]:
# Extraer rese√±as a un DF
rev_rows = []
for _, row in df.iterrows():
    for r in row["reviews"]:
        text = (r.get("positive_feedback", "") or "") + " " + (r.get("negative_feedback", "") or "")
        rev_rows.append({"destino": row["destino"], "review": text})

reviews = pd.DataFrame(rev_rows)
reviews["review"] = reviews["review"].fillna("")

reviews

In [None]:
#1. Rating promedio del destino (RP) y 2. Mediana del rating (MR)
RP = df.groupby("destino")["rating"].mean().rename("RP")
MR = df.groupby("destino")["rating"].median().rename("MR")
Rating = pd.concat([RP, MR], axis=1)
Rating

In [None]:
#3. An√°lisis de sentimiento (OpenAI API) con GPT-4o-mini
"""
An√°lisis de sentimiento usando OpenAI API con modelo mejorado
"""

from openai import OpenAI
import numpy as np
import os
import re

# Inicializar cliente de OpenAI
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

def analizar_sentimientos(textos, batch_size=10):
    """
    Realiza an√°lisis de sentimientos en espa√±ol usando OpenAI API.
    Procesamiento por lotes para optimizar llamadas a la API.
    Retorna un score de 1 a 5 estrellas.
    """
    resultados = []
    
    for i in range(0, len(textos), batch_size):
        batch = textos[i:i + batch_size]
        
        for texto in batch:
            try:
                response = client.chat.completions.create(
                    model="gpt-4o-mini",  # Modelo mejorado
                    messages=[
                        {
                            "role": "system",
                            "content": """Eres un sistema experto en an√°lisis de rese√±as hoteleras. Eval√∫a la satisfacci√≥n del hu√©sped considerando:
                            - Limpieza y mantenimiento
                            - Calidad del servicio y atenci√≥n del personal
                            - Comodidad de las instalaciones
                            - Relaci√≥n calidad-precio
                            - Experiencia general

                            Responde √öNICAMENTE con un n√∫mero del 1 al 5:
                            1 = Experiencia muy negativa (p√©simo hotel)
                            2 = Experiencia negativa (hotel deficiente)
                            3 = Experiencia neutral (hotel aceptable)
                            4 = Experiencia positiva (buen hotel)
                            5 = Experiencia muy positiva (hotel excelente)

                            IMPORTANTE: Responde solo con el n√∫mero, sin texto adicional."""
                        },
                        {
                            "role": "user",
                            "content": texto[:500]  # Limitar a 500 caracteres para evitar textos muy largos
                        }
                    ],
                    temperature=0,  # Temperatura 0 para respuestas m√°s deterministas
                    max_tokens=5
                )
                
                # Extraer el score de la respuesta
                score_text = response.choices[0].message.content.strip()
                
                # Intentar extraer el n√∫mero incluso si hay texto adicional
                numeros = re.findall(r'\b[1-5]\b', score_text)
                
                if numeros:
                    score = float(numeros[0])
                else:
                    # Si no se encuentra un n√∫mero v√°lido, intentar convertir directamente
                    score = float(score_text)
                
                # Asegurar que est√° en el rango 1-5
                score = max(1.0, min(5.0, score))
                
                resultados.append({"label": f"{score} stars", "score": score})
                
                if (i + len(resultados)) % 50 == 0:
                    print(f"Procesados {i + len(resultados)} textos...")
                
            except ValueError as e:
                print(f"Error de conversi√≥n con respuesta: '{score_text}' - Asignando neutro")
                resultados.append({"label": "3 stars", "score": 3.0})
                
            except Exception as e:
                print(f"Error procesando texto: {e}")
                resultados.append({"label": "3 stars", "score": 3.0})
    
    return resultados

# Ejecutar el an√°lisis con todas las rese√±as
print("Iniciando an√°lisis de sentimientos con GPT-4o-mini...")
result_sentiment_analysis = analizar_sentimientos(reviews["review"].tolist())

def label_to_stars(label: str) -> float:
    """
    Convierte etiquetas tipo '4 stars' o '1 star' a float (1.0‚Äì5.0).
    """
    try:
        return float(label.split()[0])
    except Exception:
        return 3.0  # neutro si algo raro pasa

# A√±adimos la columna HF (score de 1 a 5) a cada rese√±a
reviews["HF"] = [label_to_stars(r["label"]) for r in result_sentiment_analysis]

print(f"\nAn√°lisis completado. Distribuci√≥n de sentimientos:")
print(reviews["HF"].value_counts().sort_index())

# Agregamos HF a nivel destino (criterio para NH)
HF_score = reviews.groupby("destino")["HF"].mean().rename("HF")
print(f"\nPromedio de sentimientos por destino:")
print(HF_score)

In [None]:
HF_score

In [None]:
#4. Hospitality Experience Score (HES)
from openai import OpenAI
from sklearn.cluster import KMeans
import numpy as np
import os

# Inicializar cliente de OpenAI
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

def obtener_embedding(texto, model="text-embedding-3-small"):
    """
    Obtiene el embedding de un texto usando OpenAI API.
    """
    try:
        texto = texto.replace("\n", " ")
        response = client.embeddings.create(input=[texto], model=model)
        return response.data[0].embedding
    except Exception as e:
        print(f"Error obteniendo embedding: {e}")
        # Retornar un vector de ceros si hay error (dimensi√≥n 1536 para text-embedding-3-small)
        return [0.0] * 1536

def obtener_embeddings_batch(textos, batch_size=100, model="text-embedding-3-small"):
    """
    Obtiene embeddings en lotes para optimizar llamadas a la API.
    """
    embeddings = []
    total_textos = len(textos)
    
    print(f"\nüìä Procesando {total_textos} embeddings...")
    
    for i in range(0, len(textos), batch_size):
        batch = textos[i:i + batch_size]
        batch_clean = [texto.replace("\n", " ") if isinstance(texto, str) else "" for texto in batch]
        
        try:
            response = client.embeddings.create(input=batch_clean, model=model)
            batch_embeddings = [item.embedding for item in response.data]
            embeddings.extend(batch_embeddings)
            
            procesados = min(i + batch_size, len(textos))
            porcentaje = (procesados / total_textos) * 100
            barra = "‚ñà" * int(porcentaje / 5) + "‚ñë" * (20 - int(porcentaje / 5))
            print(f"[{barra}] {procesados}/{total_textos} ({porcentaje:.1f}%)")
            
        except Exception as e:
            print(f"‚ùå Error en batch {i}-{i+batch_size}: {e}")
            # En caso de error, a√±adir vectores de ceros
            embeddings.extend([[0.0] * 1536 for _ in batch])
    
    print("‚úÖ Embeddings completados\n")
    return embeddings

# 2) Calcular embeddings de cada rese√±a usando OpenAI
print("Calculando embeddings con OpenAI...")
embeddings_list = obtener_embeddings_batch(reviews["review"].tolist())
reviews["embedding"] = embeddings_list

# 3) Preparar matriz de caracter√≠sticas para clustering
X = np.array(reviews["embedding"].tolist())

# 4) Clustering tem√°tico (ajuste de n_clusters)
n_clusters = 8
print(f"üîç Ejecutando clustering con {n_clusters} clusters...")
kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init="auto")
reviews["cluster"] = kmeans.fit_predict(X)
print("‚úÖ Clustering completado\n")

# 5) Calcular promedio de HF por destino y cluster (sentimiento por tema)
cluster_sent = reviews.groupby(["destino", "cluster"])["HF"].mean()

# 6) Hospitality Experience Score:
#    promedio del sentimiento por cluster para cada destino
HES = cluster_sent.groupby("destino").mean().rename("HES")

In [None]:
#Nivel de Hospitalidad (NH)
NH_df = pd.concat([RP, MR, HF_score, HES], axis=1).fillna(0)

# Min‚Äìmax Scaling con rango de 0-1
NH_norm = (NH_df - NH_df.min()) / (NH_df.max() - NH_df.min())

# F√≥rmula que definiste para NH:
# NH = 0.30 RP + 0.15 MR + 0.30 HF + 0.25 HES
NH_df["NH"] = (
    0.30 * NH_norm["RP"] +
    0.15 * NH_norm["MR"] +
    0.30 * NH_norm["HF"] +
    0.25 * NH_norm["HES"]
)
NH_df

In [None]:
# 4. Componentes del Nivel de Hospitalidad
nh_components = NH_df[["HF", "HES", "RP", "MR"]]
plot_nh_components(nh_components)


**Relacion Calidad-Precio (RCP)**
Est√° definida con base a las ponderaciones de los siguientes criterios:
1.   Precio promedio por categor√≠a (PPC)
2.   Precio vs. Rating (PVR)
3.   Dispersi√≥n de precios (DP)

La ponderaci√≥n de este criterio se dar√° de la siguiente manera:

RCP = 0.4PPC + 0.35PVR + 0.25DP  

In [None]:
#1. Precio promedio por categor√≠a (PPC)
PPC = df.groupby(["destino", "categoria"])["price"].mean().unstack().fillna(0)
PPC = PPC.mean(axis=1).rename("PPC")

In [None]:
#2. Precio vs. Rating (PVR)
df["PVR"] = df["rating"] / df["price"]
PVR = df.groupby("destino")["PVR"].mean().rename("PVR")

In [None]:
#3. Dispersi√≥n de precios (DP)
DP = df.groupby("destino")["price"].std().fillna(0).rename("DP")

In [None]:
combined_quality_price = pd.concat([PPC, PVR, DP], axis=1)
display(combined_quality_price)

### Explicaci√≥n y mejora de la presentaci√≥n de los resultados:

Aqu√≠ se muestra una tabla combinada de los indicadores relacionados con la calidad-precio para cada destino:

**1. Precio promedio por categor√≠a (PPC)**
*   **Descripci√≥n:** Este m√©trica representa el precio promedio de los alojamientos en cada destino, considerando la distribuci√≥n de precios por categor√≠a (accesible, est√°ndar, premium). Un valor menor indica que, en promedio, los alojamientos en el destino tienen precios m√°s bajos.
*   **Indicaciones:** Es √∫til para entender el nivel de costo general de un destino. Por ejemplo, un `PPC` alto en Salinas podr√≠a indicar que es un destino con alojamientos m√°s caros en general.

**2. Precio vs. Rating (PVR)**
*   **Descripci√≥n Faltante:** El `PVR` mide la relaci√≥n entre la calificaci√≥n (rating) de un alojamiento y su precio. Se calcula como la calificaci√≥n dividida por el precio (`rating / price`).
*   **Indicaciones:** Un valor `PVR` **m√°s alto** sugiere que los alojamientos en ese destino ofrecen una **mejor percepci√≥n de valor**, es decir, obtienen calificaciones m√°s altas en relaci√≥n con su precio. Por el contrario, un `PVR` bajo podr√≠a indicar que los precios son altos en comparaci√≥n con las calificaciones recibidas.
*   **Mejor forma de mostrarlo:** Adem√°s de la tabla, un gr√°fico de barras para cada destino que muestre el `PVR` puede hacer que las comparaciones sean m√°s intuitivas. Tambi√©n se podr√≠a considerar un gr√°fico de dispersi√≥n con `PPC` en un eje y `PVR` en otro para ver patrones entre el costo general y la percepci√≥n de valor.

**3. Dispersi√≥n de precios (DP)**
*   **Descripci√≥n Faltante:** La `DP` representa la desviaci√≥n est√°ndar de los precios de los alojamientos en cada destino. Este valor indica la variabilidad o el rango de precios dentro del destino.
*   **Indicaciones:** Un `DP` **alto** sugiere que hay una **gran variedad de precios** en el destino, lo que implica opciones para diferentes presupuestos. Un `DP` bajo, en cambio, indica que los precios de los alojamientos son m√°s homog√©neos y menos variados.
*   **Mejor forma de mostrarlo:** Un gr√°fico de barras para la `DP` podr√≠a visualizar f√°cilmente qu√© destinos tienen una mayor o menor diversidad de precios. Combinarlo con el `PPC` en un mismo gr√°fico (por ejemplo, con un eje secundario) tambi√©n podr√≠a ofrecer una visi√≥n completa de la estructura de precios de cada destino.

In [None]:
# F√≥rmula RCP
RCP_df = pd.concat([PPC, PVR, DP], axis=1)
RCP_norm = (RCP_df - RCP_df.min()) / (RCP_df.max() - RCP_df.min())

RCP_df["RCP"] = (
    0.40 * RCP_norm["PPC"] +
    0.40 * RCP_norm["PVR"] +
    0.20 * RCP_norm["DP"]
)

In [None]:
#Definici√≥n de ponderaciones y combinaciones para el Score Final

final = pd.concat([CH_df["CH"], NH_df["NH"], RCP_df["RCP"]], axis=1)

final["Score_Final"] = (
    0.4 * final["CH"] +
    0.3 * final["NH"] +
    0.2 * final["RCP"]
)

ranking = final.sort_values("Score_Final", ascending=False)
ranking

In [None]:
# 5 y 6. Resultados finales

# Preparaci√≥n del dataframe para las funciones de gr√°fico (necesitan 'destino' como columna)
df_scores_viz = ranking.reset_index()

# 5. Gr√°fico de barras con el ranking final
plot_score_final_barh(df_scores_viz)

# 6. Heatmap con el detalle de los componentes (CH, NH, RCP)
plot_scores_heatmap(df_scores_viz)

In [None]:
import os

# 1. Crear carpeta para los outputs
output_dir = Path.cwd().parent / "output"
os.makedirs(output_dir, exist_ok=True)

# 2. Guardar Tablas (DataFrames)
# CSV para uso de datos
ranking.to_csv(f"{output_dir}/ranking_final.csv")
CH_df.to_csv(f"{output_dir}/detalles_CH.csv")
NH_df.to_csv(f"{output_dir}/detalles_NH.csv")
RCP_df.to_csv(f"{output_dir}/detalles_RCP.csv")

# Markdown para visualizar directamente en GitHub (README.md)
with open(f"{output_dir}/ranking_summary.md", "w") as f:
    f.write("# Ranking de Destinos\n\n")
    ranking.to_markdown(f)

# 3. Guardar Gr√°ficos
# Regeneramos los gr√°ficos para guardarlos (plt.show() anterior limpia la figura)

def save_plot(filename):
    plt.tight_layout()
    plt.savefig(f"{output_dir}/{filename}", dpi=300, bbox_inches='tight')
    plt.close()

# Gr√°fico 1: Ranking Final
df_scores_viz = ranking.reset_index()
data = df_scores_viz.sort_values("Score_Final", ascending=True)
plt.figure(figsize=(12, 5))
plt.barh(data["destino"], data["Score_Final"])
for i, v in enumerate(data["Score_Final"]):
    plt.text(v + 0.005, i, f"{v:.3f}", va="center")
plt.xlabel("Score final")
plt.title("Ranking de destinos seg√∫n Score final")
save_plot("ranking_final_barh.png")

# Gr√°fico 2: Heatmap
cols = ["CH", "NH", "RCP", "Score_Final"]
data = df_scores_viz.set_index("destino")[cols]
plt.figure(figsize=(6, 4))
plt.imshow(data, aspect="auto")
plt.colorbar(label="Valor normalizado")
plt.xticks(ticks=range(len(cols)), labels=cols, rotation=45, ha="right")
plt.yticks(ticks=range(len(data.index)), labels=data.index)
plt.title("Resumen de indicadores por destino")
save_plot("heatmap_indicadores.png")

# Gr√°fico 3: Mix Categor√≠as
proportion_by_category.plot(kind='bar', stacked=True, figsize=(10, 6))
plt.title("Mix de categor√≠as de precio por destino")
plt.legend(title="Categor√≠a", bbox_to_anchor=(1.05, 1), loc='upper left')
save_plot("mix_categorias_precios.png")

# Gr√°fico 4: Componentes CH
CH_norm[["TA", "DC", "PC", "SC"]].plot(kind='bar', figsize=(12, 6), width=0.8)
plt.title("Componentes de la Capacidad Hospitalaria (CH)")
plt.legend(title="Componentes", bbox_to_anchor=(1.05, 1), loc='upper left')
save_plot("componentes_CH.png")

# Gr√°fico 5: Servicios Cr√≠ticos
plt.figure(figsize=(10, 6))
SC.sort_values().plot(kind='barh', color='teal')
plt.title("Proporci√≥n de Alojamientos con Servicios Cr√≠ticos (SC)")
save_plot("servicios_criticos.png")

# Gr√°fico 6: Componentes NH
NH_df[["HF", "HES", "RP", "MR"]].plot(kind='bar', figsize=(12, 6), width=0.8)
plt.title("Componentes del Nivel de Hospitalidad (NH)")
plt.legend(title="Indicadores", bbox_to_anchor=(1.05, 1), loc='upper left')
save_plot("componentes_NH.png")

print(f"Todos los archivos han sido generados exitosamente en la carpeta: {output_dir}/")

In [None]:
import shutil
from google.colab import files

# Comprimir la carpeta
shutil.make_archive("resultados_analisis", 'zip', "output_github")

# Descargar el archivo zip
files.download("resultados_analisis.zip")