In [None]:
import pandas as pd

# Cargar los datos
df = pd.read_csv('../results/datos_normalizados.csv', sep=',')
df_cluster = pd.read_csv('../results/paises_agrupados_por_completitud.csv', sep=',')

# Combinar usando nombres distintos de columna
df = df.merge(df_cluster[['Pa√≠s', 'Cluster']], left_on='√Årea', right_on='Pa√≠s', how='left')

# Eliminar la columna duplicada 'Pa√≠s' si ya no la necesitas
df = df.drop(columns='Pa√≠s')

# Verificar resultado
df.info()

In [None]:
df = df[df['Cluster'] == 0]

In [None]:
# Asumimos que df tiene columnas: ['√Årea', 'Producto', 'Elemento', 'A√±o', 'Valor']

# --- 1Ô∏è‚É£ Obtener el conjunto de elementos por producto ---
elements_per_product = (
    df.groupby("Producto")["Elemento"]
    .unique()
    .apply(set)
    .to_dict()
)

# --- 2Ô∏è‚É£ Verificar si todos los productos tienen el mismo conjunto de elementos ---
all_elements = set.union(*elements_per_product.values())  # conjunto total
incomplete = {
    prod: all_elements - elems
    for prod, elems in elements_per_product.items()
    if elems != all_elements
}

print("Elementos totales encontrados:", all_elements)
print(f"Total de productos analizados: {len(elements_per_product)}")
print(f"Productos con elementos incompletos: {len(incomplete)}")

# --- 3Ô∏è‚É£ Mostrar detalle de productos incompletos ---
if incomplete:
    print("\n--- Productos con elementos faltantes ---")
    for prod, missing in incomplete.items():
        present = elements_per_product[prod]
        print(f"Producto: {prod}")
        print(f"  ‚Üí Elementos presentes: {sorted(list(present))}")
        print(f"  ‚Üí Elementos faltantes: {sorted(list(missing))}\n")

# --- 4Ô∏è‚É£ (opcional) Resumen tabular de completitud ---
summary = []
for prod, elems in elements_per_product.items():
    summary.append({
        "Producto": prod,
        "Elementos presentes": len(elems),
        "Elementos esperados": len(all_elements),
        "Porcentaje completo": round(100 * len(elems) / len(all_elements), 2)
    })
df_summary = pd.DataFrame(summary).sort_values("Porcentaje completo")



In [None]:
print("\nResumen de completitud por producto:")
df_summary

In [None]:
# --- 1Ô∏è‚É£ Verificar si hay duplicados ---
duplicates = df.duplicated(subset=["√Årea", "Producto", "Elemento", "A√±o"], keep=False)
if duplicates.any():
    print(f"‚ö†Ô∏è Se encontraron {duplicates.sum()} filas duplicadas. Se promediar√°n los valores repetidos.")
    # Agrupamos y promediamos los valores repetidos
    df = (
        df.groupby(["√Årea", "Producto", "Elemento", "A√±o"], as_index=False)
          .agg({"Valor": "mean"})
    )
else:
    print("‚úÖ No hay duplicados exactos por combinaci√≥n de claves.")

# --- 2Ô∏è‚É£ Crear el √≠ndice completo ---
all_areas = df["√Årea"].unique()
all_products = df["Producto"].unique()
all_elements = df["Elemento"].unique()
all_years = sorted(df["A√±o"].unique())

full_index = pd.MultiIndex.from_product(
    [all_areas, all_products, all_elements, all_years],
    names=["√Årea", "Producto", "Elemento", "A√±o"]
)

# --- 3Ô∏è‚É£ Reindexar el dataframe ---
df_full = (
    df.set_index(["√Årea", "Producto", "Elemento", "A√±o"])
      .reindex(full_index)
      .reset_index()
)

# --- 4Ô∏è‚É£ Detectar huecos ---
missing_mask = df_full["Valor"].isna()
missing = df_full[missing_mask]

print(f"üîç Total de combinaciones posibles: {len(df_full):,}")
print(f"‚ùå Huecos encontrados: {missing_mask.sum():,}")
print(f"‚úÖ Datos completos: {len(df_full) - missing_mask.sum():,}")

# --- 5Ô∏è‚É£ Mostrar resumen por pa√≠s ---
resumen = (
    missing.groupby("√Årea")
    .size()
    .reset_index(name="Huecos")
    .sort_values("Huecos", ascending=False)
)
print("\n--- Pa√≠ses con datos incompletos ---")
print(resumen.head(10))

# --- 6Ô∏è‚É£ (Opcional) Exportar para inspecci√≥n manual ---
missing.to_csv("../results/missing_combinations.csv", index=False)
print("\nüíæ Archivo 'missing_combinations.csv' guardado con los huecos detectados.")


In [None]:
map_1990 = {
    # --- categor√≠as iguales ---
    'Residuos agr√≠colas': 'Residuos agr√≠colas',
    'Cultivo del arroz': 'Cultivo del arroz',
    'Quemado de residuos agr√≠colas': 'Quemado de residuos agr√≠colas',
    'Fermentaci√≥n ent√©rica': 'Fermentaci√≥n ent√©rica',
    'Gesti√≥n del esti√©rcol': 'Gesti√≥n del esti√©rcol',
    'Esti√©rcol depositado en las pasturas': 'Esti√©rcol depositado en las pasturas',
    'Esti√©rcol aplicado a los suelos': 'Esti√©rcol aplicado a los suelos',
    'Fertilizantes sint√©ticos': 'Fertilizantes sint√©ticos',
    'Energ√≠a': 'Energ√≠a',
    'IPPU': 'IPPU',
    'Desechos': 'Desechos',
    'Otro': 'Otro',
    'Emisiones derivadas de los cultivos': 'Emisiones derivadas de los cultivos',
    'Emissiones derivadas del sector ganadero': 'Emissiones derivadas del sector ganadero',
    'IPCC Agricultura': 'IPCC Agricultura',
    'Suelos agr√≠colas': 'Suelos agr√≠colas',

    # --- nuevas categor√≠as agrupadas ---
    # Suelos, uso de la tierra, y drenaje
    'Suelos org√°nicos drenados': 'Suelos agr√≠colas',
    'Suelos org√°nicos drenados (CO2)': 'Suelos agr√≠colas',
    'Suelos org√°nicos drenados (N2O)': 'Suelos agr√≠colas',
    'Tierras forestales': 'Suelos agr√≠colas',
    'Conversi√≥n neta de bosques': 'Suelos agr√≠colas',
    'Cambios de uso de la tierra': 'Suelos agr√≠colas',
    'Emisiones en tierras agr√≠colas': 'Suelos agr√≠colas',
    'LULUCF': 'Suelos agr√≠colas',
    'AFOLU': 'Suelos agr√≠colas',
    'Emisiones totales incluyendo LULUCF': 'Suelos agr√≠colas',
    'Emisiones totales excluyendo LULUCF': 'Suelos agr√≠colas',

    # Incendios
    'Incendios de sabana': 'Residuos agr√≠colas',
    'Incendios en suelos de turba': 'Residuos agr√≠colas',
    'Incendios forestales': 'Residuos agr√≠colas',
    'Incendios en los bosques tropicales h√∫medos': 'Residuos agr√≠colas',

    # Energ√≠a dentro de la finca
    'On-farm energy use': 'Energ√≠a',
    'Tanques de combustible internacional': 'Energ√≠a',

    # Fabricaci√≥n y procesamiento industrial
    'Fabricaci√≥n de fertilizantes': 'IPPU',
    'Fabricaci√≥n de pesticidas': 'IPPU',
    'Envasado alimentario': 'IPPU',
    'Transformaci√≥n\xa0de alimentos': 'IPPU',

    # Sistemas agroalimentarios y comercio
    'Sistemas agroalimentarios': 'Otro',
    'Farm gate': 'Otro',
    'Pre y\xa0post-producci√≥n': 'Otro',
    'Venta de alimentos': 'Otro',
    'Consumo\xa0de alimentos en los hogares': 'Otro',

    # Residuos de sistemas alimentarios
    'Eliminaci√≥n de desechos de sistemas agroalimentarios': 'Desechos',
}

In [None]:
df['Producto'] = df['Producto'].replace(map_1990)

In [None]:
df["Producto"].unique()

In [None]:
df = df[[
    "√Årea",
    "Producto",
    "Elemento",
    "A√±o",
    "Valor"
]]

In [None]:
df = df.dropna(subset=["A√±o", "Valor"])


In [None]:
# Mapear cada categor√≠a a un √≠ndice
area_to_idx = {area: i for i, area in enumerate(df["√Årea"].unique())}
prod_to_idx = {prod: i for i, prod in enumerate(df["Producto"].unique())}
elem_to_idx = {elem: i for i, elem in enumerate(df["Elemento"].unique())}
year_to_idx = {year: i for i, year in enumerate(sorted(df["A√±o"].unique()))}

# Agregar las columnas indexadas al DataFrame
df["area_idx"] = df["√Årea"].map(area_to_idx)
df["prod_idx"] = df["Producto"].map(prod_to_idx)
df["elem_idx"] = df["Elemento"].map(elem_to_idx)
df["year_idx"] = df["A√±o"].map(year_to_idx)


In [None]:
import torch
import numpy as np

num_areas = len(area_to_idx)
num_prods = len(prod_to_idx)
num_elems = len(elem_to_idx)
num_years = len(year_to_idx)

# Inicializamos el tensor con NaN (o ceros si prefer√≠s)
tensor = torch.full(
    (num_areas, num_prods, num_elems, num_years),
    float('nan')
)

# Rellenamos con los valores existentes
for _, row in df.iterrows():
    a, p, e, y = row["area_idx"], row["prod_idx"], row["elem_idx"], row["year_idx"]
    tensor[a, p, e, y] = row["Valor"]


In [None]:
# Calculamos la media y desviaci√≥n ignorando NaN de forma manual
mask = ~torch.isnan(tensor)
mean_val = torch.sum(tensor[mask]) / mask.sum()
std_val = torch.sqrt(torch.sum(((tensor[mask] - mean_val) ** 2)) / mask.sum())

# AGREGAMOS EPSILON PARA EVITAR DIVISI√ìN POR CERO
epsilon = 1e-8
std_val = std_val + epsilon

print(f"Media: {mean_val.item():.4f}")
print(f"Desviaci√≥n est√°ndar: {std_val.item():.4f}")

tensor_norm = (tensor - mean_val) / std_val

# Verificar que no hay NaN o Inf despu√©s de normalizar
print(f"NaN despu√©s de normalizaci√≥n: {torch.isnan(tensor_norm).sum().item()}")
print(f"Inf despu√©s de normalizaci√≥n: {torch.isinf(tensor_norm).sum().item()}")


In [None]:
def generar_secuencias(tensor, window=5):
    """
    Crea pares (input_seq, target) para entrenamiento temporal.
    Cada secuencia tiene longitud 'window' y el target es el siguiente a√±o.
    """
    X, y = [], []
    num_years = tensor.shape[-1]
    for t in range(num_years - window):
        X.append(tensor[..., t:t+window])
        y.append(tensor[..., t+window])
    return torch.stack(X), torch.stack(y)

X, y = generar_secuencias(tensor_norm, window=5)
print("Shape de X:", X.shape)  # (n_samples, areas, productos, elementos, a√±os_ventana)
print("Shape de y:", y.shape)


In [None]:
import torch
import pandas as pd
import plotly.express as px

# Sumamos NaN sobre elementos
nan_per_year = torch.isnan(tensor).sum(dim=2)  # (√°reas, productos, a√±os)
num_areas, num_prods, num_years = nan_per_year.shape

# Convertimos a DataFrame largo
data = []
for a in range(num_areas):
    for p in range(num_prods):
        for y in range(num_years):
            data.append({
                "√Årea": a,
                "Producto": p,
                "A√±o": 1961 + y,  # ajusta si tu primer a√±o no es 1961
                "NaN_count": int(nan_per_year[a,p,y])
            })
df_plot = pd.DataFrame(data)

# Creamos el heatmap interactivo
fig = px.density_heatmap(
    df_plot,
    x="Producto",
    y="√Årea",
    z="NaN_count",
    animation_frame="A√±o",  # slider autom√°tico por a√±o
    color_continuous_scale="Reds",
    labels={"NaN_count": "Cantidad de NaN"}
)
fig.update_layout(height=600, width=900, title_text="Valores faltantes por √Årea y Producto")
fig.show()

