In [21]:
import os
import glob
from pathlib import Path
import argparse
import re

# Nuevas librerías para IO y DB
import openpyxl
import pandas as pd
from openpyxl import load_workbook
from openpyxl.utils import range_boundaries

import psycopg2
from psycopg2.extras import execute_values

In [22]:
from sqlalchemy import create_engine

# Conexión
def get_engine():
    return create_engine("postgresql+psycopg2://postgres:pauwlonia@localhost:5432/gisdb")

# Nombre de tu tabla en PostgreSQL
TABLE_NAME = "inventory_gt_2025"  # CAMBIAR POR EL NOMBRE REAL DE TU TABLA

# Leer datos existentes en la tabla
engine = get_engine()
df1 = pd.read_sql_table(TABLE_NAME, engine)  # Método correcto para leer tablas SQL

# Leer CSV nuevo
csvrebelde = r"C:\Users\HeyCe\World Tree Technologies Inc\Forest Inventory - Documentos\Guatemala\2024_ForestInventoryQ1_25\x Scrap\GT0045a_Trapiche de la Vega.csv"
df2 = pd.read_csv(csvrebelde)

In [25]:
# Verificar estructura
print("Esquema tabla SQL:")
print(df1.dtypes)
print("\nEsquema CSV:")
print(df2.dtypes)

Esquema tabla SQL:
FarmerName                           object
CruiseDate                   datetime64[ns]
# Posición                          float64
# Parcela                           float64
Coordenadas de la Parcela            object
# Árbol                             float64
Condicion                            object
Especie                              object
Defecto                              object
AT del Defecto (m)                  float64
DAP (cm)                            float64
AT (m)                              float64
Alt. Com. (m)                       float64
Plagas                              float64
Enfermedadas                         object
Poda Basal                           object
Parcela Permanente                  float64
Nota Breve                           object
DBH (in)                            float64
THT (ft)                            float64
Defect HT (ft)                      float64
Merch. HT (ft)                      float64
doyle_bf     

In [26]:
def analizar_columnas_csv(df):
    # Contar valores no nulos y no cero (para numéricas)
    stats = {}
    for col in df.columns:
        # Para columnas numéricas: contar valores != 0
        if pd.api.types.is_numeric_dtype(df[col]):
            count = df[df[col].ne(0) & df[col].notna()].shape[0]
        # Para otras: contar no nulos
        else:
            count = df[col].notna().sum()

        stats[col] = {
            "count_no_vacios": count,
            "porcentaje_util": f"{(count/len(df))*100:.1f}%"
        }

    return pd.DataFrame(stats).T

# Usar la función
stats_csv = analizar_columnas_csv(df2)
print("Estadísticas CSV:")
print(stats_csv[stats_csv["count_no_vacios"] > 0])  # Solo columnas con datos

Estadísticas CSV:
                          count_no_vacios porcentaje_util
FarmerName                            112          100.0%
ContractCode                          112          100.0%
CruiseDate                            112          100.0%
# Parcela                             112          100.0%
Coordenadas de la Parcela             112          100.0%
# Árbol                               112          100.0%
Condicion                             112          100.0%
Especie                               112          100.0%
Defecto                                 3            2.7%
DAP (cm)                               87           77.7%
AT (m)                                 87           77.7%
Alt. Com. (m)                          67           59.8%
Poda Basal                             33           29.5%
Nota Breve                              2            1.8%
species_id                            112          100.0%
status_id                             112          100

In [27]:
# Filtrar columnas con al menos X datos (ej: 5 registros)
columnas_relevantes = stats_csv[stats_csv["count_no_vacios"] >= 5].index.tolist()
df2_filtrado = df2[columnas_relevantes]

# Obtener columnas de la tabla SQL
columnas_sql = df1.columns.tolist()

# Verificar coincidencias
columnas_comunes = list(set(columnas_relevantes) & set(columnas_sql))
columnas_nuevas = list(set(columnas_relevantes) - set(columnas_sql))

print(f"Columnas a procesar ({len(columnas_comunes)}):", columnas_comunes)
print(f"Columnas nuevas en CSV ({len(columnas_nuevas)}):", columnas_nuevas)

Columnas a procesar (14): ['# Parcela', 'Especie', 'CruiseDate', 'AT (m)', 'species_id', 'ContractCode', 'FarmerName', 'Condicion', 'Coordenadas de la Parcela', 'DAP (cm)', '# Árbol', 'Alt. Com. (m)', 'status_id', 'Poda Basal']
Columnas nuevas en CSV (0): []


In [29]:
# utils/column_mapper.py

COLUMN_LOOKUP = {
    "Stand #": ["Stand #", "# Posición"],
    "Plot #": ["Plot #", "# Parcela"],
    "Plot Coordinate": ["Plot Coordinate", "Coordenadas de la Parcela", "Plot Cooridnate", "Plot Cooridinate"],
    "Tree #": ["Tree #", "# Árbol"],
    "Status": ["Status", "Condicion"],
    "Species": ["Species", "Especie"],
    "Defect": ["Defect", "Defecto"],
    "Defect HT (ft)": ["Defect HT (ft)", "AT del Defecto (m)"],
    "DBH (in)": ["DBH (in)", "DAP (cm)"],
    "THT (ft)": ["THT (ft)", "AT (m)"],
    "Merch. HT (ft)": ["Merch. HT (ft)", "Alt. Com. (m)"],
    "Pests": ["Pests", "Plagas"],
    "Disease": ["Disease", "Enfermedadas"],
    "Coppiced": ["Coppiced", "Poda Basal"],
    "Permanent Plot": ["Permanent Plot", "Parcela Permanente"],
    "Short Note": ["Short Note", "Nota Breve"]
}


In [35]:
def normalizar_nombre(name):
    """Normaliza nombres para matching flexible"""
    name = re.sub(r'[^a-zA-Z0-9]', '', str(name).strip().lower())
    replacements = {'á': 'a', 'é': 'e', 'í': 'i', 'ó': 'o', 'ú': 'u', 'ñ': 'n'}
    for c, r in replacements.items(): name = name.replace(c, r)
    return name


def procesar_datos():
    try:
        # Cargar datos
        engine = get_engine()
        df_sql = pd.read_sql_table(TABLE_NAME, engine)
        df_csv = pd.read_csv(csvrebelde, encoding='latin-1')

        # Paso 1: Mapeo de columnas
        df_mapeado = df_csv.rename(columns=lambda x: COLUMN_LOOKUP.get(x.strip(), x))

        # Paso 2: Filtrar y eliminar duplicados
        columnas_comunes = df_sql.columns.intersection(df_mapeado.columns)
        df_final = df_mapeado[columnas_comunes]
        df_final = df_final.loc[:, ~df_final.columns.duplicated()]

        # Paso 3: Validación
        print("=== Columnas Finales ===")
        print(df_final.columns.tolist())

        print("\n=== Muestra de Datos ===")
        print(df_final.head(2).to_string(index=False))

        # Paso 4: Insertar
        df_final.to_sql(
            name=TABLE_NAME,
            con=engine,
            if_exists='append',
            index=False,
            method=psycopg2.extras.execute_values
        )
        print(f"\n✅ ¡Datos insertados correctamente! Registros: {len(df_final)}")

    except Exception as e:
        print(f"\n❌ Error crítico: {str(e)}")
        if 'foreign key' in str(e):
            print("Solución: Verificar manualmente las llaves foráneas con:")
            print("""
            # Para species_id
            especies_validas = pd.read_sql("SELECT species_id FROM species", engine)['species_id'].tolist()
            invalidos = df_final[~df_final['species_id'].isin(especies_validas)]
            print(invalidos[['species_id']].drop_duplicates())""")


if __name__ == "__main__":
    engine = get_engine()
    df_sql = pd.read_sql_table(TABLE_NAME, engine)
    df_csv = pd.read_csv(csvrebelde, encoding='latin-1')

    procesar_y_insertar(df_sql, df_csv)


=== Columnas a insertar ===
['CruiseDate', 'DBH (in)', 'DBH (in)', 'THT (ft)', 'THT (ft)', 'Defect HT (ft)', 'Defect HT (ft)', 'Merch. HT (ft)', 'Merch. HT (ft)', 'doyle_bf', 'species_id', 'defect_id', 'pests_id', 'disease_id', 'coppiced_id', 'permanent_plot_id', 'status_id', 'ContractCode']

Muestra de datos:

❌ Error: Pandas requires version '0.9.0' or newer of 'tabulate' (version '0.8.10' currently installed).
