In [1]:
from langchain.document_loaders import PyPDFLoader, Docx2txtLoader, UnstructuredExcelLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
import os

def load_documents_from_folder(folder_path: str):
    all_documents = []

    for filename in os.listdir(folder_path):
        file_path = os.path.join(folder_path, filename)

        if filename.lower().endswith(".pdf"):
            loader = PyPDFLoader(file_path)
        elif filename.lower().endswith(".docx"):
            loader = Docx2txtLoader(file_path)
        elif filename.lower().endswith(".xlsx"):
            loader = UnstructuredExcelLoader(file_path)
        else:
            print(f"Archivo ignorado (tipo no soportado): {filename}")
            continue

        try:
            docs = loader.load()
            all_documents.extend(docs)
            print(f"Cargado: {filename} ({len(docs)} documentos)")
        except Exception as e:
            print(f"Error al cargar {filename}: {e}")

    return all_documents


In [2]:
from dotenv import load_dotenv
load_dotenv()

import os
api_key = os.getenv("gemini_api_key")

In [4]:
embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
db = FAISS.load_local("faiss_index_co2", embedding_model, allow_dangerous_deserialization=True)
retriever = db.as_retriever(search_kwargs={"k": 5}, search_type='mmr')

In [5]:
from langchain.prompts import PromptTemplate

prompt_template = PromptTemplate(
    input_variables=["context", "question"],
    template="""
Eres un analista ambiental experto en cálculo de huella de carbono (CO₂) según las normas ISO 14040 y 14067. Con base en el siguiente documento de producto, devuelve los campos de JSON detallados y calcula el CO₂ para cada etapa del ciclo de vida.

Haz estimaciones de CO₂ usando los siguientes factores estándar:
- 0.233 kg CO₂/kWh para electricidad
- 0.12 kg CO₂/ton-km para camión
- 1 kg CO₂/kg para materiales vírgenes
- 0.3 kg CO₂/kg para materiales reciclados
- 0.05 kg CO₂/L para agua

Letras de seal: Se asignan según impact_score.
81–100 puntos → A
61–80 puntos → B
41–60 puntos → C
21–40 puntos → D
0–20 puntos → E

### FORMATO DE SALIDA (JSON estructurado):

{{
  "products": {{
    "total_weight": <float>,
    "transporting_distance": <float>,
    "pct_recycling": <float>,
    "transporting_type": "<camión|tren|avión|otro>"
  }},
  "products_processes": [
    {{
      "name_process": "<nombre>",
      "quantity_energy": <float>,
      "country": "España",
      "type_consumption": "eléctrico",
      "quantity_water": <float>,
      "co2_impact": <float>
    }}
  ],
  "products_materials": [
    {{
      "name_material": "<nombre>",
      "quantity": <float>,
      "pct_recycling": <float>,
      "pct_product": <float>,
      "country": "España",
      "co2_impact": <float>
    }}
  ],
  "products_packing": [
    {{
      "packing_name": "<nombre>",
      "packing_weight": <float>,
      "packing_material": "<material>",
      "pct_recycling": <float>,
      "country": "España",
      "type_use": "<primario|secundario>"
    }}
  ],
  "products_impacts": {{
    "raw_materials": <suma de co2_impact de todos los materiales>,
    "manufacturing":  <suma de co2_impact de los procesos>,
    "transport": <peso en toneladas * distancia * 0.12>,
    "packaging": <estimado en base a peso y % reciclaje>,
    "product_use": 0,
    "end_of_life": <estimación con base en % reciclaje>
  }},
  "products_impacts_resume": {{
    "co2_fingerprint": <suma de co2_impact de todos los procesos>,
    "pct_benchmark": <total>,
    "impact_score": <de 0 a 100 es 80 puntos de huella de carbono y 20 puntos de sostenibilidad de la marca, siguiendo criterios sociales y medioambientales.>,
    "seal": "<A|B|C|D|E>"
  }},
  "products_conclusions": {{
    "general_summary": "Redacta un párrafo introductorio (aprox. 4-6 líneas) explicando brevemente los principales hallazgos del ACV, el total de emisiones CO₂, y el posicionamiento ambiental del producto.",
    "strong_points": [
      "Escribe entre 2 y 4 frases describiendo fortalezas clave del producto, como uso de materiales naturales, procesos eficientes o bajo impacto logístico."
    ],
    "areas_for_improvement": [
      "Escribe entre 2 y 4 frases que sugieran mejoras posibles, como cambiar materiales, reducir consumo energético o mejorar reciclabilidad."
    ]
  }},
  "stage_analysis": {{
    "raw_materials": "<análisis técnico detallado de 800-1000 caracteres sobre impacto de materias primas y cómo mejorarlo>",
    "Manufacturing": "<análisis técnico detallado de 800-1000 caracteres sobre procesos de fabricación y oportunidades de eficiencia energética>",
    "Transport": "<análisis técnico sobre distancia, medio de transporte y mejoras posibles>",
    "Packaging": "<análisis técnico sobre los materiales usados en empaque y propuestas para mejora ambiental>",
    "Use Phase": "<análisis de impacto durante el uso (si aplica)>",
    "End of Life": "<análisis de impacto al final de vida útil y posibilidades de reciclaje o compostaje>"
  }}
}}

### CONTEXTO DEL PRODUCTO:
{context}

### PREGUNTA:
{question}

Instrucciones:
- Calcula todos los valores `co2_impact` como números.
- Devuelve únicamente un JSON estructurado válido. No agregues texto adicional ni explicaciones fuera del JSON.
"""
)

In [6]:
documents_product = load_documents_from_folder("test")
product_text = " ".join([d.page_content for d in documents_product])

Cargado: Paleta_maquillaje.pdf (4 documentos)
Archivo ignorado (tipo no soportado): __init__.py


In [7]:
prompt = prompt_template.format(
    context=product_text,
    question='Genera el JSON con el calculo total y detallado de emisiones de CO2 para el producto y con esto poblar las tablas SQL.'
)

In [8]:
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.chains import RetrievalQA

# Crear modelo
llm = chat = ChatGoogleGenerativeAI(model="gemini-2.0-flash", google_api_key=api_key, temperature=0)

# Crear la cadena QA con formato estructurado
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type="stuff",
    chain_type_kwargs={"prompt": prompt_template}
)

In [9]:
resultado = qa_chain.run(prompt)

print(resultado)

  resultado = qa_chain.run(prompt)


```json
{
  "products": {
    "total_weight": 10,
    "transporting_distance": 17000,
    "pct_recycling": 0,
    "transporting_type": "camión"
  },
  "products_processes": [
    {
      "name_process": "Moldeo de plástico",
      "quantity_energy": 1.2,
      "country": "España",
      "type_consumption": "eléctrico",
      "quantity_water": 10,
      "co2_impact": 0.2796
    },
    {
      "name_process": "Ensamblaje",
      "quantity_energy": 0.5,
      "country": "España",
      "type_consumption": "eléctrico",
      "quantity_water": 2,
      "co2_impact": 0.1165
    },
    {
      "name_process": "Limpieza final",
      "quantity_energy": 0.3,
      "country": "España",
      "type_consumption": "eléctrico",
      "quantity_water": 5,
      "co2_impact": 0.0699
    }
  ],
  "products_materials": [
    {
      "name_material": "Mica",
      "quantity": 0.3,
      "pct_recycling": 0,
      "pct_product": 3,
      "country": "España",
      "co2_impact": 0.3
    },
    {
      "name

In [10]:
import json
from docxtpl import DocxTemplate
from docx2pdf import convert

# Cargar plantilla Word
doc = DocxTemplate("plantilla_producto.docx")


  import pkg_resources


In [None]:
import re
import json
import firebase_admin
from firebase_admin import credentials, storage
import datetime

# Elimina bloques de markdown y busca el primer {...}
json_str = re.search(r'\{.*\}', resultado, re.DOTALL)
if json_str:
    context = json.loads(json_str.group())
else:
    raise ValueError("No se encontró un JSON válido en el resultado")

context["products_impacts_resume"]["co2_fingerprint"] = round(
    context["products_impacts_resume"]["co2_fingerprint"], 2
)
# Rellenar y guardar
doc.render(context)

name_product = 'Paleta Maquillaje'
# Guardar como .docx
docx_output_path = f"Devera LCA report {name_product}.docx"
doc.save(docx_output_path)

# Ruta a tu JSON descargado
cred = credentials.Certificate("deveraai-firebase.json")

# Inicializa la app con tu bucket de Firebase Storage
firebase_admin.initialize_app(cred, {
    'storageBucket': 'deveraai.firebasestorage.app' 
})

# Subir archivo
bucket = storage.bucket()
blob = bucket.blob(f"Devera LCA report {name_product}.docx")  # Ruta dentro del bucket
blob.upload_from_filename(f"Devera LCA report {name_product}.docx")   # Archivo local

# Opción A: Hacerlo público
blob.make_public()
print("✅ Link público:", blob.public_url)

✅ Link público: https://storage.googleapis.com/deveraai.firebasestorage.app/Devera%20LCA%20report%20Paleta%20Maquillaje.docx
🔐 Link firmado (7 días): https://storage.googleapis.com/deveraai.firebasestorage.app/Devera%20LCA%20report%20Paleta%20Maquillaje.docx?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=firebase-adminsdk-fbsvc%40deveraai.iam.gserviceaccount.com%2F20250602%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20250602T144934Z&X-Goog-Expires=604800&X-Goog-SignedHeaders=host&X-Goog-Signature=25b9a5700ed533ce583c14020ad7e8c813ac673939d2a6b362783b1baefc559a2374d72bcfdba777db3c4f6fd6ebd064b83def5d0008d35750d3f9db49bf53740de1c2fab4f29cd69f7ac5a318a581c26c44d76bc0103e1996bd20f06781304ae7cdcc3ee9949a4dea53a2af863aeba1aabbd33361bd358dc90e0ebff7df70b84f9f8d0ba06f1aaf9de469f2c675c5baa207760c13ebc1e67f71384017b075773290c82451fdeb048412e5adca16b0483a1469a1da6573e32286e055ad1e9c87a9981b34cc1e8a9b5dbd76ca1cb716b7f3aa40a584f5b01813deed2f2c992fe6b153ef8ff45ac8d0a005378f1c361a1e3580f9a221d9