<a href="https://colab.research.google.com/github/fecsaba/automatic_photo/blob/main/auto_get_meta.ipynb" target="_blank"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Drive**

In [1]:
import os

# Csatoljuk a Google Drive-ot
from google.colab import drive
drive.mount('/content/drive')
!pip install pypng
!pip install Pillow

Mounted at /content/drive
Collecting pypng
  Downloading pypng-0.20220715.0-py3-none-any.whl.metadata (13 kB)
Downloading pypng-0.20220715.0-py3-none-any.whl (58 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.1/58.1 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pypng
Successfully installed pypng-0.20220715.0


# ***Action***

```
'/content/drive/MyDrive/Images'
```



## Meta kiszedése

In [None]:
from PIL import PngImagePlugin, Image
import os
import json

class PngValidator:
    """PNG fájlok érvényességének ellenőrzésére szolgáló osztály.

    Ez az osztály felelős a PNG fájlok formátumának validálásáért. Ellenőrzi, hogy egy fájl
    valóban érvényes PNG formátumú-e, függetlenül a fájl kiterjesztésétől.

    Methods:
        is_valid_png(file_path): Ellenőrzi egy fájl PNG formátumát.
    """

    @staticmethod
    def is_valid_png(file_path):
        """Ellenőrzi, hogy a fájl valóban PNG formátumú-e.

        A metódus megnyitja a fájlt és ellenőrzi annak belső formátumát,
        nem csak a kiterjesztést vizsgálja.

        Args:
            file_path (str): A vizsgálandó fájl teljes elérési útja.

        Returns:
            bool: True ha a fájl valódi PNG formátumú, False egyébként.

        Example:
            >>> validator = PngValidator()
            >>> is_valid = validator.is_valid_png("kep.png")
            >>> print(is_valid)
            True
        """
        try:
            with Image.open(file_path) as img:
                return isinstance(img, PngImagePlugin.PngImageFile) and img.format == 'PNG'
        except Exception:
            return False

class PngFileHandler:
    """PNG fájlok és mappák kezelésére szolgáló osztály.

    Ez az osztály felelős a fájlrendszer műveletek végrehajtásáért,
    beleértve a mappák beolvasását és a PNG fájlok azonosítását.

    Attributes:
        directory_path (str): A feldolgozandó mappa elérési útja.

    Methods:
        set_directory_path(directory_path): Beállítja a feldolgozandó mappa útvonalát.
        get_png_files(): Összegyűjti az érvényes PNG fájlokat a megadott mappából.
    """

    def __init__(self, directory_path=None):
        """Inicializálja a PngFileHandler osztályt.

        Args:
            directory_path (str, optional): A feldolgozandó mappa elérési útja.
                                          Alapértelmezett érték: None.
        """
        self.directory_path = directory_path

    def set_directory_path(self, directory_path):
        """Beállítja a feldolgozandó mappa útvonalát.

        Args:
            directory_path (str): A feldolgozandó mappa elérési útja.
        """
        self.directory_path = directory_path

    def get_png_files(self):
        """Összegyűjti az érvényes PNG fájlokat a megadott mappából.

        A metódus ellenőrzi a megadott mappában található összes fájlt,
        és csak azokat a fájlokat adja vissza, amelyek valóban PNG formátumúak.

        Returns:
            list: Érvényes PNG fájlok teljes elérési útjainak listája.

        Note:
            - Ha nincs megadva mappa útvonal, üres listával tér vissza
            - Ha a mappa nem létezik, üres listával tér vissza
            - Figyelmeztetést ad ki, ha talál olyan fájlt, ami .png kiterjesztésű,
              de nem valódi PNG formátumú
        """
        if not self.directory_path:
            print("Nincs megadva mappa útvonal!")
            return []

        if not os.path.exists(self.directory_path):
            print(f"A megadott mappa nem létezik: {self.directory_path}")
            return []

        png_files = []
        for filename in os.listdir(self.directory_path):
            file_path = os.path.join(self.directory_path, filename)
            if PngValidator.is_valid_png(file_path):
                png_files.append(file_path)
            elif filename.lower().endswith('.png'):
                print(f"\nFigyelmeztetés: A fájl '.png' kiterjesztésű, de nem valódi PNG: {filename}")

        return png_files

class MetadataReader:
    """PNG fájlok metaadatainak olvasására szolgáló osztály.

    Ez az osztály felelős a PNG fájlok metaadatainak kinyeréséért és
    megjelenítéséért. A metaadatok között szerepelhetnek például a készítő,
    a létrehozás dátuma, és egyéb egyedi információk.

    Methods:
        read_metadata(file_path): Beolvassa és megjeleníti egy PNG fájl metaadatait.
    """

    @staticmethod
    def read_metadata(file_path):
        """Beolvassa egy PNG fájl metaadatait.

        Args:
            file_path (str): A PNG fájl teljes elérési útja.

        Returns:
            dict: A metaadatok szótár formátumban, ahol a kulcsok a metaadat mezők nevei,
                 az értékek pedig a hozzájuk tartozó értékek.
                 Hiba esetén None-nal tér vissza.
                 Ha nincsenek metaadatok, üres szótárral tér vissza.

        Note:
            A metódus a következő eseteket kezeli:
            - Sikeres beolvasás esetén kiírja a metaadatokat
            - Ha nincsenek metaadatok, ezt jelzi
            - Ha a fájl nem található, hibaüzenetet ad
            - Egyéb hibák esetén hibaüzenetet ad
        """
        try:
            with Image.open(file_path) as img:
                metadata = img.text
                if metadata:
                    print(f"\nMetaadatok a következő fájlhoz: {os.path.basename(file_path)}")
                    print("-" * 50)
                    for k, v in metadata.items():
                        print(f"**{k}**:\n{v}\n")
                    return metadata
                else:
                    print(f"\nNem találtunk metaadatokat a következő fájlban: {os.path.basename(file_path)}")
                    return {}

        except FileNotFoundError:
            print(f"A fájl nem található: {file_path}")
            return None
        except Exception as e:
            print(f"Hiba történt a következő fájlnál {os.path.basename(file_path)}: {str(e)}")
            return None

class PngMetadataProcessor:
    """PNG fájlok metaadatainak feldolgozására szolgáló fő osztály.

    Ez az osztály koordinálja a teljes feldolgozási folyamatot, összekapcsolva
    a fájlkezelést és a metaadat-olvasást. Egy megadott mappában található összes
    PNG fájlt feldolgozza és összegyűjti azok metaadatait.

    Attributes:
        file_handler (PngFileHandler): A fájlkezelésért felelős objektum.

    Methods:
        process_directory(): Feldolgozza a megadott mappában található összes PNG fájlt.
        save_results_to_json(results): Elmenti az eredményeket JSON fájlba.
    """

    def __init__(self, directory_path=None):
        """Inicializálja a PngMetadataProcessor osztályt.

        Args:
            directory_path (str, optional): A feldolgozandó mappa elérési útja.
                                          Alapértelmezett érték: None.
        """
        self.file_handler = PngFileHandler(directory_path)

    def process_directory(self):
        """Feldolgozza a megadott mappában található összes PNG fájlt.

        A metódus végigmegy a megadott mappában található összes PNG fájlon,
        és összegyűjti azok metaadatait. A folyamat során:
        1. Azonosítja az érvényes PNG fájlokat
        2. Beolvassa minden fájl metaadatait
        3. Összesíti az eredményeket

        Returns:
            dict: Egy szótár, ahol a kulcsok a fájlnevek, az értékek pedig
                 a hozzájuk tartozó metaadatok szótár formátumban.
        """
        print(f"\nPNG fájlok keresése a következő mappában: {self.file_handler.directory_path}")
        print("=" * 70)

        png_files = self.file_handler.get_png_files()
        results = {}

        for file_path in png_files:
            metadata = MetadataReader.read_metadata(file_path)
            if metadata:
                results[os.path.basename(file_path)] = metadata

        if not results:
            print("\nNem találtunk érvényes PNG fájlokat a megadott mappában.")

        return results

    def save_results_to_json(self, results):
        """Elmenti az eredményeket JSON fájlba.

        Args:
            results (dict): A mentendő metaadatok szótár formátumban.

        Note:
            A fájl neve 'png_metadata_results.json' lesz, és az Image mappába kerül mentésre.
            Ha a fájl már létezik, felülírja azt.
        """
        if not results:
            print("\nNincs menthető adat.")
            return

        output_path = os.path.join(self.file_handler.directory_path, "png_metadata_results.json")
        try:
            with open(output_path, 'w', encoding='utf-8') as f:
                json.dump(results, f, indent=2, ensure_ascii=False)
            print(f"\nAz eredmények sikeresen mentve: {output_path}")
        except Exception as e:
            print(f"\nHiba történt a fájl mentése közben: {str(e)}")

# Példa használat és tesztelés
if __name__ == "__main__":
    # Példa a program használatára
    processor = PngMetadataProcessor("/content/drive/MyDrive/Image/")
    all_metadata = processor.process_directory()

    # Eredmények mentése JSON fájlba
    processor.save_results_to_json(all_metadata)

    # Összesítés
    if all_metadata:
        print("\nÖsszesítés:")
        print("=" * 70)
        print(f"Összesen {len(all_metadata)} érvényes PNG fájl metaadatait olvastuk be.")

## Pozitív prompt kiszedése

In [None]:
import json
import re
import sys

def extract_pos_from_parameters(input_json_path, output_json_path):
    """
    Extracts the 'Pos' value from the 'parameters' string in the input JSON and saves it to a new JSON file.
    """
    try:
        with open(input_json_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
    except FileNotFoundError:
        print(f"Error: Input file not found at {input_json_path}")
        return False
    except json.JSONDecodeError:
        print(f"Error: Invalid JSON in input file {input_json_path}")
        return False
    except Exception as e:
        print(f"Error: An unexpected error occurred: {type(e).__name__} - {e}")
        return False

    pos_data = {}
    pos_pattern = re.compile(r'Pos:\s*([\s\S]*?)(?:,\n|$)')  # Regex pattern to extract the Pos value

    for image_filename, image_data in data.items():
        if 'parameters' in image_data and isinstance(image_data['parameters'], str):
            match = pos_pattern.search(image_data['parameters'])
            if match:
                pos_value = match.group(1).strip()  # Get the matched Pos value and strip whitespace
                pos_data[image_filename] = pos_value
            else:
                print(f"Warning: No 'Pos' key found in parameters for {image_filename}")
                pos_data[image_filename] = ""  # Üres string, ha nincs 'Pos'
        else:
            print(f"Warning: No 'parameters' string found for {image_filename}")
            pos_data[image_filename] = ""  # Üres string, ha nincs 'parameters'

    try:
        with open(output_json_path, 'w', encoding='utf-8') as f:
            json.dump(pos_data, f, indent=2)  # Szebb JSON formázás
    except Exception as e:
        print(f"Error: Could not write to output file {output_json_path}: {e}")
        return False

    return True

if __name__ == '__main__':
    if len(sys.argv) != 3:
        print("Usage: python3 extract_pos.py <input_json_file> <output_json_file>")
        sys.exit(1)

    input_file = "/content/drive/MyDrive/Image/png_metadata_results.json"
    output_file = "/content/drive/MyDrive/Image/desc.json"

    if extract_pos_from_parameters(input_file, output_file):
        print(f"Successfully extracted 'Pos' values to {output_file}")
    else:
        print("Extraction failed.")

## JSON előkészítése

In [None]:
import json
from datetime import datetime
from transformers import pipeline
from google.colab import drive  # Import for Google Drive integration

from huggingface_hub import login
login(token="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")

# Mount Google Drive
drive.mount('/content/drive')

# Define the input and output directories
input_file_path = "/content/drive/MyDrive/Image/desc.json"
output_directory = "/content/drive/MyDrive/Image"

# Load input data from desc.json
try:
    with open(input_file_path, "r", encoding="utf-8") as input_file:
        data = json.load(input_file)
except FileNotFoundError:
    print(f"Error: The file {input_file_path} was not found.")
    data = {}
except json.JSONDecodeError:
    print(f"Error: The file {input_file_path} is not valid JSON.")
    data = {}

if not data:
    print("No data to process. Exiting.")
else:
    # Language model for rewriting descriptions
    rewriter = pipeline("text2text-generation", model="t5-base")

    # Keyword extraction model (KeyBART)
    keyword_extractor = pipeline("text2text-generation", model="bloomberg/KeyBART")

    # Process data
    processed_data = {}
    for filename, description in data.items():
        # Clean up the description: remove / and styles, capitalize sentences
        cleaned_description = ". ".join([part.strip().capitalize() for part in description.split("/") if part.strip()])
        
        # Generate SEO-friendly title
        if "woman" in cleaned_description.lower():
            seo_title = "Photorealistic Woman in Urban Autumn Setting | High-Resolution Artwork"
            cta_text = "❤️ Discover this stunning artwork and bring elegance to your space today!"
        else:
            seo_title = "Lifelike White Cat with Bright Green Eyes | Detailed Digital Illustration"
            cta_text = "💚 Admire the charm of this adorable feline masterpiece and make it yours now!"

        # Rewrite description using language model
        rewritten_description = rewriter(cleaned_description, max_length=800, truncation=True)[0]['generated_text']
        
        # Post-process the rewritten description: ensure proper capitalization and no repetitions
        final_description_parts = []
        seen_sentences = set()
        for sentence in rewritten_description.split("."):
            sentence = sentence.strip()
            if sentence and sentence not in seen_sentences and len(sentence) > 10:  # Exclude short or duplicate sentences
                seen_sentences.add(sentence)
                final_description_parts.append(sentence.capitalize())
        
        # Add missing details from original description if needed
        original_details = [part.strip().capitalize() for part in cleaned_description.split(".") if part.strip() not in seen_sentences]
        final_description_parts.extend(original_details[:2])  # Add up to 2 missing details
        
        # Combine rewritten description with character limit
        final_description = []
        current_length = 0
        for sentence in final_description_parts:
            if current_length + len(sentence) + 1 <= 500:  # +1 for the period
                final_description.append(sentence)
                current_length += len(sentence) + 1
            else:
                break

        final_description = ". ".join(final_description).strip()

        # Extract keywords/tags using the KeyBART model
        keywords = keyword_extractor(final_description, max_length=50, truncation=True)[0]['generated_text'].split(", ")
        tags = [tag.strip() for tag in keywords if tag.strip()]  # Remove empty tags
        tags = tags[:5]  # Limit to 5 tags

        processed_data[filename] = {
            "seo_title": seo_title,
            "description": final_description,
            "cta": cta_text,  # Add CTA as a separate field with emoji
            "tags": tags,  # Add automatically generated tags
            "processing_date": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        }

    # Save to JSON file in the specified directory with UTF-8 encoding
    output_file_path = f"{output_directory}/processed_art_data.json"
    with open(output_file_path, "w", encoding="utf-8") as json_file:
        json.dump(processed_data, json_file, indent=4, ensure_ascii=False)

    print(f"JSON file has been created successfully at: {output_file_path}")