In [19]:
import os
from collections import defaultdict, Counter

def extract_values_and_notes(directory, target_property="HUB"):
    """
    Extrai os valores de uma propriedade específica de cabeçalhos Markdown e os arquivos associados.

    Args:
        directory (str): Caminho para a pasta onde estão os arquivos Markdown.
        target_property (str): Propriedade alvo para extração. Default é 'HUB'.

    Returns:
        dict: Um dicionário com os valores da propriedade como chave e uma lista de nomes de arquivos como valor.
    """
    property_to_notes = defaultdict(list)

    for root, _, files in os.walk(directory):
        for file in files:
            if file.endswith(".md"):
                file_path = os.path.join(root, file)
                with open(file_path, 'r', encoding='utf-8') as f:
                    content = f.read()

                # Procurar o cabeçalho entre os dois primeiros ---
                if content.startswith("---"):
                    end_of_header = content.find("---", 3)  # Encontrar o fechamento do cabeçalho
                    if end_of_header != -1:
                        header = content[3:end_of_header].strip()
                        # Verificar e coletar valores da propriedade alvo
                        inside_property = False
                        for line in header.splitlines():
                            line = line.strip()
                            if line.startswith(f"{target_property}:"):
                                inside_property = True
                            elif inside_property:
                                if line.startswith("-"):
                                    property_value = line.strip("- ").strip()
                                    property_to_notes[property_value].append(file)
                                elif not line or line.startswith("#"):  # Fim do bloco
                                    inside_property = False

    return property_to_notes

def count_unique_values(property_to_notes):
    """
    Conta os valores únicos da propriedade especificada.

    Args:
        property_to_notes (dict): Dicionário de valores da propriedade com listas de arquivos associados.

    Returns:
        dict: Contagem de valores únicos.
    """
    return {prop: len(notes) for prop, notes in property_to_notes.items()}

def extract_header_values_from_markdown(directory):
    """
    Extrai valores de todas as propriedades presentes nos cabeçalhos YAML de arquivos Markdown.

    Args:
        directory (str): Caminho para a pasta onde estão os arquivos Markdown.

    Returns:
        dict: Um dicionário onde as chaves são as propriedades e os valores são listas de seus respectivos valores extraídos.
    """
    header_values = defaultdict(list)

    for root, _, files in os.walk(directory):
        for file in files:
            if file.endswith(".md"):
                file_path = os.path.join(root, file)
                with open(file_path, 'r', encoding='utf-8') as f:
                    content = f.read()

                # Procurar o cabeçalho entre os dois primeiros ---
                if content.startswith("---"):
                    end_of_header = content.find("---", 3)  # Encontrar o fechamento do cabeçalho
                    if end_of_header != -1:
                        header = content[3:end_of_header].strip()
                        # Processar o cabeçalho linha a linha
                        current_key = None
                        for line in header.splitlines():
                            line = line.strip()
                            if ":" in line:  # Nova propriedade
                                key, value = map(str.strip, line.split(":", 1))
                                current_key = key
                                if value:  # Valor inline
                                    header_values[key].append(value)
                            elif line.startswith("-") and current_key:  # Lista de valores
                                value = line.strip("- ").strip()
                                header_values[current_key].append(value)

    return header_values

def count_all_unique_values(header_values):
    """
    Conta os valores únicos para cada propriedade.

    Args:
        header_values (dict): Dicionário com propriedades e seus valores extraídos.

    Returns:
        dict: Um dicionário onde as chaves são as propriedades e os valores são Counter com contagem de valores únicos.
    """
    return {key: Counter(values) for key, values in header_values.items()}

# Configuração do diretório onde estão os arquivos Markdown
directory_to_scan = r"C:\\Users\\nonak\\OneDrive\\Área de Trabalho\\ObsidianNotesF"

# Extrair valores de 'HUB' e arquivos associados
property_to_notes = extract_values_and_notes(directory_to_scan, target_property="HUB")
unique_property_counts = count_unique_values(property_to_notes)

# Exibir os resultados de 'HUB'
print("Contagem de valores únicos da propriedade 'HUB':")
for prop, count in unique_property_counts.items():
    print(f"{prop}: {count}")

print("\n -------------------------------------------------------------------------------- \n")


# print("\nArquivos associados a cada valor de 'HUB':")
# for prop, notes in property_to_notes.items():
#     print(f"\n{prop}:")
#     for note in notes:
#         print(f"  - {note}")

print("\n -------------------------------------------------------------------------------- \n")

# Extrair valores de cabeçalhos gerais e contar valores únicos
header_values = extract_header_values_from_markdown(directory_to_scan)
unique_value_counts = count_all_unique_values(header_values)

print("\n -------------------------------------------------------------------------------- \n")
# Exibir os resultados gerais
print("\nContagem de valores únicos por propriedade:")
for key, counter in unique_value_counts.items():
    print(f"\nPropriedade: {key}")
    for value, count in counter.items():
        print(f"  {value}: {count}")


Contagem de valores únicos da propriedade 'HUB':
"[[hub-pkm]]": 16
"[[hub-aoc]]": 58
"[[hub-tec]]": 179
"[[hub-ect]]": 11
"[[hub-gcti]]": 16
"[[hub-so]]": 73
"[[hub-psyche]]": 4
"[[hub-mkt]]": 74
"[[hub-growth]]": 24
"[[hub-copy]]": 28
"[[hub-python]]": 251
"[[hub-filosofia]]": 2
"[[hub-data-visualization]]": 50
"[[hub-tratamento-de-dados]]": 70
"[[hub-ml-models]]": 26
"[[hub-statistic]]": 79
"[[hub-logic]]": 21
"[[hub-hypothesis-testing]]": 19
"[[hub-math]]": 27
"[[hub-bi]]": 6
"[[hub-probabilidade]]": 30
learning/review: 6
"[[hub-descriptive-analysis]]": 19
"[[hub-sql]]": 16
"[[hub-git]]": 1
"[[hub-llm]]": 1
"[[hub-writing]]": 11
"[[hub-collectors]]": 34
"[[hub-work]]": 36
learning: 3
"[[]]": 3
"[[hub-codigomiado]]": 1
"[[hub-social-midia]]": 29
"[[hub-design]]": 7
thinking: 1
tocomplete: 1
"[[hub-thinking]]": 9

 -------------------------------------------------------------------------------- 


 -------------------------------------------------------------------------------- 


 --