# Projeto de Programação Python
### Autor: Alan G. W. Gayger
- Bibliografia utilizada como base para o projeto:
    - Automate the Boring Stuff with Python (capítulos 7 e 8) - livro com dezenas de projetos práticos, muito recomendado para inciantes.
    - Projeto inspirado na sugestão de trabalho aplicado do capítulo 7: 
        - Regex Search - Write a program that opens all .txt files in a folder and searches for any line that matches a user-supplied regular expression. The results should be printed to the screen.

# Título: Caçador de Palavras

In [1]:
# Importando pacotes

import os
import re
import pyperclip
import docx # tem que ser instalado por fora - (é só ir no terminal e escrever pip install python-docx)

In [2]:
# Função para ler documento Word

def leWord(doc_word):
    """ 
    Retorna uma string (texto) do texto que está dentro do documento Word (no caminho inserido)
    doc_word (str): recebe uma string (texto) com o caminho de um documento Word (.docx)
    """
    
    
    doc_Word = docx.Document(doc_word)   # lê arquivo Word
    texto_word = []
    for paragrafo in doc_Word.paragraphs:  
        texto_word.append(paragrafo.text)  # adiciona o texto parágrafo por parágrafo em texto_word
    return '\n'.join(texto_word)   # junta parágrafos e forma um texto só, o qual é retornado pela função

In [3]:
# Função para abrir documentos Word e txt

def abreDocumento(str_documento):
    """
    Retorna uma string (texto) do texto que está dentro de um documento Word (.docx) ou "Bloco de Notas" (.txt) no caminho inserido
    str_documento (str): recebe uma string (texto) com o caminho de um documento Word (.docx) ou "Bloco de Notas (.txt)"
    """
    
    
    arquivo_conteudo = ""  
    arquivo_open = open(str_documento, mode='r', encoding='utf-8')
    
    if str_documento.endswith(".txt"): 
        arquivo_conteudo = arquivo_open.read()  # abre arquivos de Bloco de Notas
    elif str_documento.endswith(".docx"):
        arquivo_conteudo = leWord(str_documento) # abre arquivos em Word com função leWord
    arquivo_open.close()  # fecha arquivo - muito importante lembrar de fechar o arquivo após abrir, pra não bugar scripts/códigos
    
    return arquivo_conteudo

- Exemplos Caminhos:
    - C:\Users\Alan\Desktop\Amplia\Amplia 2021
    - C:\Users\Alan\Desktop\Amplia\Amplia 2021\Investimentos\Tarefa investimentos..docx
    

In [4]:
# Função para repassar valores de dicionário pro clipboard

def JogaClipboard(dicio_pastas):
    """
    Repassa string (texto) com keys e values pro clipboard (área de transferência)
    dicio_pastas (dict): recebe o dicionário cujo conteúdo será repassado pro clipboard
    """
    
    
    str_clipboard = ""
    for keys, values in dicio_pastas.items():   
        str_clipboard += "\n" + str(keys) + "\n"   # adiciona keys a uma string (texto)
        for value in values:
            str_clipboard += "\n" + str(value) + "\n"   # adiciona cada um dos itens em cada um dos values a string
        str_clipboard += "\n" + ("=*" * 40) + "\n"
    pyperclip.copy(str_clipboard)   # manda texto pro clipboard (area de transferência)

- Exemplo de Dicionário:
    - {'C:\\Users\\Alan\\Desktop\\Amplia\\Amplia 2021\\Cursos Hashtag\\Cursos Hashtag.txt': ['n4033',
  'n4033',
  'n4033'],
 'C:\\Users\\Alan\\Desktop\\Amplia\\Amplia 2021\\Cursos Hashtag\\oii.docx': ['Hhhh0000'],
 'C:\\Users\\Alan\\Desktop\\Amplia\\Amplia 2021\\Endowment\\Estruturação Endowment.txt': ['Alan1234'],
 'C:\\Users\\Alan\\Desktop\\Amplia\\Amplia 2021\\Investimentos\\Estruturação Investimentos.docx': ['Alan2222'],
 'C:\\Users\\Alan\\Desktop\\Amplia\\Amplia 2021\\Investimentos\\Tarefa investimentos..docx': ['Alan9999'],
 'C:\\Users\\Alan\\Desktop\\Amplia\\Amplia 2021\\Outros documentos\\Cultura do Feedback.txt': ['Labb2222',
  'alan3456']}

In [5]:
# Printa keys e values de um dicionário

def PrintaPadrões(dicio_pastas):
    """
    Printa keys e values de um dicionário de maneira organizada
    dicio_pastas (dict): dicionário a ser printado
    """
    
    
    for keys, values in dicio_pastas.items():
        print(f'\n{keys}\n{values}\n')   # printa keys e values com uma linha em branco entre cada um


In [6]:
# Função para abrir todos os documentos dentro de uma pasta e suas subpastas e verificar se o padrão de string desejado encontra-se em um dos documentos

def caçaPalavras(int_rodadas, str_caminho, str_regex):
    """
    Retorna os padrões encontrados nos documentos dentro das pastas dos caminhos inseridos
    int_rodadas (int): recebe número de pastas que computador irá vasculhar (1 - vasculha a pasta/arquivo em str_caminho)
    str_caminho (str): recebe um caminho para ser vasculhado (pasta ou arquivo)
    str_regex (str): recebe uma string (texto) com um padrão linguístico (RegEx) a ser procurado nos documentos
    """
    dicio_pastas = {}
    pasta_1 = [str(str_caminho)]    # recebe caminho (pasta ou arquivo) indicado
    pasta_2 = []  
    c = 0 
    rodadas = int_rodadas + 1

    while c < rodadas:   # conta quantas repetições devem ser realizadas (quantos caminhos a dentro devem ser analisados)
        for p in pasta_1:         # para cada um dos caminhos em pasta_1, verifica se ele é correspondente a um arquivo ou a uma pasta
            if os.path.isfile(p): # se é arquivo de texto:
                try:
                    arquivo_conteudo = abreDocumento(p)
                    varRegex = re.compile(fr'{str_regex}')    # cria variável que analisa o padrão da RegEx
                    mo = varRegex.search(fr'{str(arquivo_conteudo)}')    # verifica se conteúdo do texto do arquivo fecha com a RegEx
                    if mo != None:
                        dicio_pastas[p] = varRegex.findall(fr'{str(arquivo_conteudo)}')   # se o conteúdo fecha, então uma key é criada no dicionário com o caminho do arquivo
                except Exception as e:                                                    # e um value com uma lista com todos os padrões que fecharam com o da RegEx inserida
                    pass

            elif os.path.isdir(p):            # se é pasta
                for pasta in os.listdir(p):   # verifica todos os documentos que estão dentro dessa pasta
                    pasta_2.append(p + f'\\{pasta}')   # adiciona todos os caminhos dessses documentos a pasta_2

        pasta_1 = pasta_2[:] # pasta_1 recebe todos os caminhos que estavam na pasta_2
        pasta_2 = []    # pasta_2 é esvaziada para receber mais pastas na próxima rodada
        c += 1          # contador de repetições

    PrintaPadrões(dicio_pastas)
    JogaClipboard(dicio_pastas)

    return dicio_pastas

- Expressões Regulares (RegEx):
    - Classes de caracteres
        - \d - digitos
        - \D - não digitos
        - \w - letra, número, digito, underscore
        - \W - não letra, número, digito, underscore
        - \s - espaço, tab, newline
        - \S - não espaço, tab, newline
        - (\*) - recebe tudo menos nova linha
        - {a} - siginifica que ocorre "a vezes"