**Questão 1. Noções básicas de arquivos: leitura e escrita**

Número 1

In [1]:
# Aqui crio e escrevo o arquivo de entrada (infile)
with open("infile.txt", "w") as f:
    f.write("hello\n")
    f.write("tacocat\n")
    f.write("1 2 3 4 5\n")

In [2]:
# Crio a função para inverter uma string passada como argumento
def reverse_string(s):
    return s[::-1]  # Vai retornar a string invertida utilizando slicing

In [3]:
# Função criada que lê cada linha do arquivo de entrada, inverte seu conteúdo e grava no arquivo de saída
def reverse_lines(infile, outfile):
    # Vai verificar se os parâmetros são strings
    if not isinstance(infile, str) or not isinstance(outfile, str):
        raise TypeError("Os nomes dos arquivos devem ser strings!")

    try:
        # Aqui eu abro o arquivo de entrada para leitura
        with open(infile, "r") as entrada:
            # Estou abrindo o arquivo de saída para escrita (sobrescreverá se existir)
            with open(outfile, "w") as saida:
                # Iterando sobre cada linha no arquivo de entrada
                for linha in entrada:
                    # Vai remover a quebra de linha do final
                    linha_limpa = linha.rstrip('\n')
                    # Vai inverter a linha
                    linha_invertida = reverse_string(linha_limpa)
                    # Vai escrever a linha invertida no arquivo de saída com quebra de linha ao final
                    saida.write(linha_invertida + '\n')
    except Exception as e:
        print(f"Ocorreu um erro: {e}")

In [4]:
# Vai executar a função com os arquivos especificados
reverse_lines("infile.txt", "outfile.txt")

# Vai abrir e exibir o conteúdo do arquivo de saída para verificar o resultado
with open("outfile.txt", "r") as f:
    conteudo = f.read()
    print(conteudo)

olleh
tacocat
5 4 3 2 1



**Número 2: Há pelo menos duas maneiras de implementar reverse_lines**

In [5]:
# Opção 1 (revlines_storage) - lê todas as linhas primeiro e depois escreve

# Criei a função auxiliar para inverter strings
def reverse_string(s):
    return s[::-1]

# Aqui lê todas as linhas, armazena em lista e depois grava invertidas
def revlines_storage(infile, outfile):
    # Vai verificar o tipo dos argumentos
    if not isinstance(infile, str) or not isinstance(outfile, str):
        raise TypeError("Os argumentos devem ser strings com nomes dos arquivos.")

    try:
        # Irá ler todas as linhas do arquivo de entrada e armazená-las em uma lista
        with open(infile, "r") as entrada:
            line_list = entrada.readlines()

        # Vai abrir arquivo de saída para escrita
        with open(outfile, "w") as saida:
            # Vai iterar sobre a lista, invertendo cada linha e escrevendo no arquivo de saída
            for linha in line_list:
                linha_invertida = reverse_string(linha.rstrip('\n'))
                saida.write(linha_invertida + '\n')

    except Exception as e:
        print(f"Erro ocorrido: {e}")


In [6]:
# Opção 2 (revlines_direct) - lê e escreve linha por linha diretamente

# Cria a função para auxiliar para inverter strings
def reverse_string(s):
    return s[::-1]

# Vai implementar o que lê e imediatamente grava cada linha invertida (mais eficiente)
def revlines_direct(infile, outfile):
    # Vai verificar de tipo dos argumentos
    if not isinstance(infile, str) or not isinstance(outfile, str):
        raise TypeError("Os argumentos devem ser strings com nomes dos arquivos.")

    try:
        # Vai abrir o arquivo de entrada e saída ao mesmo tempo
        with open(infile, "r") as entrada, open(outfile, "w") as saida:
            # Vai ler, inverter e escrever cada linha individualmente
            for linha in entrada:
                linha_invertida = reverse_string(linha.rstrip('\n'))
                saida.write(linha_invertida + '\n')

    except Exception as e:
        print(f"Erro ocorrido: {e}")

Motivo para preferir a Opção 2:
a Opção 2 (revlines_direct) é preferível em arquivos muito grandes.
Ela utiliza muito menos memória porque não precisa armazenar todo o conteúdo do arquivo em uma lista intermediária (line_list).
Assim, a Opção 2 é mais eficiente para arquivos grandes, pois realiza a inversão e escrita linha por linha.

In [7]:
# Primeiro, eu crio um arquivo de entrada para teste
with open("infile.txt", "w") as f:
    f.write("hello\n")
    f.write("tacocat\n")
    f.write("1 2 3 4 5\n")

# Testo a Opção 1
revlines_storage("infile.txt", "outfile_storage.txt")
print("Conteúdo usando revlines_storage:")
with open("outfile_storage.txt", "r") as f:
    print(f.read())

# Testo a Opção 2
revlines_direct("infile.txt", "outfile_direct.txt")
print("Conteúdo usando revlines_direct:")
with open("outfile_direct.txt", "r") as f:
    print(f.read())

Conteúdo usando revlines_storage:
olleh
tacocat
5 4 3 2 1

Conteúdo usando revlines_direct:
olleh
tacocat
5 4 3 2 1



**Número 3**

In [8]:
import random
import string

# Crio a função para gerar arquivo de teste com linhas aleatórias
def generate_test_file(filename, nlines, nchars):
    # Vou verificar se os parâmetros são válidos
    if not isinstance(filename, str):
        raise TypeError("O nome do arquivo deve ser uma string.")

    if not isinstance(nlines, int) or not isinstance(nchars, int):
        raise TypeError("Os parâmetros nlines e nchars devem ser inteiros.")

    if nlines < 0 or nchars < 0:
        raise ValueError("Os parâmetros nlines e nchars não podem ser negativos.")

    # Vou abrir o arquivo para escrita
    with open(filename, "w") as f:
        for _ in range(nlines):
            # Vou gerar caracteres aleatórios para a linha
            linha = ''.join(random.choice(string.ascii_lowercase) for _ in range(nchars))
            # Vou escrever a linha gerada no arquivo
            f.write(linha + '\n')

In [9]:
# Vou gerar o arquivo com 5 linhas, cada linha com 8 caracteres aleatórios
generate_test_file("arquivo_teste.txt", 5, 8)

# Vou exbir o conteúdo do arquivo gerado para verificação
with open("arquivo_teste.txt", "r") as f:
    print(f.read())

opgvswiv
evrbipdw
yhvgxnrp
wagddqvj
tjuelozy



**Número 4**

In [10]:
import time

def time_trial(nlines, nchars):
    # (a) Vou gerar o arquivo de teste
    test_filename = "test_file.txt"
    generate_test_file(test_filename, nlines, nchars)

    # (b) Vou medir o tempo de revlines_storage
    storage_output = "storage_output.txt"
    start_time_storage = time.time()
    revlines_storage(test_filename, storage_output)
    end_time_storage = time.time()
    t1 = end_time_storage - start_time_storage

    # (c) Olho tempo de revlines_direct por medição
    direct_output = "direct_output.txt"
    start_time_direct = time.time()
    revlines_direct(test_filename, direct_output)
    end_time_direct = time.time()
    t2 = end_time_direct - start_time_direct

    # (d) Vou retornar os tempos como tupla
    return (t1, t2)

In [11]:
tempos = time_trial(1000, 500)  # 1000 linhas, cada uma com 500 caracteres, mas posso mudar esses valors
print(f"Tempo revlines_storage: {tempos[0]} segundos")
print(f"Tempo revlines_direct: {tempos[1]} segundos")

Tempo revlines_storage: 0.005726814270019531 segundos
Tempo revlines_direct: 0.004295825958251953 segundos


**Número 5**

In [12]:
# Testei com valores pequenos
print("Teste com arquivo pequeno:")
t_small = time_trial(100, 50)
print(f"revlines_storage: {t_small[0]:.6f}s, revlines_direct: {t_small[1]:.6f}s\n")

# Testei com valores intermediários
print("Teste com arquivo intermediário:")
t_medium = time_trial(5000, 1000)
print(f"revlines_storage: {t_medium[0]:.6f}s, revlines_direct: {t_medium[1]:.6f}s\n")

# Testei com valores grandes
print("Teste com arquivo grande:")
t_large = time_trial(20000, 5000)
print(f"revlines_storage: {t_large[0]:.6f}s, revlines_direct: {t_large[1]:.6f}s\n")

Teste com arquivo pequeno:
revlines_storage: 0.000701s, revlines_direct: 0.000522s

Teste com arquivo intermediário:
revlines_storage: 0.074679s, revlines_direct: 0.100947s

Teste com arquivo grande:
revlines_storage: 0.538272s, revlines_direct: 0.560745s



**Explicação esperada sobre a diferença:**


A função revlines_storage será mais lenta à medida que o tamanho do arquivo aumentar, pois precisa carregar todas as linhas em uma lista antes de gravá-las invertidas. Esse processo consome muita memória e tempo com arquivos grandes.

A função revlines_direct terá desempenho melhor porque grava as linhas invertidas diretamente após lê-las, sem precisar armazenar todas em memória. Isso a torna mais eficiente, especialmente em arquivos maiores.

**Exemplo de explicação da diferença observada**:


A diferença entre as duas implementações aumenta conforme o arquivo cresce. A função revlines_storage fica cada vez mais lenta pois usa memória adicional para armazenar todas as linhas, enquanto revlines_direct usa um método eficiente e de memória constante, lidando com uma linha por vez. Por isso, revlines_direct demonstra ser preferível em termos de eficiência para arquivos grandes.

**Questão 2. Contagem de bigramas de palavras**

In [13]:
import string

# Aqui crio a função para contar bigramas em um arquivo

def count_bigrams_in_file(filename):
    # Vou verificar o tipo de argumento
    if not isinstance(filename, str):
        raise TypeError("O nome do arquivo deve ser uma string!")

    # Vou inicializar um dicionário para armazenar as contagens dos bigramas
    bigrams_counts = {}

    try:
        # Vou abrir o arquivo fornecido para leitura
        with open(filename, 'r') as file:
            # Vou ler todo o conteúdo do arquivo, converte para minúsculas
            text = file.read().lower()

            # Vou remover a pontuação usando string.punctuation
            for punct in string.punctuation:
                text = text.replace(punct, ' ')

            # Vou dividir o texto em palavras
            words = text.split()

            # Loop através das palavras para formar os bigramas
            for i in range(len(words) - 1):
                bigram = (words[i], words[i + 1])
                # Vou incrementar a contagem do bigrama no dicionário
                if bigram in bigrams_counts:
                    bigrams_counts[bigram] += 1
                else:
                    bigrams_counts[bigram] = 1

    # Vou tratar erro se não conseguir abrir o arquivo
    except FileNotFoundError:
        raise FileNotFoundError("Não foi possível abrir o arquivo fornecido!")

    # Vou retornar o dicionário de contagem dos bigramas
    return bigrams_counts

In [14]:
# Vou criar o arquivo de teste com o poema fornecido no enunciado
with open("poema.txt", "w") as f:
    f.write("""Half a league, half a league,
Half a league onward,
All in the valley of Death
Rode the six hundred.""")

# Vou chamar a função e imprimir resultado
bigrams = count_bigrams_in_file("poema.txt")
for bigram, count in bigrams.items():
    print(f"{bigram}: {count}")

('half', 'a'): 3
('a', 'league'): 3
('league', 'half'): 2
('league', 'onward'): 1
('onward', 'all'): 1
('all', 'in'): 1
('in', 'the'): 1
('the', 'valley'): 1
('valley', 'of'): 1
('of', 'death'): 1
('death', 'rode'): 1
('rode', 'the'): 1
('the', 'six'): 1
('six', 'hundred'): 1
