Questão 1. Noções básicas de arquivos: leitura e escrita

In [None]:
def reverse_lines(infile, outfile):
    with open(infile, 'r') as fin, open(outfile, 'w') as fout:
        for line in fin:
            line = line.rstrip('\n')
            reversed_line = line[::-1]
            fout.write(reversed_line + '\n')

input_file = 'input.txt'
output_file = 'output.txt'
reverse_lines(input_file, output_file)

A Opção 1 é preferível quando você precisa manipular o arquivo como um todo (por exemplo, trocar a ordem das linhas) e o arquivo não é muito grande. Já a Opção 2 é preferível quando o arquivo pode ser muito extenso ou quando não há necessidade de processar várias linhas ao mesmo tempo.

In [5]:
import random
import string

def generate_test(filename, nlines, nchars):
    if nlines < 0 or nchars < 0:
        print("Erro: nlines e nchars devem ser inteiros não negativos.")
        return
    
    with open(filename, 'w') as f:
        for _ in range(nlines):
            line = ''.join(random.choice(string.ascii_lowercase) for _ in range(nchars))
            f.write(line + '\n')

generate_test("teste.txt", 5, 10)
print("Arquivo 'teste.txt' gerado com 5 linhas de 10 caracteres cada.")


Arquivo 'teste.txt' gerado com 5 linhas de 10 caracteres cada.


In [6]:
import time
import random
import string

def generate_test(filename, nlines, nchars):
    if nlines < 0 or nchars < 0:
        print("Erro")
        return
    with open(filename, 'w') as f:
        for _ in range(nlines):
            line = ''.join(random.choice(string.ascii_lowercase) for _ in range(nchars))
            f.write(line + '\n')

def revlines_storage(infile, outfile):
    with open(infile, 'r') as fin:
        lines = fin.readlines()
    with open(outfile, 'w') as fout:
        for line in lines:
            fout.write(line.rstrip('\n')[::-1] + '\n')

def revlines_direct(infile, outfile):
    with open(infile, 'r') as fin, open(outfile, 'w') as fout:
        for line in fin:
            fout.write(line.rstrip('\n')[::-1] + '\n')

def time_trial(infile, nlines, nchars):
    generate_test(infile, nlines, nchars)
    start = time.time()
    revlines_storage(infile, 'storage_output.txt')
    t1 = time.time() - start
    start = time.time()
    revlines_direct(infile, 'direct_output.txt')
    t2 = time.time() - start
    return (t1, t2)

t1, t2 = time_trial('teste.txt', 10000, 100)
print(t1, t2)


0.006590127944946289 0.0036869049072265625


Uma possível explicação para a diferença de desempenho entre revlines_storage e revlines_direct está no uso de memória. Na função revlines_storage, todas as linhas são lidas e armazenadas em uma lista antes de serem escritas no arquivo de saída, o que pode exigir mais memória para arquivos grandes e introduzir overhead no gerenciamento dessa lista. Já em revlines_direct, cada linha é processada e escrita imediatamente, dispensando a necessidade de manter todas as linhas em memória ao mesmo tempo, o que geralmente torna essa abordagem mais rápida (ou mais escalável) quando o arquivo é grande.

In [2]:
import string

def count_bigrams(infile, bigrams):
    try:
        with open(infile, 'r') as f:
            for line in f:
                line = line.lower()
                for c in string.punctuation:
                    line = line.replace(c, "")
                words = line.split()
                for i in range(len(words) - 1):
                    pair = (words[i], words[i + 1])
                    bigrams[pair] = bigrams.get(pair, 0) + 1
    except OSError:
        print("Erro ao abrir o arquivo:", infile)

bigrams = {}
count_bigrams("poema.txt", bigrams)
for pair, count in bigrams.items():
    print(pair, count)


('half', 'a') 3
('a', 'league') 3
('league', 'half') 1
('league', 'onward') 1
('all', 'in') 1
('in', 'the') 1
('the', 'valley') 1
('valley', 'of') 1
('of', 'death') 1
('rode', 'the') 1
('the', 'six') 1
('six', 'hundred') 1


In [4]:
class Vector:
    def __init__(self, dimension, values=None):
        if not isinstance(dimension, int) or dimension <= 0:
            raise ValueError("A dimensão deve ser um inteiro positivo.")

        if values is None:
            self.values = [0] * dimension
        else:
            if not isinstance(values, (list, tuple)):
                raise TypeError("Os valores devem ser uma lista ou tupla de números.")

            if len(values) != dimension:
                raise ValueError("A dimensão e o número de entradas fornecidas devem ser iguais.")

            if not all(isinstance(x, (int, float)) for x in values):
                raise TypeError("Todos os elementos da lista devem ser inteiros ou floats.")

            self.values = list(values)

        self.dimension = dimension

    def __repr__(self):
        return f"Vector(dimension={self.dimension}, values={self.values})"
    
v1 = Vector(3)  # Cria um vetor [0, 0, 0]
print(v1)

v2 = Vector(3, [1, 2, 3])  # Cria um vetor [1, 2, 3]
print(v2)

v3 = Vector(2, (4.5, -2.3))  # Cria um vetor [4.5, -2.3]
print(v3)

# Exemplo de erro:
# v4 = Vector(-1)  # ValueError: A dimensão deve ser um inteiro positivo.
# v5 = Vector(3, [1, 2])  # ValueError: A dimensão e o número de entradas fornecidas devem ser iguais.
# v6 = Vector(3, [1, "a", 3])  # TypeError: Todos os elementos da lista devem ser inteiros ou floats.

Vector(dimension=3, values=[0, 0, 0])
Vector(dimension=3, values=[1, 2, 3])
Vector(dimension=2, values=[4.5, -2.3])
