In [12]:
# Teste para verificar se o caminho para o arquivo está correto

import os

file_path = r"C:\Users\Administrador\OneDrive - Smart Travel S.A\Área de Trabalho\Compass\Sprint 3 - Python\Exercicio II\actors.csv"

# Verifca se o caminho está correto e retorna com aviso

if os.path.exists(file_path):
    print("Arquivo encontrado!")
else:
    print("Arquivo não encontrado. :( ")


Arquivo encontrado!


In [13]:
# Caminho do arquivo salvo localmente
file_path = r"C:\Users\Administrador\OneDrive - Smart Travel S.A\Área de Trabalho\Compass\Sprint 3 - Python\Exercicio II\actors.csv"

# Lendo o arquivo
with open(file_path, 'r') as file:
    lines = file.readlines()

# Mostrando as primeiras linhas
print(lines[:5])


['Actor,Total Gross,Number of Movies,Average per Movie,#1 Movie,Gross\n', 'Harrison Ford,4871.70 ,41,118.80 ,Star Wars: The Force Awakens,936.70 \n', 'Samuel L. Jackson,4772.80 ,69,69.20 ,The Avengers,623.40 \n', 'Morgan Freeman,4468.30 ,61,73.30 ,The Dark Knight,534.90 \n', 'Tom Hanks,4340.80 ,44,98.70 ,Toy Story 3,415.00 \n']


In [14]:
import os
from collections import Counter

# Caminho do arquivo
file_path = r"C:\Users\Administrador\OneDrive - Smart Travel S.A\Área de Trabalho\Compass\Sprint 3 - Python\Exercicio II\actors.csv"

# Diretório onde os arquivos devem ser salvos
output_dir = os.path.dirname(file_path)

def load_data_correctly(file_path):
    """Carrega e limpa os dados do arquivo CSV, garantindo que as colunas sejam tratadas corretamente."""
    with open(file_path, 'r') as file:
        lines = file.readlines()
    
    headers = lines[0].strip().split(',')
    data = []
    for line in lines[1:]:
        # Dividir linha considerando os valores que podem conter vírgulas erradas ou espaços extras
        parts = [part.strip() for part in line.split(',')]
        if len(parts) == len(headers):  # Garante que há consistência nos campos
            data.append(dict(zip(headers, parts)))
    return data

def save_to_file(filename, content):
    """Salva o conteúdo em um arquivo no mesmo diretório do arquivo actors.csv."""
    output_path = os.path.join(output_dir, filename)  # Junta o diretório com o nome do arquivo
    with open(output_path, 'w', encoding='utf-8') as file:
        file.write(content)

# Recarregar os dados com o método atualizado
data = load_data_correctly(file_path)

# Etapa 1: Ator/atriz com maior número de filmes
most_movies = max(data, key=lambda x: int(x['Number of Movies'].strip()))
etapa_1_result = f"{most_movies['Actor']} - {most_movies['Number of Movies']}"

# Salvar resultado da Etapa 1
save_to_file('etapa-1.txt', etapa_1_result)

# Etapa 2: Média de receita de bilheteria dos filmes (coluna Gross)
gross_values = [float(row['Gross'].strip()) for row in data]
gross_average = sum(gross_values) / len(gross_values)
etapa_2_result = f"{gross_average:.2f}"

# Salvar resultado da Etapa 2
save_to_file('etapa-2.txt', etapa_2_result)

# Etapa 3: Ator/atriz com maior média de receita por filme
highest_avg = max(data, key=lambda x: float(x['Average per Movie'].strip()))
etapa_3_result = f"{highest_avg['Actor']} - {highest_avg['Average per Movie']}"

# Salvar resultado da Etapa 3
save_to_file('etapa-3.txt', etapa_3_result)

# Etapa 4: Contagem de aparições de filmes na coluna #1 Movie
movies_counter = Counter(row['#1 Movie'].strip() for row in data)
movies_sorted = sorted(movies_counter.items(), key=lambda x: (-x[1], x[0]))
etapa_4_result = '\n'.join([f"O filme {movie} aparece {count} vez(es) no dataset" for movie, count in movies_sorted])

# Salvar resultado da Etapa 4
save_to_file('etapa-4.txt', etapa_4_result)

# Etapa 5: Lista de atores ordenada pela receita total bruta (Total Gross)
actors_sorted = sorted(data, key=lambda x: float(x['Total Gross'].strip()), reverse=True)
etapa_5_result = '\n'.join([f"{actor['Actor']} - {actor['Total Gross']}" for actor in actors_sorted])

# Salvar resultado da Etapa 5
save_to_file('etapa-5.txt', etapa_5_result)

# Conclusão
print("ETL concluída com sucesso! ;) ")

ETL concluída com sucesso! ;) 
