# Exercício ETL

1. Realizando a leitura do '.csv' e tornando o cabeçalho chaves para a criação do dicionario

In [1]:
with open('actors.csv', 'r') as arquivo: #Abre o arquivo no modo de leitura ('r').
    linhas = arquivo.readlines() #Lê o arquivo linha por linha e armazena essas linhas em uma lista
    #print(linhas)

    #separando o cabeçalho para tranformá-lo em keys para o dicionário, strip para remover espaços e quebras de linhas antes e depois, split para separar as colunas 
    cabecalho = linhas[0].strip().split(',')
    #print(cabecalho)
    
    #criando o dicionário que está vazio
    #abrindo uma lista vazia para cada key 
    dicionario = {chave: [] for chave in cabecalho}
    #print(dicionario)

2. Associando os valores às chaves do dicionário criado

In [2]:
#para cada linha, com exceção da primeira '0' (cabeçalho), 
for linha in linhas[1:]:
    #faz-se a chamada da funçao (passando a linha tratada), 
    valores = linha.strip().split(',')
    #associando cada valor a uma chave com zip() que cria uma combinação de pares
    for chave, valor in zip(cabecalho, valores):
        #dicionario no índice chave recebe o valor, isso será feito em todas as linhas
        dicionario[chave].append(valor.strip())
print(dicionario) 

{'Actor': ['Harrison Ford', 'Samuel L. Jackson', 'Morgan Freeman', 'Tom Hanks', '"Robert Downey Jr."', 'Eddie Murphy', 'Tom Cruise', 'Johnny Depp', 'Michael Caine', 'Scarlett Johansson', 'Gary Oldman', 'Robin Williams', 'Bruce Willis', 'Stellan Skarsgard', 'Anthony Daniels', 'Ian McKellen', 'Will Smith', 'Stanley Tucci', 'Matt Damon', 'Robert DeNiro', 'Cameron Diaz', 'Liam Neeson', 'Andy Serkis', 'Don Cheadle', 'Ben Stiller', 'Helena Bonham Carter', 'Orlando Bloom', 'Woody Harrelson', 'Cate Blanchett', 'Julia Roberts', 'Elizabeth Banks', 'Ralph Fiennes', 'Emma Watson', 'Tommy Lee Jones', 'Brad Pitt', 'Adam Sandler', 'Daniel Radcliffe', 'Jonah Hill', 'Owen Wilson', 'Idris Elba', 'Bradley Cooper', 'Mark Wahlberg', 'Jim Carrey', 'Dustin Hoffman', 'Leonardo DiCaprio', 'Jeremy Renner', 'Philip Seymour Hoffman', 'Sandra Bullock', 'Chris Evans', 'Anne Hathaway'], 'Total Gross': ['4871.70', '4772.80', '4468.30', '4340.80', '3947.30', '3810.40', '3587.20', '3368.60', '3351.50', '3341.20', '3294

3. Etapa 1 - Apresentar o ator/atriz com o maior número de filmes e sua respectiva quantidade

In [3]:
lista_numero = dicionario['Number of Movies']
numero_de_filmes_int = [int(numero) for numero in lista_numero]

maior_qtd_filmes = max(numero_de_filmes_int) #retorna o maior valor
indice_maior_valor = numero_de_filmes_int.index(maior_qtd_filmes) #retorna o índice do maior valor

ator_com_mais_filmes = dicionario['Actor'][indice_maior_valor] #retorna o ator na mesma posição do maior valor
ator_com_mais_filmes = ator_com_mais_filmes.strip('"') #retira as aspas para a apresentação

3.1. Gravação do resultado em arquivo etapa-1.txt  

In [4]:
with open('etapa-1.txt', 'w') as etapa1: #abrindo o arquivo com a finalidade de escrita
    etapa1.write(f'O Ator {ator_com_mais_filmes} é aquele com maior quantidade de filmes, totalizando {maior_qtd_filmes}')

4. Etapa 2 - Considerando a coluna atores, apresente a média de receita de bilheteria bruta dos principais filmes

In [5]:
# transformando os valores contidos da coluna gross em float
valores_gross = dicionario['Gross']
valores_gross_float = [float(valor) for valor in valores_gross]

#cáculo da média
media =  sum(valores_gross_float) / len(valores_gross_float)

4.1. Gravação do resultado em arquivo etapa-2.txt

In [6]:
with open('etapa-2.txt', 'w') as etapa2:
    etapa2.write(f'A média de receita de bilheteira bruta dos principais filmes é: {media:.2f} milhões de dólares')

5. Etapa 3 - Apresentar o ator/atriz com maior média de receita de bilheteria por filme.

In [7]:
medias = dicionario['Average per Movie']
medias_float = [float(media) for media in medias]

maior_media_por_filme = max(medias_float)
indice_maior_media = medias_float.index(maior_media_por_filme)

ator_com_maior_media = dicionario['Actor'][indice_maior_media]
ator_com_maior_media = ator_com_maior_media.strip('"')

5.1. Gravação do resultado em arquivo etapa-3.txt

In [8]:
with open('etapa-3.txt', 'w') as etapa3:
    etapa3.write(f'O ator com maior média receita de bilheteria por filme é: {ator_com_maior_media}')

6. Etapa 4 - Conte as ocorrências dos filmes presentes na coluna '#1 Movie' e liste-as de forma decrescente

In [9]:
contagem_filmes = {} # criando um dicionario que armazenará a contagem de ocorrências de cada filme

# Iterando pela lista de filmes
for filme in dicionario['#1 Movie']:
    if filme in contagem_filmes:
        contagem_filmes[filme] += 1 # a partir da segunda ocorrência incrementa-se o value (contagem)
    else:
        contagem_filmes[filme] = 1 #na primeira ocorrência do filme, adiciona-o como chave e seu value é 1

# Ordenando os filmes de forma decrescente
filmes_ordenados = sorted(contagem_filmes.items(), key=lambda x: x[1], reverse=True)
#utiliza-se a função sorted para realizar a ordenação e como parâmetro:
#contagem_filmes.items() - que retornará tuplas/pares (nome_filme, contagem)
#função lambda que considera x[1] a parte da contagem
#reverse= True inverte a ordenação que retorna do maior para o menor

6.1. Gravação no arquivo etapa-4.txt

In [10]:
with open('etapa-4.txt', 'w') as etapa4:
    for filme, quantidade in filmes_ordenados:
        etapa4.write(f'O filme "{filme}" aparece {quantidade} vez(es) no dataset.\n')

7. Etapa 5 - Apresente os atores ordenando por sua receita bruta de bilheteria de seus filmes de maneira decrescente

In [11]:
# Conversão da coluna 'Total Gross' para float
total_gross = dicionario['Total Gross']
total_gross_float = [float(gross) for gross in total_gross]

atores_e_gross = list(zip(dicionario['Actor'], total_gross_float))

atores_ordenados = sorted(atores_e_gross, key=lambda x: x[1], reverse=True)

7.1 Gravação no arquivo etapa-5.txt

In [12]:
with open('etapa-5.txt', 'w') as etapa5:
    for ator, gross in atores_ordenados:
        etapa5.write(f'{ator} - {gross}\n')