In [1]:
#primeiro passo é importar as bibliotecas que irei utilizar
#pandas permite a construção de estrutura, manipulação e limpeza de dados, será minha ferramenta principal
#numpy permite trabalhar com funções númericas

import numpy as np
import pandas as pd

In [2]:
#base de dados movies.csv está com os dados separados por ';', porém não tem cabeçalho na primeira linha, então irei criar as colunas

dfMovies = pd.read_csv('movies.csv', sep=';', names=['Movie_Id', 'Filme_Ano'])

Unnamed: 0,Movie_Id,Filme_Ano
0,1,"(Dinosaur Planet, 2003)"
1,2,"(Isle of Man TT 2004 Review, 2004)"
2,3,"(Character, 1997)"
3,4,"(Paula Abdul's Get Up & Dance, 1994)"
4,5,"(The Rise and Fall of ECW, 2004)"
...,...,...
4494,4495,(Clifford: Happy Birthday Clifford / Puppy Lov...
4495,4496,"(Farewell My Concubine, 1993)"
4496,4497,"(Texasville, 1990)"
4497,4498,"(Gonin, 2000)"


In [3]:
#importando a base de dados customers, tem cabeçalho então irei utilizar somente o delimitador para separação

dfCustomers = pd.read_csv('customers_rating.csv', sep=';')

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id
0,1488844,3.0,2005-09-06,1
1,822109,5.0,2005-05-13,1
2,885013,4.0,2005-10-19,1
3,30878,4.0,2005-12-26,1
4,823519,3.0,2004-05-03,1
...,...,...,...,...
24053759,2591364,2.0,2005-02-16,4499
24053760,1791000,2.0,2005-02-10,4499
24053761,512536,5.0,2005-07-27,4499
24053762,988963,3.0,2005-12-20,4499


In [4]:
#unindo as duas bases para realizar algumas consultas, o inner vai unir utilizando a coluna 'Movie_Id' que aparece nas duas bases

dfDatabase = pd.merge(dfCustomers, dfMovies, on='Movie_Id', how = 'inner')

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id,Filme_Ano
0,1488844,3.0,2005-09-06,1,"(Dinosaur Planet, 2003)"
1,822109,5.0,2005-05-13,1,"(Dinosaur Planet, 2003)"
2,885013,4.0,2005-10-19,1,"(Dinosaur Planet, 2003)"
3,30878,4.0,2005-12-26,1,"(Dinosaur Planet, 2003)"
4,823519,3.0,2004-05-03,1,"(Dinosaur Planet, 2003)"
...,...,...,...,...,...
24053759,2591364,2.0,2005-02-16,4499,"(In My Skin, 2002)"
24053760,1791000,2.0,2005-02-10,4499,"(In My Skin, 2002)"
24053761,512536,5.0,2005-07-27,4499,"(In My Skin, 2002)"
24053762,988963,3.0,2005-12-20,4499,"(In My Skin, 2002)"


In [5]:
# 1.1. Quantos filmes estão disponíveis no dataset? R: 4498

#irei utilizar um script para analisar os valores unicos, assim será possivel consultar quantos filmes estão disponiveis

dfMovies.Filme_Ano.nunique(dropna = True)

#consta 4498 valores unicos, exatamente nossa quantidade de dados, não temos valores duplicados

4498

In [6]:
#1.2. Qual é o nome dos 5 filmes com melhor média de avaliação?

#realizei o agrupamento com o groupby utilizando a coluna 'Filme_Ano' e calculei a média de avaliação da coluna 'Rating', selecionando 5 dados em ordem decrescente

dfDatabase.groupby('Filme_Ano')['Rating'].mean().sort_values(ascending=False).head(5) 

Filme_Ano
(Lost: Season 1, 2004)                                                                 4.670989
(Ghost in the Shell: Stand Alone Complex: 2nd Gig, 2005)                               4.586364
(The Simpsons: Season 6, 1994)                                                         4.581296
(Inu-Yasha, 2000)                                                                      4.554434
(Lord of the Rings: The Return of the King: Extended Edition: Bonus Material, 2003)    4.552000
Name: Rating, dtype: float64

In [10]:
#1.3. Quais os 5 anos com menos lançamentos de filmes?

#para isso será necessário criar uma coluna com o ano separado do filme
#nessa questão irei usar a base de dados movies para separar a coluna ano

dfMovies[['Filme','Ano']] = dfMovies['Filme_Ano'].str.split(',', expand=True)

Unnamed: 0,Movie_Id,Filme_Ano,Filme,Ano
0,1,"(Dinosaur Planet, 2003)",(Dinosaur Planet,2003)
1,2,"(Isle of Man TT 2004 Review, 2004)",(Isle of Man TT 2004 Review,2004)
2,3,"(Character, 1997)",(Character,1997)
3,4,"(Paula Abdul's Get Up & Dance, 1994)",(Paula Abdul's Get Up & Dance,1994)
4,5,"(The Rise and Fall of ECW, 2004)",(The Rise and Fall of ECW,2004)
...,...,...,...,...
4494,4495,(Clifford: Happy Birthday Clifford / Puppy Lov...,(Clifford: Happy Birthday Clifford / Puppy Love,2002)
4495,4496,"(Farewell My Concubine, 1993)",(Farewell My Concubine,1993)
4496,4497,"(Texasville, 1990)",(Texasville,1990)
4497,4498,"(Gonin, 2000)",(Gonin,2000)


In [11]:
#agora precisarei realizar a separação dos caracteres para ficar somente o ano na coluna, a função do str.slice é delimitar os caracteres

dfMovies['Ano'] = dfMovies['Ano'].str.slice(1,5)

Unnamed: 0,Movie_Id,Filme_Ano,Filme,Ano
0,1,"(Dinosaur Planet, 2003)",(Dinosaur Planet,2003
1,2,"(Isle of Man TT 2004 Review, 2004)",(Isle of Man TT 2004 Review,2004
2,3,"(Character, 1997)",(Character,1997
3,4,"(Paula Abdul's Get Up & Dance, 1994)",(Paula Abdul's Get Up & Dance,1994
4,5,"(The Rise and Fall of ECW, 2004)",(The Rise and Fall of ECW,2004
...,...,...,...,...
4494,4495,(Clifford: Happy Birthday Clifford / Puppy Lov...,(Clifford: Happy Birthday Clifford / Puppy Love,2002
4495,4496,"(Farewell My Concubine, 1993)",(Farewell My Concubine,1993
4496,4497,"(Texasville, 1990)",(Texasville,1990
4497,4498,"(Gonin, 2000)",(Gonin,2000


In [12]:
#com a base de dados pronta posso realizar a consulta utilizando a coluna ano
#irei agrupar e contar quantas vezes aparece o ano, assim mostrando os valores que menos aparecem primeiro, o resultado será os anos com menos lançamentos de filmes, selecionamento apenas 5 dados

dfMovies.groupby('Ano')['Ano'].count().sort_values().head(5)

Ano
1915    1
1917    1
1922    1
1926    1
1916    2
Name: Ano, dtype: int64

In [13]:
#1.4 Quantos filmes que possuem avaliação maior ou igual a 4.7, considerando apenas os filmes avaliados na última data de avaliação do dataset?

#para essa questão precisarei primeiro localizar a ultima data de avaliação
#essa primeira consulta possibilita localizar a data que queremos, para isso irei utilizar o iat que localiza um unico valor em um dataframe 

dfDatabase.sort_values('Date', ascending=False).iat[0,2]

'2005-12-31'

In [18]:
#localizando as avaliações onde a data é igual 2005-12-31 e Rating >= 4.7, o loc possibilita localizar esses dados no nosso dataframe
#irei guardar em uma dataframe somente a base de avaliações da data especifica e aviação igual ou maior que 4.7

dfAvaliacao = dfDatabase.loc[dfDatabase['Date'] == "2005-12-31"][dfDatabase['Rating'] >= 4.7]

  dfAvaliacao = dfDatabase.loc[dfDatabase['Date'] == "2005-12-31"][dfDatabase['Rating'] >= 4.7]


Unnamed: 0,Cust_Id,Rating,Date,Movie_Id,Filme_Ano
18187,329442,5.0,2005-12-31,8,"(What the #$*! Do We Know!?, 2004)"
24137,2188086,5.0,2005-12-31,16,"(Screamers, 1996)"
59689,1126446,5.0,2005-12-31,28,"(Lilo and Stitch, 2002)"
86450,432617,5.0,2005-12-31,28,"(Lilo and Stitch, 2002)"
91598,298618,5.0,2005-12-31,28,"(Lilo and Stitch, 2002)"
...,...,...,...,...,...
24042806,912687,5.0,2005-12-31,4495,(Clifford: Happy Birthday Clifford / Puppy Lov...
24043825,23421,5.0,2005-12-31,4496,"(Farewell My Concubine, 1993)"
24048123,2136204,5.0,2005-12-31,4496,"(Farewell My Concubine, 1993)"
24048514,304543,5.0,2005-12-31,4496,"(Farewell My Concubine, 1993)"


In [22]:
#agora irei utilizar a função nunique que conta quantos dados unicos na nossa base, utilizarei a coluna filme_ano para contar os dados unicos e identificar quantos filmes foram mais avaliados na ultima data
#780 filmes possuem avaliação maior ou igual a 4.7 considerando a ultima data de avaliação

dfAvaliacao['Filme_Ano'].nunique()

780

In [35]:
#1.5. Dos filmes encontrados na questão anterior, quais são os 10 filmes com as piores notas e quais as notas?

#verifiquei o dataframe e  não tem filmes abaixo da nota 5.0, então vou agrupar e ordenar por menos avaliados, pra mim seria mais lógico já que filmes avaliados somente um vez são mais propensos a cair a nota
#também tinha pensado em realizar a média, mas nesse caso a média da nota desse dataframe seria a mesma, já que a nota é a mesma para todos

dfAvaliacao.groupby('Filme_Ano')['Filme_Ano'].count().sort_values(ascending=True).head(10)

Filme_Ano
(Murphy's Romance, 1985)                                1
(Outfoxed: Rupert Murdoch's War on Journalism, 2004)    1
(Onmyoji, 2001)                                         1
(One False Move, 1991)                                  1
(On the Beach, 1959)                                    1
(On a Clear Day You Can See Forever, 1970)              1
(On Any Sunday, 1971)                                   1
(Omen III: The Final Conflict, 1981)                    1
(Now and Then, 1999)                                    1
(Nothing to Lose, 1997)                                 1
Name: Filme_Ano, dtype: int64

In [36]:
# 1.6 Quais os id's dos 5 customer que mais avaliaram filmes e quantas avaliações cada um fez?

#para responder essa questão irei agrupar a quantidade de vezes que aparece o mesmo 'Cust_Id', ou seja, a quantidade de vezes que cada customer realizou avaliações, selecionando 5 dados decrescentes

dfDatabase.groupby('Cust_Id')['Cust_Id'].count().sort_values(ascending=False).head(5)

Cust_Id
305344     4467
387418     4422
2439493    4195
1664010    4019
2118461    3769
Name: Cust_Id, dtype: int64