# Desafio estágio de dados Solvimm

### Importando bibliotecas

In [1]:
# Importantando a biblioteca do google drive. 
# drive.mount monta a imagem do google drive dentro do google colaboratory.

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Importando biblioteca pandas com o apelido de pd para manipulação dos dados.

import pandas as pd

### Lendo os datasets

In [None]:
# Uso da função read_csv() para ler os datasets de customers rating e movies. Estas funções recebem o nome do arquivo
# e o separador usado no csv ';'.

# Na leitura do csv movies, usei o parâmetro 'names', o qual recebe uma lista com o nome das colunas a serem definidas. 

# A saída é um dataframe.

df_customers_rating = pd.read_csv('/content/drive/MyDrive/customers_rating.csv', sep=';')
df_movies = pd.read_csv('/content/drive/MyDrive/movies.csv', sep=';', names=['Movie_Id', 'title/year'])

### Análise inicial dos dataframes 

In [None]:
# Uso das propriedades shape e dtypes. 

# shape para verificar a quantidade de colunas e linhas do dataframe.
# A saída é uma tupla com a quantidade de linhas e colunas.

# dtypes para visualizar os tipos de dados das colunas.
# A saída é uma serie com os nomens das colunas e os tipos de dados.

print(df_customers_rating.shape, '\n\n', df_customers_rating.dtypes)

(24053764, 4) 

 Cust_Id       int64
Rating      float64
Date         object
Movie_Id      int64
dtype: object


In [None]:
# Uso das propriedades shape e dtypes. 

# shape para verificar a quantidade de colunas e linhas do dataframe.
# A saída é uma tupla com a quantidade de linhas e colunas.

# dtypes para visualizar os tipos de dados das colunas.
# A saída é uma serie com os nomens das colunas e os tipos de dados.

print(df_movies.shape, '\n\n', df_movies.dtypes)

(4499, 2) 

 Movie_Id       int64
title/year    object
dtype: object


### Visualização dos dados

In [None]:
# Uso do método head() para visualizar os primeiros 5 registros do dataframe.

# A saída é um dataframe com os primeiros 5 registros.

df_customers_rating.head()

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id
0,1488844,3.0,2005-09-06,1
1,822109,5.0,2005-05-13,1
2,885013,4.0,2005-10-19,1
3,30878,4.0,2005-12-26,1
4,823519,3.0,2004-05-03,1


In [None]:
# Uso do método tail() para visualizar os últimos 5 registros do dataframe.

# A saída é um dataframe com os últimos 5 registros.

df_customers_rating.tail()

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id
24053759,2591364,2.0,2005-02-16,4499
24053760,1791000,2.0,2005-02-10,4499
24053761,512536,5.0,2005-07-27,4499
24053762,988963,3.0,2005-12-20,4499
24053763,1704416,3.0,2004-06-02,4499


In [None]:
# Uso do método head() para visualizar os primeiros 5 registros do dataframe.

# A saída é um dataframe com os primeiros 5 registros.

df_movies.head()

Unnamed: 0,Movie_Id,title/year
0,1,"(Dinosaur Planet, 2003)"
1,2,"(Isle of Man TT 2004 Review, 2004)"
2,3,"(Character, 1997)"
3,4,"(Paula Abdul's Get Up & Dance, 1994)"
4,5,"(The Rise and Fall of ECW, 2004)"


In [None]:
# Uso do método tail() para visualizar os últimos 5 registros do dataframe.

# A saída é um dataframe com os últimos 5 registros.

df_movies.tail()

Unnamed: 0,Movie_Id,title/year
4494,4495,(Clifford: Happy Birthday Clifford / Puppy Lov...
4495,4496,"(Farewell My Concubine, 1993)"
4496,4497,"(Texasville, 1990)"
4497,4498,"(Gonin, 2000)"
4498,4499,"(In My Skin, 2002)"


### Verificando a nulidade dos dados

In [None]:
# Uso do método isnull() para verificar a nulidade dos dados. 
# A saída é um dataframe com as linhas recebendo valores boolean

# Uso do método sum() para verificar a quantidade de nulidades por coluna. 
# Este método soma os valores True (nulidade).

# A saída é uma Series com os nomes das colunas e a quantidade de nulidades.

df_customers_rating.isnull().sum()

Cust_Id     0
Rating      0
Date        0
Movie_Id    0
dtype: int64

In [None]:
# Uso do método isnull() para verificar a nulidade dos dados. 
# A saída é um dataframe com as linhas recebendo valores boolean

# Uso do método sum() para verificar a quantidade de nulidades por coluna.
# Este método soma os valores True (nulidade).

# A saída é uma Series com os nomes das colunas e a quantidade de nulidades.

df_movies.isnull().sum()

Movie_Id      0
title/year    0
dtype: int64

Podemos ver que não há nulidade em ambos os datasets.

### Juntando os datasets

Podemos juntar os datasets em um único dataframe, unindo de acordo com o Movie_Id

In [None]:
# Uso do método set_index() para definir como index do dataframe a coluna Movie_Id do dataset movies e customer_rating. 
# Este método recebe o nome da coluna que será definida como index e o parâmetro inplace=True para modificar o dataframe original.

# A saída é um dataframe com o index definido.

df_movies.set_index('Movie_Id', inplace=True)
df_customers_rating.set_index('Movie_Id', inplace=True)

In [None]:
# Esta função recebe os dataframes que queremos combinar e o nome da coluna que será usada de referência para combinar os dados.

# A saída é um dataframe com a junção dos dados.

df = pd.merge(df_movies, df_customers_rating, on='Movie_Id')

In [None]:
# Visualizando o merge dos dataframes.

# Uso do método head() para visualizar os primeiros 5 registros do dataframe.

# A saída é um dataframe com os primeiros 5 registros.

df.head()

Unnamed: 0_level_0,title/year,Cust_Id,Rating,Date
Movie_Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,"(Dinosaur Planet, 2003)",1488844,3.0,2005-09-06
1,"(Dinosaur Planet, 2003)",822109,5.0,2005-05-13
1,"(Dinosaur Planet, 2003)",885013,4.0,2005-10-19
1,"(Dinosaur Planet, 2003)",30878,4.0,2005-12-26
1,"(Dinosaur Planet, 2003)",823519,3.0,2004-05-03


## Perguntas

### 1.1. Quantos filmes estão disponíveis no dataset?

In [None]:
# Uso do método nunique(), o qual verifica a unicidade de cada valor de uma coluna. 
# Neste caso, estamos avaliando a coluna 'title/year' do dataframe df_movies.

# A saída é um número inteiro.

df_movies['title/year'].nunique()

4498

df_movies.shape nos mostra 4499 linhas, porém o método nunique() nos retorna 4498, mostrando que temos um filme com o mesmo nome e ano, porém com Id's diferentes. Abaixo, vamos achar qual é este filme.

In [None]:
# Usamos o método loc() que recebe a coluna 'title/year' de df_movies
# O método loc() faz uma busca por linhas que satisfaçam a condição.

# O método duplicated() procura por valores duplicados 
# A saída é um dataframe com as linhas recebendo valores boolean

# A saída é um dataframe com as linhas que satisfazem a condição.

df_movies.loc[df_movies['title/year'].duplicated()==True]

Unnamed: 0_level_0,title/year
Movie_Id,Unnamed: 1_level_1
4005,"(Dr. Quinn, 1993)"


In [None]:
# Usamos o método loc() que recebe a coluna 'title/year' de df_movies
# O método loc() faz uma busca por linhas que satisfaçam a condição.

# A saída é um dataframe com as linhas que satisfazem a condição.

df_movies.loc[df_movies['title/year'] == '(Dr. Quinn, 1993)']

Unnamed: 0_level_0,title/year
Movie_Id,Unnamed: 1_level_1
350,"(Dr. Quinn, 1993)"
4005,"(Dr. Quinn, 1993)"


Portanto, temos 4498 filmes registrados no nosso dataset de 4499 linhas, sendo um deles repetido.

### 1.2. Qual é o nome dos 5 filmes com melhor média de avaliação?

In [None]:
# Uso do método groupby() para agrupar os dados por coluna. Neste caso, estamos agrupando os dados por coluna 'title/year'.

# Aplicando o método mean() para calcular a média da coluna 'Rating'.

# sort_values() para ordenar os dados pela média, recebendo o parâmetro ascending=False para ordenar de forma decrescente.

# head() para visualizar os primeiros 5 registros do dataframe.

# A saída é uma Series com os dados de 'title/year' e suas respectivas médias.

df.groupby('title/year')['Rating'].mean().sort_values(ascending=False).head()


title/year
(Lost: Season 1, 2004)                                                                 4.670989
(Ghost in the Shell: Stand Alone Complex: 2nd Gig, 2005)                               4.586364
(The Simpsons: Season 6, 1994)                                                         4.581296
(Inu-Yasha, 2000)                                                                      4.554434
(Lord of the Rings: The Return of the King: Extended Edition: Bonus Material, 2003)    4.552000
Name: Rating, dtype: float64

Acima estão representados os 5 filmes com maior média de avaliação, seus respectivos nomes e médias.

### 1.3. Quais os 5 anos com menos lançamentos de filmes?

In [None]:
# Aplicação do método apply(), o qual aplica uma função em cada valor da coluna 'title/year' de df_movies.

# Este método recebe uma função lambda, a qual recebe um parâmetro 'row' que é uma linha do dataframe e retorna
# uma string sem os caracteres '(' e ')'.
# Usamos o método split() para transformar a string em uma lista com base no caracter ','. O ano esta no índice 1 da lista.

# Após isto, value_counts() retorna uma Series com a quantidade de repeticões de cada valor.

# O método sort_values() ordena a Series em ordem crescente, de modo que ao aplicarmos o método head() ele retorna
# os 5 primeiros valores, que neste caso são os anos com menos lançamentos de filmes.

# Função lambda:
# Exemplo de entrada: '(Inu-Yasha, 2000)' Exemplo de saída: '2000'

# A saída é uma Series com os anos com menos lançamentos de filmes.

df_movies['title/year'].apply(
    lambda row: row.replace('(', '').replace(')', '').split(', ')[1]
    ).value_counts().sort_values().head(10)

1917    1
1922    1
1926    1
1915    1
1924    2
1916    2
1931    2
1918    2
1929    2
1933    3
Name: title/year, dtype: int64

Temos 4 anos com apenas 1 lançamento, os quais são 1915, 1917, 1922 e 1926. Para a 5ª colocação, podemos escolher os anos de 1916, 1918, 1924, 1929 e 1931, os quais houveram apenas 2 lançamentos.

### 1.4. Quantos filmes que possuem avaliação maior ou igual a 4.7, considerando apenas os filmes avaliados na última data de avaliação do dataset? 

In [None]:
# Uso do método astype() para transformar o tipo de dado da coluna 'Date'.
# Este método recebe o tipo de dado que desejamos transformar. Neste caso, estamos
# transformando o tipo de dado da coluna 'Date' de object para datetime.

# A saída é um dataframe com o tipo de dado da coluna 'Date' transformado.

df['Date'] = df['Date'].astype('datetime64[ns]')

In [None]:
# Usamos o método max() na coluna Date, para obter o maior valor (data mais recente).

# A saída é o maior valor encontrado na coluna.

df['Date'].max()

Timestamp('2005-12-31 00:00:00')

In [None]:
# Usamos o método loc() que recebe a coluna 'Date' de df, o operador '==' e a data mais recente de avaliação.
# O método loc() faz uma busca por linhas que satisfaçam a condição.

# A saída é um dataframe com as linhas que satisfazem a condição.

last_date = df.loc[df['Date'] == df['Date'].max()]

Para notas de filmes, a avaliação correta é a média das notas dadas pelos críticos, então, vamos fazer isto.

In [None]:
# Uso do método groupby() para agrupar os dados por coluna. Neste caso, estamos agrupando os dados por coluna 'title/year'.

# Aplicando o método mean() para calcular a média das colunas numéricas

# A saída é um dataframe com as colunas 'title/year' e colunas numéricas com as médias.

last_date_mean_rating = last_date.groupby('title/year').mean()

In [None]:
# Visualizando o dataframe last_date_mean_rating.

# Uso do método head() para visualizar os primeiros 5 registros do dataframe.

# A saída é um dataframe com os primeiros 5 registros.

last_date_mean_rating.head()

Unnamed: 0_level_0,Cust_Id,Rating
title/year,Unnamed: 1_level_1,Unnamed: 2_level_1
"(10 Things I Hate About You, 1999)",884659.7,3.5
"(101 Dalmatians II: Patch's London Adventure, 2003)",1021690.0,3.75
"(11:14, 2005)",1403605.0,3.166667
"(13 Ghosts, 1960)",1089690.0,4.5
"(1942: A Love Story, 1993)",311841.0,4.0


In [None]:
# Uso do método drop() para remover a coluna 'Cust_Id' do dataframe, visto que 
# a média desta coluna não nos interessa e não há sentido em média de Id.

# O método drop() recebe como parâmetro o nome da coluna que será removida e o parâmetro inplace=True para modificar o dataframe original.

# A saída é um dataframe com a coluna 'Cust_Id' removida.

last_date_mean_rating.drop(columns=['Cust_Id'], inplace=True)

In [None]:
# Uso do método loc() o qual seleciona as linhas que satisfazem a condição.
# Este método recebe como parâmetros o nome da coluna e o valor que será comparado.

# Uso do método shape para obter o número de linhas e colunas do dataframe.
# A saída é um número inteiro.

last_date_mean_rating = last_date_mean_rating.loc[last_date_mean_rating['Rating'] >= 4.7]
last_date_mean_rating.shape

(195, 1)

195 filmes possuem avaliação média maior ou igual a 4.7.

### 1.5. Dos filmes encontrados na questão anterior, quais são os 10 filmes com as piores notas e quais as notas?

In [None]:
# O método sort_values() ordena na forma crescente, por padrão.
# Este método recebe como parâmetro o nome da coluna que será ordenada.

# O método head() recebe o valor 10 e nos mostra os 10 primeiros valores.

# A saída é um dataframe com os 10 primeiros valores (piores notas médias).

last_date_mean_rating.sort_values(by='Rating').head(10)

Unnamed: 0_level_0,Rating
title/year,Unnamed: 1_level_1
"(Spirited Away, 2002)",4.714286
"(SpongeBob SquarePants: Season 3, 2002)",4.75
"(The Twilight Zone: Vol. 41, 1960)",4.75
"(Absolutely Fabulous: Series 2, 1994)",4.75
"(Gilmore Girls: Season 3, 2002)",4.75
"(The Twilight Zone: Vol. 15, 1963)",4.75
"(Pete's Dragon, 1977)",4.75
"(An Evening With Kevin Smith, 2002)",4.75
"(Curb Your Enthusiasm: Season 3, 2002)",4.8
"(In the Mood for Love, 2001)",4.8


### 1.6. Quais os id's dos 5 customer que mais avaliaram filmes e quantas avaliações cada um fez?

In [None]:
# Uso do método groupby() para agrupar os dados por coluna. Neste caso, estamos agrupando os dados por coluna 'Cust_Id'.

# Aplicando o método count() para contabilizar a quantidade de linhas que possuem o mesmo valor.

# sort_values() para ordenar os dados pela quantidade de linhas com o mesmo valor, recebendo
# o parâmetro ascending=False para ordenar de forma decrescente.

# head() para visualizar os primeiros 5 registros do dataframe.

# A saída é uma Series com o Cust_Id e a quantidade de avaliações feitas.

df_customers_rating.groupby('Cust_Id')['Cust_Id'].count().sort_values(ascending=False).head()

Cust_Id
305344     4467
387418     4422
2439493    4195
1664010    4019
2118461    3769
Name: Cust_Id, dtype: int64