## **Informações contidas na base de dados**

**Base 1:**
1. ID do filme
2. título e ano de lançamento

**Base 2:**
1. Cust_Id: ID do customer que fez a avaliação
2. Rating: avaliação (nota)
3. Date: data da avaliação
4. Movie_Id: ID do filme

### Código para tratamento dos bancos dados com Pandas

#### Tratamento do banco de dados da base1 com o nome dos filmes e id de identificação

In [None]:
# Importando a biblioteca Pandas
import pandas as pd
import time

In [None]:
# Dicionário para salvar o tempo de execução de cada processo
execution_time = {}

In [None]:
# Importando a base de dados dos filmes
t1 = time.time()
df_movies = pd.read_csv('movies.csv', sep=";", header=None)
tempo_exec = time.time() - t1
execution_time['import_time_csv'] = tempo_exec
print(execution_time)

In [None]:
# Visualizando a base de dados
df_movies.head()

In [None]:
# Na segunda coluna do dataframe temos duas informações importantes, o nome do filme e o ano de lançamento.
# Como as informações estão misturadas, é necessário a transformação do dataframe, criando uma coluna para cada dado.
# Criação da coluna com o nome do filme:
t1 = time.time()
df_movies['Movie_Name'] = df_movies[1].str[1:-7]
tempo_exec = time.time() - t1
execution_time['new_column_movie'] = tempo_exec
print(execution_time)

In [None]:
# Criação da coluna com o ano de lançamento:
t1 = time.time()
df_movies['Release_Year'] = df_movies[1].str[-6:-1]
tempo_exec = time.time() - t1
execution_time['new_column_release_year'] = tempo_exec
print(execution_time)

In [None]:
# Visualização do dataframe com as novas colunas
df_movies.head()

In [None]:
# Exclusão da coluna inicial com nome e data de lançamento
t1 = time.time()
df_movies.drop(columns=1, inplace=True)
tempo_exec = time.time() - t1
execution_time['remove_initial_column'] = tempo_exec
print(execution_time)

In [None]:
# Visualização do banco de dados 
df_movies.head()

In [None]:
# Renomeação da coluna de ID do filme com a mesma nomenclatura da base de dados de avaliações.
t1 = time.time()
df_movies.rename(columns={0:'Movie_Id'}, inplace=True)
tempo_exec = time.time() - t1
execution_time['rename_column_movie'] = tempo_exec
print(execution_time)

In [None]:
# Informações sobre o dataframe do banco de dados de filmes.
df_movies.info()

In [None]:
# A coluna referente ao ano de lançamento dos filmes, está no formato de string, 
# vamos realizar a modificação para tratar esse valor como inteiro.
# Realizando a modificando do tipo de dado da coluna com a data de lançamento.
t1 = time.time()
df_movies['Release_Year'] = pd.DatetimeIndex(df_movies['Release_Year']).year
tempo_exec = time.time() - t1
execution_time['change_type_year'] = tempo_exec
print(execution_time)

In [None]:
# Informações do dataframe com os nomes das colunas e seu respectivo tipo, conforme as alterações realizadas.
df_movies.info()

In [None]:
# Visualização do dataframe com todas as alterações.
df_movies.head()

In [None]:
# Verificando se possui dados ausentes.
t1 = time.time()
print(df_movies.isnull().sum())
tempo_exec = time.time() - t1
execution_time['check_missing_data'] = tempo_exec
print(execution_time)

In [None]:
# Verificando se possui linhas duplicadas na base de dados.
t1 = time.time()
df_movies.duplicated().sum()
tempo_exec = time.time() - t1
execution_time['check_duplicate_lines'] = tempo_exec
print(execution_time)

In [None]:
# Verificando se possui id's duplicados.
t1 = time.time()
duplicado_id = (df_movies.duplicated(subset=['Movie_Id']))
tempo_exec = time.time() - t1
execution_time['check_duplicate_lines_ids'] = tempo_exec
print(execution_time)
df_movies[duplicado_id].head()

In [None]:
# Verificando se possui filmes com mesmo nome e mesmo ano de lançamento.
t1 = time.time()
duplicate_name_year = (df_movies.duplicated(subset=['Movie_Name', 'Release_Year']))
tempo_exec = time.time() - t1
execution_time['check_duplicate_lines_movie_year'] = tempo_exec
print(execution_time)

In [None]:
df_movies[duplicate_name_year].head()

In [None]:
t1 = time.time()
filter_movie_duplicate = (df_movies['Movie_Name']=='Dr. Quinn')
tempo_exec = time.time() - t1
execution_time['duplicate_line_dr_quinn'] = tempo_exec
print(execution_time)

In [None]:
# Temos dois filmes do Dr. Quinn com ID_Filme diferente, porém, com mesmo nome e mesmo ano de lançamento.
df_movies[filter_movie_duplicate].head()

Observação: Apesar de existir dois registros com o mesmo nome (Dr. Quinn) e mesmo ano de lançamento (1993), realizando uma busca na internet, foi verificado que no ano de 1993 foram lançados duas temporadas de Dr. Quinn. Dessa forma, os registros estão se referindo a temporadas diferentes, não sendo considerado um registro duplicado.

#### Tratamento do banco de dados da base2 com as avaliações dos usuários

In [None]:
execution_time2={}

In [None]:
# Importando a base de dados.
t1 = time.time()
df_customers_rating = pd.read_csv('customers_rating.csv', sep=';')
tempo_exec = time.time() - t1
execution_time2['import_time_csv'] = tempo_exec
print(execution_time2)

In [None]:
# Visualização do dataframe.
df_customers_rating.head()

In [None]:
# Verificando se possui dados ausentes.
t1 = time.time()
print(df_customers_rating.isnull().sum())
tempo_exec = time.time() - t1
execution_time2['check_missing_data'] = tempo_exec
print(execution_time2)

In [None]:
# Informações sobre o dataframe. 
df_customers_rating.info()

In [None]:
# Realizando a converteção da coluna de Date para datetime. Importante trabalhar com essa coluna no formato de data.
t1 = time.time()
df_customers_rating['Date'] = pd.to_datetime(df_customers_rating['Date'], format='%Y-%m-%d')
tempo_exec = time.time() - t1
execution_time2['change_type_date'] = tempo_exec
print(execution_time2)

In [None]:
df_customers_rating.head()

In [None]:
# Confirmando a mudança da coluna Date para datetime.
df_customers_rating.info()

In [None]:
# Verificação se possui avaliações duplicadas de clientes, considerando mesmo id do cliente, id do filme e avaliação.
t1 = time.time()
duplicadas_clientes = (df_customers_rating.duplicated(subset=['Cust_Id', 'Movie_Id', 'Rating']))
tempo_exec = time.time() - t1
execution_time2['rating_duplicate_line'] = tempo_exec
print(execution_time2)

In [None]:
df_customers_rating[duplicadas_clientes].head()

### **Criando um novo dataframe com join do df_movies e df_customers_rating**

In [None]:
# Como a análise será realizada apenas com os filmes que possuem avaliações de clientes, 
# será realizado um join considerando a interseção entre as tabelas.
t1 = time.time()
df_join_movies_rating = pd.merge(df_movies, df_customers_rating, how='inner', on='Movie_Id')
tempo_exec = time.time() - t1
execution_time2['merge_tables'] = tempo_exec
print(execution_time2)

In [None]:
df_join_movies_rating.head()

In [None]:
# Quantidade de registros no dataframe
df_join_movies_rating.shape[0]

In [None]:
# Load dos dados (salvamento)
# Delta
import pyarrow as pa
t1 = time.time()
df_join_movies_rating.to_parquet('./final_data.delta', engine='fastparquet', index=False)
tempo_exec = time.time() - t1
execution_time2['final_load_delta'] = tempo_exec
print(execution_time2)

In [None]:
# Load dos dados (salvamento)
# parquet
t1 = time.time()
df_join_movies_rating.to_parquet('./final_data.parquet', compression='gzip')
tempo_exec = time.time() - t1
execution_time2['final_load_parquet'] = tempo_exec
print(execution_time2)

In [None]:
# Load dos dados (salvamento)
# csv
t1 = time.time()
df_join_movies_rating.to_csv('./final_data.csv', index=False)
tempo_exec = time.time() - t1
execution_time2['final_load_csv'] = tempo_exec
print(execution_time2)