## **Informações contidas na base de dados**

**Base 1:**
1. ID do filme
2. título e ano de lançamento

**Base 2:**
1. Cust_Id: ID do customer que fez a avaliação
2. Rating: avaliação (nota)
3. Date: data da avaliação
4. Movie_Id: ID do filme

### Código para tratamento dos bancos dados com Pandas

#### Tratamento do banco de dados da base1 com o nome dos filmes e id de identificação

In [1]:
# Importando a biblioteca Pandas
import pandas as pd
import time

In [2]:
# Dicionário para salvar o tempo de execução de cada processo
execution_time = {}

In [3]:
# Importando a base de dados dos filmes
t1 = time.time()
df_movies = pd.read_csv('movies.csv', sep=";", header=None)
tempo_exec = time.time() - t1
execution_time['import_time_csv'] = tempo_exec
print(execution_time)

{'import_time_csv': 0.013010978698730469}


In [4]:
# Visualizando a base de dados
df_movies.head()

Unnamed: 0,0,1
0,1,"(Dinosaur Planet, 2003)"
1,2,"(Isle of Man TT 2004 Review, 2004)"
2,3,"(Character, 1997)"
3,4,"(Paula Abdul's Get Up & Dance, 1994)"
4,5,"(The Rise and Fall of ECW, 2004)"


In [5]:
# Na segunda coluna do dataframe temos duas informações importantes, o nome do filme e o ano de lançamento.
# Como as informações estão misturadas, é necessário a transformação do dataframe, criando uma coluna para cada dado.
# Criação da coluna com o nome do filme:
t1 = time.time()
df_movies['Movie_Name'] = df_movies[1].str[1:-7]
tempo_exec = time.time() - t1
execution_time['new_column_movie'] = tempo_exec
print(execution_time)

{'import_time_csv': 0.013010978698730469, 'new_column_movie': 0.0020024776458740234}


In [6]:
# Criação da coluna com o ano de lançamento:
t1 = time.time()
df_movies['Release_Year'] = df_movies[1].str[-6:-1]
tempo_exec = time.time() - t1
execution_time['new_column_release_year'] = tempo_exec
print(execution_time)

{'import_time_csv': 0.013010978698730469, 'new_column_movie': 0.0020024776458740234, 'new_column_release_year': 0.0010006427764892578}


In [7]:
# Visualização do dataframe com as novas colunas
df_movies.head()

Unnamed: 0,0,1,Movie_Name,Release_Year
0,1,"(Dinosaur Planet, 2003)",Dinosaur Planet,2003
1,2,"(Isle of Man TT 2004 Review, 2004)",Isle of Man TT 2004 Review,2004
2,3,"(Character, 1997)",Character,1997
3,4,"(Paula Abdul's Get Up & Dance, 1994)",Paula Abdul's Get Up & Dance,1994
4,5,"(The Rise and Fall of ECW, 2004)",The Rise and Fall of ECW,2004


In [8]:
# Exclusão da coluna inicial com nome e data de lançamento
t1 = time.time()
df_movies.drop(columns=1, inplace=True)
tempo_exec = time.time() - t1
execution_time['remove_initial_column'] = tempo_exec
print(execution_time)

{'import_time_csv': 0.013010978698730469, 'new_column_movie': 0.0020024776458740234, 'new_column_release_year': 0.0010006427764892578, 'remove_initial_column': 0.002001523971557617}


In [9]:
# Visualização do banco de dados 
df_movies.head()

Unnamed: 0,0,Movie_Name,Release_Year
0,1,Dinosaur Planet,2003
1,2,Isle of Man TT 2004 Review,2004
2,3,Character,1997
3,4,Paula Abdul's Get Up & Dance,1994
4,5,The Rise and Fall of ECW,2004


In [10]:
# Renomeação da coluna de ID do filme com a mesma nomenclatura da base de dados de avaliações.
t1 = time.time()
df_movies.rename(columns={0:'Movie_Id'}, inplace=True)
tempo_exec = time.time() - t1
execution_time['rename_column_movie'] = tempo_exec
print(execution_time)

{'import_time_csv': 0.013010978698730469, 'new_column_movie': 0.0020024776458740234, 'new_column_release_year': 0.0010006427764892578, 'remove_initial_column': 0.002001523971557617, 'rename_column_movie': 0.0}


In [11]:
# Informações sobre o dataframe do banco de dados de filmes.
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4499 entries, 0 to 4498
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Movie_Id      4499 non-null   int64 
 1   Movie_Name    4499 non-null   object
 2   Release_Year  4499 non-null   object
dtypes: int64(1), object(2)
memory usage: 105.6+ KB


In [12]:
# A coluna referente ao ano de lançamento dos filmes, está no formato de string, 
# vamos realizar a modificação para tratar esse valor como inteiro.
# Realizando a modificando do tipo de dado da coluna com a data de lançamento.
t1 = time.time()
df_movies['Release_Year'] = pd.DatetimeIndex(df_movies['Release_Year']).year
tempo_exec = time.time() - t1
execution_time['change_type_year'] = tempo_exec
print(execution_time)

{'import_time_csv': 0.013010978698730469, 'new_column_movie': 0.0020024776458740234, 'new_column_release_year': 0.0010006427764892578, 'remove_initial_column': 0.002001523971557617, 'rename_column_movie': 0.0, 'change_type_year': 0.003002643585205078}


In [13]:
# Informações do dataframe com os nomes das colunas e seu respectivo tipo, conforme as alterações realizadas.
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4499 entries, 0 to 4498
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Movie_Id      4499 non-null   int64 
 1   Movie_Name    4499 non-null   object
 2   Release_Year  4499 non-null   int64 
dtypes: int64(2), object(1)
memory usage: 105.6+ KB


In [14]:
# Visualização do dataframe com todas as alterações.
df_movies.head()

Unnamed: 0,Movie_Id,Movie_Name,Release_Year
0,1,Dinosaur Planet,2003
1,2,Isle of Man TT 2004 Review,2004
2,3,Character,1997
3,4,Paula Abdul's Get Up & Dance,1994
4,5,The Rise and Fall of ECW,2004


In [15]:
# Verificando se possui dados ausentes.
t1 = time.time()
print(df_movies.isnull().sum())
tempo_exec = time.time() - t1
execution_time['check_missing_data'] = tempo_exec
print(execution_time)

Movie_Id        0
Movie_Name      0
Release_Year    0
dtype: int64
{'import_time_csv': 0.013010978698730469, 'new_column_movie': 0.0020024776458740234, 'new_column_release_year': 0.0010006427764892578, 'remove_initial_column': 0.002001523971557617, 'rename_column_movie': 0.0, 'change_type_year': 0.003002643585205078, 'check_missing_data': 0.0020008087158203125}


In [16]:
# Verificando se possui linhas duplicadas na base de dados.
t1 = time.time()
df_movies.duplicated().sum()
tempo_exec = time.time() - t1
execution_time['check_duplicate_lines'] = tempo_exec
print(execution_time)

{'import_time_csv': 0.013010978698730469, 'new_column_movie': 0.0020024776458740234, 'new_column_release_year': 0.0010006427764892578, 'remove_initial_column': 0.002001523971557617, 'rename_column_movie': 0.0, 'change_type_year': 0.003002643585205078, 'check_missing_data': 0.0020008087158203125, 'check_duplicate_lines': 0.0020017623901367188}


In [17]:
# Verificando se possui id's duplicados.
t1 = time.time()
duplicado_id = (df_movies.duplicated(subset=['Movie_Id']))
tempo_exec = time.time() - t1
execution_time['check_duplicate_lines_ids'] = tempo_exec
print(execution_time)
df_movies[duplicado_id].head()

{'import_time_csv': 0.013010978698730469, 'new_column_movie': 0.0020024776458740234, 'new_column_release_year': 0.0010006427764892578, 'remove_initial_column': 0.002001523971557617, 'rename_column_movie': 0.0, 'change_type_year': 0.003002643585205078, 'check_missing_data': 0.0020008087158203125, 'check_duplicate_lines': 0.0020017623901367188, 'check_duplicate_lines_ids': 0.0010018348693847656}


Unnamed: 0,Movie_Id,Movie_Name,Release_Year


In [18]:
# Verificando se possui filmes com mesmo nome e mesmo ano de lançamento.
t1 = time.time()
duplicate_name_year = (df_movies.duplicated(subset=['Movie_Name', 'Release_Year']))
tempo_exec = time.time() - t1
execution_time['check_duplicate_lines_movie_year'] = tempo_exec
print(execution_time)

{'import_time_csv': 0.013010978698730469, 'new_column_movie': 0.0020024776458740234, 'new_column_release_year': 0.0010006427764892578, 'remove_initial_column': 0.002001523971557617, 'rename_column_movie': 0.0, 'change_type_year': 0.003002643585205078, 'check_missing_data': 0.0020008087158203125, 'check_duplicate_lines': 0.0020017623901367188, 'check_duplicate_lines_ids': 0.0010018348693847656, 'check_duplicate_lines_movie_year': 0.0009996891021728516}


In [19]:
df_movies[duplicate_name_year].head()

Unnamed: 0,Movie_Id,Movie_Name,Release_Year
4004,4005,Dr. Quinn,1993


In [20]:
t1 = time.time()
filter_movie_duplicate = (df_movies['Movie_Name']=='Dr. Quinn')
tempo_exec = time.time() - t1
execution_time['duplicate_line_dr_quinn'] = tempo_exec
print(execution_time)

{'import_time_csv': 0.013010978698730469, 'new_column_movie': 0.0020024776458740234, 'new_column_release_year': 0.0010006427764892578, 'remove_initial_column': 0.002001523971557617, 'rename_column_movie': 0.0, 'change_type_year': 0.003002643585205078, 'check_missing_data': 0.0020008087158203125, 'check_duplicate_lines': 0.0020017623901367188, 'check_duplicate_lines_ids': 0.0010018348693847656, 'check_duplicate_lines_movie_year': 0.0009996891021728516, 'duplicate_line_dr_quinn': 0.0}


In [21]:
# Temos dois filmes do Dr. Quinn com ID_Filme diferente, porém, com mesmo nome e mesmo ano de lançamento.
df_movies[filter_movie_duplicate].head()

Unnamed: 0,Movie_Id,Movie_Name,Release_Year
349,350,Dr. Quinn,1993
1014,1015,Dr. Quinn,1996
4004,4005,Dr. Quinn,1993


Observação: Apesar de existir dois registros com o mesmo nome (Dr. Quinn) e mesmo ano de lançamento (1993), realizando uma busca na internet, foi verificado que no ano de 1993 foram lançados duas temporadas de Dr. Quinn. Dessa forma, os registros estão se referindo a temporadas diferentes, não sendo considerado um registro duplicado.

#### Tratamento do banco de dados da base2 com as avaliações dos usuários

In [22]:
execution_time2={}

In [23]:
# Importando a base de dados.
t1 = time.time()
df_customers_rating = pd.read_csv('customers_rating.csv', sep=';')
tempo_exec = time.time() - t1
execution_time2['import_time_csv'] = tempo_exec
print(execution_time2)

{'import_time_csv': 5.142683029174805}


In [24]:
# Visualização do dataframe.
df_customers_rating.head()

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id
0,1488844,3.0,2005-09-06,1
1,822109,5.0,2005-05-13,1
2,885013,4.0,2005-10-19,1
3,30878,4.0,2005-12-26,1
4,823519,3.0,2004-05-03,1


In [25]:
# Verificando se possui dados ausentes.
t1 = time.time()
print(df_customers_rating.isnull().sum())
tempo_exec = time.time() - t1
execution_time2['check_missing_data'] = tempo_exec
print(execution_time2)

Cust_Id     0
Rating      0
Date        0
Movie_Id    0
dtype: int64
{'import_time_csv': 5.142683029174805, 'check_missing_data': 1.4913618564605713}


In [26]:
# Informações sobre o dataframe. 
df_customers_rating.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24053764 entries, 0 to 24053763
Data columns (total 4 columns):
 #   Column    Dtype  
---  ------    -----  
 0   Cust_Id   int64  
 1   Rating    float64
 2   Date      object 
 3   Movie_Id  int64  
dtypes: float64(1), int64(2), object(1)
memory usage: 734.1+ MB


In [27]:
# Realizando a converteção da coluna de Date para datetime. Importante trabalhar com essa coluna no formato de data.
t1 = time.time()
df_customers_rating['Date'] = pd.to_datetime(df_customers_rating['Date'], format='%Y-%m-%d')
tempo_exec = time.time() - t1
execution_time2['change_type_date'] = tempo_exec
print(execution_time2)

{'import_time_csv': 5.142683029174805, 'check_missing_data': 1.4913618564605713, 'change_type_date': 1.6875314712524414}


In [28]:
df_customers_rating.head()

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id
0,1488844,3.0,2005-09-06,1
1,822109,5.0,2005-05-13,1
2,885013,4.0,2005-10-19,1
3,30878,4.0,2005-12-26,1
4,823519,3.0,2004-05-03,1


In [29]:
# Confirmando a mudança da coluna Date para datetime.
df_customers_rating.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24053764 entries, 0 to 24053763
Data columns (total 4 columns):
 #   Column    Dtype         
---  ------    -----         
 0   Cust_Id   int64         
 1   Rating    float64       
 2   Date      datetime64[ns]
 3   Movie_Id  int64         
dtypes: datetime64[ns](1), float64(1), int64(2)
memory usage: 734.1 MB


In [30]:
# Verificação se possui avaliações duplicadas de clientes, considerando mesmo id do cliente, id do filme e avaliação.
t1 = time.time()
duplicadas_clientes = (df_customers_rating.duplicated(subset=['Cust_Id', 'Movie_Id', 'Rating']))
tempo_exec = time.time() - t1
execution_time2['rating_duplicate_line'] = tempo_exec
print(execution_time2)

{'import_time_csv': 5.142683029174805, 'check_missing_data': 1.4913618564605713, 'change_type_date': 1.6875314712524414, 'rating_duplicate_line': 3.0790481567382812}


In [31]:
df_customers_rating[duplicadas_clientes].head()

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id


### **Criando um novo dataframe com join do df_movies e df_customers_rating**

In [32]:
# Como a análise será realizada apenas com os filmes que possuem avaliações de clientes, 
# será realizado um join considerando a interseção entre as tabelas.
t1 = time.time()
df_join_movies_rating = pd.merge(df_movies, df_customers_rating, how='inner', on='Movie_Id')
tempo_exec = time.time() - t1
execution_time2['merge_tables'] = tempo_exec
print(execution_time2)

{'import_time_csv': 5.142683029174805, 'check_missing_data': 1.4913618564605713, 'change_type_date': 1.6875314712524414, 'rating_duplicate_line': 3.0790481567382812, 'merge_tables': 1.9287548065185547}


In [33]:
df_join_movies_rating.head()

Unnamed: 0,Movie_Id,Movie_Name,Release_Year,Cust_Id,Rating,Date
0,1,Dinosaur Planet,2003,1488844,3.0,2005-09-06
1,1,Dinosaur Planet,2003,822109,5.0,2005-05-13
2,1,Dinosaur Planet,2003,885013,4.0,2005-10-19
3,1,Dinosaur Planet,2003,30878,4.0,2005-12-26
4,1,Dinosaur Planet,2003,823519,3.0,2004-05-03


In [34]:
# Quantidade de registros no dataframe
df_join_movies_rating.shape[0]

24053764

In [35]:
# Load dos dados (salvamento)
# Delta
import pyarrow as pa
t1 = time.time()
df_join_movies_rating.to_parquet('./final_data.delta', engine='fastparquet', index=False)
tempo_exec = time.time() - t1
execution_time2['final_load_delta'] = tempo_exec
print(execution_time2)

{'import_time_csv': 5.142683029174805, 'check_missing_data': 1.4913618564605713, 'change_type_date': 1.6875314712524414, 'rating_duplicate_line': 3.0790481567382812, 'merge_tables': 1.9287548065185547, 'final_load_delta': 3.892413854598999}


In [36]:
# Load dos dados (salvamento)
# parquet
t1 = time.time()
df_join_movies_rating.to_parquet('./final_data.parquet', compression='gzip')
tempo_exec = time.time() - t1
execution_time2['final_load_parquet'] = tempo_exec
print(execution_time2)

{'import_time_csv': 5.142683029174805, 'check_missing_data': 1.4913618564605713, 'change_type_date': 1.6875314712524414, 'rating_duplicate_line': 3.0790481567382812, 'merge_tables': 1.9287548065185547, 'final_load_delta': 3.892413854598999, 'final_load_parquet': 28.895918607711792}


In [37]:
# Load dos dados (salvamento)
# csv
t1 = time.time()
df_join_movies_rating.to_csv('./final_data.csv', index=False)
tempo_exec = time.time() - t1
execution_time2['final_load_csv'] = tempo_exec
print(execution_time2)

{'import_time_csv': 5.142683029174805, 'check_missing_data': 1.4913618564605713, 'change_type_date': 1.6875314712524414, 'rating_duplicate_line': 3.0790481567382812, 'merge_tables': 1.9287548065185547, 'final_load_delta': 3.892413854598999, 'final_load_parquet': 28.895918607711792, 'final_load_csv': 44.454047203063965}


In [38]:
# Salvar os dicionarios com os tempos de execucao para criar o grafico (formato json)
import json

with open('execution_time.json', 'w') as f:
    json.dump(execution_time, f)

with open('execution_time2.json', 'w') as f:
    json.dump(execution_time2, f)
