### Importação de Bibliotecas e dataframes

In [153]:
import pandas as pd
import numpy as np
print('Bibliotecas carregadas com sucesso')

Bibliotecas carregadas com sucesso


In [154]:
# --- Carregamento da base de dados original --- #

df_movies = pd.read_csv('top_1000_imdb_movies.csv')

### Análise primária ao dataframe

In [155]:
# --- Primeiras 5 linhas do DataFrame --- #

# Visualiza-se a forma como estão organizados os dados.
   
df_movies.head()

Unnamed: 0.1,Unnamed: 0,Movie Name,Year of Release,Watch Time,Movie Rating,Description
0,0,The Shawshank Redemption,1994,142,9.3,"Over the course of several years, two convicts..."
1,1,The Godfather,1972,175,9.2,"Don Vito Corleone, head of a mafia family, dec..."
2,2,The Dark Knight,2008,152,9.0,When the menace known as the Joker wreaks havo...
3,3,Schindler's List,1993,195,9.0,"In German-occupied Poland during World War II,..."
4,4,12 Angry Men,1957,96,9.0,The jury in a New York City murder trial is fr...


In [156]:
# --- Informações gerais acerca do DataFrame --- #

# Destaque aqui para ausência de valores nulos á primeira vista e pelo tipo de dados atribuido (object) á coluna 'Year of Release'.

df_movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Unnamed: 0       1000 non-null   int64  
 1   Movie Name       1000 non-null   object 
 2   Year of Release  1000 non-null   object 
 3   Watch Time       1000 non-null   int64  
 4   Movie Rating     1000 non-null   float64
 5   Description      1000 non-null   object 
dtypes: float64(1), int64(2), object(3)
memory usage: 47.0+ KB


In [157]:
# --- Informações sobre as colunas não numéricas --- #

# Nota-se que na coluna Movie Name existem 997 valores únicos em 1000 possíveis, denotando-se que poderão haver valores duplicados nesta coluna, sendo que mais para a frente terá que ser visualizado.

df_movies.describe(exclude='number')

Unnamed: 0,Movie Name,Year of Release,Description
count,1000,1000,1000
unique,997,123,1000
top,Drishyam 2,2014,"Over the course of several years, two convicts..."
freq,2,28,1


### Manipulação do dataframe

In [158]:
# --- Criação do dataframe para manipulação --- #

df_manipulado = df_movies.copy()

#### Tratamento de dados

##### Coluna 'Year of Release'

In [159]:
# --- Verificação dos dados na coluna ano de estreia (Year of Release) --- #

# Tomou-se a decisão devido ao pandas ter considerado o Year of Release como 'object' e não como 'int', o que pode indicar que há valores que não terão apenas números. 
# Nota-se que existem após a conversão, apenas 965 valores em 1000 que foram corretamente convertidos, sendo os restantes preenchidos com valor nulo.

df_manipulado['Ano'] = pd.to_numeric(df_manipulado['Year of Release'], errors= 'coerce')
df_manipulado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Unnamed: 0       1000 non-null   int64  
 1   Movie Name       1000 non-null   object 
 2   Year of Release  1000 non-null   object 
 3   Watch Time       1000 non-null   int64  
 4   Movie Rating     1000 non-null   float64
 5   Description      1000 non-null   object 
 6   Ano              965 non-null    float64
dtypes: float64(2), int64(2), object(3)
memory usage: 54.8+ KB


In [160]:
# --- Inspeção de nulos na coluna 'Ano' --- #

nulos = df_manipulado[df_manipulado['Ano'].isna()]
nulos

Unnamed: 0.1,Unnamed: 0,Movie Name,Year of Release,Watch Time,Movie Rating,Description,Ano
59,59,96,II 2018,158,8.5,Two high school sweethearts meet at a reunion ...,
65,65,Joker,I 2019,122,8.4,"The rise of Arthur Fleck, from aspiring stand-...",
77,77,Coco,I 2017,105,8.4,"Aspiring musician Miguel, confronted with his ...",
163,163,The Father,I 2020,97,8.2,A man refuses all assistance from his daughter...,
232,232,Inside Out,I 2015,95,8.1,After young Riley is uprooted from her Midwest...,
240,240,Spotlight,I 2015,129,8.1,The true story of how the Boston Globe uncover...,
244,244,Rush,I 2013,123,8.1,The merciless 1970s rivalry between Formula On...,
246,246,Room,I 2015,118,8.1,A little boy is held captive in a room with hi...,
332,332,Pink,III 2016,136,8.1,When three young women are implicated in a cri...,
350,350,The Revenant,I 2015,156,8.0,A frontiersman on a fur trading expedition in ...,


In [161]:
# --- Tratamento dos valores na coluna 'Year of Release' após ver nulos na coluna Ano --- #

# Após se verificar a razão pela qual os valores não conseguiram ser convertidos para inteiro, aplicou-se uma função para tratar os mesmos, dado que os valores que deram nulo na conversão têm todos o mesmo problema, o de ter um caracter antes do ano.

df_manipulado['Year of Release'] = df_manipulado['Year of Release']. apply(lambda x: x.split()[-1])

In [162]:
# --- Conversão dos valores em 'Year of Release' para inteiro --- #

df_manipulado['Year of Release'] = pd.to_numeric(df_manipulado['Year of Release'], errors='coerce')

##### Verificação dos dados após tratamento

In [163]:
# --- Verificação dos tipos de dados das colunas --- #

# Verificou-se que, após a conversão dos dados não existem valores nulos na coluna 'Year of Release'.

df_manipulado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Unnamed: 0       1000 non-null   int64  
 1   Movie Name       1000 non-null   object 
 2   Year of Release  1000 non-null   int64  
 3   Watch Time       1000 non-null   int64  
 4   Movie Rating     1000 non-null   float64
 5   Description      1000 non-null   object 
 6   Ano              965 non-null    float64
dtypes: float64(2), int64(3), object(2)
memory usage: 54.8+ KB


##### Eliminação das colunas excedentárias

In [164]:
# --- Eliminação da coluna 'Unnamed' e 'Ano'. --- #

df_manipulado = df_manipulado.drop(['Unnamed: 0', 'Ano'], axis = 1)

##### Diminuição do tamanho na memória dos dados

In [165]:
# --- Seleção das colunas do tipo inteiro --- #

n_int = df_manipulado.select_dtypes('integer').columns
n_int

Index(['Year of Release', 'Watch Time'], dtype='object')

In [166]:
# --- Diminuição do tamanho em memória --- #

df_manipulado[n_int] = df_manipulado[n_int].apply(pd.to_numeric, downcast = 'integer')
df_manipulado['Movie Rating'] = pd.to_numeric(df_manipulado['Movie Rating'], downcast='float')

In [167]:
# --- Dataframe após operação --- #

# Espaço na memória passou de 39.2 KB para 23.6 KB

df_manipulado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Movie Name       1000 non-null   object 
 1   Year of Release  1000 non-null   int16  
 2   Watch Time       1000 non-null   int16  
 3   Movie Rating     1000 non-null   float32
 4   Description      1000 non-null   object 
dtypes: float32(1), int16(2), object(2)
memory usage: 23.6+ KB


##### Coluna 'Movie Name'

In [168]:
# --- Verificação de valores duplicados na coluna 'Movie Name' --- #

# Verificou-se a diferença entre os valores que se encontram duplicados. As diferenças entre eles são significativas, tendo apenas em comum o seu nome. Porém para não haver conflito futuro na pesquisa, opta-se por eliminar os segundos duplicados.

duplicados = df_manipulado[df_manipulado.duplicated('Movie Name', keep= False)]
duplicados


Unnamed: 0,Movie Name,Year of Release,Watch Time,Movie Rating,Description
90,Drishyam 2,2021,152,8.4,A gripping tale of an investigation and a fami...
102,Scarface,1983,170,8.3,"In 1980 Miami, a determined Cuban immigrant ta..."
139,Drishyam,2013,160,8.3,A man goes to extreme lengths to save his fami...
179,Drishyam 2,2022,140,8.2,A gripping tale of an investigation and a fami...
189,Drishyam,2015,163,8.2,Desperate measures are taken by a man who trie...
905,Scarface,1932,93,7.7,An ambitious and nearly insane violent gangste...


In [169]:
# Eliminação dos duplicados na coluna 'Movie Name', mantendo os primeiros registos.

df_manipulado = df_manipulado.drop_duplicates(subset='Movie Name', keep='first')

In [170]:
# Confirmação de não haver duplicados nos nomes de filmes.

df_manipulado[df_manipulado['Movie Name'].duplicated()]

Unnamed: 0,Movie Name,Year of Release,Watch Time,Movie Rating,Description


##### Ordenação da base de dados

In [171]:
# --- Ordenar a base de dados por ordem alfabética no Nome dos filmes --- #

# Ordenou-se a base de dados por ordem alfabética do nome dos filmes com o indice a ser reiniciado.

df_manipulado.sort_values(by='Movie Name', inplace= True, ignore_index= True)

### Criação do ficheiro final

In [172]:
# --- Guardar a base de dados limpa num ficheiro para utilizar --- #

# Guardaram-se todos os dados menos a coluna do indice.

df_manipulado.to_csv('filmes_imdb.csv', index= False)