<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
# <font color='blue'>Data Science Academy</font>
## <font color='blue'>Web Scraping Analytics</font>
### <font color='blue'>Parte 2 - Analytics</font>

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
## Instalando e Carregando Pacotes

In [1]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [2]:
# Imports
import pandas as pd 
import numpy as np 

In [3]:
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

pandas: 2.2.2
numpy : 1.26.4



## Carregando os Dados Extraídos via Web Scraping

In [4]:
# Carrega o dataset
df_dsa = pd.read_csv('dataset.csv')

In [5]:
# Shape
df_dsa.shape

(100, 6)

In [6]:
# Info
df_dsa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   titulo          100 non-null    object 
 1   descricao       100 non-null    object 
 2   ano_lancamento  100 non-null    int64  
 3   duracao         100 non-null    object 
 4   avaliacao       100 non-null    float64
 5   votos           100 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 4.8+ KB


In [7]:
# Primeiros registros
df_dsa.head()

Unnamed: 0,titulo,descricao,ano_lancamento,duracao,avaliacao,votos
0,1. The Shawshank Redemption,A banker convicted of uxoricide forms a friend...,1994,2h 22m,9.3,2.9M
1,2. The Godfather,The aging patriarch of an organized crime dyna...,1972,2h 55m,9.2,2M
2,3. The Dark Knight,When a menace known as the Joker wreaks havoc ...,2008,2h 32m,9.0,2.9M
3,4. The Lord of the Rings: The Return of the King,Gandalf and Aragorn lead the World of Men agai...,2003,3h 21m,9.0,2M
4,5. Schindler's List,"In German-occupied Poland during World War II,...",1993,3h 15m,9.0,1.5M


In [8]:
df_dsa.tail()

Unnamed: 0,titulo,descricao,ano_lancamento,duracao,avaliacao,votos
95,96. American Beauty,A sexually frustrated suburban father has a mi...,1999,2h 2m,8.3,1.2M
96,97. Requiem for a Dream,The drug-induced utopias of four Coney Island ...,2000,1h 42m,8.3,913K
97,98. Good Will Hunting,"Will Hunting, a janitor at MIT, has a gift for...",1997,2h 6m,8.3,1.1M
98,99. 2001: A Space Odyssey,After uncovering a mysterious artifact buried ...,1968,2h 29m,8.3,731K
99,100. Scarface,Miami in the 1980s: a determined criminal mind...,1983,2h 50m,8.3,933K


## Limpeza dos Dados Para Análise

In [9]:
# Visualiza primeiras linhas de uma das colunas
df_dsa['titulo'].head()

0                         1. The Shawshank Redemption
1                                    2. The Godfather
2                                  3. The Dark Knight
3    4. The Lord of the Rings: The Return of the King
4                                 5. Schindler's List
Name: titulo, dtype: object

In [10]:
# Divide a string da coluna 'titulo' em duas partes, separando pelo primeiro espaço
novo = df_dsa['titulo'].str.split(" ", n = 1, expand = True)

In [11]:
# Visualiza primeiras linhas
novo.head()

Unnamed: 0,0,1
0,1.0,The Shawshank Redemption
1,2.0,The Godfather
2,3.0,The Dark Knight
3,4.0,The Lord of the Rings: The Return of the King
4,5.0,Schindler's List


In [12]:
# Adiciona o título extraído de volta ao dataframe
df_dsa['titulo'] = novo[1]

In [13]:
# Visualiza primeiras linhas
df_dsa['titulo'].head()

0                         The Shawshank Redemption
1                                    The Godfather
2                                  The Dark Knight
3    The Lord of the Rings: The Return of the King
4                                 Schindler's List
Name: titulo, dtype: object

In [14]:
# Nomes das colunas
df_dsa.columns

Index(['titulo', 'descricao', 'ano_lancamento', 'duracao', 'avaliacao',
       'votos'],
      dtype='object')

In [15]:
# Visualiza primeiras linhas
df_dsa['duracao'].head()

0    2h 22m
1    2h 55m
2    2h 32m
3    3h 21m
4    3h 15m
Name: duracao, dtype: object

In [16]:
# Função para converter o tempo no formato 'xh ym' para minutos
def dsa_converte_hora(time):
    
    # Divide a string 'time' em uma lista de partes, separadas por espaços
    time = time.split(' ')
    
    # Extrai a parte da hora (antes do 'h') e converte para um número inteiro
    hour = int(time[0].split('h')[0].strip())
    
    # Verifica se existe uma parte de minutos na lista de tempo
    if len(time) == 2:
        
        # Extrai a parte dos minutos (antes do 'm') e converte para um número inteiro
        minute = int(time[1].split('m')[0].strip())
        
        # Retorna o tempo total em minutos (hora em minutos + minutos)
        return hour * 60 + minute
    
    else:
        
        # Se não houver minutos, retorna apenas o tempo em horas convertido para minutos
        return hour * 60

In [17]:
# Aplica a função
df_dsa['duracao'] = df_dsa['duracao'].apply(dsa_converte_hora)

In [18]:
# Visualiza primeiras linhas
df_dsa['duracao'].head()

0    142
1    175
2    152
3    201
4    195
Name: duracao, dtype: int64

In [19]:
# Nomes das colunas
df_dsa.columns

Index(['titulo', 'descricao', 'ano_lancamento', 'duracao', 'avaliacao',
       'votos'],
      dtype='object')

In [20]:
# Visualiza primeiras linhas
df_dsa['votos'].head()

0    2.9M
1      2M
2    2.9M
3      2M
4    1.5M
Name: votos, dtype: object

In [21]:
# Função para converter a unidade dos votos de milhões (M) ou milhares (K) para um número em milhares
def dsa_converte_unidade(votes):
    
    # Verifica se o número de votos contém a letra 'M' (milhões)
    if 'M' in votes:
        
        # Remove a letra 'M', converte para float e multiplica por 1000 para obter o valor em milhares
        return float(votes.replace('M', '')) * 1000
    
    else:
        
        # Caso contrário, remove a letra 'K' (milhares) e converte diretamente para float
        return float(votes.replace('K', ''))

In [22]:
# Aplica a função
df_dsa['votos(K)'] = df_dsa['votos'].apply(dsa_converte_unidade)

In [23]:
# Não precisamos mais da coluna original
df_dsa.drop(columns = ['votos'], inplace = True)

In [24]:
# Visualiza primeiras linhas
df_dsa.head()

Unnamed: 0,titulo,descricao,ano_lancamento,duracao,avaliacao,votos(K)
0,The Shawshank Redemption,A banker convicted of uxoricide forms a friend...,1994,142,9.3,2900.0
1,The Godfather,The aging patriarch of an organized crime dyna...,1972,175,9.2,2000.0
2,The Dark Knight,When a menace known as the Joker wreaks havoc ...,2008,152,9.0,2900.0
3,The Lord of the Rings: The Return of the King,Gandalf and Aragorn lead the World of Men agai...,2003,201,9.0,2000.0
4,Schindler's List,"In German-occupied Poland during World War II,...",1993,195,9.0,1500.0


In [25]:
# Verifica se há valores ausentes
df_dsa.isna().sum()

titulo            0
descricao         0
ano_lancamento    0
duracao           0
avaliacao         0
votos(K)          0
dtype: int64

In [26]:
# Verifica se há linhas duplicadas
df_dsa.duplicated().sum()

0

## Web Scraping Analytics

- 1- Quantos Filmes Foram Lançados a Cada Ano?
- 2- Qual Década Teve o Maior Número de Lançamentos de Filmes?
- 3- Demonstre com Gráfico de Bolhas a Relação Entre Avaliação e Duração, Com Número de Votos.
- 4- Qual a Força da Correlação Entre Duração do Filme e o Número de Votos? 
- 5- Crie Uma Nuvem de Palavras Mostrando as Palavras Mais Frequentes na Descrição dos Filmes.

In [27]:
%reload_ext watermark
%watermark -a "Data Science Academy"

Author: Data Science Academy



# Fim