<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
# <font color='blue'>Data Science Academy</font>
## <font color='blue'>Web Scraping Analytics</font>
### <font color='blue'>Parte 2 - Analytics</font>

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
## Instalando e Carregando Pacotes

In [1]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [3]:
# Imports
import pandas as pd 
import numpy as np 

In [5]:
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

numpy : 1.26.4
json  : 2.0.9
pandas: 2.2.2



## Carregando os Dados Extraídos via Web Scraping

In [None]:
# Carrega o dataset
df_dsa = pd.read_csv('dataset.csv')

In [None]:
# Shape
df_dsa.shape

In [None]:
# Info
df_dsa.info()

In [None]:
# Primeiros registros
df_dsa.head()

In [None]:
df_dsa.tail()

## Limpeza dos Dados Para Análise

In [None]:
# Visualiza primeiras linhas de uma das colunas
df_dsa['titulo'].head()

In [None]:
# Divide a string da coluna 'titulo' em duas partes, separando pelo primeiro espaço
novo = df_dsa['titulo'].str.split(" ", n = 1, expand = True)

In [None]:
# Visualiza primeiras linhas
novo.head()

In [None]:
# Adiciona o título extraído de volta ao dataframe
df_dsa['titulo'] = novo[1]

In [None]:
# Visualiza primeiras linhas
df_dsa['titulo'].head()

In [None]:
# Nomes das colunas
df_dsa.columns

In [None]:
# Visualiza primeiras linhas
df_dsa['duracao'].head()

In [None]:
# Função para converter o tempo no formato 'xh ym' para minutos
def dsa_converte_hora(time):
    
    # Divide a string 'time' em uma lista de partes, separadas por espaços
    time = time.split(' ')
    
    # Extrai a parte da hora (antes do 'h') e converte para um número inteiro
    hour = int(time[0].split('h')[0].strip())
    
    # Verifica se existe uma parte de minutos na lista de tempo
    if len(time) == 2:
        
        # Extrai a parte dos minutos (antes do 'm') e converte para um número inteiro
        minute = int(time[1].split('m')[0].strip())
        
        # Retorna o tempo total em minutos (hora em minutos + minutos)
        return hour * 60 + minute
    
    else:
        
        # Se não houver minutos, retorna apenas o tempo em horas convertido para minutos
        return hour * 60

In [None]:
# Aplica a função
df_dsa['duracao'] = df_dsa['duracao'].apply(dsa_converte_hora)

In [None]:
# Visualiza primeiras linhas
df_dsa['duracao'].head()

In [None]:
# Nomes das colunas
df_dsa.columns

In [None]:
# Visualiza primeiras linhas
df_dsa['votos'].head()

In [None]:
# Função para converter a unidade dos votos de milhões (M) ou milhares (K) para um número em milhares
def dsa_converte_unidade(votes):
    
    # Verifica se o número de votos contém a letra 'M' (milhões)
    if 'M' in votes:
        
        # Remove a letra 'M', converte para float e multiplica por 1000 para obter o valor em milhares
        return float(votes.replace('M', '')) * 1000
    
    else:
        
        # Caso contrário, remove a letra 'K' (milhares) e converte diretamente para float
        return float(votes.replace('K', ''))

In [None]:
# Aplica a função
df_dsa['votos(K)'] = df_dsa['votos'].apply(dsa_converte_unidade)

In [None]:
# Não precisamos mais da coluna original
df_dsa.drop(columns = ['votos'], inplace = True)

In [None]:
# Visualiza primeiras linhas
df_dsa.head()

In [None]:
# Verifica se há valores ausentes
df_dsa.isna().sum()

In [None]:
# Verifica se há linhas duplicadas
df_dsa.duplicated().sum()

## Web Scraping Analytics

- 1- Quantos Filmes Foram Lançados a Cada Ano?
- 2- Qual Década Teve o Maior Número de Lançamentos de Filmes?
- 3- Demonstre com Gráfico de Bolhas a Relação Entre Avaliação e Duração, Com Número de Votos.
- 4- Qual a Força da Correlação Entre Duração do Filme e o Número de Votos? 
- 5- Crie Uma Nuvem de Palavras Mostrando as Palavras Mais Frequentes na Descrição dos Filmes.

In [None]:
%reload_ext watermark
%watermark -a "Data Science Academy"

# Fim