# Web Scraping com Python - Prática

## Introdução

O objetivo desta aula foi aprender <i>Web Scraping</i> utilizando a linguagem Python e a biblioteca <i>BeautifulSoup</i> e <i>Requests</i>. Após assitir a aula criei um programa bem simples para extração de dados de um site de animes, onde eu pegar o nome do anime, o último episódio lançado e o link do mesmo e armazenava em um arquivo CSV.

## Desenvolvimento

Inicialmente eu comecei testando o básico que envolvia conseguir o HTML do site, então importei as bibliotecas e criei uma instância da biblioteca <i>BeautifulSoup</i> e sei a função `get()`da biblioteca <i>Requests</i> para conseguir o HTML do site.

In [4]:
from bs4 import BeautifulSoup
import requests

site_url='https://animesonlinecc.to/episodio/'

html = requests.get(site_url).text
soup = BeautifulSoup(html, 'lxml')

print(html)

Em seguida comecei procurando as <i>tags</i> da parte onde está os dados de cada animes.  
Usei a ferramenta Inspencionar do navegador e encontrei as seguintes informações:  
- Cada episódio estava em uma <i>tag</i> do tipo <i>article</i>.
- Dentro desta <i>tag</i> tinha duas <i>div</i>, uma que tinha a imagem e a outra com o texto com as informações que eu precisava (nome e episódio) e o <i>link</i>.
- As classes de cada um (<i>article, div</i>).
  
Agora que tinha o que eu precisava continuei com o código.
Na parte de conseguir o <i>link</i> foi tranquio, já o nome e episódio teve que fazer outra coisa. O nome e episódio do anime vinha junto então inicialmente considerei como dados brutos (o nome da variável "`raw_data`") e depois separei de uma forma que só dá certo de episódios de 0 a 99.

In [5]:
# Todos os animes da página
animes = soup.find_all('article', class_='item se episodes')

# Dentro de um loop para pegar todos os encontrados na página
for anime in animes:
    # Dados brutos
    raw_data = anime.find('div', class_='eptitle').text
    print(raw_data)

 Yuusha Party wo Oidasareta Kiyoubinbou Episodio 7
 Oshi no Ko 3 Episodio 5
 Okiraku Ryoushu no Tanoshii Ryouchi Bouei Episodio 6
 29-sai Dokushin Chuuken Boukensha no Nichijou Episodio 6
 Darwin Jihen Episodio 6
 Yuusha Party ni Kawaii Ko ga Ita no de, Kokuhaku Shitemita Episodio 6
 Isekai no Sata wa Shachiku Shidai Episodio 6
 Mayonaka Heart Tune Episodio 6
 Maou no Musume wa Yasashi Sugiru!! Episodio 7
 Osananajimi to wa Love Comedy ni Naranai Episodio 6
 Golden Kamuy: Saishuushou Episodio 6
 Vigilante: Boku no Hero Academia Illegals 2 Episodio 6
 Kirei ni Shitemoraemasu ka Episodio 6
 Jigokuraku 2 Episodio 5
 Kizoku Tensei: Megumareta Umare kara Saikyou no Chikara wo Eru Episodio 6
 Akuyaku Reijou wa Ringoku no Outaishi ni Dekiai sareru Episodio 5
 Hanazakari no Kimitachi e Episodio 7
 Majutsushi Kunon wa Mieteiru Episodio 7
 Seihantai na Kimi to Boku Episodio 5
 Kaya-chan wa Kowakunai Episodio 5


In [9]:
# Agora a separação do titulo do episodio
for anime in animes:
    raw_data = anime.find('div', class_='eptitle').text
    anime_name = raw_data[1:-11].strip()
    anime_episode = raw_data[-11:].strip()
    # Pegando o link do episódio
    anime_link = anime.find('a')['href']

    print(anime_name)
    print(anime_episode)
    print(anime_link)
    print('')

Yuusha Party wo Oidasareta Kiyoubinbou
Episodio 7
https://animesonlinecc.to/episodio/yuusha-party-wo-oidasareta-kiyoubinbou-episodio-7/

Oshi no Ko 3
Episodio 5
https://animesonlinecc.to/episodio/oshi-no-ko-3-episodio-5/

Okiraku Ryoushu no Tanoshii Ryouchi Bouei
Episodio 6
https://animesonlinecc.to/episodio/okiraku-ryoushu-no-tanoshii-ryouchi-bouei-episodio-6/

29-sai Dokushin Chuuken Boukensha no Nichijou
Episodio 6
https://animesonlinecc.to/episodio/29-sai-dokushin-chuuken-boukensha-no-nichijou-episodio-6/

Darwin Jihen
Episodio 6
https://animesonlinecc.to/episodio/darwin-jihen-episodio-6/

Yuusha Party ni Kawaii Ko ga Ita no de, Kokuhaku Shitemita
Episodio 6
https://animesonlinecc.to/episodio/yuusha-party-ni-kawaii-ko-ga-ita-no-de-kokuhaku-shitemita-episodio-6/

Isekai no Sata wa Shachiku Shidai
Episodio 6
https://animesonlinecc.to/episodio/isekai-no-sata-wa-shachiku-shidai-episodio-6/

Mayonaka Heart Tune
Episodio 6
https://animesonlinecc.to/episodio/mayonaka-heart-tune-episodio-6

Agora que temos o básico pronto, eu pensei em pegar todos eles e armazenar em algum local, como já mexi com Pandas pensei em armazenar em um arquivo CSV, assim poderia transformar em um <i>Dataframe</i> depois (como é um CSV, poderia ver no Excel também).  
Para isso eu precisei importar a biblioteca <i>csv</i> e agora comecei as fazer a manipulação de arquivo me Python, eu não poderia pagar o arquivo e reescrever porque eu iria perder os dados salvos, também não poderia ficar escrevendo o mesmo anime com a mudança de um episódio e o <i>link</i>, ficaria muita coisa repetida (tendo em vista que eu só queria ter o nome e o último episódio lançado).  
Sendo assim, pensei em apenas fazer três condições:  
- Se já estiver o no CSV e lançou um episódio, reescreve o <i>link</i> e o episódio.
- Se não estiver no CSV, adiciona no fim nome, episódio e <i>link</i>.
- Se não caiu em nenhumas das duas de cima, não altera nada.

Criei duas funções, uma para carregar o arquivo e outra para salvar o arquivo com os dados atualizados (`load_data(file_path)` e `save_data(file_path, data)`).

In [11]:
import csv

csv_file='animes_pratica.csv'

# Função para carregar os dados do arquivo
def load_data(file_path):
    # Os dados são adicionados em um Dictinary
    data={}
    # Abre o arquivo para leitura, o encoding é para a leitura correta de caractere com acentuação
    with open(file_path, 'r', encoding='utf-8') as f:
        r = csv.DictReader(f)
        for line in r:
            # Para cada linha, ele vai ler o nome que está em data e atribuir o ultimo episodio salvo e o link dele
            data[line['Nome']] = [line['Ultimo_Episodio'], line['Link']]
    return data

# Salvar os dados no arquivo csv
def save_data(file_path, data):
    # Vai abrir para escrita
    with open(file_path, 'w', newline='', encoding='utf-8') as f:
        w = csv.writer(f)
        # Escreve a o cabeçalho para o DictReader funcionar
        w.writerow(['Nome', 'Ultimo_Episodio', 'Link'])
        for name, info in data.items():
            # Escreve a linha, info[0] é o último episódio e o info[1] é  o link
            w.writerow([name, info[0], info[1]])

Agora juntando tudo, também adicionando para atualizar a leitura e coleta a cada uma hora (necessário a biblioteca <i>time</i>), finalmente termina esse programa simples.

In [None]:
from bs4 import BeautifulSoup
import requests
import time
import csv

site_url='https://animesonlinecc.to/episodio/'
csv_file = 'animes_pratica.csv'

# Carrega os dados do arquivo csv
def load_data(file_path):
    data={}
    # Abre o arquivo para leitura, o encoding é para a leitura correta de caractere com acentuação
    with open(file_path, 'r', encoding='utf-8') as f:
        r = csv.DictReader(f)
        for line in r:
            # Para cada linha, ele vai ler o nome que está em data e atribuir o ultimo episodio salvo e o link dele
            data[line['Nome']] = [line['Ultimo_Episodio'], line['Link']]
    return data

# Salvar os dados no arquivo csv
def save_data(file_path, data):
    # Vai abrir para escrita
    with open(file_path, 'w', newline='', encoding='utf-8') as f:
        w = csv.writer(f)
        # Escreve a o cabeçalho para o DictReader funcionar
        w.writerow(['Nome', 'Ultimo_Episodio', 'Link'])
        for name, info in data.items():
            # Escreve a linha, info[0] é o último episódio e o info[1] é  o link
            w.writerow([name, info[0], info[1]])

# O básico da extração coloquei dentro de uma função para posteriormente ser chamada na main
def find_new_episodes(site_url):
    # Tempo de espera para atualizar e ver se tem novos episodios
    wait_time = 60 * 60 # 1 hora

    while True:
        # Carrega os dados do arquivo
        my_animes = load_data(csv_file)
        # Para ver se houve alguma mudança, nesse caso seria se teve novos episodios lançados
        change = False
        print('\tÚltimos episódios lançados\n\n')

        html = requests.get(site_url).text
        soup = BeautifulSoup(html, 'lxml')
        animes = soup.find_all('article', class_='item se episodes')
        
        for anime in animes:
            # Aqui ele vai pegar os dados brutos (brutos por que vem assim: "<nome-do-anime> <episodio>")
            raw_data = anime.find('div', class_='eptitle').text
            anime_name = raw_data[1:-11].strip()
            anime_episodio = raw_data[-11:].strip()
            # Pega o link para o episódio
            anime_link = anime.find('a')['href']
            
            # Para verificar se o anime já está na lista
            if anime_name in my_animes:
                # Se estiver na lista, ele vai verificar se o último episódio é igual o que está no arquivo
                if my_animes[anime_name][0] != anime_episodio:
                    print(f"Atualizando: {anime_name} ({my_animes[anime_name][0]} -> {anime_episodio})")
                    my_animes[anime_name] = [anime_episodio, anime_link]
                    # Se atualizou o episodio... Então houve mudança
                    change = True
            # Se não está na lista, acredito que seja um anime novo, como pega só da primeira página
            # então pode ocorrer de pegar algo como: "<nome> Episodio 8", porque esse animes talvez não
            # estava na listado na página durante a primeira coleta, e caso o anime já foi finalizado, não
            # vai estar nessa lista (já que não vai ter novos episódios lançados
            else:
                print(f"Novo anime encontrado: {anime_name}")
                my_animes[anime_name] = [anime_episodio, anime_link]
                # Novo na lista, então houve mudança
                change = True

        # Se houve mudança no arquivo, ele salva
        if change:
            save_data(csv_file, my_animes)
            print('\nArquivo atualizado')
        # Se não houve mudanças, não precisa salvar
        else:
            print('\nNada de novo')

        # Ele atualiza a cada uma hora
        print(f"Atualizando em {wait_time/60} minutos...\n")
        time.sleep(wait_time)

E por último, só precisa chamar a função principal `find_new_episodes(site_url)` na <i>main</i>.

if __name__ == '__main__':
    find_new_episodes(site_url)

## Conclusão