# Webinar Webscraping com Python
### Uma introdução à extração de dados da web
<table>
    <tr>
        <td width="200"> 
            <div>
                <img src="https://placehold.co/50x50/000000/ffffff?text=DC&font=roboto"/>
                <br/>
                <h2>Daniel Cirino</h2>
                <p>
                    <b>LinkedIn</b>: <br/><a style="margin-left=5" href="https://www.linkedin.com/in/it-daniel-cirino">it-daniel-cirino</a>
                </p>
                <p>
                    <b>Github</b>: <br/><a style="margin-left=5" href="https://github.com/DanielCirino/">DanielCirino</a>
                </p>
                <p>
                    <b>Youtube</b>: <br/><a style="margin-left=5" href="https://www.youtube.com/channel/UCxzibJdVC5-TtRnRQrgn0PA">@danielcirino1409</a>
                </p>
                <p>
                    <b>E-mail</b>: <br/><a style="margin-left=5" href="mailto: daniel.ciriino.02@gmail.com">daniel.cirino.02@gmail.com</a>
                </p>
            </div>
        </td>
        <td><p>
        Graduado em Sistemas de Informação pelo Centro Universitário Senac - São Paulo, Pós Graduado em Ciência de Dados e Big Data pela PUC-MINAS. Já atuou em diversos projetos de migração de dados de processamento de cartão de crédito e desenvolvimento de aplicações para processamento de grande volumes de dados. Atualmente, atua como Product Owner no Banco BMG. Interessa-se por Engenharia e Análise de dados, Machine Learning e Inteligência Artificial,  Engenharia e Desenvolvimento de Software, Metodologias Ágeis.
        </td></p>
    </tr>
</table>





# Agenda

<ol>
    <li>Dados Estruturados, não estruturados e semistruturados</li>
    <li>HTML: O que é? Onde vive e o que come?</li>
    <li>Seletores CSS</li>
    <li>Requisições HTTP</li>
    <li>Sites estáticos x Sites dinâmicos</li>
    <li>Tecnologias utilizadas</li>
    <li> Hands on</li>
</ol>



_______________

* Introdução ao BeautifulSoup e outras bibliotecas de scraping em Python
* Como lidar com sites que requerem autenticação e sessões de login
* Como lidar com páginas que usam JavaScript para carregar dados dinamicamente
* Como lidar com páginas com estruturas complexas e aninhadas
* Como usar proxies e cabeçalhos personalizados para evitar bloqueios e identificar-se como um navegador
* Como armazenar e processar os dados coletados em diferentes formatos (CSV, JSON, Banco de Dados)
* Como implementar scraping de forma ética e respeitando os termos de serviço dos sites.
* Como escalar o scraping para coletar grandes quantidades de dados e lidar com a execução paralela.
    
    Esses tópicos devem fornecer uma boa base para desenvolver habilidades em web scraping com Python. É importante lembrar sempre de respeitar os termos de serviço dos sites e evitar a coleta excessiva ou desautorizada de dados.


# Tipos de dados

<table>
    <tr>
        <th>Estruturados</th>
        <th>Semi Estruturados</th>
        <th>Não Estruturados</th>
    </tr>
    <tr>
        <td><img src="https://thumbs.dreamstime.com/b/design-can-be-used-as-logo-icon-as-complement-to-design-diagram-database-logo-icon-design-129008651.jpg" width="200" /></td>
        <td><img src="https://blog.nxfacil.com.br/wp-content/uploads/2018/07/xml-1.jpg" width="200" /></td>
        <td><img src="https://korntraducoes.com.br/wp-content/uploads/2019/10/transcricao_de_audio_e_video_korn_traducoes.jpg" width="200" /></td>
    </tr>
    <tr>
        <td>Possuem uma estrutura rígida e previamente definida</td>
        <td>Possuem uma estrutura flexível, não são totalmente desestruturados e nem fortemente tipados</td>
        <td>Sem estrutura pré-definida</td>
    </tr>
    <tr>
        <td>Organização em relacionamentos e definição de mesmas descrições para doados de um mesmo grupo (atributos)</td>
        <td>Auto-descritivo, o esquema de representação está junto com os dados</td>
        <td>Cerca de 90% dos dados produzidos estão neste formato</td>
    </tr>
    <tr>
        <td>Ex.: Banco de dados relacionais</td>
        <td>Ex.: XML, Json, RDF, OWL</td>
        <td>Ex.: Textos, áudios, vídeos, imagens, relatórios</td>
    </tr>
</table>

# O básico sobre HTML

## O que é?
HTML (Linguagem de marcação de hipertexto) é uma linguagem de marcação para construção de páginas na WEB,utilizada para anotar texto, imagem, vídeo e outros conteúdos. É comumente utilizada em conjunto com outras tecnologias como o CSS (para aparência e apresentação ou o Javascript (para funcionalidades e comportamento). Documentos HTML podem ser interpretados por navegadores.

## Tags HTML
Para fazer a marcação de uma página HTML, são utilizados elementos que formam o contéudo da página. O contúdo de um elemento é colocado entre uma tag de abertura (por exemplo ``<html>``) e uma tag de fechamento (por exemplo ``</html>``). As tags são utilizadas para informar ao navegador a estrutura do site, o estilo e o comportamento do site.
Uma tag HTML pode receber um ou mais atributos que irão modificar sua estrutura ou funcionalidade, ou ainda indicar um <b>identificador</b> ou uma classe de estilo ao componente.

### Exemplos de tags HTML
* #### Tags estruturais
    * ``<html>``
    * ``<head>``
    * ``<title>``
    * ``<meta>``
    * ``<body>``
    * ``<header>``
    * ``<footer>``
    * ``<section>``
    * ``<nav>``
    * ``<div>``
* #### Tags de conteúdo
    * Tags de título
        * ``<h1>`` a ``<h6>``
    * Tags de texto
      * ``<p>``
      * ``<span>``
      * ``<pre>``
      * ``<b>``
      * ``<i>``
      * ``<br>``
      * ``<hr>``
    * Tag de link
        * ``<p>Para acessar o Google, <a href="https://www.google.com">clique aqui.</a></p>``
    * Tags de multimídia
        * ``<img src="imagens/imagem1.jpg" alt="imagem 1 da minha página">``
        * ``<audio>``
        * ``<video>``
    * Tags de lista
        * ``<ul>``, ``<ol>``
        * ``<li>``
    * Tags de formulário
        * ``<form>``
        * ``<input type=”text”>``
        * ``<textarea></textarea>``
* Tags de estilo e script
    * ``<style>``
    * ``<script>``

## Exemplo de código HTML
<img src="https://cdn.shortpixel.ai/spai/q_glossy+ret_img+to_auto/https://www.webhostingsecretrevealed.net/wp-content/uploads/html-codes.jpg"/>




* [Para saber mais sobre o HTML](https://developer.mozilla.org/pt-BR/docs/Web/HTML)
* [E mais aqui](https://www.homehost.com.br/blog/tutoriais/tags-html/#:~:text=As%20tags%20HTML%20s%C3%A3o%20divididas,como%20estrutura%20.)

# Identificando elementos HTML com seletores CSS

CSS (Cascade Style Sheet) é uma linguagem de estilo usada para definir a aparência dos elementos de uma página HTML.

<img src="https://learnwebcode.com/wp-content/uploads/2010/02/anatomy-of-a-css-rule.gif"/>
<hr>
<img src="https://ptgmedia.pearsoncmg.com/images/chap4_9780136412298/elementLinks/f0114-01.jpg"/>


* [Mais sobre seletores CSS aqui](https://code.tutsplus.com/pt/tutorials/the-30-css-selectors-you-must-memorize--net-16048)

# Requisições HTTP

<quote>
    Requisições HTTP são mensagens enviadas pelo cliente para iniciar uma ação no servidor.
</quote>

#### Exemplo de uma requisição HTTP
<img src="https://www.azion.com/static/images/uploads/ds-1191-graphic-08-http-conditional-requests.png"/>

* [Mais sobre requisições HTTP aqui](https://developer.mozilla.org/pt-BR/docs/Web/HTTP/Messages)

# Sites estáticos x Sites dinâmicos

<table>
    <tr>
        <th><h3>Estático</h3></th>
        <th><h3>Dinâmico</h3></th>
    </tr>
    <tr>
        <td><center><img src="https://adamtheautomator.com/wp-content/uploads/2020/09/Untitled-2020-09-21T155938.067.png" width="350"/></center></td>
        <td><center><img src="https://adamtheautomator.com/wp-content/uploads/2020/09/Untitled-2020-09-21T160015.253.png" width="350"/></center>
        </td>
    </tr>
    <tr>
        <td>Possui conteúdo estável, onde cada usuário vê exatamente a mesma coisa em cada página individual.</td>
        <td> O conteúdo é carregado de forma dinâmica, permitindo que ele mude de acordo com o usuário.</td>
    </tr>
</table>

## Exemplo de site dinâmico
https://www.pokemon.com/us/pokedex

## Site estático do projeto
https://pokemondb.net/pokedex/national


# Tecnologias utilizadas

<table>
    <tr>
        <td><img src="https://logosmarcas.net/wp-content/uploads/2021/10/Python-Logo-650x366.png" width="300"/></td>
        <td>Python é uma linguagem de programação de alto nível, interpretada de script, imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte. Foi lançada por Guido van Rossum em 1991</td>
        <td><a href="https://www.python.org/">Documentação</a></td>
    </tr>
    <tr>
        <td><img src="https://upload.wikimedia.org/wikipedia/commons/a/aa/Requests_Python_Logo.png" width="200"/></td>
        <td>Requests é uma biblioteca HTTP para a linguagem de programação Python. O objetivo do projeto é tornar as solicitações HTTP mais simples e mais fáceis de usar. A versão atual é 2.28.0. Requests é liberado sob a Licença Apache 2.0. Requests é uma das bibliotecas Python mais populares que não está incluída no Python.</td>
        <td><a href="https://www.python.org/">Documentação</a></td>
    </tr>
    <tr>
        <td><img src="https://cdn.analyticsvidhya.com/wp-content/uploads/2021/04/56856232112.png" width="300"/></td>
        <td>Beautiful Soup é um pacote Python para analisar documentos HTML e XML. Ele cria uma árvore de análise para páginas analisadas que podem ser usadas para extrair dados de HTML, o que é útil para web scraping.</td>
        <td><a href="https://www.python.org/">Documentação</a></td>
    </tr>
</table>

# Hands On
[Repositório do projeto no Github](https://github.com/DanielCirino/webinar-web-scraping)

## Objetivo
Criar uma base de dados com dados com informações sobre POKÉMONS extraídas de um site da internet. Esta base deverá conter as informações abaixo:
* Id do Pokémon (Número)
* Nome
* Url da imagem
* Tipo
* Url para os detalhes
* Geração
* Espécie
* Altura em metros
* Peso em quilos
* Pontos de HP
* Pontos de Ataque
* Pontos de Defesa
* Pontos de Velocidade
* Pontos totais

In [1]:
import requests
from bs4 import BeautifulSoup as bs4