## Teste Python Web Scraping e Crawlers

Teste de crawling utilizando as seguintes bibliotecas:
* Selenium
* webdriver_manager
* pandas

Caso não as tenha instaladas na máquina, abra o prompt de comando e execute os seguintes comandos:

```
pip install selenium
```
```
pip install webdriver_manager
```
```
pip install pandas
```

Documentação selenium: https://selenium-python.readthedocs.io/index.html

Sempre verifique a versão do Chrome instalado na sua máquina em: ajuda > Sobre o Google Chrome. <br>
Baixar a versão do webdriver correspondente a que você esteja utilizando no Chrome:<br>
https://chromedriver.chromium.org/downloads

* Importando bibliotecas:

In [1]:
# Importando as bibliotecas 
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By # classe BY
import pandas as pd
import warnings
warnings.filterwarnings("ignore")


* Abrindo o site free proxy lists

In [2]:
# Abrindo navegador e selecionando chromedriver.exe na pasta local do computador
navegador = webdriver.Chrome('C:\Program Files\Google\Chrome\chromedriver.exe')

# Abrindo o site desejado
link = ('https://www.freeproxylists.net')
navegador.get(link)
navegador.maximize_window()

* Criação do Data Frame

In [3]:
# criando dataFrame
proxies = pd.DataFrame(columns = ['IP Address', 'Port', 'Protocol', 'Pais', 'Up Time'])
proxies

Unnamed: 0,IP Address,Port,Protocol,Pais,Up Time


* Pegando o tamanho da tabela com as informações

In [4]:
# Achando o tamanho da tabela
tamanho_tabela = navegador.find_element(By.XPATH, f'/html/body/div/div[2]/table/tbody')
linhas = tamanho_tabela.find_elements(By.TAG_NAME, 'tr')
qtd_linhas = len(linhas)
print(qtd_linhas)

53


* Agora vamos percorrer a tabela e inserir as informações em nosso Data Frame

In [5]:
# Percorrendo a tabela e inserindo as informações no dataFrame
for i in range(2, qtd_linhas + 1):

    # tratamento caso não exista alguma linha, pulando para a próxima
    try: 
        ip = navegador.find_element(By.XPATH, f'/html/body/div/div[2]/table/tbody/tr[{i}]/td[1]').text
           
        port = navegador.find_element(By.XPATH, f'/html/body/div/div[2]/table/tbody/tr[{i}]/td[2]').text
           
        protocol = navegador.find_element(By.XPATH, f'/html/body/div/div[2]/table/tbody/tr[{i}]/td[3]').text
          
        pais = navegador.find_element(By.XPATH, f'/html/body/div/div[2]/table/tbody/tr[{i}]/td[5]').text
      
        up_time = navegador.find_element(By.XPATH, f'/html/body/div/div[2]/table/tbody/tr[{i}]/td[8]').text
       
    except: 
        i = i + 1

    proxies.loc[len(proxies)] = [ip, port, protocol, pais, up_time]


In [6]:
proxies

Unnamed: 0,IP Address,Port,Protocol,Pais,Up Time
0,103.133.26.59,8181,HTTP,Indonesia,7.1%
1,43.255.113.232,8083,HTTP,Cambodia,45.9%
2,103.168.44.137,3127,HTTP,Indonesia,9.1%
3,103.152.118.153,8080,HTTP,Indonesia,7.0%
4,187.190.249.114,1994,HTTP,Mexico,1.5%
5,47.91.45.198,1337,HTTPS,Australia,0.3%
6,189.161.6.122,10101,HTTP,Mexico,25.7%
7,142.147.114.50,8080,HTTP,United States,11.6%
8,139.59.1.14,3128,HTTP,India,23.3%
9,139.59.1.14,8080,HTTP,India,24.3%


* Tratamento de dados faltantes ou repetidos

In [7]:
proxies_limpo = proxies[proxies['IP Address'] != '']
proxies_limpo

Unnamed: 0,IP Address,Port,Protocol,Pais,Up Time
0,103.133.26.59,8181,HTTP,Indonesia,7.1%
1,43.255.113.232,8083,HTTP,Cambodia,45.9%
2,103.168.44.137,3127,HTTP,Indonesia,9.1%
3,103.152.118.153,8080,HTTP,Indonesia,7.0%
4,187.190.249.114,1994,HTTP,Mexico,1.5%
5,47.91.45.198,1337,HTTPS,Australia,0.3%
6,189.161.6.122,10101,HTTP,Mexico,25.7%
7,142.147.114.50,8080,HTTP,United States,11.6%
8,139.59.1.14,3128,HTTP,India,23.3%
9,139.59.1.14,8080,HTTP,India,24.3%


* Salvando em formato json

In [8]:
proxies_limpo.to_json('proxies.json', orient='records')