## Acessando páginas web com urllib
***

urllib permite que acessemos sites na internet, além de poder acessar arquivos e realizar pedidos a determinados domínios.

***

In [1]:
from urllib import request, parse, error

In [2]:
# Requisita que se abra um website
google = "https://www.google.com"
# retona a página no formato de um objeto file
pagina = request.urlopen(google)

In [3]:
# A página é como um objeto file, por isso
# podemos usar métodos semelhantes como o read
# para exibir todo o conteúdo da página.
print(pagina.read())

b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="pt-BR"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="AdlHDL+Gmsl2cedw6KRzqQ==">(function(){window.google={kEI:\'mMoFXKakA8yQwgS2zoXYCQ\',kEXPI:\'0,201865,1151882,57,50,1908,1016,1406,697,528,591,140,325,293,857,323,30,524,27,436,20,176,45,893,7,266,2335922,205,32,45,23,6,1,329219,1294,12383,4855,32692,8162,7085,867,42,2194,9927,14325,2196,364,1107,2212,4133,1372,1241,1201,260,1027,2714,1090,2,14,260,575,835,284,2,579,727,2431,1362,1712,2612,2095,1294,8,960,575,34,2280,609,136,3272,1070,401,525,22,604,2,1749,218,526,3,1959,105,465,2839,966,535,407,84,22,3,333,130,1344,386,8,584,419,81,7,2,26,463,620,29,981,37,361,16,458,1847,90,1267,643,4290,314,876,412,2,83,473,77,2178,58,319,273,108,1234,88,13,1119,38,363,557,573,145,155,499,718,1325,36,487,47,590,490,9

***

Mais do que isso podemos até mesmo reter uma página web ou alguma imagem.

***

In [4]:
# Vai acessar a imagem de um determinado endereço e armazenar no arquivo .jpg inserido.
request.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", "00000001.jpg")

# Faz a mesma coisa:
# file = open('00000001.jpg', 'wb')
# file.write(request.urlopen('http://www.gunnerkrigg.com//comics/00000001.jpg').read())
# file.close()

('00000001.jpg', <http.client.HTTPMessage at 0x7f4fe4325240>)

***

Além de podermos obter o HTML que contém uma determinada página da web podemos fazer requirementos a um determinado domínio. Por exemplo, é possível realizar uma busca no google utilizando https://www.google.com/?#q=pesquisa. Da mesma forma podemos fazer pesquisas usando o urllib.parse + urllib.request.

***

In [5]:
# Vamos acessar o site python programming e realizar uma busca
url = "http://pythonprogramming.net"

In [6]:
# Nesta busca vamos buscar pela palavra 'basics' utilizando o método Search()
valores = {'s': 'basics', 'submit': 'Search'}

In [7]:
# Em seguida vamos processar e codificar o nosso requerimento
data = parse.urlencode(valores)
print(data)
data = data.encode('utf-8')
print(data)

submit=Search&s=basics
b'submit=Search&s=basics'


In [8]:
# Em seguida, vamos efetivamente requirir uma resposta
requisicao = request.Request(url, data) # gera o endereço
pagina = request.urlopen(requisicao) # abre a página

In [9]:
# Vamos ler e imprimir essa resposta
resposta = pagina.read()
print(resposta)

b'<html>\n\t<head>\n\n\t\t<!--\n\t\tpalette:\n\t\tdark blue: #003F72\n\t\tyellow: #FFD166\n\t\tsalmon: #EF476F\n\t\toffwhite: #e7d7d7\n\t\tLight Blue: #118AB2\n\t\tLight green: #7DDF64\n\t\t-->\n\n\t\t<meta name="viewport" content = "width=device-width, initial-scale=1.0">\n\t\t<title>Python Programming Tutorials</title>\n\n\t\t<meta name="description" content="Python Programming tutorials from beginner to advanced on a massive variety of topics. All video and text tutorials are free.">\n\n\t\t<link rel="shortcut icon" href="/static/favicon.ico">\n\t\t<link rel="stylesheet" href="/static/css/materialize.min.css">\n        <link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">\n        <meta name="google-site-verification" content="3fLok05gk5gGtWd_VSXbSSSH27F2kr1QqcxYz9vYq2k" />\n        <link rel="stylesheet" type="text/css" href="/static/css/bootstrap.css">\n\n\n\t\t  <!-- Compiled and minified CSS -->\n\n\t\t<!-- Compiled and minified JavaScript -->\n\

***

Entretanto a maioria dos websites não são tão abertos assim, por uma questão de segurança

***

In [10]:
# Pega o endereço do google
google = 'http://www.google.com/search?#q=pesquisa'

In [11]:
try:
    pagina = request.urlopen('http://www.nseindia.com/live_market/dynaContent/live_watch/get_quote/getHistoricalData.jsp?symbol=JPASSOCIAT&fromDate=1-JAN-2012&toDate=1-AUG-2012&datePeriod=unselected&hiddDwnld=true')
except error.HTTPError as e:
    print(e.code) # 403 - tentar acessar uma página que você não tem permissão de acesso
    print(e.read())

403
b'<HTML><HEAD>\n<TITLE>Access Denied</TITLE>\n</HEAD><BODY>\n<H1>Access Denied</H1>\n \nYou don\'t have permission to access "http&#58;&#47;&#47;www&#46;nseindia&#46;com&#47;live&#95;market&#47;dynaContent&#47;live&#95;watch&#47;get&#95;quote&#47;getHistoricalData&#46;jsp&#63;" on this server.<P>\nReference&#32;&#35;18&#46;d6811ec9&#46;1543883498&#46;1d78cf3\n</BODY>\n</HTML>\n'


***

Ao invéz disso para realizar um requerimento desse jeito nós precisamos mandar informações para o website sobre nós como o nosso endereço, o browser que estamos usando. Todas essas informações ficam contidas num bloco de informações chamado 'headers'

***

In [12]:
try:
    # Vamos colocar nossas informações dentro do header (User-Agent - identifica o browser que to utilizando)
    headers = {}
    headers['User-Agent'] = "Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.27 Safari/537.17"
    # Isso é pra mostrar que você é um browser se não ele não te da acesso a certas páginas
    
    
    # Vamos novamente realizar um requerimentoo, entretando
    # desta vez vamos passar os headers para realiza-lo
    requisicao = request.Request(google, headers=headers)
    
    # Vamos obter a resposta
    pagina = request.urlopen(requisicao)
    resposta = pagina.read()
    
    # E desta vez vamos colocar toda a informação dentro de um arquivo
    arquivo = open('com_headers.html', 'w')
    arquivo.write(str(resposta))
    arquivo.close()
except Exception as e:
    print(str(e))