# Aula 1: Introdução ao Python - Scraping

Utilizaremos o modulo [*requests*](http://python-requests.org) para realizar requisições para páginas. Observe que podemos obter informações sobre um *package* utilizando a função *help()*

In [4]:
import requests

In [2]:
help(requests)

Help on package requests:

NAME
    requests

DESCRIPTION
    Requests HTTP Library
    ~~~~~~~~~~~~~~~~~~~~~
    
    Requests is an HTTP library, written in Python, for human beings.
    Basic GET usage:
    
       >>> import requests
       >>> r = requests.get('https://www.python.org')
       >>> r.status_code
       200
       >>> b'Python is a programming language' in r.content
       True
    
    ... or POST:
    
       >>> payload = dict(key1='value1', key2='value2')
       >>> r = requests.post('https://httpbin.org/post', data=payload)
       >>> print(r.text)
       {
         ...
         "form": {
           "key1": "value1",
           "key2": "value2"
         },
         ...
       }
    
    The other HTTP methods are supported - see `requests.api`. Full documentation
    is at <https://requests.readthedocs.io>.
    
    :copyright: (c) 2017 by Kenneth Reitz.
    :license: Apache 2.0, see LICENSE for more details.

PACKAGE CONTENTS
    __version__
    _internal_utils

Podemos definir uma variável com o endereço de uma página qualquer. Por exemplo, vamos usar uma página do imdb. 

Uma vez definida, utilizaremos a função *get()* para ler o código fonte da página desejada. 

Depois pegamos o código fonte como texto legível a um humano.

In [5]:
url = 'http://www.imdb.com/title/tt5013056/'

In [6]:
#response = requests.get("http://www.imdb.com/title/tt5013056/")
response = requests.get(url)

In [7]:
response

<Response [200]>

In [7]:
page_html = response.text

Observe que o código fonte é apenas o código HTML que gera a página do imdb. Este texto é uma *string*, ou seja, um texto com elementos não acessíveis. 

Podemos transformar a *string* em um texto em que o python reconheça os *tags* em html. Desta forma, transformamos o texto em algo acessível. Para tal, utilizamos o pacote [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [8]:
from bs4 import BeautifulSoup

Para pegarmos o código fonte da página precisamos definir um *parser*. O *parser* é o método de carregar o código fonte assim como um navegador faria quando se abre a página na web.

Existem vários *parsers*. Ver a [documentação](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) para mais detalhes.

O mais comum é o [html.parser]() e o [lxml]()

In [9]:
#soup = BeautifulSoup(response.text, 'lxml')
soup = BeautifulSoup(page_html, 'lxml')

In [52]:
#soup


Agora, observe que podemos nos referir a cada tag dentro do código html e pegar as informações desejadas. 

Por exemplo, podemos pegar o título da página

In [10]:
soup.title.text

'Dunkirk (2017) - IMDb'

Existem diversas maneiras de extrair texto do código html. Podemos nos referir a um determinado tag, assim como fizemos acima, ou procurar por tags dentro do código html.

Iremos utilizar a segunda opção e procurar por todos os tags [&lt;span>](). Observe que o objeto resultante passou a ser uma lista (coleção de objetos), já que existem vários tags encontrados.

In [39]:
nota = soup.find_all("span")
nota

[<span class="_2Q0QZxgQqVpU0nQBqv1xlY"><label aria-label="Expand Movies Nav Links" class="_2vjThdvAXrHx6CofJjm03w" data-testid="category-expando" for="nav-link-categories-mov" role="button" tabindex="0"><span class="_1tLXJMH37mh4UmvfVF8swF"><svg class="ipc-icon ipc-icon--movie" fill="currentColor" height="24" role="presentation" viewbox="0 0 24 24" width="24" xmlns="http://www.w3.org/2000/svg"><path d="M0 0h24v24H0V0z" fill="none"></path><path d="M18 4v1h-2V4c0-.55-.45-1-1-1H9c-.55 0-1 .45-1 1v1H6V4c0-.55-.45-1-1-1s-1 .45-1 1v16c0 .55.45 1 1 1s1-.45 1-1v-1h2v1c0 .55.45 1 1 1h6c.55 0 1-.45 1-1v-1h2v1c0 .55.45 1 1 1s1-.45 1-1V4c0-.55-.45-1-1-1s-1 .45-1 1zM8 17H6v-2h2v2zm0-4H6v-2h2v2zm0-4H6V7h2v2zm10 8h-2v-2h2v2zm0-4h-2v-2h2v2zm0-4h-2V7h2v2z"></path></svg></span><span class="_2aunAih-uMfbdgTUIjnQMd">Movies</span><span class="_2BeDp2pKthfMnxArm4lS0T"><svg class="ipc-icon ipc-icon--chevron-right" fill="currentColor" height="24" role="presentation" viewbox="0 0 24 24" width="24" xmlns="http:

Uma lista em python contém um ou mais elementos. Podemos nos referir a cada elemento através de sua posição na lista (sempre começando pelo elemento 0 (zero)).

Assim, o elemento de número trinta e quatro se refere a nota do filme Dinkirk. 

In [67]:
nota[94]

<span itemprop="ratingValue">7.9</span>

In [68]:
nota[94].text

'7.9'

Podemos refinar a nossa pesquisa para encontrar de forma mais eficiente a nota dada ao filme. Ao invés de procurar todos os tags [&lt;span>](), vamos encontrar todos os tags [&lt;div>]() que possuas a classe [ratingValue]().

In [69]:
rate = soup.find_all("div", "ratingValue")
print(rate)

[<div class="ratingValue">
<strong title="7.9 based on 539,717 user ratings"><span itemprop="ratingValue">7.9</span></strong><span class="grey">/</span><span class="grey" itemprop="bestRating">10</span> </div>]


In [73]:
rate1 = soup.find_all("div",attrs={'class':'ratingValue'})
print(rate1)

[<div class="ratingValue">
<strong title="7.9 based on 539,717 user ratings"><span itemprop="ratingValue">7.9</span></strong><span class="grey">/</span><span class="grey" itemprop="bestRating">10</span> </div>]


In [76]:
rate1[0].span.text

'7.9'

In [72]:
soup.find_all("span",attrs={'itemprop':'ratingValue'})

[<span itemprop="ratingValue">7.9</span>]

In [2]:
print(rate1[0].span.text)

NameError: name 'rate1' is not defined

In [12]:
url

'http://www.imdb.com/title/tt5013056/'

In [15]:
soup.find_all("div", "imdbRating")[0].a.text

'540,752'

In [77]:
rate2 = soup.find_all("div",attrs={'id':'quicklinksBar'})
print(rate2)

[<div class="subnav" id="quicklinksBar">
<div id="quicklinksMainSection">
<a class="quicklink" href="/title/tt5013056/fullcredits">FULL CAST AND CREW</a> <span class="ghost">|</span>
<a class="quicklink" href="/title/tt5013056/trivia">TRIVIA</a> <span class="ghost">|</span>
<a class="quicklink" href="/title/tt5013056/reviews">USER REVIEWS</a> <span class="ghost">|</span>
<a class="quicklink" href="https://pro.imdb.com/title/tt5013056?rf=cons_tt_contact">IMDbPro</a>
<span class="ghost">|</span>
<span class="show_more quicklink">
            MORE<span class="titleOverviewSprite quicklinksArrowUp"></span>
</span>
<span class="show_less quicklink" style="display:none">
           LESS<span class="titleOverviewSprite quicklinksArrowDown"></span>
</span>
</div>
<span id="title-social-sharing-widget"></span>
<div id="share-checkin">
<div class="add_to_checkins" data-const="tt5013056" data-lcn="title-maindetails">
<span class="btn2_wrapper"><a class="btn2 large btn2_text_on disabled checkins_a

Vamos aprender um pouco mais sobre listas:

In [78]:
list1 = ['physics', 'chemistry', 1997, 2000];
list2 = [1, 2, 3, 4, 5, 6, 7 ];

In [86]:
print("list1[0]: ", list1[0])
print("Primeiro Elemento: ", list1[0]) # Lembrar a posição 0 do python

list1[0]:  physics
Primeiro Elemento:  physics


In [87]:
print("list2[1:5]: ", list2[1:5])

list2[1:5]:  [2, 3, 4, 5]


In [79]:
list1[1] = 'economia'

In [80]:
list1

['physics', 'economia', 1997, 2000]

As listas são mutáveis (ao contrário de uma string) e podemos alterar, apagar e adicionar elementos a elas.

In [81]:
del list1[2];

In [82]:
list1

['physics', 'economia', 2000]

Podemos, também, calcular o tamanho de uma lista utilizando a função [len()](), bem como adinionar duas listas, verificar se existe um elemento específico em uma lista e, ainda, adicionar um novo elemento a uma lista.

In [83]:
len(list2)

7

In [89]:
li = [[1, 2, 3], [4, 5, 6]]

In [94]:
li[0][1]

2

In [85]:
6 in [1, 2, 3]

False

In [97]:
list1.append('lucas')
print(list1)

['physics', 'economia', 2000, 'gustavo', 'fernanda', 'lucas']


Já que aprendemos sobre listas, podemos aprender o que é um dicionário (ou JSON (JavaScript Object Notation)). Um dicionário é um objeto similar a uma lista mas ele armazena para item através de uma chave. 

Por exemplo, suponha que queiramos armazenar o nome e a idade dos alunos matriculados neste curso. Podemos criar um dicionário com as chaves *nome* e *idade* para cada um de nós da seguinte maneira

In [23]:
professor = {"nome": "Gustavo Sampaio", "idade":27}

In [24]:
professor

{'nome': 'Gustavo Sampaio', 'idade': 27}

In [104]:
professor["nome"]

'Gustavo Sampaio'

Observe que um dicionário fica encapsulado através de chaves, enquanto uma lista fica encapsulada através de colchetes. 

Podemos, também, compinar as duas. Vamos criar uma lista, com as informações dos alunos deste curso.

In [105]:
pessoas = [{"nome":"Pedro", "idade":"20"},{"nome":"Evandro", "idade":"23"},{"nome":"Maria", "idade":"21"}]

In [122]:
pessoas

[{'nome': 'Pedro', 'idade': '20'},
 {'nome': 'Evandro', 'idade': '23'},
 {'nome': 'Maria', 'idade': '21'}]

In [123]:
pessoas[1]["nome"]

'Evandro'

Podemos preencher o dicionário com novas chaves de entrada

In [112]:
dicionario = {}

In [113]:
dicionario["filme"] = "Piratas do Caribe"

In [114]:
dicionario["legenda"] = "pt"

In [115]:
dicionario["idioma"] = "Inglês"

In [116]:
dicionario

{'filme': 'Piratas do Caribe', 'legenda': 'pt', 'idioma': 'Inglês'}

In [117]:
dicionario["idioma"]

'Inglês'

### Loop em Python

existem basicamente dois tipos de loops em python: [for loops](https://www.tutorialspoint.com/python/python_loops.htm) e [while loops](https://www.tutorialspoint.com/python/python_loops.htm)

In [26]:
for i in range(0,10):
    print(i)

In [17]:
url = ['http://www.imdb.com/title/tt5013056/', 'http://www.imdb.com/title/tt1790809/','http://www.imdb.com/title/tt1596346/','http://www.imdb.com/title/tt0092099/','http://www.imdb.com/title/tt0108052/']

In [18]:
for item in url:
    print(item)

http://www.imdb.com/title/tt5013056/
http://www.imdb.com/title/tt1790809/
http://www.imdb.com/title/tt1596346/
http://www.imdb.com/title/tt0092099/
http://www.imdb.com/title/tt0108052/


In [22]:
for item in url:
    response = requests.get(item)
    soup = BeautifulSoup(response.text, 'lxml')
    name = soup.title.text
    rate = soup.find_all("div", "ratingValue")[0].span.text
    obs = soup.find_all("div", "imdbRating")[0].a.text
    #print(name,obs,rate)
    print ('%s\t;%s\t;%s\n' % (name,obs,rate))

Dunkirk (2017) - IMDb	;540,752	;7.9

Piratas do Caribe: A Vingança de Salazar (2017) - IMDb	;257,716	;6.6

Soul Surfer: Coragem de Viver (2011) - IMDb	;45,118	;7.0

Top Gun: Ases Indomáveis (1986) - IMDb	;290,584	;6.9

A Lista de Schindler (1993) - IMDb	;1,194,535	;8.9



In [23]:
filmes = []
for item in url:
    dici = {}
    response = requests.get(item)
    soup = BeautifulSoup(response.text, 'lxml')
    name = soup.title.text
    dici['nome'] = name
    rate = soup.find_all("div", "ratingValue")[0].span.text
    dici['nota'] = rate
    obs = soup.find_all("div", "imdbRating")[0].a.text
    dici['visu'] = obs
    filmes.append(dici)

In [24]:
print(filmes)

[{'nome': 'Dunkirk (2017) - IMDb', 'nota': '7.9', 'visu': '540,752'}, {'nome': 'Piratas do Caribe: A Vingança de Salazar (2017) - IMDb', 'nota': '6.6', 'visu': '257,716'}, {'nome': 'Soul Surfer: Coragem de Viver (2011) - IMDb', 'nota': '7.0', 'visu': '45,118'}, {'nome': 'Top Gun: Ases Indomáveis (1986) - IMDb', 'nota': '6.9', 'visu': '290,584'}, {'nome': 'A Lista de Schindler (1993) - IMDb', 'nota': '8.9', 'visu': '1,194,535'}]


In [25]:
import pandas as pd

In [26]:
base = pd.DataFrame(filmes)

In [27]:
base

Unnamed: 0,nome,nota,visu
0,Dunkirk (2017) - IMDb,7.9,540752
1,Piratas do Caribe: A Vingança de Salazar (2017...,6.6,257716
2,Soul Surfer: Coragem de Viver (2011) - IMDb,7.0,45118
3,Top Gun: Ases Indomáveis (1986) - IMDb,6.9,290584
4,A Lista de Schindler (1993) - IMDb,8.9,1194535
